CN109933756A - 基于ocr的图像转档方法、装置、设备及可读存储介质 - Google Patents

基于ocr的图像转档方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN109933756A
CN109933756A CN201910224228.1A CN201910224228A CN109933756A CN 109933756 A CN109933756 A CN 109933756A CN 201910224228 A CN201910224228 A CN 201910224228A CN 109933756 A CN109933756 A CN 109933756A
Authority
CN
China
Prior art keywords
image
shelves
content
whole page
turn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910224228.1A
Other languages
English (en)
Other versions
CN109933756B (zh
Inventor
陈星耀
黄灿芦
胡文灿
陈贻东
林汉权
黄飞
柯戈扬
杨志权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910224228.1A priority Critical patent/CN109933756B/zh
Publication of CN109933756A publication Critical patent/CN109933756A/zh
Priority to PCT/CN2020/078181 priority patent/WO2020192391A1/zh
Priority to US17/313,755 priority patent/US20210256253A1/en
Application granted granted Critical
Publication of CN109933756B publication Critical patent/CN109933756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请公开了一种基于OCR的图像转档方法、装置、设备及可读存储介质,涉及人工智能领域。该方法包括:获取待转档图像;根据待转档图像的图像内容对待转档图像进行版面分割,得到n个图像版面,每个图像版面对应有内容类型,n为正整数;根据图像版面对应的内容类型,对图像版面中的图像内容进行对应的处理,得到图像版面对应的转档内容;将n个图像版面对应的转档内容添加至电子文档,得到目标文档。通过图像内容对待转档图像进行版面分割,得到对应有内容类型的n个图像版面,并针对图像版面的类型对图像版面中的图像内容进行处理,实现了对待转档图像中不同类型的内容进行不同方式的识别处理,提高了图像转换为文档的转换准确率。

Description

基于OCR的图像转档方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及人工智能领域,特别涉及一种基于OCR的图像转档方法、装置、设备及可读存储介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)是一种对图像中的字符进行识别的功能。通常,用户将带有字符的图像输入到光学字符识别模块,并得到输出结果。该输出结果中包括识别得到的图像中的字符。OCR技术可以应用于多个领域中,如:车牌识别、文档转换等,其中,文档转换是指将包括字符的图像转换为可编辑的文档形式。
相关技术中,在文档转换的过程中,将带有字符的图像输入到文档转换模块后,文档转换模块通过OCR识别得到该图像中的字符,并将识别得到的文字顺次粘贴至电子文档中,用户根据粘贴得到的文字对文档的排版进行整理后,得到完整的电子文档。
然而,通过上述方式进行文档转换时,由于OCR仅能对图像中的文字内容进行识别,而图像中的内容通常较为复杂,文字的排版、表格内容、图像内容等无法与文字结合识别,导致用户在对文档的排版进行整理时需要耗费大量的资源,文档识别效率较低。
发明内容
本申请实施例提供了一种基于OCR的图像转档方法、设备及可读存储介质,可以解决文字的排版、表格内容、图像内容等无法与文字结合识别,导致用户在对文档的排版进行整理时需要耗费大量的资源,文档识别效率较低的问题。所述技术方案如下:
一方面,提供了一种基于OCR的图像转档方法,所述方法包括:
获取待转档图像,所述待转档图像为图像内容待转换为目标文档的图像;
根据所述待转档图像的所述图像内容对所述待转档图像进行版面分割,得到n个图像版面,每个所述图像版面对应有内容类型,n为正整数;
根据所述图像版面对应的所述内容类型,对所述图像版面中的图像内容进行对应的处理,得到所述图像版面对应的转档内容;
将所述n个图像版面对应的所述转档内容添加至电子文档,得到所述目标文档。
另一方面,提供了一种基于OCR的图像转档方法,所述方法包括:
显示转档界面,所述转档界面中包括转档控件和图像选择区域;
在所述图像选择区域中对待转档图像进行选定,所述待转档图像为图像内容待转换为目标文档的图像;
触发所述转档控件对应的转档功能,所述转档功能用于将图像转换为文档的形式;
显示目标文档展示界面,所述目标文档展示界面中包括所述待转档图像转档得到的所述目标文档,所述目标文档的排版方式与所述待转档图像的排版方式对应一致。
另一方面,提供了一种基于OCR的图像转档装置,所述装置包括:
获取模块,用于获取待转档图像,所述待转档图像为图像内容待转换为目标文档的图像;
分割模块,用于根据所述待转档图像的所述图像内容对所述待转档图像进行版面分割,得到n个图像版面,每个所述图像版面对应有内容类型,n为正整数;
处理模块,用于根据所述图像版面对应的所述内容类型,对所述图像版面中的图像内容进行对应的处理,得到所述图像版面对应的转档内容;
所述处理模块,还用于将所述n个图像版面对应的所述转档内容添加至电子文档,得到所述目标文档。
在一个可选的实施例中,所述分割模块,包括:
编码单元,用于通过编码器对所述待转档图像进行编码,得到编码数据;
解码单元,用于通过解码器对所述编码数据进行解码,得到掩膜图像;
确定单元,用于根据所述掩膜图像中的区域得到所述n个图像版面。
在一个可选的实施例中,所述确定单元,还用于对所述掩膜图像中的区域进行校正处理,得到所述n个图像版面,所述校正处理包括从去噪处理、合并处理、相交位置切割处理组成的群组中选择的至少一种。
在一个可选的实施例中,所述掩膜图像中还包括单栏分隔条;
所述确定单元,还用于根据所述单栏分隔条对校正后的所述掩膜图像进行分隔,得到至少两个掩膜分隔图像;
所述确定单元,还用于对所述至少两个掩膜分隔图像中每个掩膜分隔图像中的区域进行校正;
所述确定单元,还用于生成校正后的所述掩膜分隔图像中的区域对应的矩形框,作为所述n个图像版面。
在一个可选的实施例中,所述内容类型包括文字类型;
所述处理模块,还用于对所述图像版面中的所述图像内容进行文字识别,得到以文本行进行分段的文字识别结果;根据所述文本行的行向特征确定所述文本行的组段结果,所述组段结果用于表示对所述文字识别结果的分段方式;将所述文字识别结果根据所述组段结果进行重新分段,得到所述图像版面对应的文字转档结果。
在一个可选的实施例中,所述处理模块,还用于根据所述文本行的所述行向特征生成直方图,所述行向特征包括行高和行间距中的至少一种;根据所述直方图中所述行向特征的分布情况设置所述行向特征对应的阈值;当所述文本行的所述行向特征达到所述阈值时,确定所述文本行为组段行,所述组段行用于表示所述文本行为段首或段尾。
在一个可选的实施例中,所述内容类型包括表格类型;
所述处理模块,还用于根据所述图像版面中的框线确定水平框线和垂直框线,并确定所述水平框线和所述垂直框线之间的交点,得到目标表格的单元格;对所述图像版面中的图像内容进行字符计算,得到字符坐标;根据所述字符坐标和所述单元格得到所述目标表格作为所述图像版面对应的表格转档结果。
在一个可选的实施例中,所述处理模块,还用于通过将所述图像版面中的框线校正至水平方向或垂直方向得到所述水平框线和所述垂直框线。
在一个可选的实施例中,所述处理模块,还用于通过对所述将所述图像版面中的框线校正至所述水平方向或所述垂直方向,对所述图像版面进行校正;对校正后的所述图像版面中的图像内容进行字符计算,得到所述字符坐标。
在一个可选的实施例中,所述内容类型包括图片类型;
所述处理模块,还用于对所述图像版面中的所述图像内容进行切图,并将所述切图得到的图片作为所述图像版面对应的图片转档内容。
在一个可选的实施例中,所述内容类型包括公式类型;
所述处理模块,还用于对所述图像版面中的所述图像内容进行切图,并将所述切图得到的图片作为所述图像版面对应的公式转档内容。
在一个可选的实施例中,所述获取模块,还用于获取待矫正图像;
所述获取模块,还用于将所述待矫正图像输入矫正神经网络,输出得到所述待转档图像,其中,所述矫正神经网络是通过仿真数据集训练得到的网络,所述仿真数据集中的仿真数据是通过对样本图像进行扭曲处理后得到的数据,所述扭曲处理是通过将所述样本图像输入扭曲函数实现的。
另一方面,提供了一种基于OCR的图像转档装置,所述装置包括:
显示模块,用于显示转档界面,所述转档界面中包括转档控件和图像选择区域;
选择模块,用于在所述图像选择区域中对待转档图像进行选定,所述待转档图像为图像内容待转换为目标文档的图像;
触发模块,用于触发所述转档控件对应的转档功能,所述转档功能用于将图像转换为文档的形式;
所述显示模块,还用于显示目标文档展示界面,所述目标文档展示界面中包括所述待转档图像转档得到的所述目标文档,所述目标文档的排版方式与所述待转档图像的排版方式对应一致。
在一个可选的实施例中,所述目标文档中第一目标区域中的内容类型与所述待转档图像中第二目标区域中的内容类型一致;所述第一目标区域在所述目标文档中的位置,与所述第二目标区域在所述待转档图像中的位置对应;
其中,所述内容类型包括从文字类型、图片类型、表格类型以及公式类型组成的群组中选择的至少一种。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的基于OCR的图像转档方法。
另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的基于OCR的图像转档方法。
另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述本申请实施例中提供的基于OCR的图像转档方法。
本申请实施例通过待转档图像中的图像内容对待转档图像进行版面分割,将待转档图像分割为对应有内容类型的n个图像版面,并针对图像版面的类型对图像版面中的图像内容进行处理,实现了对待转档图像中不同类型的内容进行不同方式的识别处理,避免了仅能对待转档图像中的文字进行识别而导致转档后的文档中格式混乱,用户在对文档的排版进行整理时需要耗费大量的资源,文档识别效率较低的问题,提高了图像转换为文档的转换准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的相关技术中对待转档图像进行字符识别的识别结果示意图;
图2是本申请一个示例性实施例提供的实施环境示意图;
图3是本申请一个示例性实施例提供的基于OCR的图像转档方法的流程图;
图4是基于图3示出的实施例提供的自动框选过程示意图;
图5是基于图3示出的实施例提供的另一个自动框选过程示意图;
图6是基于图3示出的实施例提供的图像扭曲状态示意图;
图7是基于图3示出的实施例提供的图像矫正过程示意图;
图8是基于图3示出的实施例提供的另一个图像矫正过程示意图;
图9是基于图3示出的实施例提供的仿真数据集生成方式示意图;
图10是基于图3示出的实施例提供的阅读顺序确定方法流程图;
图11是基于图10示出的阅读顺序确定方法提供的界面内容与二叉图对应关系的示意图;
图12是基于图10示出的阅读顺序确定方法提供的界面内容调整方法示意图;
图13是基于图10示出的阅读顺序确定方法提供的另一个界面内容与二叉图对应关系的示意图;
图14是基于图10示出的阅读顺序确定方法提供的另一个界面内容与二叉图对应关系的示意图;
图15是基于图3示出的实施例提供的文档内容插入方法流程图;
图16是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图;
图17是基于图16示出的实施例提供的图像版面确定方式示意图;
图18是基于图16示出的实施例提供的图像分割方式示意图;
图19是基于图16示出的实施例提供的图像版面确定方式示意图;
图20是基于图16示出的实施例提供的图像版面确定方式示意图;
图21是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图;
图22是基于图21示出的实施例提供的组段方式的流程图;
图23是基于图22示出的组段方式提供的行高直方图;
图24是基于图22示出的组段方式提供的行间距直方图;
图25是基于图22示出的组段方式提供的组段结果示意图;
图26是基于图21示出的实施例提供的字体识别过程示意图;
图27是基于图21示出的实施例提供的表格识别方法的流程图;
图28是本申请一个示例性实施例提供的基于OCR的图像转档方法执行过程中参与转档的模块示意图;
图29是本申请一个示例性实施例提供的图像转档结果示意图;
图30是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图;
图31是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图;
图32是本申请一个示例性实施例提供的图像转档装置的结构框图;
图33是本申请另一个示例性实施例提供的图像转档装置的结构框图;
图34是本申请另一个示例性实施例提供的图像转档装置的结构框图;
图35是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍:
光学字符识别(Optical Character Recognition,OCR):光学字符识别是通过字符识别将待识别文件中的文字转换成文本格式的过程。通常,OCR过程需要经过待识别文件输入、文字特征提取、比对识别等步骤后才能完成。
待转档图像:是指图像内容待转换为目标文档的图像,可选地,该待转档图像可以实现为照片、图片、便携式文档格式(Portable Document Format,PDF)中的至少一种,可选地,该待转档图像可以是用户通过对纸质文档的拍摄得到的,也可以是用户从终端相册中的已有图像中选择的。可选地,该待转档图像转档后得到的目标文档为可编辑版本的文档,即,用户可以对该目标文档中的内容进行编辑处理。可选地,待转档图像经过转档后,得到的目标文档中包括文本内容、表格内容、图片内容、公式内容中的至少一种,即,待转档图像中包括文本类型的内容、表格类型的内容、图片类型的内容、公式类型的内容中的至少一种。
图像版面:是指对待转档图像根据图像内容的类型进行版面分割后得到的版面,可选地,每个图像版面对应有内容类型,如:对待转档图像A进行版面分割后得到4个版面,其中版面1对应的内容类型为文本类型,版面2对应的内容类型为表格类型,版面3对应的内容类型为图片类型,版面4对应的内容类型为文本类型。
相关技术中,在文档转换的过程中,将待转档图像输入到文档转换模块后,文档转换模块通过OCR识别得到该图像中的字符,并将识别得到的文字顺次粘贴至电子文档中,用户根据粘贴得到的文字对文档的排版进行整理,得到完整的电子文档。而文档转换模块对字符的识别是根据待转档图像中的文本进行行向识别的,即对待转档图像中的文本根据行进行依次识别并输出,同一行识别得到的字符输出为电子文档中的一段内容。
示意性的,请参考图1,待转档图像100中包括文本内容111、文本内容112、文本内容113、图片内容121、图片内容122以及表格内容131,对该待转档图像100进行转档后得到识别结果140,该识别结果中,仅包括文本内容,且待转档图像100中图片内容121中的文本“A市”被识别为识别结果140中的文本内容“A市”。显然,识别结果140的识别准确度非常低,该识别结果140中缺失了图片内容121、图片内容122以及表格内容131,用户需要针对该识别结果140进行大量的排版工作以及整理补充工作,对图片内容121、图片内容122、表格内容131进行补充,以及对文本内容111、文本内容112以及文本内容113中缺失的文本进行补充后,才能得到待转档图像100对应的电子文档。
可选地,本申请提供的基于OCR的图像转档方法可以应用于终端中,也可以应用于终端和服务器交互的实施环境中,当该方法应用于终端中时,用户在终端中对待转档图像进行选择后,由终端将该待转档图像转换为可编辑形式的电子文档;当该方法应用于终端和服务器交互的实施环境中时,由终端选择并上传待转档图像,服务器对该待转档图像进行转档后将转档得到的内容输入可编辑形式的电子文档,并将该电子文档发送至终端进行展示,用户可以在终端上对该电子文档中的文本内容、表格内容、图片内容等内容进行编辑。
本实施例中,以该基于OCR的图像转档方法应用于终端和服务器交互的图像转档系统中为例进行说明,如图2所示,该图像转档系统中包括终端210、服务器220和通信网络230,其中,服务器220中包括图像转档模块221;
可选地,终端210中提供有图像转档功能,该图像转档功能可以是终端中安装的应用程序提供的,也可以是终端本身提供的,可选地,该应用程序可以是文档处理应用程序、社交应用程序、金融管理应用程序、音视频应用程序中的至少一种。可选地,用户在终端210中选定需要转档的待转档图像后,将该待转档图像通过通信网络230上传至服务器220,可选地,该待转档图像可以是用户通过终端210拍摄得到的图像,也可以是用户通过终端210下载或上传得到的图像,还可以是终端中本身存储的图像,该待转档图像的形式包括图片、PDF或其他文件格式中的任意一种。
服务器220通过图像转档模块221对该待转档图像进行转档后,得到电子文档,并将该电子文档发送至终端210进行显示,用户可以在终端210中对该电子文档进行编辑操作。
结合上述名词简介和实施环境的说明,对本申请实施例提供的基于OCR的图像转档方法进行说明,图3是本申请一个示例性实施例提供的基于OCR的图像转档方法的流程图,以该方法应用于服务器中为例进行说明,如图3所示,该方法包括:
步骤301,获取待转档图像。
可选地,该待转档图像为图像内容待转换为目标文档的图像。
可选地,该获取待转档图像的方式包括如下方式中的至少一种:
第一,接收终端发送的图像,得到该待转档图像,其中,终端发送的图像可以是终端通过拍摄的方式获取的图像,也可以是终端通过下载的方式获取的图像,还可以是终端通过接收外部存储设备输入的内容获取的图像,本申请实施例对此不加以限定;可选地,用户还可以在上传之前,对需要上传的部分图像进行手动框选;
第二,从存储器中获取最新生成的图像,得到该待转档图像;或,从存储器中获取最先生成的图像,得到该待转档图像;
第三,根据下载链接对图像进行下载后,得到该待转档图像。
上述三种方式仅为示意性的举例,本申请实施例对该待转档图像的获取方式不做限定。
可选地,该待转档图像为经过预处理的图像,其中,预处理方式包括图像框选和图像矫正中的至少一种。
一、图像框选
可选地,图像框选是指自动对待转档图像中需要转档的图像部分进行框选,去除待转档图像中的多余部分,如:边缘空白部分、非文档内容部分等,示意性的,将书本放置在桌面上进行拍摄时,拍摄的图像内容中还包括桌面的其他物件,通过自动框选,对书本边缘进行框选,并去除桌面上的其他物件。示意性的,请参考图4,对框选前图像410进行自动框选处理后,得到框选后图像420,框选前图像410中的桌面411、阴影412等部分被去除。
可选地,该自动框选的过程中,可以通过OpenCV算法对框选边缘进行检测,如:Canny算法、Sobel算法等,也可以通过深度学习算法,如:边缘检测算法(Holistically-Nested Edge Detection,HED)对框选边缘进行检测。由于OpenCV算法检测的框选边缘较细致,且贴边效果较好,但噪声边缘较多,且鲁棒性差;而深度学习算法检测的框选边缘适应性较好,但边缘较粗糙,且边缘贴合不紧凑,故,本实施例中还可以将上述OpenCV算法和深度学习算法结合应用。示意性的,以HED边缘检测算法为例,首先通过HED边缘检测算法对框选边缘进行检测后,将检测结果通过OpenCV算法进行再次检测。可选地,针对较为复杂的检测结果通过变换提取直线(Hough直线)进行合并,按检测区域进行长度排序,并剔除短直线和干扰直线。可选地,针对框选边缘,结合文档的特点,设计梯度方向加、高宽比等特征增加框选边缘检测的准确率。可选地,针对上述HED边缘检测算法中神经网络的层数可以进行简化,减少计算耗时。
示意性的,上述自动框选过程请参考图5,如图5所示,对待框选图像500进行自动框选的过程中,首先通过HED边缘检测算法得到框选结果510,对框选结果510通过OpenCV算法进行检测,得到框选结果520,通过霍夫变换使用Hough直线对框选结果520进行过滤得到框选结果530,得到最终框选的文档对应的区域540。作为对比,对仅使用HED边缘检测算法检测的框选结果550和仅使用OpenCV算法检测的框选结果560进行示意,框选结果550中框选线与文档部分的贴边情况较差,而框选结果560中包括较多细节的干扰内容。
二、图像矫正
可选地,图像矫正是指对存在扭曲情况的图像矫正至正常平面状态,由于实际场景中,当用户对文档进行拍摄时,文档可能处于折叠、弯曲等变形状态,导致影响OCR识别过程,以及影响后续版面分割过程,如图6所示,图像600存在明显扭曲状态,且根据矩形框610对第一段文本内容的框选,以及矩形框620对最后一段文本内容的框选情况可知,图像600上部和下部的扭曲情况不同。
在对图像进行矫正的过程中,通过矫正网络进行矫正。可选地,扭曲图片的矫正中需要预测出图片中每个像素点的实际坐标,故矫正网络中可以采用堆栈式Unet结构,如图7所示,该矫正网络中包括两个Unet子网络,Unet子网络710和Unet子网络720,在矫正过程中,首先将扭曲图像700输入第一个Unet子网络710得到第一矫正结果711,并将第一矫正结果711以及第一个Unet子网络710中网络层得到的特征图712输入第二个Unet子网络720,得到第二矫正结果721作为图像矫正结果。可选地,该矫正结果如图8所示,扭曲图像810为矫正前的图像,图像820为矫正后的图像。
可选地,该矫正网络的训练过程中,由于需要大量的扭曲图片以及扭曲图像对应的矫正图片的数据集,而该扭曲图片和矫正图片需要通过技术人员进行手动拍摄,训练集的获取过程较为繁琐,故,本申请实施例中,通过设计扭曲函数对样本图像进行处理,得到扭曲后的图像,并将扭曲后的图像和扭曲前的样本图像组成仿真数据集对矫正网络进行训练。也即,该图像矫正过程中,首先获取待矫正图像,并将待矫正图像输入矫正神经网络,输出得到待转档图像,其中,矫正神经网络是通过仿真数据集训练得到的网络,该仿真数据集中的仿真数据是通过对样本图像进行扭曲处理后得到的数据,该扭曲处理是通过将样本图像输入扭曲函数实现的。示意性的,请参考图9,样本图像910进行扭曲函数进行扭曲处理后,得到扭曲图像920,该样本图像910和扭曲图像920组成一组仿真数据。
步骤302,根据待转档图像的图像内容对待转档图像进行版面分割,得到n个图像版面,每个图像版面对应有内容类型,n为正整数。
可选地,该分割得到的每个图像版面对应一个内容类型,该内容类型包括:文字类型、表格类型、图片类型、页码类型、页眉页脚类型、公式类型中的至少一种。
可选地,每个图像版面对应一个类型标识,该类型标识用于表示该图像版面对应的内容类型。
可选地,该版面分割过程包括图像分割和后处理两部分过程,其中,图像分割过程主要是通过编码器和解码器对待转档图像的语义进行识别得到掩码图像,后处理只要是对识别后的掩码图像进行去噪处理、合并处理、相交位置切割处理等处理中的至少一种。
步骤303,根据图像版面对应的内容类型,对图像版面中的图像内容进行对应的处理,得到图像版面对应的转档内容。
可选地,针对图像版面对应的内容类型的不同,对图像内容的处理方式也不同,示意性的,针对文字类型的内容,需要对图像版面进行OCR识别;针对表格类型的内容,需要对图像版面进行表格框线识别以及OCR识别等处理;针对图片类型的内容,需要对图像版面进行切图处理;以及针对公式类型的内容,也可以通过对图像版面进行切图处理。
步骤304,将n个图像版面对应的转档内容添加至电子文档,得到目标文档。
可选地,由于转档内容与图像版面中的图像内容可能存在文本大小、排版大小等问题,会导致部分图像版面对应的转档内容无法显示在目标文档中,故需要对各图像版面进行阅读排序。该阅读排序方式是在图像版面的切割过程中,建立二叉树进行递归切割,再深度遍历该二叉树,从而恢复阅读顺序。示意性的,该阅读排序过程请参考图10,该过程包括步骤1010,水平、垂直方向递归切割。步骤1020,切割过程建立二叉树。步骤1030,二叉树深度遍历得到阅读顺序。结合图11进行说明,如图11所示,针对图像1110进行递归的切割,得到图像版面1111、图像版面1112、图像版面1113、图像版面1114、图像版面1115、图像版面1116、图像版面1117、图像版面1118、图像版面1119,切割过程中建立二叉树1120,对该二叉树1120进行深度遍历得到阅读顺序为:图像版面1111、图像版面1112、图像版面1113、图像版面1114、图像版面1115、图像版面1116、图像版面1117、图像版面1118、图像版面1119。
可选地,当图像版面较为复杂时,如:存在相交版面、重叠版面、L型版面时,也可以通过上述方式实现。
其中,相交版面请参考图12,图像版面1211、图像版面1212、图像版面1213以及图像版面1214中,图像版面1211和图像版面1213存在相交的情况,则对该图像版面1212、图像版面1213以及图像版面1214进行调整,调整至左边缘对齐后,将图像版面1212、图像版面1213以及图像版面1214的宽度调整至一致。
重叠版面请参考图13,图像版面1311、图像版面1312以及图像版面1313中,图像版面1312叠置在图像版面1311和图像版面1313之上,则构建的二叉树1320如图13所示,该二叉树1320进行深度遍历得到阅读顺序为:图像版面1312、图像版面1311、图像版面1313。
L型版面请参考图14,图像版面1411、图像版面1412、图像版面1413、图像版面1414、图像版面1415互呈L型排布,从图像版面1411作为阅读起始位置,构建得到的二叉树1420如图14所示,该二叉树1420进行深度遍历得到的阅读顺序为:图像版面1411、图像版面1413、图像版面1414、图像版面1412、图像版面1415。
可选地,将n个图像版面对应的转档内容添加至电子文档时,该电子文档可以是初始文档,即未经过格式编辑的文档,该文档的格式可以是默认格式;也可以是已有文档,即已经过格式编辑的文档,将转档内容添加至电子文档的过程请参考图15,如图15所示,该转档内容的添加过程包括:
步骤1510,计算插入位置。
即确定当前电子文档中光标所处的位置,根据该光标所处的位置确定转档内容的插入位置。
步骤1520,合并样式集。
即将n个图像版面对应的转档内容的样式集合并到电子文档的样式集中。
步骤1530,计算文档的变化。
根据转档内容的文本、样式、文本长度、插入位置计算文档的数据结构变化。
步骤1540,应用文档变化。
即将该数据结构的变化应用到电子文档中,并完成转档内容的添加。
综上所述,本实施例提供的基于OCR的图像转档方法,通过待转档图像中的图像内容对待转档图像进行版面分割,将待转档图像分割为对应有内容类型的n个图像版面,并针对图像版面的类型对图像版面中的图像内容进行处理,实现了对待转档图像中不同类型的内容进行不同方式的识别处理,避免了仅能对待转档图像中的文字进行识别而导致转档后的文档中格式混乱,用户在对文档的排版进行整理时需要耗费大量的资源,文档识别效率较低的问题,提高了图像转换为文档的转换准确率。
本实施例提供的方法,在图像框选过程中,通过将OpenCV算法和深度学习算法结合应用,利用OpenCV算法框选边缘较细致,且贴边效果较好,以及深度学习算法检测的框选边缘适应性较好的特点,提高了框选边缘检测的准确率。
本实施例提供的方法,通过对扭曲图像进行矫正,避免了由于文档处于折叠、弯曲等变形状态,影响OCR识别过程,以及影响后续版面分割过程的问题,提高了图像转档的准确度。
在一个可选地实施例中,版面分割需要通过编码器和解码器进行,图16是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图,以该方法实现在服务器中为例进行说明,如图16所示,该方法包括:
步骤1601,获取待转档图像。
可选地,该待转档图像为图像内容待转换为目标文档的图像。
可选地,该待转档图像为经过预处理的图像,其中,预处理方式包括图像框选和图像矫正中的至少一种。
可选地,获取待转档图像的具体方式已在上述步骤301中进行了详细说明,此处不再赘述。
步骤1602,通过编码器对待转档图像进行编码,得到编码数据。
可选地,该编码器用于通过语义分析对待转档图像中不同内容类型的区域进行划分。可选地,划分得到的每个区域对应一种语义,每个语义对应一种内容类型,也即,划分得到的每个区域对应一种内容类型。
可选地,编码器通过下采样对待转档图像进行编码,从而丢失较多边缘细节信息,且识别得到的区域轮廓清晰度较低,故需要通过解码器进行解码。
步骤1603,通过解码器对编码数据进行解码,得到掩膜图像。
可选地,该掩膜图像用于通过不同的表现方式对不同内容类型的区域进行标识。
可选地,解码器用于将编码器编码后的图像进行上采样,得到掩膜图像。
可选地,编码器的编码过程和解码器的解码过程请参考图17,如图17所示,将待转档图像1700输入编码器1710,编码器1710通过卷积(Convolution,Conv)层1711、下采样块1712、下采样块1713、下采样块1714以及下采样块1715对待转档图像1700分别进行下采样,并输出编码数据,将该编码数据输入解码器1720中的卷积层1721、上采样块1722、上采样块1723、上采样块1724以及上采样块1725对编码数据分别进行上采样,得到掩膜图像1740。可选地,下采样块1712、下采样块1713、下采样块1714以及下采样块1715中包括多个卷积,上采样块1722、上采样块1723、上采样块1724以及上采样块1725中也包括多个卷积。
可选地,上述编码器和解码器是经过训练后得到的编码器和解码器,可选地,在对编码器和解码器的训练过程中,引入多尺度损失函数,将训练样本通过编码器和解码器进行处理后,得到掩膜图像,通过损失函数计算原图分辨率下的损失值、原图1/4分辨率下的损失值以及原图1/16分辨率下的损失值,结合该三个损失值作为最终的损失值对编码器和解码器进行训练。可选地,该损失函数为交并比函数(Intersection Over Union,IOU)。
步骤1604,根据掩膜图像中的区域得到n个图像版面,每个图像版面对应有内容类型。
可选地,对该掩膜图像中的区域进行校正处理,得到n个图像版面。
可选地,该校正处理包括从去噪处理、合并处理、相交位置切割处理组成的群组中选择的至少一种。
其中,去噪处理用于对掩膜图像中区域面积小于预设面积的部分进行过滤;合并处理用于将连续且属于同一内容类型的区域进行合并;相交位置切割处理用于对存在相交的区域进行分离切割。
可选地,在去噪处理的过程中,首先根据计算机视觉(Computer Vision,CV)算法对确定每个区域的最小外接区域,再根据过滤规则对一些面积小于预设面积,或被包含在最小外接区域中的区域进行过滤。
可选地,对掩膜图像中的区域进行校正后,在根据校正后的掩膜图像得到n个图像版面时,包括如下情况中的任意一种:
第一,掩膜图像中不包括单栏分隔条,则生成掩膜图像中每个区域对应的矩形框,作为n个图像版面,其中,每个矩形框即为一个图像版面;
第二,掩膜图像中包括单栏分隔条,根据该单栏分隔条对校正后的掩膜图像进行分隔,得到至少两个掩膜分隔图像,对该至少两个掩膜分隔图像中每个掩膜分隔图像中的区域进行校正,生成校正后的至少两个掩膜分割图像中每个掩膜分割图像中的区域对应的矩阵,作为n个图像版面,其中,上述对每个掩膜分隔图像的校正中,包括对每个掩膜分隔图像进行OCR识别,并将存在文字相交内容的掩膜分隔图像进行分隔,如:掩膜分隔图像1中最后一列文字与掩膜分隔图像2中第一列文字相交,则对掩膜分隔图像1的最后一列文字进行分割。
示意性的,图18是本实施例提供的版面切割过程的示意图,如图18所示,待转档图像1800对应生成的掩膜图像1810中包括单栏分隔条1811,根据该单栏分隔条1811对待转档图像1800进行分隔,得到掩膜分隔图像1821、掩膜分隔图像1822以及掩膜分隔图像1823,其中,由于单栏分隔条1811垂直向下,且最下方处于图片1801之上,故,在图片1801之上横向进行分隔。
示意性的,上述对掩膜图像进行校正并生成n个图像版面的过程请参考图19,如图19所示,该过程包括第一部分1910、第二部分1920以及第三部分1930;其中第一部分1910中,对掩膜图像依次进行如下操作:生成最小外接区域1911、过滤噪声1912以及处理相交区域1913;第二部分1920中,对第一部分中处理后的掩膜图像进行如下操作:生成分隔线1921、切分版面1922;第三部分1930中,对第二部分中处理后的掩膜图像进行如下操作:OCR识别1931、校正相交1932;第三部分1930处理完毕后,根据掩膜图像中的区域生成分类矩形框,每个分类矩形框对应一个内容类型,并得到n个图像版面,每个版面对应一个内容类型。
示意性的,由待转档图像转换为掩膜图像,并由掩膜图像生成n个图像版面的过程如图20所示,待转档图像2010经过图像分割后,得到掩膜图像2020,该掩膜图像2020经过后处理后,得到5个矩形框,矩形框2031、矩形框2032、矩形框2033、矩形框2034以及矩形框2035作为图像版面。
步骤1605,根据图像版面对应的内容类型,对图像版面中的图像内容进行对应的处理,得到图像版面对应的转档内容。
可选地,针对图像版面对应的内容类型的不同,对图像内容的处理方式也不同,示意性的,针对文字类型的内容,需要对图像版面进行OCR识别;针对表格类型的内容,需要对图像版面进行表格框线识别以及OCR识别等处理;针对图片类型的内容,需要对图像版面进行切图处理;以及针对公式类型的内容,也可以通过对图像版面进行切图处理。
步骤1606,将n个图像版面对应的转档内容添加至电子文档,得到目标文档。
可选地,将转档内容添加至电子文档的过程在上述步骤304中已进行了详细说明,此处不再赘述。
可选地,用户可以对目标文档进行预览,预览方式包括如下方式中的任意一种:
第一,服务器将转档内容(纯文本、文本样式、样式集)发送至终端,用户对纯文字识别结果、文本样式识别结果以及样式集进行确定后,服务器将转档内容添加至电子文档,并将目标文档发送至终端;
第二,服务器将转档内容添加至电子文档得到目标文档后,将该目标文档的预览图像发送至终端,用户可以通过终端对目标文档进行预览,并根据预览结果选择重新上传图像转档或确认转档结果,当用户选择确认转档结果时,服务器将目标文档的文档内容发送至终端。
综上所述,本实施例提供的方法,通过编码器和解码器确定掩膜图像,并根据掩膜图像确定n个图像版面,利用编码器对语义信息的分析能力,对图像版面进行确定,实现了针对不同内容类型的图像版面进行不同处理的转档方式,提高了图像转换为文档的转换准确率。
在一个可选的实施例中,上述内容类型包括文字类型、表格类型、图片类型以及公式类型中的至少一种,图21是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图,以该方法应用于服务器中为例进行说明,如图21所示,该方法包括:
步骤2101,获取待转档图像。
可选地,该待转档图像为图像内容待转换为目标文档的图像。
可选地,该待转档图像为经过预处理的图像,其中,预处理方式包括图像框选和图像矫正中的至少一种。
可选地,获取待转档图像的具体方式已在上述步骤301中进行了详细说明,此处不再赘述。
步骤2102,根据待转档图像的图像内容对待转档图像进行版面分割,得到n个图像版面,每个图像版面对应有内容类型,n为正整数。
可选地,该分割得到的每个图像版面对应一个内容类型,该内容类型包括:文字类型、表格类型、图片类型、页码类型、页眉页脚类型、公式类型中的至少一种。
可选地,每个图像版面对应一个类型标识,该类型标识用于表示该图像版面对应的内容类型。
可选地,该版面分割过程在上述步骤1602至步骤1604中已进行了详细说明,此处不再赘述。
步骤2103,当内容类型包括文字类型时,对图像版面中的图像内容进行文字识别,得到以文本行进行分段的文字识别结果。
可选地,该以文本行进行分段的文字识别结果是指图像版面的图像内容中,每一行文字识别后作为文字识别结果中的一段文字。该识别得到的文字识别结果可读性较差,且不符合图像版面的图像内容中原本的组段方式。
步骤2104,根据文本行的行向特征确定文本行的组段结果。
可选地,该组段结果用于表示对文字识别结果的分段方式。
可选地,上述行向特征包括行高和行间距中的至少一种。可选地,根据行向特征确定组段结果的过程中,首先根据文本行的行向特征生成直方图,并根据直方图中行向特征的分布情况设置行向特征对应的阈值,当文本行的行向特征达到阈值时,确定文本行为组段行,该组段行用于表示文本行为段首或段尾。
示意性的,当行向特征为行高时,根据行高生成行高直方图,并根据直方图中行高的分布情况设置行高阈值,如:直方图中80%行高在5以下,则将行高阈值设置为5,当行高高于5时,确定文本行为组段行,将第一个组段行确定为段首,则第二个组段行为段尾,以此类推,段首和段尾连续间隔排布。上述行高还可以实现为行间距。可选地,还可以根据行高和行间距确定组段行。
示意性的,请参考图22,根据行高和行间距确定组段行的过程如下:
步骤2201,确定行高直方图。可选地,该行高直方图请参考图23,如图23所示,超过半数的行高处于行高4以下。步骤2202,行高分区域处理。即对确定每个行高范围对应段落的位置。步骤2203,确定行间距直方图。可选地,该行间距直方图请参考图24,如图24所示,超过半数的行间距处于行间距4以下。步骤2204,行高/行间距阈值选取。可选地,结合上图23示出的行高直方图和上图24示出的行间距直方图,可以将行高4和行间距4设置为阈值。步骤2205,根据阈值进行组段。当行高达到阈值和/或行间距达到阈值时,将文本行确定为组段行。
步骤2105,将文字识别结果根据组段结果进行重新分段,得到图像版面对应的文字转档结果。
可选地,根据被确定为组段行的文本行对文字识别结果进行重新分段。该组段结果请参考图25,如图25所示,对图像2500进行OCR识别后得到文字识别结果2510,该文字识别结果2510中,将图像2500中的每一行文字作为一段文字生成识别结果,对该文字识别结果2510进行组段后,得到组段结果2520,该组段结果2520的组段方式与图像2500中文字的组段方式一致。
可选地,文字识别过程中,还包括对字体进行识别,可选地,该字体包括字体属性和字体类别中的至少一种。其中,字体属性包括粗体、下划线、斜体中的至少一种;字体类别用于表示字体表现形式,如:楷体、宋体、黑体等。针对字体识别,设计双分支多任务网络,先对字体属性进行识别,再对字体类别进行识别,字体属性识别分支和字体类别识别分支共用图像编码层。示意性的,请参考图26,通过Unet网络对文字进行识别时,通过对图像特征2600的下采样和上采样确定字体属性,并根据采样过程中的特征确定字体类别。
步骤2106,当内容类型中包括表格类型时,根据图像版面中的框线确定水平框线和垂直框线,并确定水平框线和垂直框线之间的交点,得到目标表格的单元格。
可选地,通过将该图像版面中的框线校正至水平方向或垂直方向得到水平框线和垂直框线。
可选地,对框线进行校正之前,还需要对图像版面中的框线进行识别。首先,对图像版面通过神经网络进行像素级分割标注,针对每个像素对应有两个输出内容,该两个输出内容分别是:属于横向框线的概率和属于纵向框线的概率。根据像素级分割结果,对分割结果进行几何分析,提取横向和竖向分割图的连通区域,对连通区域的像素拟合一条折线,也即拟合若干条线段,用线段的起点终端两个坐标标识,对折线进行合并,根据各折线中选段的倾角相似度和坐标值的远近,将属于同一条框线的折线进行合并。对合并得到的框线校正至水平或垂直方向。
步骤2107,对图像版面中的图像内容进行字符计算,得到字符坐标。
可选地,结合上述步骤2106,通过将图像版面中的框线校正至水平方向或垂直方向得到水平框线和垂直框线,对图像版面进行校正。由于水平框线和垂直框线的扭曲与图像版面的扭曲是相关联的,通过对水平框线和垂直框线的校正,同时能够实现对该图像版面整体的校正。
可选地,对校正后的图像版面中的图像内容进行OCR计算后,得到字符坐标。可选地,通过OCR计算还得到字符坐标对应的字符识别内容。
可选地,对校正后的图像版面中的图像内容进行OCR计算后,还可以得到文本框坐标,根据该文本框坐标将文本框转换为水平框线或垂直框线,补充像素分割结果中缺失的框线。
步骤2108,根据字符坐标和单元格得到目标表格作为图像版面对应的表格转档结果。
可选地,对每个单元格信息进行整合,得出每行的高度,每列的宽度,以及单元格的合并关系。其中,单元格的合并关系的表示方式为:(左上角的单元格编号,右下角的单元格编号),即,在左上角的单元格编号和右下角的单元格编号之间的单元格合并为一整个单元格,如:单元格的合并关系的表示方式为(5,10),则将编号为5的单元格和编号为10的单元格之间的单元格进行合并,其中,编号为5的单元格和编号为10的单元格之间的单元格为从单元格5的左上角框选至单元格10的右下角以内的单元格,而并非编号在5到10之间的单元格。
可选地对单元格信息进行整合后,根据单元格和表格整体的大小比例,推算每个单元格中的字号大小,根据单元格中文字放置位置推断对齐方式。
可选地,表格处理过程请参考图27,该过程包括:步骤2701,图像分割。该图像分割过程中包括通过神经网络对图像进行框线分割。步骤2702,几何分析。该几何分析过程中包括:1、提取线段坐标;2、合并线段,识别框线;3、矫正倾斜。步骤2703,OCR计算。该OCR计算过程中包括:1、文本框坐标计算;2、字符坐标计算。步骤2704,单元格定位。该步骤包括:1、OCR文本框转为框线;2、框线转单元格。步骤2705,逻辑表示。该步骤包括:1、行列、单元格及单元格的合并关系;2、字号、对齐方式。
步骤2109,当内容类型中包括图片类型时,对图像版面中的图像内容进行切图,并将切图得到的图片作为图像版面对应的图片转档内容。
步骤2110,当内容类型中包括公式类型时,对图像版面中的图像内容进行切图,并将切图得到的图片作为图像版面对应的公式转档内容。
步骤2111,将n个图像版面对应的转档内容添加至电子文档,得到目标文档。
可选地,将转档内容添加至电子文档的过程在上述步骤304中已进行了详细说明,此处不再赘述。
综上所述,本实施例提供的方法,针对不同内容类型的图像版面,通过不同的方式进行处理,如:针对文字类型进行OCR识别,针对表格类型进行表格识别,针对图片类型进行切图,针对公式类型进行切图等,避免同一种处理方式无法对多种类型的内容进行识别而导致转档结果较差的问题。
图28是本申请一个示例性实施例提供的图像转档过程中参与转档的模块示意图,如图28所示,图像转档的处理过程中,需要通过输入模块2810、版面分析模块2820以及排版模块2830;
一、输入模块2810包括自动框选2811和扭曲矫正2812。
自动框选2811是指自动对待转档图像中需要转档的图像部分进行框选,去除待转档图像中的多余部分,如:边缘空白部分、非文档内容部分等。
扭曲矫正2812是指对存在扭曲情况的图像矫正至正常平面状态,由于实际场景中,当用户对文档进行拍摄时,文档可能处于折叠、弯曲等变形状态,导致影响OCR识别过程,以及影响后续版面分割过程,故需要对图像进行矫正。
二、版面分析模块2820包括图像分割2821和后处理2822。
图像分割2821是指根据图像中的内容类型,将图像分割为内容类型对应的区域,每个区域对应一种内容类型。
后处理2822是指对图像分割2821分割的区域进行去噪处理、合并处理以及相交分割处理中的至少一种处理。
三、排版模块2830包括文字类型部分2840、表格类型部分2850以及图片/公式类型部分2860。
文字类型部分2840的处理需要通过OCR识别2841、组段2842、字体识别2843以及输出段落2844。
表格类型部分2850的处理需要通过分隔线重组2851、OCR识别2852、组段排序2853以及输出表格2854。
图片/公式类型部分2860的处理需要通过切图2861和输出图片2862。
排版模块2830还需要通过阅读排序2870对图像版面进行阅读排序后,执行输出文档2880。
示意性的,本申请实施例提供的基于OCR的图像转档方法的转档结果如图29所示,待转档图像2910经过转档后,得到电子文档2920。
图30是本申请一个示例性实施例提供的基于OCR的图像转档方法的流程图,该方法可以应用于终端中,如图30所示,该方法包括:
步骤3010,显示转档界面。
可选地,该转档界面中包括转档控件和图像选择区域,其中,图像选择区域用于对待转档图像进行确定,转档控件用于触发将待转档图像发送至服务器进行转档。
步骤3020,在图像选择区域中对待转档图像进行选定。
可选地,该待转档图像可以是通过终端的图像采集器件采集得到的图像,也可以是终端相册中已存储的图像。
步骤3030,触发转档控件对应的转档功能。
可选地,该转档功能用于将图像转换为文档的形式。可选地,触发该转档控件对应的转档功能中,当终端实现为包括触摸显示屏的移动终端时,可以通过触摸该转档控件的方式实现转档功能,当终端实现为便携式膝上笔记本电脑或台式电脑时,可以通过外部输入设备对该转档控件进行选择,如:键盘、鼠标等。
可选地,当终端触发该转档功能时,终端将带转档图像发送至服务器,由服务器对该待转档图像转为目标文档。其中,服务器对待转档图像中的文字和排版进行识别转档的过程在上述实施例中已进行了详细说明,此处不再赘述。
步骤3040,显示目标文档展示界面。
可选地,目标文档展示界面中包括待转档图像转档得到的目标文档,该目标文档的排版方式与待转档图像的排版方式对应一致。可选地,该目标文档中第一目标区域中的内容类型与待转档图像中第二目标区域中的内容类型一致;该第一目标区域在目标文档中的位置与第二目标区域在待转档图像中的位置对应。其中内容类型包括从文字类型、图片类型、表格类型以及公式类型组成的群组中选择的至少一种。
示意性的,该目标文档的转换结果请参考图29中的电子文档2920。
在一个可选的实施例中,对本申请中,从用户确定图像到终端接收文档的过程进行说明,请参考图31,该过程包括:
步骤3110,用户进行纸质文档的拍摄。
可选地,该步骤还可以实现为,用户进行电子显示屏中的显示内容的拍摄,如:对移动广告的拍摄。
步骤3120,用户从手机相册中选择图片。
可选地,步骤3110和步骤3120为并列步骤,可以仅执行步骤3110,也可以仅执行步骤3120。
步骤3130,用户框选需要识别的区域。
可选地,用户拍摄得到的图片或用于从手机相册中选择的图片中可能包括其他内容,实际用户需要转档的图像为上述图片的部分,故,用户可以对需要识别的区域进行框选。
步骤3140,用户点击智能识别。
可选地,用户点对智能识别功能进行选择。可选地,该智能识别功能用于将图像转换为文档的形式。可选地,该功能可以通过转档控件进行触发。可选地,触发该转档控件对应的转档功能中,当终端实现为包括触摸显示屏的移动终端时,可以通过触摸该转档控件的方式实现转档功能,当终端实现为便携式膝上笔记本电脑或台式电脑时,可以通过外部输入设备对该转档控件进行选择,如:键盘、鼠标等。
步骤3150,终端将被框选的区域作为待识别图像发送至服务器。
可选地,终端根据用户的框选,从原图中扣出被框选的区域,作为待识别图像发送至服务器。
步骤3160,服务器对待识别图像中的文字和排版进行识别。
可选地,服务器对待识别图像中的文字和排版进行识别的过程在上述实施例中已进行了详细说明,此处不再赘述。
步骤3170,服务器向终端发送电子文档的预览图。
可选地,服务器将转档内容(纯文本、文本样式、样式集)发送至终端,或,服务器将转档内容添加至电子文档得到目标文档后,将该目标文档的预览图像发送至终端。
步骤3180,用户对转档内容进行确认。
步骤3190,服务器将转档内容插入电子文档得到目标文档,并发送至终端。
可选地,服务器将转档内容(纯文本、文本样式、样式集)发送至终端时,用户对纯文字识别结果、文本样式识别结果以及样式集进行确定后,服务器将转档内容添加至电子文档,并将目标文档发送至终端;或,服务器将转档内容添加至电子文档得到目标文档后,将该目标文档的预览图像发送至终端时,用户可以通过终端对目标文档进行预览,并根据预览结果选择重新上传图像转档或确认转档结果,当用户选择确认转档结果时,服务器将目标文档的文档内容发送至终端。
图32是本申请一个示例性实施例提供的基于OCR的图像转档装置的结构框图,以该装置应用于服务器中为例进行说明,如图32所示,该装置包括:获取模块3210、分割模块3220以及处理模块3230;
获取模块3210,用于获取待转档图像,所述待转档图像为图像内容待转换为目标文档的图像;
分割模块3220,用于根据所述待转档图像的所述图像内容对所述待转档图像进行版面分割,得到n个图像版面,每个所述图像版面对应有内容类型,n为正整数;
处理模块3230,用于根据所述图像版面对应的所述内容类型,对所述图像版面中的图像内容进行对应的处理,得到所述图像版面对应的转档内容;
所述处理模块3230,还用于将所述n个图像版面对应的所述转档内容添加至电子文档,得到所述目标文档。
在一个可选的实施例中,如图33所示,所述分割模块3220,包括:
编码单元3221,用于通过编码器对所述待转档图像进行编码,得到编码数据;
解码单元3222,用于通过解码器对所述编码数据进行解码,得到掩膜图像;
确定单元3223,用于根据所述掩膜图像中的区域得到所述n个图像版面。
在一个可选的实施例中,所述确定单元3223,还用于对所述掩膜图像中的区域进行校正处理,得到所述n个图像版面,所述校正处理包括从去噪处理、合并处理、相交位置切割处理组成的群组中选择的至少一种。
在一个可选的实施例中,所述掩膜图像中还包括单栏分隔条;
所述确定单元3223,还用于根据所述单栏分隔条对校正后的所述掩膜图像进行分隔,得到至少两个掩膜分隔图像;
所述确定单元3223,还用于对所述至少两个掩膜分隔图像中每个掩膜分隔图像中的区域进行校正;
所述确定单元3223,还用于生成校正后的所述掩膜分隔图像中的区域对应的矩形框,作为所述n个图像版面。
在一个可选的实施例中,所述内容类型包括文字类型;
所述处理模块3230,还用于对所述图像版面中的所述图像内容进行文字识别,得到以文本行进行分段的文字识别结果;根据所述文本行的行向特征确定所述文本行的组段结果,所述组段结果用于表示对所述文字识别结果的分段方式;将所述文字识别结果根据所述组段结果进行重新分段,得到所述图像版面对应的文字转档结果。
在一个可选的实施例中,所述处理模块3230,还用于根据所述文本行的所述行向特征生成直方图,所述行向特征包括行高和行间距中的至少一种;根据所述直方图中所述行向特征的分布情况设置所述行向特征对应的阈值;当所述文本行的所述行向特征达到所述阈值时,确定所述文本行为组段行,所述组段行用于表示所述文本行为段首或段尾。
在一个可选的实施例中,所述内容类型包括表格类型;
所述处理模块3230,还用于根据所述图像版面中的框线确定水平框线和垂直框线,并确定水平框线和垂直框线之间的交点,得到目标表格的单元格;对所述图像版面中的图像内容进行字符计算,得到字符坐标;根据所述字符坐标和所述单元格得到所述目标表格作为所述图像版面对应的表格转档结果。
在一个可选的实施例中,所述处理模块3230,还用于通过将所述图像版面中的框线校正至水平方向或垂直方向得到所述水平框线和所述垂直框线。
在一个可选的实施例中,所述处理模块3230,还用于通过对所述将所述图像版面中的框线校正至所述水平方向或所述垂直方向,对所述图像版面进行校正;对校正后的所述图像版面中的图像内容进行字符计算,得到所述字符坐标。
在一个可选的实施例中,所述内容类型包括图片类型;
所述处理模块3230,还用于对所述图像版面中的所述图像内容进行切图,并将所述切图得到的图片作为所述图像版面对应的图片转档内容。
在一个可选的实施例中,所述内容类型包括公式类型;
所述处理模块3230,还用于对所述图像版面中的所述图像内容进行切图,并将所述切图得到的图片作为所述图像版面对应的公式转档内容。
在一个可选的实施例中,所述获取模块3210,还用于获取待矫正图像;
所述获取模块3210,还用于将所述待矫正图像输入矫正神经网络,输出得到所述待转档图像,其中,所述矫正神经网络是通过仿真数据集训练得到的网络,所述仿真数据集中的仿真数据是通过对样本图像进行扭曲处理后得到的数据,所述扭曲处理是通过将所述样本图像输入扭曲函数实现的。
图34是本申请一个示例性实施例提供的基于OCR的图像转档装置的结构框图,以该装置应用于终端中为例进行说明,如图34所示,该装置包括:显示模块3410、选择模块3420以及触发模块3430;
显示模块3410,用于显示转档界面,所述转档界面中包括转档控件和图像选择区域;
选择模块3420,用于在所述图像选择区域中对待转档图像进行选定,所述待转档图像为图像内容待转换为目标文档的图像;
触发模块3430,用于触发所述转档控件对应的转档功能,所述转档功能用于将图像转换为文档的形式;
所述显示模块3410,还用于显示目标文档展示界面,所述目标文档展示界面中包括所述待转档图像转档得到的所述目标文档,所述目标文档的排版方式与所述待转档图像的排版方式对应一致。
在一个可选的实施例中,所述目标文档中第一目标区域中的内容类型与所述待转档图像中第二目标区域中的内容类型一致;所述第一目标区域在所述目标文档中的位置,与所述第二目标区域在所述待转档图像中的位置对应;
其中,所述内容类型包括从文字类型、图片类型、表格类型以及公式类型组成的群组中选择的至少一种。
需要说明的是:上述实施例提供的基于OCR的图像转档装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于OCR的图像转档装置与基于OCR的图像转档方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请还提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的基于OCR的图像转档方法。需要说明的是,该服务器可以是如下图35所提供的服务器。
请参考图35,其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲:所述服务器3500包括中央处理单元(CPU)3501、包括随机存取存储器(RAM)3502和只读存储器(ROM)3503的系统存储器3504,以及连接系统存储器3504和中央处理单元3501的系统总线3505。所述服务器3500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)3506,和用于存储操作系统3513、应用程序3514和其他程序模块3515的大容量存储设备3507。
所述基本输入/输出系统3506包括有用于显示信息的显示器3508和用于用户输入信息的诸如鼠标、键盘之类的输入设备3509。其中所述显示器3508和输入设备3509都通过连接到系统总线3505的输入输出控制器3510连接到中央处理单元3501。所述基本输入/输出系统3506还可以包括输入输出控制器3510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器3510还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备3507通过连接到系统总线3505的大容量存储控制器(未示出)连接到中央处理单元3501。所述大容量存储设备3507及其相关联的计算机可读介质为服务器3500提供非易失性存储。也就是说,所述大容量存储设备3507可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器3504和大容量存储设备3507可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元3501执行,一个或多个程序包含用于实现上述基于OCR的图像转档方法的指令,中央处理单元3501执行该一个或多个程序实现上述各个方法实施例提供的基于OCR的图像转档方法。
根据本发明的各种实施例,所述服务器3500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器3500可以通过连接在所述系统总线3505上的网络接口单元3511连接到网络3512,或者说,也可以使用网络接口单元3511来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的基于OCR的图像转档方法中由服务器所执行的步骤。
本申请实施例还提供一种计算机设备,该计算机设备包括存储器和处理器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述如图3、图16、图21以及图30任一所述的基于OCR的图像转档方法。
本申请实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图3、图16、图21以及图30任一所述的基于OCR的图像转档方法。
本申请还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述各个方法实施例提供的基于OCR的图像转档方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图3、图16、图21以及图30任一所述的基于OCR的图像转档方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (18)

1.一种基于OCR的图像转档方法,其特征在于,所述方法包括:
获取待转档图像,所述待转档图像为图像内容待转换为目标文档的图像;
根据所述待转档图像的所述图像内容对所述待转档图像进行版面分割,得到n个图像版面,每个所述图像版面对应有内容类型,n为正整数;
根据所述图像版面对应的所述内容类型,对所述图像版面中的图像内容进行对应的处理,得到所述图像版面对应的转档内容;
将所述n个图像版面对应的所述转档内容添加至电子文档,得到所述目标文档。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待转档图像的所述图像内容对所述待转档图像进行版面分割,得到n个图像版面,包括:
通过编码器对所述待转档图像进行编码,得到编码数据;
通过解码器对所述编码数据进行解码,得到掩膜图像;
根据所述掩膜图像中的区域得到所述n个图像版面。
3.根据权利要求2所述的方法,其特征在于,所述根据所述掩膜图像中的区域得到所述n个图像版面,包括:
对所述掩膜图像中的区域进行校正处理,得到所述n个图像版面,所述校正处理包括从去噪处理、合并处理、相交位置切割处理组成的群组中选择的至少一种。
4.根据权利要求3所述的方法,其特征在于,所述掩膜图像中还包括单栏分隔条;
所述对所述掩膜图像中的区域进行校正处理,得到所述n个图像版面,包括:
根据所述单栏分隔条对校正后的所述掩膜图像进行分隔,得到至少两个掩膜分隔图像;
对所述至少两个掩膜分隔图像中每个掩膜分隔图像中的区域进行校正;
生成校正后的所述掩膜分隔图像中的区域对应的矩形框,作为所述n个图像版面。
5.根据权利要求1至4任一所述的方法,其特征在于,所述内容类型包括文字类型;
所述根据所述图像版面对应的所述内容类型,对所述图像版面中的图像内容进行对应的处理,得到所述图像版面对应的转档内容,包括:
对所述图像版面中的所述图像内容进行文字识别,得到以文本行进行分段的文字识别结果;
根据所述文本行的行向特征确定所述文本行的组段结果,所述组段结果用于表示对所述文字识别结果的分段方式;
将所述文字识别结果根据所述组段结果进行重新分段,得到所述图像版面对应的文字转档结果。
6.根据权利要求5所述的方法,其特征在于,所述根据所述文本行的行向特征确定所述文本行的组段结果,包括:
根据所述文本行的所述行向特征生成直方图,所述行向特征包括行高和行间距中的至少一种;
根据所述直方图中所述行向特征的分布情况设置所述行向特征对应的阈值;
当所述文本行的所述行向特征达到所述阈值时,确定所述文本行为组段行,所述组段行用于表示所述文本行为段首或段尾。
7.根据权利要求1至4任一所述的方法,其特征在于,所述内容类型包括表格类型;
所述根据所述图像版面对应的所述内容类型,对所述图像版面中的图像内容进行对应的处理,得到所述图像版面对应的转档内容,包括:
根据所述图像版面中的框线确定水平框线和垂直框线,并确定所述水平框线和所述垂直框线之间的交点,得到目标表格的单元格;
对所述图像版面中的图像内容进行字符计算,得到字符坐标;
根据所述字符坐标和所述单元格得到所述目标表格作为所述图像版面对应的表格转档结果。
8.根据权利要求7所述的方法,其特征在于,所述根据所述图像版面中的框线确定水平框线和垂直框线,包括:
通过将所述图像版面中的框线校正至水平方向或垂直方向得到所述水平框线和所述垂直框线。
9.根据权利要求8所述的方法,其特征在于,所述对所述图像版面中的图像内容进行字符计算,得到字符坐标,包括:
通过对所述将所述图像版面中的框线校正至所述水平方向或所述垂直方向,对所述图像版面进行校正;
对校正后的所述图像版面中的图像内容进行字符计算,得到所述字符坐标。
10.根据权利要求1至4任一所述的方法,其特征在于,所述内容类型包括图片类型;
所述根据所述图像版面对应的所述内容类型,对所述图像版面中的图像内容进行对应的处理,得到所述图像版面对应的转档内容,包括:
对所述图像版面中的所述图像内容进行切图,并将所述切图得到的图片作为所述图像版面对应的图片转档内容。
11.根据权利要求1至4任一所述的方法,其特征在于,所述内容类型包括公式类型;
所述根据所述图像版面对应的所述内容类型,对所述图像版面中的图像内容进行对应的处理,得到所述图像版面对应的转档内容,包括:
对所述图像版面中的所述图像内容进行切图,并将所述切图得到的图片作为所述图像版面对应的公式转档内容。
12.根据权利要求1至4任一所述的方法,其特征在于,所述获取待转档图像,包括:
获取待矫正图像;
将所述待矫正图像输入矫正神经网络,输出得到所述待转档图像,其中,所述矫正神经网络是通过仿真数据集训练得到的网络,所述仿真数据集中的仿真数据是通过对样本图像进行扭曲处理后得到的数据。
13.一种基于OCR的图像转档方法,其特征在于,所述方法包括:
显示转档界面,所述转档界面中包括转档控件和图像选择区域;
在所述图像选择区域中对待转档图像进行选定,所述待转档图像为图像内容待转换为目标文档的图像;
触发所述转档控件对应的转档功能,所述转档功能用于将图像转换为文档的形式;
显示目标文档展示界面,所述目标文档展示界面中包括所述待转档图像转档后得到的所述目标文档,所述目标文档的排版方式与所述待转档图像的排版方式对应一致。
14.根据权利要求13所述的方法,其特征在于,所述目标文档中第一目标区域中的内容类型与所述待转档图像中第二目标区域中的内容类型一致;所述第一目标区域在所述目标文档中的位置,与所述第二目标区域在所述待转档图像中的位置对应;
其中,所述内容类型包括从文字类型、图片类型、表格类型以及公式类型组成的群组中选择的至少一种。
15.一种基于OCR的图像转档装置,其特征在于,所述装置包括:
获取模块,用于获取待转档图像,所述待转档图像为图像内容待转换为目标文档的图像;
分割模块,用于根据所述待转档图像的所述图像内容对所述待转档图像进行版面分割,得到n个图像版面,每个所述图像版面对应有内容类型,n为正整数;
处理模块,用于根据所述图像版面对应的所述内容类型,对所述图像版面中的图像内容进行对应的处理,得到所述图像版面对应的转档内容;
所述处理模块,还用于将所述n个图像版面对应的所述转档内容添加至电子文档,得到所述目标文档。
16.一种基于OCR的图像转档装置,其特征在于,所述装置包括:
显示模块,用于显示转档界面,所述转档界面中包括转档控件和图像选择区域;
选择模块,用于在所述图像选择区域中对待转档图像进行选定,所述待转档图像为图像内容待转换为目标文档的图像;
触发模块,用于触发所述转档控件对应的转档功能,所述转档功能用于将图像转换为文档的形式;
所述显示模块,还用于显示目标文档展示界面,所述目标文档展示界面中包括所述待转档图像转档得到的所述目标文档,所述目标文档的排版方式与所述待转档图像的排版方式对应一致。
17.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至14任一所述的基于OCR的图像转档方法。
18.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至14任一所述的基于OCR的图像转档方法。
CN201910224228.1A 2019-03-22 2019-03-22 基于ocr的图像转档方法、装置、设备及可读存储介质 Active CN109933756B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910224228.1A CN109933756B (zh) 2019-03-22 2019-03-22 基于ocr的图像转档方法、装置、设备及可读存储介质
PCT/CN2020/078181 WO2020192391A1 (zh) 2019-03-22 2020-03-06 基于ocr的图像转档方法、装置、设备及可读存储介质
US17/313,755 US20210256253A1 (en) 2019-03-22 2021-05-06 Method and apparatus of image-to-document conversion based on ocr, device, and readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910224228.1A CN109933756B (zh) 2019-03-22 2019-03-22 基于ocr的图像转档方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN109933756A true CN109933756A (zh) 2019-06-25
CN109933756B CN109933756B (zh) 2022-04-15

Family

ID=66988042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910224228.1A Active CN109933756B (zh) 2019-03-22 2019-03-22 基于ocr的图像转档方法、装置、设备及可读存储介质

Country Status (3)

Country Link
US (1) US20210256253A1 (zh)
CN (1) CN109933756B (zh)
WO (1) WO2020192391A1 (zh)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334710A (zh) * 2019-07-10 2019-10-15 深圳市华云中盛科技有限公司 法律文书识别方法、装置、计算机设备及存储介质
CN110427929A (zh) * 2019-07-19 2019-11-08 易诚高科(大连)科技有限公司 一种基于多级元素融合的app界面模式识别方法
CN110472550A (zh) * 2019-08-02 2019-11-19 南通使爱智能科技有限公司 一种文本图像拍摄完整度判断方法及系统
CN110503085A (zh) * 2019-07-31 2019-11-26 联想(北京)有限公司 一种数据处理方法、电子设备和计算机可读存储介质
CN110781858A (zh) * 2019-11-05 2020-02-11 泰康保险集团股份有限公司 信息处理方法及装置、电子设备和计算机可读存储介质
CN110888812A (zh) * 2019-11-26 2020-03-17 国核自仪系统工程有限公司 终端页面的响应时间的测试系统及测试方法
CN111127543A (zh) * 2019-12-23 2020-05-08 北京金山安全软件有限公司 图像处理方法、装置、电子设备以及存储介质
CN111144305A (zh) * 2019-12-26 2020-05-12 京东数字科技控股有限公司 训练数据生成方法、装置、电子设备和介质
CN111160265A (zh) * 2019-12-30 2020-05-15 Oppo(重庆)智能科技有限公司 文件转换方法、装置、存储介质及电子设备
CN111160352A (zh) * 2019-12-27 2020-05-15 创新奇智(北京)科技有限公司 一种基于图像分割的工件金属表面文字识别方法及系统
CN111179285A (zh) * 2019-12-31 2020-05-19 珠海方图智能科技有限公司 一种图像处理方法、系统及存储介质
CN111310613A (zh) * 2020-01-22 2020-06-19 腾讯科技(深圳)有限公司 一种图像检测方法、装置以及计算机可读存储介质
CN111353397A (zh) * 2020-02-22 2020-06-30 郑州铁路职业技术学院 基于大数据和ocr的网络课堂中文板书结构化分享系统
CN111444922A (zh) * 2020-03-27 2020-07-24 Oppo广东移动通信有限公司 图片处理方法、装置、存储介质及电子设备
CN111709956A (zh) * 2020-06-19 2020-09-25 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及可读存储介质
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
WO2020192391A1 (zh) * 2019-03-22 2020-10-01 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN112036395A (zh) * 2020-09-04 2020-12-04 联想(北京)有限公司 基于目标检测的文本分类识别方法及装置
CN112464828A (zh) * 2020-12-01 2021-03-09 广州视源电子科技股份有限公司 文档图像边缘的数据标注方法、装置、设备及存储介质
CN112668567A (zh) * 2020-12-25 2021-04-16 深圳太极云软技术有限公司 一种基于深度学习的图像裁剪算法
CN112686786A (zh) * 2020-12-29 2021-04-20 新疆医科大学第一附属医院 一种医疗护理用教学系统及教学方法
CN112784106A (zh) * 2019-11-04 2021-05-11 阿里巴巴集团控股有限公司 内容数据的处理方法、报告数据的处理方法、计算机设备、存储介质
CN112825123A (zh) * 2019-11-20 2021-05-21 北京沃东天骏信息技术有限公司 文字识别方法、系统及存储介质
CN112966484A (zh) * 2021-03-01 2021-06-15 维沃移动通信有限公司 图表排版方法、装置、以及电子设备、可读存储介质
CN112990022A (zh) * 2021-03-18 2021-06-18 广州伟宏智能科技有限公司 一种ocr文字识别提取方法
CN113011274A (zh) * 2021-02-24 2021-06-22 南京三百云信息科技有限公司 图像识别方法、装置、电子设备及存储介质
CN113012075A (zh) * 2021-04-22 2021-06-22 中国平安人寿保险股份有限公司 一种图像矫正方法、装置、计算机设备及存储介质
CN113033269A (zh) * 2019-12-25 2021-06-25 华为技术服务有限公司 一种数据处理方法及装置
CN113065536A (zh) * 2021-06-03 2021-07-02 北京欧应信息技术有限公司 处理表格的方法、计算设备和计算机可读存储介质
CN113139990A (zh) * 2021-05-08 2021-07-20 电子科技大学 一种基于内容感知的深度网格流鲁棒图像对齐方法
CN113554558A (zh) * 2020-04-26 2021-10-26 北京金山数字娱乐科技有限公司 一种图像处理的方法和装置
CN114048724A (zh) * 2021-10-08 2022-02-15 荣耀终端有限公司 一种图片信息的显示方法及相关装置
CN114241501A (zh) * 2021-12-20 2022-03-25 北京中科睿见科技有限公司 影像文档处理方法、装置及电子设备
CN114663902A (zh) * 2022-04-02 2022-06-24 北京百度网讯科技有限公司 文档图像处理方法、装置、设备和介质
CN114757144A (zh) * 2022-06-14 2022-07-15 成都数之联科技股份有限公司 图像文档的重建方法、装置、电子设备和存储介质
CN112966484B (zh) * 2021-03-01 2024-06-07 维沃移动通信有限公司 图表排版方法、装置、以及电子设备、可读存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260586B (zh) * 2020-01-20 2023-07-04 北京百度网讯科技有限公司 扭曲文档图像的矫正方法和装置
CN112488114A (zh) * 2020-11-13 2021-03-12 宁波多牛大数据网络技术有限公司 一种图片合成方法及装置、文字识别系统
CN113537227B (zh) * 2021-06-28 2024-02-02 杭州电子科技大学 一种结构化文本识别方法及系统
CN113792659B (zh) * 2021-09-15 2024-04-05 上海金仕达软件科技股份有限公司 文档识别方法、装置及电子设备
CN113836268A (zh) * 2021-09-24 2021-12-24 北京百度网讯科技有限公司 文档理解方法及装置、电子设备和介质
CN114627482B (zh) * 2022-05-16 2022-08-12 四川升拓检测技术股份有限公司 基于图像处理与文字识别实现表格数字化处理方法及系统
CN115273108B (zh) * 2022-06-17 2023-11-17 吉林省吉林祥云信息技术有限公司 一种人工智能识别自动归集方法及系统
CN115546790B (zh) * 2022-11-29 2023-04-07 深圳智能思创科技有限公司 文档版面分割方法、装置、设备及存储介质
CN116311311B (zh) * 2023-05-23 2023-10-10 荣耀终端有限公司 电子表格生成方法、装置、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
US8499236B1 (en) * 2010-01-21 2013-07-30 Amazon Technologies, Inc. Systems and methods for presenting reflowable content on a display
CN103258198A (zh) * 2013-04-26 2013-08-21 四川大学 一种表格文档图像中字符提取方法
CN104123550A (zh) * 2013-04-25 2014-10-29 魏昊 基于云计算的文本扫描识别方法
CN106096592A (zh) * 2016-07-22 2016-11-09 浙江大学 一种数字图书的版面分析方法
CN107301418A (zh) * 2017-06-28 2017-10-27 江南大学 光学字符识别中的版面分析

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69531882D1 (de) * 1994-07-13 2003-11-13 Canon Kk Gerät und Verfahren zur Bildverarbeitung
US8769395B2 (en) * 2002-12-13 2014-07-01 Ricoh Co., Ltd. Layout objects as image layers
NO20051412D0 (no) * 2005-03-17 2005-03-17 Lumex As Fremgangsmate og system for adaptiv gjenkjenning av degradert tekst i datamaskinavbildninger
US7392473B2 (en) * 2005-05-26 2008-06-24 Xerox Corporation Method and apparatus for determining logical document structure
US7650035B2 (en) * 2006-09-11 2010-01-19 Google Inc. Optical character recognition based on shape clustering and multiple optical character recognition processes
JP5036430B2 (ja) * 2007-07-10 2012-09-26 キヤノン株式会社 画像処理装置及びその制御方法
US8472727B2 (en) * 2011-01-07 2013-06-25 Yuval Gronau Document comparison and analysis for improved OCR
US9053361B2 (en) * 2012-01-26 2015-06-09 Qualcomm Incorporated Identifying regions of text to merge in a natural image or video frame
JP6161484B2 (ja) * 2013-09-19 2017-07-12 株式会社Pfu 画像処理装置、画像処理方法及びコンピュータプログラム
US9465774B2 (en) * 2014-04-02 2016-10-11 Benoit Maison Optical character recognition system using multiple images and method of use
US20160055376A1 (en) * 2014-06-21 2016-02-25 iQG DBA iQGATEWAY LLC Method and system for identification and extraction of data from structured documents
US9864750B2 (en) * 2014-12-31 2018-01-09 Konica Minolta Laboratory U.S.A., Inc. Objectification with deep searchability
AU2015258334A1 (en) * 2015-11-23 2017-06-08 Canon Kabushiki Kaisha Method, apparatus and system for dithering an image
JP2017151493A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 画像処理装置、画像読み取り装置及びプログラム
CN106503629A (zh) * 2016-10-10 2017-03-15 语联网(武汉)信息技术有限公司 一种词典图片分割方法及装置
US10108883B2 (en) * 2016-10-28 2018-10-23 Intuit Inc. Image quality assessment and improvement for performing optical character recognition
RU2709661C1 (ru) * 2018-09-19 2019-12-19 Общество с ограниченной ответственностью "Аби Продакшн" Обучение нейронных сетей для обработки изображений с помощью синтетических фотореалистичных содержащих знаки изображений
CN109493350B (zh) * 2018-11-09 2020-09-22 重庆中科云从科技有限公司 人像分割方法及装置
CN109933756B (zh) * 2019-03-22 2022-04-15 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
US20200327351A1 (en) * 2019-04-15 2020-10-15 General Electric Company Optical character recognition error correction based on visual and textual contents
US11302108B2 (en) * 2019-09-10 2022-04-12 Sap Se Rotation and scaling for optical character recognition using end-to-end deep learning
US11321956B1 (en) * 2019-12-03 2022-05-03 Ciitizen, Llc Sectionizing documents based on visual and language models
US11393236B2 (en) * 2020-01-17 2022-07-19 Konica Minolta Business Solutions U.S.A., Inc. Approximating the layout of a paper document

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8499236B1 (en) * 2010-01-21 2013-07-30 Amazon Technologies, Inc. Systems and methods for presenting reflowable content on a display
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN104123550A (zh) * 2013-04-25 2014-10-29 魏昊 基于云计算的文本扫描识别方法
CN103258198A (zh) * 2013-04-26 2013-08-21 四川大学 一种表格文档图像中字符提取方法
CN106096592A (zh) * 2016-07-22 2016-11-09 浙江大学 一种数字图书的版面分析方法
CN107301418A (zh) * 2017-06-28 2017-10-27 江南大学 光学字符识别中的版面分析

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020192391A1 (zh) * 2019-03-22 2020-10-01 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN110334710A (zh) * 2019-07-10 2019-10-15 深圳市华云中盛科技有限公司 法律文书识别方法、装置、计算机设备及存储介质
CN110427929A (zh) * 2019-07-19 2019-11-08 易诚高科(大连)科技有限公司 一种基于多级元素融合的app界面模式识别方法
CN110503085A (zh) * 2019-07-31 2019-11-26 联想(北京)有限公司 一种数据处理方法、电子设备和计算机可读存储介质
CN110472550A (zh) * 2019-08-02 2019-11-19 南通使爱智能科技有限公司 一种文本图像拍摄完整度判断方法及系统
CN112784106B (zh) * 2019-11-04 2024-05-14 阿里巴巴集团控股有限公司 内容数据的处理方法、报告数据的处理方法、计算机设备、存储介质
CN112784106A (zh) * 2019-11-04 2021-05-11 阿里巴巴集团控股有限公司 内容数据的处理方法、报告数据的处理方法、计算机设备、存储介质
CN110781858A (zh) * 2019-11-05 2020-02-11 泰康保险集团股份有限公司 信息处理方法及装置、电子设备和计算机可读存储介质
CN112825123A (zh) * 2019-11-20 2021-05-21 北京沃东天骏信息技术有限公司 文字识别方法、系统及存储介质
CN110888812A (zh) * 2019-11-26 2020-03-17 国核自仪系统工程有限公司 终端页面的响应时间的测试系统及测试方法
CN110888812B (zh) * 2019-11-26 2023-11-07 国核自仪系统工程有限公司 终端页面的响应时间的测试系统及测试方法
CN111127543A (zh) * 2019-12-23 2020-05-08 北京金山安全软件有限公司 图像处理方法、装置、电子设备以及存储介质
CN113033269A (zh) * 2019-12-25 2021-06-25 华为技术服务有限公司 一种数据处理方法及装置
CN113033269B (zh) * 2019-12-25 2023-08-25 华为技术服务有限公司 一种数据处理方法及装置
CN111144305A (zh) * 2019-12-26 2020-05-12 京东数字科技控股有限公司 训练数据生成方法、装置、电子设备和介质
CN111160352A (zh) * 2019-12-27 2020-05-15 创新奇智(北京)科技有限公司 一种基于图像分割的工件金属表面文字识别方法及系统
CN111160352B (zh) * 2019-12-27 2023-04-07 创新奇智(北京)科技有限公司 一种基于图像分割的工件金属表面文字识别方法及系统
CN111160265A (zh) * 2019-12-30 2020-05-15 Oppo(重庆)智能科技有限公司 文件转换方法、装置、存储介质及电子设备
CN111179285A (zh) * 2019-12-31 2020-05-19 珠海方图智能科技有限公司 一种图像处理方法、系统及存储介质
CN111310613B (zh) * 2020-01-22 2023-04-07 腾讯科技(深圳)有限公司 一种图像检测方法、装置以及计算机可读存储介质
CN111310613A (zh) * 2020-01-22 2020-06-19 腾讯科技(深圳)有限公司 一种图像检测方法、装置以及计算机可读存储介质
CN111353397A (zh) * 2020-02-22 2020-06-30 郑州铁路职业技术学院 基于大数据和ocr的网络课堂中文板书结构化分享系统
CN111353397B (zh) * 2020-02-22 2021-01-01 郑州铁路职业技术学院 基于大数据和ocr的网络课堂中文板书结构化分享系统
CN111444922A (zh) * 2020-03-27 2020-07-24 Oppo广东移动通信有限公司 图片处理方法、装置、存储介质及电子设备
WO2021190146A1 (zh) * 2020-03-27 2021-09-30 Oppo广东移动通信有限公司 图片处理方法、装置、存储介质及电子设备
CN113554558A (zh) * 2020-04-26 2021-10-26 北京金山数字娱乐科技有限公司 一种图像处理的方法和装置
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN111709349B (zh) * 2020-06-11 2023-12-01 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN111709956B (zh) * 2020-06-19 2024-01-12 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及可读存储介质
CN111709956A (zh) * 2020-06-19 2020-09-25 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及可读存储介质
CN112036395B (zh) * 2020-09-04 2024-05-28 联想(北京)有限公司 基于目标检测的文本分类识别方法及装置
CN112036395A (zh) * 2020-09-04 2020-12-04 联想(北京)有限公司 基于目标检测的文本分类识别方法及装置
CN112464828B (zh) * 2020-12-01 2024-04-05 广州视源电子科技股份有限公司 文档图像边缘的数据标注方法、装置、设备及存储介质
CN112464828A (zh) * 2020-12-01 2021-03-09 广州视源电子科技股份有限公司 文档图像边缘的数据标注方法、装置、设备及存储介质
CN112668567A (zh) * 2020-12-25 2021-04-16 深圳太极云软技术有限公司 一种基于深度学习的图像裁剪算法
CN112686786A (zh) * 2020-12-29 2021-04-20 新疆医科大学第一附属医院 一种医疗护理用教学系统及教学方法
CN113011274B (zh) * 2021-02-24 2024-04-09 南京三百云信息科技有限公司 图像识别方法、装置、电子设备及存储介质
CN113011274A (zh) * 2021-02-24 2021-06-22 南京三百云信息科技有限公司 图像识别方法、装置、电子设备及存储介质
CN112966484A (zh) * 2021-03-01 2021-06-15 维沃移动通信有限公司 图表排版方法、装置、以及电子设备、可读存储介质
CN112966484B (zh) * 2021-03-01 2024-06-07 维沃移动通信有限公司 图表排版方法、装置、以及电子设备、可读存储介质
CN112990022A (zh) * 2021-03-18 2021-06-18 广州伟宏智能科技有限公司 一种ocr文字识别提取方法
CN113012075A (zh) * 2021-04-22 2021-06-22 中国平安人寿保险股份有限公司 一种图像矫正方法、装置、计算机设备及存储介质
CN113139990A (zh) * 2021-05-08 2021-07-20 电子科技大学 一种基于内容感知的深度网格流鲁棒图像对齐方法
CN113065536B (zh) * 2021-06-03 2021-09-14 北京欧应信息技术有限公司 处理表格的方法、计算设备和计算机可读存储介质
CN113065536A (zh) * 2021-06-03 2021-07-02 北京欧应信息技术有限公司 处理表格的方法、计算设备和计算机可读存储介质
CN114048724A (zh) * 2021-10-08 2022-02-15 荣耀终端有限公司 一种图片信息的显示方法及相关装置
CN114241501B (zh) * 2021-12-20 2023-03-10 北京中科睿见科技有限公司 影像文档处理方法、装置及电子设备
CN114241501A (zh) * 2021-12-20 2022-03-25 北京中科睿见科技有限公司 影像文档处理方法、装置及电子设备
CN114663902A (zh) * 2022-04-02 2022-06-24 北京百度网讯科技有限公司 文档图像处理方法、装置、设备和介质
CN114757144B (zh) * 2022-06-14 2022-09-06 成都数之联科技股份有限公司 图像文档的重建方法、装置、电子设备和存储介质
CN114757144A (zh) * 2022-06-14 2022-07-15 成都数之联科技股份有限公司 图像文档的重建方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
US20210256253A1 (en) 2021-08-19
WO2020192391A1 (zh) 2020-10-01
CN109933756B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN109933756A (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
US10846524B2 (en) Table layout determination using a machine learning system
CN110334346B (zh) 一种pdf文件的信息抽取方法和装置
US6903751B2 (en) System and method for editing electronic images
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
US7705848B2 (en) Method of identifying semantic units in an electronic document
CN106599940B (zh) 图片文字的识别方法及装置
CN109522975A (zh) 手写样本生成方法、装置、计算机设备及存储介质
US20060294460A1 (en) Generating a text layout boundary from a text block in an electronic document
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
CN114005123A (zh) 一种印刷体文本版面数字化重建系统及方法
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
US20120017144A1 (en) Content analysis apparatus and method
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质
CN109522898A (zh) 手写样本图片标注方法、装置、计算机设备及存储介质
US20170132484A1 (en) Two Step Mathematical Expression Search
CN115080038A (zh) 图层处理方法、模型生成方法及设备
WO2017143973A1 (zh) 文本识别模型建立方法和装置
CN112418220A (zh) 一种单字检测方法、装置、设备及介质
CN115373658A (zh) 一种基于Web图片的前端代码自动生成方法和装置
CN113936187A (zh) 文本图像合成方法、装置、存储介质及电子设备
CN116311275B (zh) 一种基于seq2seq语言模型的文字识别方法及系统
CN104463153B (zh) 一种提高版式文档中字符识别率的方法和系统
CN113033531B (zh) 一种图像中文本识别方法、装置及电子设备
CN107241100A (zh) 字库部件压缩方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant