CN112632934A - 基于比例计算还原表格图片为可编辑的word文件表格的方法 - Google Patents

基于比例计算还原表格图片为可编辑的word文件表格的方法 Download PDF

Info

Publication number
CN112632934A
CN112632934A CN202011530378.4A CN202011530378A CN112632934A CN 112632934 A CN112632934 A CN 112632934A CN 202011530378 A CN202011530378 A CN 202011530378A CN 112632934 A CN112632934 A CN 112632934A
Authority
CN
China
Prior art keywords
picture
page
matching data
length
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011530378.4A
Other languages
English (en)
Other versions
CN112632934B (zh
Inventor
马超
孙凡
武博
张春魁
汪伟岚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI PRECISION METROLOGY AND TEST RESEARCH INSTITUTE
Original Assignee
SHANGHAI PRECISION METROLOGY AND TEST RESEARCH INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI PRECISION METROLOGY AND TEST RESEARCH INSTITUTE filed Critical SHANGHAI PRECISION METROLOGY AND TEST RESEARCH INSTITUTE
Priority to CN202011530378.4A priority Critical patent/CN112632934B/zh
Publication of CN112632934A publication Critical patent/CN112632934A/zh
Application granted granted Critical
Publication of CN112632934B publication Critical patent/CN112632934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种基于比例计算还原表格图片为可编辑的WORD文件表格的方法,本发明根据表格图片的长宽像素与word文件的页面版式按比例计算、匹配、还原的方式,将图片中的内容等比还原到Word文件的页面版式中。主要包括页面版式匹配、表格边框大小匹配、表格页面位置匹配与文字大小匹配。结果经过计算的匹配结果作为参数通过java、C#等开发语言利用Word二次开发接口在Word对应版式页面中自动绘制表格。并将OCR识别的结果,按匹配的文字格式放入指定表格单元格内。

Description

基于比例计算还原表格图片为可编辑的WORD文件表格的方法
技术领域
本发明涉及一种基于比例计算还原表格图片为可编辑的WORD文件表格的方法。
背景技术
在图片处理领域,通过图像识别技术对含有表格文档信息的识别取得了较大的突破,通过对于图片文档的版面分析,提取出文档中的表格信息,并对表格中的单元格进行拆分单元格,最终提取出表格中的文字信息。但表格单元格的特征在这种转换中丢失,表格特征无法在Word可编辑文档中直接利用。用户需要重新制作或修改绘制表格及单元格对应的宽度高度等特征方能完美复现原始编辑表格。
发明内容
本发明的目的在于提供一种基于比例计算还原表格图片为可编辑的WORD文件表格的方法。
为解决上述问题,本发明提供一种基于比例计算还原表格图片为可编辑的WORD文件表格的方法,包括:
步骤S1,获取与待识别的表格图片最接近的长宽比页面类型的实际纸张版式,作为页面匹配数据;
步骤S2,求出所述待识别的表格图片中的表格的最大长度与最大宽度,作为表格边框匹配数据;求出所述表格图片中的表格的位置,作为表格位置匹配数据;
步骤S3,获取所待识别的述表格图片的表格的单元格的文字的长宽比,作为单元格文字大小匹配数据;
步骤S4,根据所述页面匹配数据、表格边框匹配数据和表格位置匹配数据,在WORD文件中自动绘制表格,并根据单元格文字大小匹配数据自动对应的文字录入自动绘制表格内。
进一步的,在上述方法中,步骤S1,获取与待识别的表格图片最接近的长宽比页面类型的实际纸张版式,作为页面匹配数据之前,还包括:
准备表格图片,通过图像识别算法求出整张表格图片的最大外切矩形,并对表格图片的最大外切矩形进行水平修正,对待表格图片文件根据修正后的最大外切矩形进行裁剪,仅保留最大外切矩形以内的图片作为待识别的表格图片。
进一步的,在上述方法中,步骤S1,获取与待识别的表格图片最接近的长宽比页面类型的实际纸张版式,作为页面匹配数据,包括:
步骤S11,根据图片识别算法,获取待识别的表格图片的长度像素点的数量与宽度像素点的数量,得到待识别的表格图片的长宽像素比,以作为页面匹配数据;
步骤S12,基于所述待识别的表格图片的长宽像素比,计算出Word文件中常用页面类型的长宽比,作为页面字典。
进一步的,在上述方法中,步骤S2,求出所述待识别的表格图片中的表格的最大长度与最大宽度,作为表格边框匹配数据,包括:
基于图片识别算法,获取待识别的表格图片内的表格的边框的长度像素点的数量与宽度像素点的数量;
基于表格的边框的长度像素点的数量与宽度像素点的数量与所述待识别的表格图片的长宽像素比,匹配计算获得表格的边框在整个表格图片内的长度宽度占比及计算表格内的单元格长宽占比,以作为表格边框匹配数据。
进一步的,在上述方法中,步骤S2,求出所述表格图片中的表格的位置,作为表格位置匹配数据,包括:
基于图片识别算法,获取待识别的表格图片中的表格的最小外切矩形的左上角焦点的像素点,计算该像素点在整个待识别的表格图片中的位置,将该位置作为表格长宽在WORD文件的页面还原的起点位置,将所述起点位置作为表格位置匹配数据。
进一步的,在上述方法中,步骤S3,获取所待识别的述表格图片的表格的单元格的文字的长宽比,作为单元格文字大小匹配数据,包括:
计算出Word文件中常用页面类型中常用的字体的长宽度在整个页面中的长宽占比,并作为字体大小字典;
基于图片识别算法,计算出所述待识别的表格图片的的表格的单元格内的文字的最小外切矩形,根据单元格内文字的最小外切矩形长度像素点的数量和宽像素点的数量,求出该最小外切矩形的长度像素点在整个表格图片的长度像素点中的第一占比,求出该最小外切矩形的宽度像素点在整个表格图片的宽度像素点中的第二占比,将所述第一占比和第二占比作为单元格文字大小匹配数据。
进一步的,在上述方法中,步骤S4,根据所述页面匹配数据、表格边框匹配数据和表格位置匹配数据,在WORD文件中自动绘制表格,包括:
将页面匹配数据与所述页面字典进行匹配,取页面字典与页面匹配数据最接近的匹配结果作为所述待识别的表格图片与页面的自动匹配关系;
根据所述表格位置匹配数据,按比例匹配到word文件的页面中的对应位置作为表格的起始点,根据表格图片长度与宽度的比例关系,按比例在Word文件的页面中绘制同样度与宽度的比例关系的表格。
进一步的,在上述方法中,步骤S4,根据单元格文字大小匹配数据自动对应的文字录入自动绘制表格内,包括:
根据表格图片中的文字的占比关系,匹配最接近的字体大小字典,以获得目标文字的大小,并在Word文件的页面中将文字放大或缩小到目标文字的大小的相应尺寸。
与现有技术相比,本发明提出一种同时通过等比计算提取表格图片特征与文字特征的方法。该方法解决当前表格图片OCR文字识别过程中表格及文字大小等特征丢失的问题,并将表格图片格式还原到Word文件中,可以完美实现表格图片信息与文字信息特征的直接二次利用。大幅减少用户对于表格图片OCR识别结果在Word文件中手动二次修正的时间。
本发明根据表格图片的长宽像素与word文件的页面版式按比例计算、匹配、还原的方式,将图片中的内容等比还原到Word文件的页面版式中。主要包括页面版式匹配、表格边框大小匹配、表格页面位置匹配与文字大小匹配。结果经过计算的匹配结果作为参数通过java、C#等开发语言利用Word二次开发接口在Word对应版式页面中自动绘制表格。并将OCR识别的结果,按匹配的文字格式放入指定表格单元格内。
附图说明
图1是本发明一实施例的基于比例计算还原表格图片为可编辑的WORD文件表格的方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种基于比例计算还原表格图片为可编辑的WORD文件表格的方法,包括:
步骤S1,获取与待识别的表格图片最接近的长宽比页面类型的实际纸张版式,作为页面匹配数据;
步骤S2,求出所述待识别的表格图片中的表格的最大长度与最大宽度,作为表格边框匹配数据;求出所述表格图片中的表格的位置,作为表格位置匹配数据;
步骤S3,获取所待识别的述表格图片的表格的单元格的文字的长宽比,作为单元格文字大小匹配数据;
步骤S4,根据所述页面匹配数据、表格边框匹配数据和表格位置匹配数据,在WORD文件中自动绘制表格,并根据单元格文字大小匹配数据自动对应的文字录入自动绘制表格内。
在此,本发明提出一种同时通过等比计算提取表格图片特征与文字特征的方法。该方法解决当前表格图片OCR文字识别过程中表格及文字大小等特征丢失的问题,并将表格图片格式还原到Word文件中,可以完美实现表格图片信息与文字信息特征的直接二次利用。大幅减少用户对于表格图片OCR识别结果在Word文件中手动二次修正的时间。
本发明根据表格图片的长宽像素与word文件的页面版式按比例计算、匹配、还原的方式,将图片中的内容等比还原到Word文件的页面版式中。主要包括页面版式匹配、表格边框大小匹配、表格页面位置匹配与文字大小匹配。结果经过计算的匹配结果作为参数通过java、C#等开发语言利用Word二次开发接口在Word对应版式页面中自动绘制表格。并将OCR识别的结果,按匹配的文字格式放入指定表格单元格内。
本发明的基于比例计算还原表格图片为可编辑的WORD文件表格的方法一实施例中,步骤S1,获取与待识别的表格图片最接近的长宽比页面类型的实际纸张版式,作为页面匹配数据之前,还包括:
准备表格图片,通过图像识别算法求出整张表格图片的最大外切矩形,并对表格图片的最大外切矩形进行水平修正,对待表格图片文件根据修正后的最大外切矩形进行裁剪,仅保留最大外切矩形以内的图片作为待识别的表格图片。
在此,本步骤是待识别表格图片文件预处理。
本发明的基于比例计算还原表格图片为可编辑的WORD文件表格的方法一实施例中,步骤S1,获取与待识别的表格图片最接近的长宽比页面类型的实际纸张版式,作为页面匹配数据,包括:
步骤S11,根据图片识别算法,获取待识别的表格图片的长度像素点的数量与宽度像素点的数量,得到待识别的表格图片的长宽像素比,以作为页面匹配数据;
步骤S12,基于所述待识别的表格图片的长宽像素比,计算出Word文件中常用页面类型的长宽比,作为页面字典。
在此,可以计算出Word文件中常用页面类型的长宽比作为页面字典备用,包含A4页面、A5页面、A3页面等等。如A4的长宽比为2.97:2.1。
本发明的基于比例计算还原表格图片为可编辑的WORD文件表格的方法一实施例中,步骤S2,求出所述待识别的表格图片中的表格的最大长度与最大宽度,作为表格边框匹配数据,包括:
基于图片识别算法,获取待识别的表格图片内的表格的边框的长度像素点的数量与宽度像素点的数量;
基于表格的边框的长度像素点的数量与宽度像素点的数量与所述待识别的表格图片的长宽像素比,匹配计算获得表格的边框在整个表格图片内的长度宽度占比及计算表格内的单元格长宽占比,以作为表格边框匹配数据。
本发明的基于比例计算还原表格图片为可编辑的WORD文件表格的方法一实施例中,步骤S2,求出所述表格图片中的表格的位置,作为表格位置匹配数据,包括:
基于图片识别算法,获取待识别的表格图片中的表格的最小外切矩形的左上角焦点的像素点,计算该像素点在整个待识别的表格图片中的位置,将该位置作为表格长宽在WORD文件的页面还原的起点位置,将所述起点位置作为表格位置匹配数据。
本发明的基于比例计算还原表格图片为可编辑的WORD文件表格的方法一实施例中,步骤S3,获取所待识别的述表格图片的表格的单元格的文字的长宽比,作为单元格文字大小匹配数据,包括:
计算出Word文件中常用页面类型中常用的字体的长宽度在整个页面中的长宽占比,并作为字体大小字典;
基于图片识别算法,计算出所述待识别的表格图片的的表格的单元格内的文字的最小外切矩形,根据单元格内文字的最小外切矩形长度像素点的数量和宽像素点的数量,求出该最小外切矩形的长度像素点在整个表格图片的长度像素点中的第一占比,求出该最小外切矩形的宽度像素点在整个表格图片的宽度像素点中的第二占比,将所述第一占比和第二占比作为单元格文字大小匹配数据。
本发明的基于比例计算还原表格图片为可编辑的WORD文件表格的方法一实施例中,步骤S4,根据所述页面匹配数据、表格边框匹配数据和表格位置匹配数据,在WORD文件中自动绘制表格,包括:
将页面匹配数据与所述页面字典进行匹配,取页面字典与页面匹配数据最接近的匹配结果作为所述待识别的表格图片与页面的自动匹配关系;
根据所述表格位置匹配数据,按比例匹配到word文件的页面中的对应位置作为表格的起始点,根据表格图片长度与宽度的比例关系,按比例在Word文件的页面中绘制同样度与宽度的比例关系的表格。
本发明的基于比例计算还原表格图片为可编辑的WORD文件表格的方法一实施例中,步骤S4,根据单元格文字大小匹配数据自动对应的文字录入自动绘制表格内,包括:
根据表格图片中的文字的占比关系,匹配最接近的字体大小字典,以获得目标文字的大小,并在Word文件的页面中将文字放大或缩小到目标文字的大小的相应尺寸。
具体的,如图1所示,本专利发明创造的方法执行过程由页面类型匹配、表格大小及位置匹配、表格文字及大小匹配、按特征实现WORD文件还原几个过程组成。
所述“页面类型匹配”过程是指通过A4、A3、A2等不同纸张页面的长度与宽度获得不同类型的长宽比,获取表格图片的有效像素长宽比,根据图片长宽像素比获取图片与实际纸张版式最接近的长宽比页面类型。
所述“表格大小及位置匹配”是指在指在获取表格图片的最大长度与最大宽度后,计算出在整幅有效图片长宽中表格长度、宽度所占比率得出表格实际尺寸。根据表格的最小外切矩形的焦点坐标求出表格在整幅图片的位置。
所述“表格文字大小匹配”是指根据图片中表格单元格的文字,求出文字的最小外切矩形,计算文字的高度像素与宽度像素,得到表格图片文字的长宽比。并将图片对应页面不同字体的长宽比与之对应,最为相似的页面字体则是匹配字体。
所述“按匹配结果还原WORD文件”是指根据计算得出的页面匹配数据、表格边框匹配数据、表格位置匹配数据及单元格文字大小匹配数据、通过Java、C#等编程语言调用word二次开发接口,通过上述占比参数自动绘制表格,并在表格内根据文字参数自动将识别的文字结果按文字格式录入表格。
通过上述方法实现了表格图片的特征与内容的按比率还原,从而最大限度的减少了传统表格图片进行文字识别后,人工通过word对表格及文件信息二次编辑的工作量。
本发明在不经过人工编辑的情况下,实现图片中表格的格式信息按原图片比率自动生成为可编辑的Word文件表格,表格图片格式及文字可直接利用,提高对于表格图片格式及表格文字的利用率,本发明属于OCR(光学字符识别)技术领域、图像识别领域与文本处理领域。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (8)

1.一种基于比例计算还原表格图片为可编辑的WORD文件表格的方法,其特征在于,包括:
步骤S1,获取与待识别的表格图片最接近的长宽比页面类型的实际纸张版式,作为页面匹配数据;
步骤S2,求出所述待识别的表格图片中的表格的最大长度与最大宽度,作为表格边框匹配数据;求出所述表格图片中的表格的位置,作为表格位置匹配数据;
步骤S3,获取所待识别的述表格图片的表格的单元格的文字的长宽比,作为单元格文字大小匹配数据;
步骤S4,根据所述页面匹配数据、表格边框匹配数据和表格位置匹配数据,在WORD文件中自动绘制表格,并根据单元格文字大小匹配数据自动对应的文字录入自动绘制表格内。
2.如权利要求1所述的基于比例计算还原表格图片为可编辑的WORD文件表格的方法,其特征在于,步骤S1,获取与待识别的表格图片最接近的长宽比页面类型的实际纸张版式,作为页面匹配数据之前,还包括:
准备表格图片,通过图像识别算法求出整张表格图片的最大外切矩形,并对表格图片的最大外切矩形进行水平修正,对待表格图片文件根据修正后的最大外切矩形进行裁剪,仅保留最大外切矩形以内的图片作为待识别的表格图片。
3.如权利要求1所述的基于比例计算还原表格图片为可编辑的WORD文件表格的方法,其特征在于,步骤S1,获取与待识别的表格图片最接近的长宽比页面类型的实际纸张版式,作为页面匹配数据,包括:
步骤S11,根据图片识别算法,获取待识别的表格图片的长度像素点的数量与宽度像素点的数量,得到待识别的表格图片的长宽像素比,以作为页面匹配数据;
步骤S12,基于所述待识别的表格图片的长宽像素比,计算出Word文件中常用页面类型的长宽比,作为页面字典。
4.如权利要求3所述的基于比例计算还原表格图片为可编辑的WORD文件表格的方法,其特征在于,步骤S2,求出所述待识别的表格图片中的表格的最大长度与最大宽度,作为表格边框匹配数据,包括:
基于图片识别算法,获取待识别的表格图片内的表格的边框的长度像素点的数量与宽度像素点的数量;
基于表格的边框的长度像素点的数量与宽度像素点的数量与所述待识别的表格图片的长宽像素比,匹配计算获得表格的边框在整个表格图片内的长度宽度占比及计算表格内的单元格长宽占比,以作为表格边框匹配数据。
5.如权利要求4所述的基于比例计算还原表格图片为可编辑的WORD文件表格的方法,其特征在于,步骤S2,求出所述表格图片中的表格的位置,作为表格位置匹配数据,包括:
基于图片识别算法,获取待识别的表格图片中的表格的最小外切矩形的左上角焦点的像素点,计算该像素点在整个待识别的表格图片中的位置,将该位置作为表格长宽在WORD文件的页面还原的起点位置,将所述起点位置作为表格位置匹配数据。
6.如权利要求5所述的基于比例计算还原表格图片为可编辑的WORD文件表格的方法,其特征在于,步骤S3,获取所待识别的述表格图片的表格的单元格的文字的长宽比,作为单元格文字大小匹配数据,包括:
计算出Word文件中常用页面类型中常用的字体的长宽度在整个页面中的长宽占比,并作为字体大小字典;
基于图片识别算法,计算出所述待识别的表格图片的的表格的单元格内的文字的最小外切矩形,根据单元格内文字的最小外切矩形长度像素点的数量和宽像素点的数量,求出该最小外切矩形的长度像素点在整个表格图片的长度像素点中的第一占比,求出该最小外切矩形的宽度像素点在整个表格图片的宽度像素点中的第二占比,将所述第一占比和第二占比作为单元格文字大小匹配数据。
7.如权利要求6所述的基于比例计算还原表格图片为可编辑的WORD文件表格的方法,其特征在于,步骤S4,根据所述页面匹配数据、表格边框匹配数据和表格位置匹配数据,在WORD文件中自动绘制表格,包括:
将页面匹配数据与所述页面字典进行匹配,取页面字典与页面匹配数据最接近的匹配结果作为所述待识别的表格图片与页面的自动匹配关系;
根据所述表格位置匹配数据,按比例匹配到word文件的页面中的对应位置作为表格的起始点,根据表格图片长度与宽度的比例关系,按比例在Word文件的页面中绘制同样度与宽度的比例关系的表格。
8.如权利要求7所述的基于比例计算还原表格图片为可编辑的WORD文件表格的方法,其特征在于,步骤S4,根据单元格文字大小匹配数据自动对应的文字录入自动绘制表格内,包括:
根据表格图片中的文字的占比关系,匹配最接近的字体大小字典,以获得目标文字的大小,并在Word文件的页面中将文字放大或缩小到目标文字的大小的相应尺寸。
CN202011530378.4A 2020-12-22 2020-12-22 基于比例计算还原表格图片为可编辑的word文件表格的方法 Active CN112632934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011530378.4A CN112632934B (zh) 2020-12-22 2020-12-22 基于比例计算还原表格图片为可编辑的word文件表格的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011530378.4A CN112632934B (zh) 2020-12-22 2020-12-22 基于比例计算还原表格图片为可编辑的word文件表格的方法

Publications (2)

Publication Number Publication Date
CN112632934A true CN112632934A (zh) 2021-04-09
CN112632934B CN112632934B (zh) 2023-01-17

Family

ID=75321027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011530378.4A Active CN112632934B (zh) 2020-12-22 2020-12-22 基于比例计算还原表格图片为可编辑的word文件表格的方法

Country Status (1)

Country Link
CN (1) CN112632934B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN107480121A (zh) * 2017-09-04 2017-12-15 江苏中威科技软件系统有限公司 版式数据流表单的制作方法
JP2018195077A (ja) * 2017-05-17 2018-12-06 富士通株式会社 文書変換プログラム、文書変換方法および文書変換装置
CN109255112A (zh) * 2018-08-29 2019-01-22 中国信息通信研究院 一种报告自动生成方法和系统
CN109508187A (zh) * 2018-10-10 2019-03-22 国网新疆电力有限公司信息通信公司 基于html的微信公众号图文编辑器构建方法及其编辑器
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN110337634A (zh) * 2017-07-14 2019-10-15 惠普打印机韩国有限公司 经由附加的安全处理的拉取打印
CN111382559A (zh) * 2020-04-17 2020-07-07 中交第一公路勘察设计研究院有限公司 应用于桥梁健康监测的表格自适应绘制方法
CN111679474A (zh) * 2020-06-15 2020-09-18 深圳市华星光电半导体显示技术有限公司 像素设计方法、装置及电子设备
CN111695553A (zh) * 2020-06-05 2020-09-22 北京百度网讯科技有限公司 表格识别方法、装置、设备和介质
CN111881659A (zh) * 2020-09-28 2020-11-03 江西汉辰信息技术股份有限公司 表格图片的处理方法、系统、可读存储介质及计算机设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
JP2018195077A (ja) * 2017-05-17 2018-12-06 富士通株式会社 文書変換プログラム、文書変換方法および文書変換装置
CN110337634A (zh) * 2017-07-14 2019-10-15 惠普打印机韩国有限公司 经由附加的安全处理的拉取打印
CN107480121A (zh) * 2017-09-04 2017-12-15 江苏中威科技软件系统有限公司 版式数据流表单的制作方法
CN109255112A (zh) * 2018-08-29 2019-01-22 中国信息通信研究院 一种报告自动生成方法和系统
CN109508187A (zh) * 2018-10-10 2019-03-22 国网新疆电力有限公司信息通信公司 基于html的微信公众号图文编辑器构建方法及其编辑器
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN111382559A (zh) * 2020-04-17 2020-07-07 中交第一公路勘察设计研究院有限公司 应用于桥梁健康监测的表格自适应绘制方法
CN111695553A (zh) * 2020-06-05 2020-09-22 北京百度网讯科技有限公司 表格识别方法、装置、设备和介质
CN111679474A (zh) * 2020-06-15 2020-09-18 深圳市华星光电半导体显示技术有限公司 像素设计方法、装置及电子设备
CN111881659A (zh) * 2020-09-28 2020-11-03 江西汉辰信息技术股份有限公司 表格图片的处理方法、系统、可读存储介质及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚鹏威等: "表格图像转换成Word表格的研究", 《重庆理工大学学报》 *
田翠华等: "PDF文档表格信息的识别与提取", 《厦门理工学院学报》 *

Also Published As

Publication number Publication date
CN112632934B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
WO2020192391A1 (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
US20190304066A1 (en) Synthesis method of chinese printed character images and device thereof
EP1999688B1 (en) Converting digital images containing text to token-based files for rendering
US6640010B2 (en) Word-to-word selection on images
CN113139445A (zh) 表格识别方法、设备及计算机可读存储介质
US20160203625A1 (en) Providing in-line previews of a source image for aid in correcting ocr errors
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN113901933A (zh) 基于人工智能的电子发票信息抽取方法、装置及设备
CN112749649A (zh) 一种智能识别并生成电子合同的方法及系统
CN114782974A (zh) 表格识别方法、系统、智能终端及计算机可读存储介质
CN112416340B (zh) 基于草图的网页生成方法和系统
JP2022092119A (ja) 画像処理装置、画像処理方法およびプログラム
CN112632934B (zh) 基于比例计算还原表格图片为可编辑的word文件表格的方法
JP2004287682A (ja) 加筆画像抽出装置、プログラム、記憶媒体及び加筆画像抽出方法
CN115953783A (zh) 基于图片的工程数据转换方法、装置、设备及存储介质
CN114332866B (zh) 一种基于图像处理的文献曲线分离与坐标信息提取方法
CN112149679B (zh) 一种基于ocr文字识别提取公文要素的方法及装置
US8045229B2 (en) Image processing apparatus, image processing method and medium
CN106919546A (zh) 一种文档辅助创建方法及系统
CN113591846A (zh) 图像扭曲系数提取方法、扭曲矫正方法及系统、电子设备
CN113793264A (zh) 一种基于卷积模型的档案图像处理方法、系统和电子设备
CN112069973A (zh) 印章处理方法、装置、设备及存储介质
CN116776828B (zh) 文本渲染方法、装置、设备和存储介质
US20240193217A1 (en) Information processing apparatus, method of controlling information processing apparatus, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant