CN113569677B - 一种基于扫描件的纸质试验报告生成方法 - Google Patents

一种基于扫描件的纸质试验报告生成方法 Download PDF

Info

Publication number
CN113569677B
CN113569677B CN202110806535.8A CN202110806535A CN113569677B CN 113569677 B CN113569677 B CN 113569677B CN 202110806535 A CN202110806535 A CN 202110806535A CN 113569677 B CN113569677 B CN 113569677B
Authority
CN
China
Prior art keywords
cell
picture
position information
test report
cells
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110806535.8A
Other languages
English (en)
Other versions
CN113569677A (zh
Inventor
冯冰
程法庆
张锡喆
杜岳凡
殷震
马泊宁
王婧
金岩
周亚楠
方琼
顾庆东
刘常军
王云龙
邹培根
曲童
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110806535.8A priority Critical patent/CN113569677B/zh
Publication of CN113569677A publication Critical patent/CN113569677A/zh
Application granted granted Critical
Publication of CN113569677B publication Critical patent/CN113569677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种基于扫描件的纸质试验报告生成方法,涉及图像处理的技术领域,具体包括如下步骤:获取图片以提取表格;对表格中的位置进行排序;对排序好的表格进行文字识别以及校验以生成试验报告。通过本发明提供的方法可以缓解现有OCR技术中图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本的问题,同时降低工作强度、提高工作效率、推动自动化办公。

Description

一种基于扫描件的纸质试验报告生成方法
技术领域
本发明涉及图像处理的技术领域,尤其是涉及一种基于扫描件的纸质试验报告生成方法。
背景技术
在各行各业中,试验检测的重要性不言而喻,试验报告是试验的过程记录以及结果输出,是对设备、工程等信息检测和评价的重要依据。当前,相关的试验报告数据的处理方式主要为:对照纸质记录或word文档类试验报告逐条筛选、人工录入至管理系统内。这种基于人工机械地数据处理方式不仅效率低、易出错,而且无法形成数字化对比。其中,纸质报告录入系统的难度尤其大。
OCR技术可以快速的将纸质资料转换为电子资料。但一般的OCR技术主要是对图片中的文本内容进行识别,并且对图片大小、文本位置等要求严格,特别是对于试验报告类的扫描图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本,不方便其他如录入数据库等数据操作。因此,提供一种能够有效识别、识全纸质试验报告类数据并结构化的方法对于降低工作强度、提高工作效率、推动自动化办公具有重要意义。
发明内容
有鉴于此,本发明的目的在于提供一种基于扫描件的纸质试验报告生成方法,以缓解现有OCR技术中图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本的问题,同时降低工作强度、提高工作效率、推动自动化办公。
本发明提供了一种基于扫描件的纸质试验报告生成方法,包括:具体包括如下步骤:
获取图片以提取表格;
对表格中的位置进行排序;
对排序好的表格进行文字识别以及校验以生成试验报告。
优选的,所述获取图片以提取表格的步骤包括:
对图片进行仿射变化;
对进行仿射变化后的图片进行边缘检测以获取试验报告表头与表格主体;
获取表格主体的位置信息,所述表格主体的位置信息包括左上点横坐标、左上点纵坐标、单元格的宽以及单元格的高;
设置第一阈值,并判定所述单元格的宽以及所述单元格的高的乘积是否在第一阈值范围内,
若不在,则对此判定单元格所在的点为噪声数据。
优选的,所述对表格中的位置进行排序的步骤包括:
设置第二阈值,若所述相邻单元格左上点纵坐标之间差值在一定阈值内,则判定相邻的单元格在同一行;
获取同一行的单元格,获取单元格的横坐标并按升序排列,
基于单元格位置信息,对单元格进行输出。
优选的,所述对排序好的表格进行文字识别以及校验以生成试验报告的步骤包括:
采用深度学习对文字进行分项图片截取并识别。
本发明实施例带来了以下有益效果:本发明提供了一种基于扫描件的纸质试验报告生成方法,,具体包括如下步骤:获取图片以提取表格;对表格中的位置进行排序;对排序好的表格进行文字识别以及校验以生成试验报告。通过本发明提供的方法可以缓解现有OCR技术中图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本的问题,同时降低工作强度、提高工作效率、推动自动化办公。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的“220kV金属氧化物避雷器交接试验报告”扫描图片;
图2为本发明实施例提供的仿射变换后表格主体;
图3为本发明实施例提供的仿射变换后表格表头;
图4为本发明实施例提供的边缘检测并表示的试验报告;
图5为本发明实施例提供的为表格坐标提取可视化展示
图6为本发明实施例提供的单元格截取图片。
图7为本发明实施例提供的识别效果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,一般的OCR技术主要是对图片中的文本内容进行识别,并且对图片大小、文本位置等要求严格,特别是对于试验报告类的扫描图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本,不方便其他如录入数据库等数据操作,基于此,本发明实施例提供的一种基于扫描件的纸质试验报告生成方法,可以缓解现有OCR技术中图片,识别准确率极低,并且识别内容不能够表示文本单元格所属行列,难以做到结构化文本的问题,同时降低工作强度、提高工作效率、推动自动化办公。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于扫描件的纸质试验报告生成方法进行详细介绍。
实施例一:
结合图1至吐6,本发明提供了一种基于扫描件的纸质试验报告生成方法,包括:具体包括如下步骤:
获取图片以提取表格;
对表格中的位置进行排序;
对排序好的表格进行文字识别以及校验以生成试验报告。
优选的,所述获取图片以提取表格的步骤包括:
对图片进行仿射变化;
具体的,所述仿射变化的作用为对图片中的表格进行拉正;
对进行仿射变化后的图片进行边缘检测以获取试验报告表头与表格主体;
进一步的,分别采用横向和纵向的卷积核进行提取,识别出表格中的横线与纵线,并用颜色线条进行标识
获取表格主体的位置信息,所述表格主体的位置信息包括左上点横坐标、左上点纵坐标、单元格的宽以及单元格的高;
在本发明提供的实施例中,所述左上点横坐标、左上点纵坐标、单元格的宽以及单元格的高分别为(x,y,w,h);
设置第一阈值,并判定所述单元格的宽以及所述单元格的高的乘积是否在第一阈值范围内,
若不在,则对此判定单元格所在的点为噪声数据。
进一步的,当判定为噪声数据时,对策单元格的点进行剔除。
优选的,所述对表格中的位置进行排序的步骤包括:
设置第二阈值,若所述相邻单元格左上点纵坐标之间差值在一定阈值内,则判定相邻的单元格在同一行;
获取同一行的单元格,获取单元格的横坐标并按升序排列,
基于单元格位置信息,对单元格进行输出。
优选的,所述对排序好的表格进行文字识别以及校验以生成试验报告的步骤包括:
采用深度学习对文字进行分项图片截取并识别。
进一步的,本文本识别结果中带有文本内容所属单元格位置信息;
进一步的,本例使用开源算法CTPN+RCNN+CTC进行中文文本识别,其中,CTPN对于表格中部分文字位置不能正确获取,本方法采用opencv设计一种方形卷积核(5*5)进行卷积与对并行方式,对单元格图片文字位置进行获取。
后续地,推荐专业试验人员根据表格与试验本身定义xml结构化模板,并落实每个试验数据对应单元格位置信息,根据位置信息获取图片内容后填入对应模板中,生成结构化数据。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (1)

1.一种基于扫描件的纸质试验报告生成方法,其特征在于,具体包括如下步骤:
步骤1、获取图片以提取表格;
对图片进行仿射变化;
对进行仿射变化后的图片进行边缘检测以获取试验报告表头与表格主体;
获取表格主体的位置信息,所述表格主体的位置信息包括左上点横坐标、左上点纵坐标、单元格的宽以及单元格的高;
设置第一阈值,并判定所述单元格的宽以及所述单元格的高的乘积是否在第一阈值范围内,
若不在,则对此判定单元格所在的点为噪声数据;
当判定为噪声数据时,对单元格所在的点进行剔除;
步骤2、对表格中的位置进行排序;
设置第二阈值,若相邻单元格左上点纵坐标之间差值在一定阈值内,则判定相邻的单元格在同一行;
获取同一行的单元格,获取单元格的横坐标并按升序排列,
基于单元格位置信息,对单元格进行输出;
步骤3、对排序好的表格进行文字识别以及校验以生成试验报告;
采用深度学习对文字进行分项图片截取并识别;
文本识别结果中带有文本内容所属单元格位置信息;
其中,使用开源算法进行中文文本识别,采用方形卷积核进行卷积,对单元格图片文字位置进行获取;
专业试验人员根据表格与试验本身定义xml结构化模板,并落实每个试验数据对应单元格位置信息,根据位置信息获取图片内容后填入对应模板中,生成结构化数据。
CN202110806535.8A 2021-07-16 2021-07-16 一种基于扫描件的纸质试验报告生成方法 Active CN113569677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110806535.8A CN113569677B (zh) 2021-07-16 2021-07-16 一种基于扫描件的纸质试验报告生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110806535.8A CN113569677B (zh) 2021-07-16 2021-07-16 一种基于扫描件的纸质试验报告生成方法

Publications (2)

Publication Number Publication Date
CN113569677A CN113569677A (zh) 2021-10-29
CN113569677B true CN113569677B (zh) 2024-07-16

Family

ID=78165317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110806535.8A Active CN113569677B (zh) 2021-07-16 2021-07-16 一种基于扫描件的纸质试验报告生成方法

Country Status (1)

Country Link
CN (1) CN113569677B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120302B (zh) * 2021-11-23 2023-04-21 无锡医迈德科技有限公司 一种从表格图像中抽取结构化信息的方法
US20230351305A1 (en) * 2022-04-28 2023-11-02 R.P. Scherer Technologies, Llc Data analysis and reporting systems and methods

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200117A (zh) * 2020-10-22 2021-01-08 长城计算机软件与系统有限公司 表格识别方法及装置
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质
CN112800824A (zh) * 2020-12-08 2021-05-14 北京方正印捷数码技术有限公司 扫描文件的处理方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574486A (zh) * 2015-11-25 2016-05-11 成都数联铭品科技有限公司 一种图像表格文字切分方法
CN109635729B (zh) * 2018-12-12 2022-02-08 厦门商集网络科技有限责任公司 一种表格识别方法及终端
CN110008809B (zh) * 2019-01-04 2020-08-25 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器
CN109961008B (zh) * 2019-02-13 2024-07-16 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN112686258A (zh) * 2020-12-10 2021-04-20 广州广电运通金融电子股份有限公司 体检报告信息结构化方法、装置、可读存储介质和终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200117A (zh) * 2020-10-22 2021-01-08 长城计算机软件与系统有限公司 表格识别方法及装置
CN112800824A (zh) * 2020-12-08 2021-05-14 北京方正印捷数码技术有限公司 扫描文件的处理方法、装置、设备及存储介质
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113569677A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
CN113569677B (zh) 一种基于扫描件的纸质试验报告生成方法
CN106960208A (zh) 一种仪表液晶数字自动切分和识别的方法及系统
CN101944179A (zh) 图像处理装置和图像处理方法
RU2640322C2 (ru) Способы и системы эффективного автоматического распознавания символов
CN110197238B (zh) 一种字体类别的识别方法、系统及终端设备
CN106446882A (zh) 一种基于8字码的智能留痕阅卷方法
CN102184383B (zh) 一种印刷体字符图像样本的自动生成方法
CN114549993B (zh) 实验中线段图像的评分方法、系统、设备及可读存储介质
CN115240213A (zh) 表格图像识别方法、装置、电子设备及存储介质
CN103530625A (zh) 一种基于数字图像处理的光学字符识别方法
CN109635729B (zh) 一种表格识别方法及终端
US11906441B2 (en) Inspection apparatus, control method, and program
Sanguansat Robust and low-cost Optical Mark Recognition for automated data entry
RU2597163C2 (ru) Сравнение документов с использованием достоверного источника
CN113704111A (zh) 页面自动化测试方法、装置、设备及存储介质
CN110363092B (zh) 柱状图识别方法、装置、设备及计算机可读存储介质
CN111861997A (zh) 一种花纹板材圆孔尺寸检测方法、系统及装置
CN110610519A (zh) 一种基于深度学习的车窗定位方法
CN116311269A (zh) 一种公式图片识别判题系统
CN113158632B (zh) Cad图纸的表格重建方法和计算机可读存储介质
CN114038000A (zh) 一种图像表格的结构化方法、系统和电子设备
RU2582064C1 (ru) Способы и системы эффективного автоматического распознавания символов с использованием леса решений
CN106372632B (zh) 一种基于ocr的漏识文字自动检测的方法
CN113128486B (zh) 手写数学公式样本库的构建方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant