CN110705434A - 一种文档内容检查与编辑的交互方法 - Google Patents

一种文档内容检查与编辑的交互方法 Download PDF

Info

Publication number
CN110705434A
CN110705434A CN201910919097.9A CN201910919097A CN110705434A CN 110705434 A CN110705434 A CN 110705434A CN 201910919097 A CN201910919097 A CN 201910919097A CN 110705434 A CN110705434 A CN 110705434A
Authority
CN
China
Prior art keywords
information
document
editing
identification
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910919097.9A
Other languages
English (en)
Inventor
汪雨
熊培
王威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Huihang Jiexun Network Technology Co Ltd
Original Assignee
Shanghai Huihang Jiexun Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Huihang Jiexun Network Technology Co Ltd filed Critical Shanghai Huihang Jiexun Network Technology Co Ltd
Priority to CN201910919097.9A priority Critical patent/CN110705434A/zh
Publication of CN110705434A publication Critical patent/CN110705434A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及一种文档内容检查与编辑的交互方法,属于计算机领域。该方法包括以下步骤:(1)进入表单制作页面,提取的信息以文档为单位的列表形式展示;(2)点击提取信息的核心字段,放大镜展示出信息在原文档中识别区域;(3)通过比对原文档区域中的信息与提取的信息判断信息是否有误,对识别错误的信息重新输入;(4)点击下一条识别信息进行校对与编辑;(5)编辑完毕后,保存,生成表单;(6)点击查看,或校对、编辑文档信息列表中的其它条目。本发明极大提高了业务人员的工作效率,具有良好的实用价值。

Description

一种文档内容检查与编辑的交互方法
技术领域
本发明属于计算机领域,涉及一种文档内容检查与编辑的交互方法。
背景技术
目前,文字识别算法对图像中的文字识别存在误识别的情况,而且,对于海关报关之类的文档需要在保证内容准确无误的前提下,才能进行提交、报关等后续操作。因此,对于重要的文档,在机器对内容识别的基础上,还需要人工检查与纠错。
现阶段,传统的检查方式是,打开原文当与识别结果进行比对,而在信息较多的情况下,会发生漏看或错看的情况。流程如图1所示:
1)进入表单制作页面,文档以列表形式展示;
2)点击一个文档,进入文档信息校对与编辑页面;
3)提取出的信息浮在原文档,或位于原文档侧面,业务人员通过比对原文档信息与提取的信息判断信息是否有误,对识别错误的信息重新输入;
4)编辑完毕后,保存,生成表单,页面跳转到文档列表页;
5)点击查看,或校对、编辑其它文档。
发明内容
有鉴于此,本发明的目的在于提供一种文档内容检查与编辑的交互方法。
为达到上述目的,本发明提供如下技术方案:
一种文档内容检查与编辑的交互方法,该方法包括以下步骤:
(1)进入表单制作页面,提取的信息以文档为单位的列表形式展示;
(2)点击提取信息的核心字段,放大镜展示出信息在原文档中识别区域;
(3)通过比对原文档区域中的信息与提取的信息判断信息是否有误,对识别错误的信息重新输入;
(4)点击下一条识别信息进行校对与编辑;
(5)编辑完毕后,保存,生成表单;
(6)点击查看,或校对、编辑文档信息列表中的其它条目。
一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法。
一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现所述的方法。
本发明的有益效果在于:本发明极大提高了业务人员的工作效率,具有良好的实用价值。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为现有文档内容检查与编辑的交互方法流程图;
图2为本发明文档内容检查与编辑的交互方法流程图;
图3为文档信息提取流程图;
图4为实施例流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图2所示,本发明的步骤为:
(1)进入表单制作页面,提取的信息以文档为单位的列表形式展示;
(2)点击提取信息的核心字段,放大镜展示出信息在原文档中识别区域;
(3)业务人员通过比对原文档区域中的信息与提取的信息判断信息是否有误,对识别错误的信息重新输入;
(4)点击下一条识别信息进行校对与编辑;
(5)编辑完毕后,保存,生成表单;
(6)点击查看,或校对、编辑文档信息列表中的其它条目。
使用本发明的方法,所有的内容都可以在同一个页面展示与编辑,减少了多个页面的点击过程;
信息提取过程如图3所示。
以“海关报关单”为例说明此交互过程:
文档为PDF格式,文档上传;
解析PDF为文本与坐标,并将PDF转为图片
原始的文本与坐标进入文档信息匹配模型,解析出key_value对,key指的是文档中的核心字段,value为该字段的值;
提取的信息(key_value对)传至提取信息列表页面;
业务人员通过比较提取的信息与原文档相应区域的信息,校对并编辑;
逐一对提取信息校对、编辑,完成制表过程。
验证结果:文档检查与编辑的速度提高了30%。
如图4所示,本发明适用于结构化及半结构化文档,如电报报文、通知、公告、简历、单据等。通过文本定位、文本识别、Open CV等技术从原始文档中抽取核心信息。
该发明已用于海关类文档信息提取,包括报关单、委托书、装箱单、发票、检疫单等。
以委托书为例:
文档格式包括PDF、Excel、Word、Image。
1.通过文本定位与文本识别技术从原始文档中提取出信息
提取的信息为JSON格式。
JSON的键为委托书中的核心字段,字段数量根据业务需求增加或减少,JSON每个键对应的值是数组,数组中存放核心字段对应的文本内容与文本坐标。
其中,文本坐标是相对于文本块在图片中的位置,对于PDF、Excel、Word格式,会先将文档转换成图片。
实际内容如下:
{'发货人':['QUECHEN SILICON CHEMICAL CO.,LTD.DONGGANG TOWN,XISHANDISTRICT,WUXI,JIANGSUPROVINCE,CHINA,ZIP:214196,TAX ID:91320200746213635E',[167,340,1087,527]],
'收货人':['DRESEN QUIMICA S.A.P.I.DE C.V.AVENIDA HIDALGO NO.71,COLONIA DEL CARMEN,C.P.04100,DELEGACION COYOACAN,MEXICO CITY,MEXICO,TEL:+525556889292,FAX:+525556889140TAX ID:DQU-870506-6T3',[169,715,867,931]],
'通知人':['SAMEAS CONSIGNEE',[171,1209,511,1263]],
'提单份数':['3',[1297,1181,1391,1231]],
'船公司':['COSCO中远',[1239,1235,1593,1285]],
'开航日期':['2019/1/26',[1481,1097,1765,1151]],
'运输条款':['CY-CY',[1325,1359,1483,1413]],
'起运港':['MANZANILLO',[375,1585,619,1625]],
'卸货港':['SHANGHAI',[917,1577,1385,1631]],
'交货地':['SHANGHAI',[1793,1575,2061,1623]],
'件数':['50PKGS',[725,1735,875,1791]],
'毛重':['2500KGS',[1723,1735,1915,1795]],
'体积':['24CBM',[2029,1735,2241,1791]]}
2.将JSON数据返回给前段用于展示
文档内容形成列表项。
3.点击文档提取的内容校对
点击核心字段,利用Open CV相关技术,通过文本块坐标,获取到图片中的相应区域,比对JSON值中的文本内容与图片区域的内容。
4.编辑信息
若JSON中提取的文本信息不正确,直接根据图片区域中的内容编辑JSON,完成后保存即可。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的文档内容检查与编辑的交互方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种文档内容检查与编辑的交互方法,其特征在于:该方法包括以下步骤:
(1)进入表单制作页面,提取的信息以文档为单位的列表形式展示;
(2)点击提取信息的核心字段,放大镜展示出信息在原文档中识别区域;
(3)通过比对原文档区域中的信息与提取的信息判断信息是否有误,对识别错误的信息重新输入;
(4)点击下一条识别信息进行校对与编辑;
(5)编辑完毕后,保存,生成表单;
(6)点击查看,或校对、编辑文档信息列表中的其它条目。
2.一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1所述的方法。
3.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1所述的方法。
CN201910919097.9A 2019-09-26 2019-09-26 一种文档内容检查与编辑的交互方法 Pending CN110705434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910919097.9A CN110705434A (zh) 2019-09-26 2019-09-26 一种文档内容检查与编辑的交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910919097.9A CN110705434A (zh) 2019-09-26 2019-09-26 一种文档内容检查与编辑的交互方法

Publications (1)

Publication Number Publication Date
CN110705434A true CN110705434A (zh) 2020-01-17

Family

ID=69197339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910919097.9A Pending CN110705434A (zh) 2019-09-26 2019-09-26 一种文档内容检查与编辑的交互方法

Country Status (1)

Country Link
CN (1) CN110705434A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1527226A (zh) * 2003-02-13 2004-09-08 将文档的元素与数据库中相应的字段、查询和/或过程相链接
CN102262640A (zh) * 2010-05-31 2011-11-30 中国移动通信集团贵州有限公司 一种全文检索文档数据库的方法及装置
CN103518195A (zh) * 2011-03-10 2014-01-15 J·瑞卡鲍格 用于基于矢量的表格字段文档的设备、系统和方法
CN105302776A (zh) * 2014-05-30 2016-02-03 金舷国际文创事业有限公司 数据校对平台伺服器
CA2975477A1 (en) * 2016-08-04 2018-02-04 Lulu Software Holdings System and method for the online editing of pdf documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1527226A (zh) * 2003-02-13 2004-09-08 将文档的元素与数据库中相应的字段、查询和/或过程相链接
CN102262640A (zh) * 2010-05-31 2011-11-30 中国移动通信集团贵州有限公司 一种全文检索文档数据库的方法及装置
CN103518195A (zh) * 2011-03-10 2014-01-15 J·瑞卡鲍格 用于基于矢量的表格字段文档的设备、系统和方法
CN105302776A (zh) * 2014-05-30 2016-02-03 金舷国际文创事业有限公司 数据校对平台伺服器
CA2975477A1 (en) * 2016-08-04 2018-02-04 Lulu Software Holdings System and method for the online editing of pdf documents

Similar Documents

Publication Publication Date Title
Kang et al. A digitization and conversion tool for imaged drawings to intelligent piping and instrumentation diagrams (P&ID)
US9870352B2 (en) Creating a dashboard for tracking a workflow process involving handwritten forms
KR101161564B1 (ko) 단말 장치 및 상기 단말 장치의 개체 색상 변환 방법
US20190294912A1 (en) Image processing device, image processing method, and image processing program
KR100570224B1 (ko) 전표정의데이터 작성방법 및 전표처리장치
US9558295B2 (en) System for data extraction and processing
JP2019079347A (ja) 文字種推定システム、文字種推定方法、および文字種推定プログラム
CN110210470A (zh) 商品信息图像识别系统
US20080008391A1 (en) Method and System for Document Form Recognition
CN110413979A (zh) 基于图像识别技术的行业表格数字化处理方法
JP6845911B1 (ja) 文字処理システム及びプログラム
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
CN112560855B (zh) 图像信息提取方法、装置、电子设备及存储介质
JP6527256B1 (ja) 帳票対応システム、帳票対応方法及び帳票対応プログラム
CN112418813B (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
CN109684395B (zh) 一种基于自然语言处理的可视化数据接口通用解析方法
CN109343844B (zh) 一种基于Flex票据数据对比纠正的方法
CN110705434A (zh) 一种文档内容检查与编辑的交互方法
CN107562808B (zh) 一种异构双链自动化数据的验证方法
CN116311300A (zh) 表格生成方法、装置、电子设备以及存储介质
US20230029752A1 (en) Document readability enhancements
Wijesinghe et al. Computer representation of Venn and Euler diagrams
CN114331316A (zh) 基于ai和rpa的订单信息录入方法、装置、设备和介质
CN114049686A (zh) 签名识别模型训练方法、装置及电子设备
JP2001005804A (ja) 文字認識装置を利用したデータベース登録方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117