CN107679442A - 单证信息录入的方法、装置、计算机设备及存储介质 - Google Patents

单证信息录入的方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN107679442A
CN107679442A CN201710487870.XA CN201710487870A CN107679442A CN 107679442 A CN107679442 A CN 107679442A CN 201710487870 A CN201710487870 A CN 201710487870A CN 107679442 A CN107679442 A CN 107679442A
Authority
CN
China
Prior art keywords
document
document image
template
image
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710487870.XA
Other languages
English (en)
Inventor
李斌
吴海波
姜云鹏
凌剑
马向东
丁杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710487870.XA priority Critical patent/CN107679442A/zh
Priority to PCT/CN2017/108079 priority patent/WO2018233171A1/zh
Publication of CN107679442A publication Critical patent/CN107679442A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提出了一种单证信息录入的方法,所述方法包括:获取待录入信息的单证影像,确定所述单证影像的单证类型,根据所述单证类型确定与所述单证影像对应的单证模板,将所述单证影像与所述单证模板进行对齐处理,根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域,对所述目标数据区域中的信息进行识别,得到可编辑的数据信息;将所述数据信息按照所对应的字段信息进行存储,完成信息录入。该单证信息录入方法实现了自动录入,省时省力,且提高了录入效率。此外,还提出了一种单证信息录入装置、计算机设备及存储介质。

Description

单证信息录入的方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机处理领域,特别是涉及一种单证信息录入的方法、装置、计算机设备及存储介质。
背景技术
随着保险业务的发展,越来越多的人开始进行投保,用户申请投保会向保险公司提供相关资料,很多资料都是以影像的形式存在的,这种单证影像由于是以图片形式存在的,所以不能编辑,因此,需要将单证影像中的数据录入到系统中,传统的单证信息录入是采用人工方式通过界面录入各项信息,耗时耗力且如果某些录入错误被校验后,必须重新录入,所以录入效率比较低。
发明内容
基于此,有必要针对上述录入效率低,且耗时耗力的问题,本发明提出了一种省时省力且可以提高录入效率的单证信息录入的方法、装置、计算机设备及存储介质。
一种单证信息录入的方法,所述方法包括:获取待录入信息的单证影像,确定所述单证影像的单证类型;根据所述单证类型确定与所述单证影像对应的单证模板;将所述单证影像与所述单证模板进行对齐处理;根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域;对所述目标数据区域中的信息进行识别,得到可编辑的数据信息;将所述数据信息按照所对应的字段信息进行存储,完成信息录入。
在其中一个实施例中,所述将所述单证影像与所述单证模板进行对齐处理,包括:确定所述单证影像中标题所在的位置;根据所述标题所在的位置计算单证影像的倾斜角度;根据所述倾斜角度旋转所述单证影像,确定旋转后的单证影像四个角所对应的坐标位置;根据所述单证影像四个角所对应的坐标位置将所述单证影像与所述单证模板进行对齐。
在其中一个实施例中,所述根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域,包括:获取与所述单证模板对应的字段切割规则;根据所述字段切割规则对所述单证影像进行切割,得到各个字段对应的目标数据区域。
在其中一个实施例中,所述对所述目标数据区域中的信息进行识别,得到可编辑的数据信息,包括:对所述目标数据区域中的数据信息进行定位;采用图片文字识别技术对所述数据信息进行识别,得到可编辑的数据信息。
在其中一个实施例中,所述获取待录入信息的单证影像,确定所述单证影像的单证类型,包括:获取待录入信息的单证影像,提取所述单证影像的影像编号;根据预设的影像编号和单证类型之间的对应关系,确定所述单证影像的单证类型。
一种单证信息录入的装置,所述装置包括:类型确定模块,用于获取待录入信息的单证影像,确定所述单证影像的单证类型;模板确定模块,用于根据所述单证类型确定与所述单证影像对应的单证模板;处理模块,用于将所述单证影像与所述单证模板进行对齐处理;切割模块,用于根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域;识别模块,用于对所述目标数据区域中的信息进行识别,得到可编辑的数据信息;存储模块,用于将所述数据信息按照所对应的字段信息进行存储,完成信息录入。
在其中一个实施例中,所述处理模块包括:位置确定模块,用于确定所述单证影像中标题所在的位置;角度计算模块,用于根据所述标题所在的位置计算单证影像的倾斜角度;坐标确定模块,用于根据所述倾斜角度旋转所述单证影像,确定旋转后的单证影像四个角所对应的坐标位置;对齐模块,用于根据所述单证影像四个角所对应的坐标位置将所述单证影像与所述单证模板进行对齐。
在其中一个实施例中,所述切割模块还用于获取与所述单证模板对应的字段切割规则,根据所述字段切割规则对所述单证影像进行切割,得到各个字段对应的目标数据区域。
在其中一个实施例中,所述识别模块还用于对所述目标数据区域中的数据信息进行定位,采用图片文字识别技术对所述数据信息进行识别,得到可编辑的数据信息。
在其中一个实施例中,所述类型确定模块还用于获取待录入信息的单证影像,提取所述单证影像的影像编号,根据预设的影像编号和单证类型之间的对应关系,确定所述单证影像的单证类型。
一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待录入信息的单证影像,确定所述单证影像的单证类型;根据所述单证类型确定与所述单证影像对应的单证模板;将所述单证影像与所述单证模板进行对齐处理;根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域;对所述目标数据区域中的信息进行识别,得到可编辑的数据信息;将所述数据信息按照所对应的字段信息进行存储,完成信息录入。
一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现以下步骤:获取待录入信息的单证影像,确定所述单证影像的单证类型;根据所述单证类型确定与所述单证影像对应的单证模板;将所述单证影像与所述单证模板进行对齐处理;根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域;对所述目标数据区域中的信息进行识别,得到可编辑的数据信息;将所述数据信息按照所对应的字段信息进行存储,完成信息录入。
上述单证信息录入的方法、装置、计算机设备及存储介质,通过获取待录入信息的单证影像,确定单证影像的单证类型,根据单证类型确定与单证影像对应的单证模板,将单证影像与单证模板进行对齐处理,根据单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域,继而对目标数据区域中的信息进行识别,得到可编辑的数据信息,进而将数据信息按照所对应的字段信息进行存储,完成信息录入。该方法根据单证模板自动对单证影像中的各个字段对应的目标数据区域提取出来,然后对各个目标数据区域进行识别得到可编辑的数据信息,该方法能够自动完成对单证影像中信息的录入,无须人工参与,不但省时省力,而且提高了录入效率。
附图说明
图1为一个实施例中计算机设备的内部结构框图;
图2为一个实施例中单证信息录入的方法流程图;
图3为一个实施例中根据单证影像和单证模板进行对齐处理的方法流程图;
图4为一个实施例中根据单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域的方法流程图;
图5为一个实施例中对目标数据区域中的信息进行识别,得到可编辑的数据信息的方法流程图;
图6为一个实施例中单证信息录入的装置结构框图;
图7为一个实施例中处理模块的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,为一个实施例中计算机设备的内部结构示意图。该计算机设备可以是终端也可以是服务器。终端可以是个人计算机或者移动电子设备,移动电子设备包括手机、平板电脑、个人数字助理或者穿戴式设备等中的至少一种。服务器可以是独立的服务器,也可以是服务器集群。参照图1,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、网络接口。其中,该计算机设备的非易失性存储介质可存储操作系统和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行一种单证信息录入的方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种单证信息录入的方法。计算机设备的网络接口用于进行网络通信。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图2所示,在一个实施例中,提出了一种单证信息录入的方法,该方法可以应用于终端或服务器中,具体包括以下步骤:
步骤202,获取待录入信息的单证影像,确定单证影像的单证类型。
在本实施例中,单证影像是指以图片形式存在的单证,比如单证的扫描件、照片等。单证是指可以作为凭证的单据,比如,投保书、保单等。由于不同单证的作用不同,其相应的布局、规格都不尽相同,所以可以预先根据单证的布局规格将单证划分为不同的类型。获取到待录入信息的单证影像后,首先需要确定该单证影像对应的单证类型,便于后续根据单证类型确定与该单证类型对应的单证模板。确定单证影像类型的方式有多种,在一个实施例中,通过预先设置不同单证类型存储的位置,不同单证类型分别存储在不同的文件夹中,然后根据获取到的单证影像所在的位置就可以直接确定与该单证影像对应的单证类型。在另一个实施例中,可以根据单证影像编号来确定单证影像的单证类型,其中,单证影像编号用来唯一标识一个单证影像,可以在该单证影像编号中包含有代表单证类型的数字,比如,可以设置单证影像编号的倒数第二位代表单证类型。
步骤204,根据单证类型确定与单证影像对应的单证模板。
在本实施例中,预先根据单证布局将单证影像分为多种单证类型,相同单证类型的单证影像具有相同的模板布局。所以可以预先存储不同单证类型对应的单证模板。获取到单证影像的单证类型后,便可以直接根据单证类型与单证模板之间的对应关系获取相应的单证模板。
步骤206,将单证影像与单证模板进行对齐处理。
在本实施例中,为了便于后续根据单证模板进行切割,首先需要将单证影像与单证模板进行对齐处理,以保证单证影像的各个部分与单证模板中的各个部分进行一一对齐。具体地,单证影像和单证模板都是以矩形的形式存在的,将单证影像与单证模板进行对齐的方法有很多种,在一个实施例中,预先设置单证模板的坐标位置,即将单证模板加载到某个固定的位置,从而该单证模板的四个角的位置也就相应的确定了,之后对单证影像的边框进行定位,得到单证影像四个角的坐标位置,然后计算每个角与单证模板中相应角的坐标偏移量,根据计算得到的偏移量将单证影像移动到与单证模板重合的位置。其中,单证影像的边框坐标定位可以采用霍夫变换直线方法检测单证影像的边框,进而来确定四个角的坐标位置,当然也可以采用别的方式。此外,由于单证影像大多是通过扫描的方式或拍照的方式获取的,所以难免会存在缩放、偏斜、甚至颠倒的问题。为了准确的进行切割,在对齐之前需要对单证影像进行放缩处理,得到与单证模板相同大小的单证影像,然后再针对偏斜、颠倒的问题进行纠偏,便于使单证影像能够精确的与单证模板对齐。
步骤208,根据单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域。
在本实施例中,将单证影像和单证模板进行对齐后,以字段为单位对该单证影像进行切割得到各个字段对应的目标数据区域。字段是指单证中包含的某一专题信息的内容。比如,一个保单中的“姓名”、“性别”、“出生日期”这些项就是所谓的“字段”。目标数据区域是指与字段对应的数据信息所在的区域。比如,假设“姓名”字段对应的数据信息为“张三”,那么“张三”所在的区域就是与“姓名”字段对应的目标数据区域。对于同一类单证来说,其里面包含的字段是相同的,且字段的规格也都是相同的,所以可以预先设置与该单证类型对应的单证模板。为了根据单证模板对单证影像进行切割得到各个字段对应的目标数据区域,需要预先设置每个单证模板对应的切割方式。因为一旦单证模板确定,其里面的各个字段所在的位置都是确定的,各个字段对应的目标数据区域所在的位置也是确定的,所以就可以根据各个字段对应的目标数据区域设置对应的切割方式,即根据单证模板对应的切割方式对单证影像进行切割,得到单证影像中各个字段对应的目标数据区域。
步骤210,对目标数据区域中的信息进行识别,得到可编辑的数据信息。
在本实施例中,由于提取到的目标数据区域是以图片形式存在的,所以提取到目标数据区域后,还需要对目标数据区域中的信息进行识别,以便得到可编辑的数据信息。其中,数据信息包括文字信息、数字信息以及符号信息。对目标数据区域中的信息进行识别主要分为两步,第一步,检测目标数据区域中数据信息所在的区域,即对目标数据区域中的数据信息进行定位确定相应的目标区域。第二步,对目标区域中的数据信息进行识别得到可编辑的数据信息。识别的方法可以采用现有的图片文字识别技术,比如,可以采用OCR(Optical Character Recognition,光学字符识别)方法进行识别,识别的过程就是将图片中的数据信息识别为可编辑的数据信息。
步骤212,将数据信息按照所对应的字段信息进行存储,完成信息录入。
在本实施例中,识别得到字段对应的可编辑的数据信息后,将数据信息根据对应的字段信息自动存入到相应的位置,并且将同一单证影像中的数据信息需要进行关联存储。具体地,每个单证影像都有一个单证编号,用于唯一标识该单证影像,识别得到各个字段信息对应的数据信息后,除了要将各个数据信息与其对应的字段信息进行对应存储外,还需要将同一单证影像对应的数据信息进行关联存储,从而完成信息录入。该单证信息录入的方法整个过程都在全自动完成,无需人工参与,即可将单证影像中的数据信息录入到系统中,不仅省时省力,而且可以并行处理多张单证影像,提高了录入的效率。
在本实施例中,通过获取待录入信息的单证影像,确定单证影像的单证类型,根据单证类型确定与单证影像对应的单证模板,将单证影像与单证模板进行对齐处理,根据单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域,继而对目标数据区域中的信息进行识别,得到可编辑的数据信息,进而将数据信息按照所对应的字段信息进行存储,完成信息录入。该方法根据单证模板自动对单证影像中的各个字段对应的目标数据区域切割出来,然后对各个目标数据区域进行识别得到可编辑的数据信息,该方法能够自动完成对单证影像中信息的录入,无须人工参与,不但省时省力,而且提高了录入效率。
如图3所示,在一个实施例中,将单证影像与单证模板进行对齐处理的步骤206包括:
步骤206A,确定单证影像中标题所在的位置。
在本实施例中,每个单证影像中都包含有正文标题,比如“XX保单”。而且正文标题采用的字体比正文中其他字体的尺寸都要大一些,所以相对于正文中的其他字体,该正文标题所包含的黑色像素的连通区域就会比别的字体的大,利用该特点,通过检测图片中文字的黑色像素就可以确定单证影像中标题所在的位置。
步骤206B,根据标题所在的位置计算单证影像的倾斜角度。
在本实施例中,因为单证中标题所在的位置都是在单证的正上方中间的位置,那么如果检测到标题所在的位置偏离了正上方的位置,就说明图片存在倾斜,比如,如果检测到图片中标题位置在图像的正左侧,那么说明该单证影像的倾斜角度为左偏90度。具体地,通过对图像进行扫描,获取包含有预设规格的黑色像素(正文标题)的区域,并在该含有预设规格的黑色像素的区域的正下方进行划线,得到与该黑色像素的区域对应的下划线(下划线与正文标题互相平行),以水平线正方向为参考,根据检测到的标题位置和下划线与该水平线的角度来确定单证影像的倾斜角度。其中,根据标题在图像中的大致位置可以定性判断图像倾斜的方向,比如,如果标题在下方,说明图像是颠倒的,如果标题在左边,说明图像是向左倾斜的,如果标题在右边,说明图像是向右倾斜的。但是具体倾斜了多少度,需要根据下划线与水平线的正方向的角度来确定。比如,检测到标题位置在图像上方,如果下划线与水平线的平行,那么说明该倾斜角度为0度。如果检测到标题位置在图像上方,但是下划线与水平线正方向的夹角为15度,那么说明单证影像的向左倾斜角度为15度。如果检测到标题位置在图像下方,且下划线与水平线正方向的倾斜角度为15度,那么可以计算得到单证影像的向左倾斜角度为195度(也就是向右偏移了165度)。
步骤206C,根据倾斜角度旋转单证影像,确定旋转后的单证影像四个角所对应的坐标位置。
本实施例中,当计算得到单证影像的倾斜角度后,根据该倾斜角度对单证影像进行旋转,使其倾斜角度为0度。比如,如果检测到单证影像的倾斜角度为左偏90度,那么就需要将该图片顺时针旋转90度,使其处于正确的位置。然后计算旋转后单证影像对应的四个角的坐标位置。具体地,可以将单证影像加入到Matlab中,得到单证影像对应的图像矩阵,根据该图像矩阵便可确定图像边缘的位置,自动确定图像边缘四个角分别对应的坐标位置。
步骤206D,根据单证影像四个角所对应的坐标位置将单证影像与单证模板进行对齐。
在本实施例中,确定了单证影像四个角分别对应的坐标后,就可以计算该单证影像的坐标位置和单证模板所在的坐标位置之间的偏移量,由于两者都是矩形图像,且都处于正方向,所以只需要计算一个角的坐标与其相应的角的坐标之间的偏移量就可以确定单证影像和单证模板的偏移量。比如,分别计算单证影像和单证模板左上角的坐标之间的偏移量,然后根据该偏移量,将单证影像移动到与单证模板重合的位置,即将单证影像和单证模板进行严格对齐。
如图4所示,在一个实施例中,根据单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域的步骤208包括:
步骤208A,获取与单证模板对应的字段切割规则。
在本实施例中,由于相同类型的单证具有相同的字段布局,也就是说,相同类型的单证对应有相同的单证模板,而每个单证模板中都包含有若干个字段,为了提取单证影像中各个字段对应的数据信息,预先根据单证模板中字段的布局设置相应的字段切割规则,即设置每个字段对应的切割方式,根据该切割方式来提取每个字段对应的目标数据区域。比如,如果“姓名”字段对应的目标数据区域在“姓名”字段的正下方,且目标数据区域的形状规格大小为:矩形,1cmX3cm,那么相应的切割方式就是设置剪裁出该目标数据区域的矩形框。然后将单证模板的字段切割规则与单证模板进行一一对应存储。故,获取到单证模板后,就可以根据单证模板获取相应的字段切割规则。
步骤208B,根据字段切割规则对单证影像进行切割,得到各个字段对应的目标数据区域。
在本实施例中,根据单证模板获取该单证模板中各个字段对应的字段切割规则,然后根据字段切割规则对单证影像进行切割,得到各个字段对应的目标数据区域。目标数据区域是指包含与字段相应的数据信息的区域,比如,“姓名”字段对应的目标数据区域就是与该“姓名”字段对应的包含有数据信息的区域,比如,包含有具体姓名,比如“张三”的区域。
如图5所示,在一个实施例中,对目标数据区域中的信息进行识别,得到可编辑的数据信息的步骤210包括:
步骤210A,对目标数据区域中的数据信息进行定位。
在本实施例中,为了能够快速准确地识别得到目标数据区域中的数据信息,首先对目标数据区域图像中的数据信息进行定位,使被定位的数据信息包含在最小外接矩形中,即将目标数据区域中的数据信息通过一个最小外接矩形单独提取出来,得到一个目标区域图片,其中,最小外接矩形的四条边分别与数据信息的最上端、最下端、最左端以及最右端相切。后续将该包含有数据信息的目标区域图片作为识别对象。
步骤210B,采用图片文字识别技术对数据信息进行识别,得到可编辑的数据信息。
在本实施例中,通过对目标数据区域中的数据信息进行定位提取到包含有数据信息的最小外接矩形图像后,将该提取到的最小外接矩形图像作为识别对象,采用图片文字识别技术对包含的数据信息进行识别,以便得到可编辑的数据信息。其中,图片文字识别技术可以采用现有的识别方法,比如,可以采用OCR(Optical Character Recognition,光学字符识别)方法进行识别,识别的过程就是将图片中的数据信息识别为可编辑的数据信息。在另一个实施例中,为了能够快速地对图片中的数据信息进行识别,对包含有数据信息的区域进行分割,形成若干个子图像,每个子图像中包含有部分数据信息,通过对多个子图像并行进行识别,提升了文字识别的速度。
在一个实施例中,获取待录入信息的单证影像,确定单证影像的单证类型的步骤包括:获取待录入信息的单证影像,提取单证影像的影像编号,根据预设的影像编号和单证类型之间的对应关系,确定单证影像的单证类型。
在本实施例中,影像编号用于唯一标识一个单证影像,其中,影像编号可以直接使用单证号、也可以是单独为影像分配的编号。为了能够获取到待录入信息的单证影像的单证类型,预先将影像编号和单证类型进行关联,比如,可以使用影像编号的第二位数字与单证类型进行关联,比如,如果影像编号中的第二位数字为1,代表的险种为意外险,如果第二位数字为2,代表的是车险等,通过预先设置影像编号与单证类型之间的对应关系,根据获取到的单证影像的影像编号就可以确定单证影像的单证类型。
如图6所示,在一个实施例中,提出了一种单证信息录入的装置,该装置包括:
类型确定模块602,用于获取待录入信息的单证影像,确定单证影像的单证类型。
模板确定模块604,用于根据单证类型确定与单证影像对应的单证模板。
处理模块606,用于将单证影像与单证模板进行对齐处理。
切割模块608,用于根据单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域。
识别模块610,用于对目标数据区域中的信息进行识别,得到可编辑的数据信息。
存储模块612,用于将数据信息按照所对应的字段信息进行存储,完成信息录入。
如图7所示,在一个实施例中,处理模块606包括:
位置确定模块606A,用于确定单证影像中标题所在的位置。
角度计算模块606B,用于根据标题所在的位置计算单证影像的倾斜角度。
坐标确定模块606C,用于根据倾斜角度旋转单证影像,确定旋转后的单证影像四个角所对应的坐标位置。
对齐模块606D,用于根据单证影像四个角所对应的坐标位置将单证影像与单证模板进行对齐。
在一个实施例中,切割模块还用于获取与单证模板对应的字段切割规则,根据字段切割规则对单证影像进行切割,得到各个字段对应的目标数据区域。
在一个实施例中,识别模块还用于对目标数据区域中的数据信息进行定位,采用图片文字识别技术对数据信息进行识别,得到可编辑的数据信息。
在一个实施例中,类型确定模块还用于获取待录入信息的单证影像,提取单证影像的影像编号,根据预设的影像编号和单证类型之间的对应关系,确定单证影像的单证类型。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待录入信息的单证影像,确定所述单证影像的单证类型;根据所述单证类型确定与所述单证影像对应的单证模板;将所述单证影像与所述单证模板进行对齐处理;根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域;对所述目标数据区域中的信息进行识别,得到可编辑的数据信息;将所述数据信息按照所对应的字段信息进行存储,完成信息录入。
在一个实施例中,所述处理器所执行的所述将所述单证影像与所述单证模板进行对齐处理的步骤包括:确定所述单证影像中标题所在的位置,根据所述标题所在的位置计算单证影像的倾斜角度,根据所述倾斜角度旋转所述单证影像,确定旋转后的单证影像四个角所对应的坐标位置,根据所述单证影像四个角所对应的坐标位置将所述单证影像与所述单证模板进行对齐。
在一个实施例中,所述处理所执行的所述根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域的步骤包括:获取与所述单证模板对应的字段切割规则,根据所述字段切割规则对所述单证影像进行切割,得到各个字段对应的目标数据区域。
在一个实施例中,所述处理器所执行的所述对所述目标数据区域中的信息进行识别,得到可编辑的数据信息的步骤包括:对所述目标数据区域中的数据信息进行定位,采用图片文字识别技术对所述数据信息进行识别,得到可编辑的数据信息。
在一个实施例中,所述处理器所执行的所述获取待录入信息的单证影像,确定所述单证影像的单证类型的步骤包括:获取待录入信息的单证影像,提取所述单证影像的影像编号,根据预设的影像编号和单证类型之间的对应关系,确定所述单证影像的单证类型。
在一个实施例中,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现以下步骤:获取待录入信息的单证影像,确定所述单证影像的单证类型;根据所述单证类型确定与所述单证影像对应的单证模板;将所述单证影像与所述单证模板进行对齐处理;根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域;对所述目标数据区域中的信息进行识别,得到可编辑的数据信息;将所述数据信息按照所对应的字段信息进行存储,完成信息录入。
在一个实施例中,所述处理器所执行的所述将所述单证影像与所述单证模板进行对齐处理的步骤包括:确定所述单证影像中标题所在的位置,根据所述标题所在的位置计算单证影像的倾斜角度,根据所述倾斜角度旋转所述单证影像,确定旋转后的单证影像四个角所对应的坐标位置,根据所述单证影像四个角所对应的坐标位置将所述单证影像与所述单证模板进行对齐。
在一个实施例中,所述处理所执行的所述根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域的步骤包括:获取与所述单证模板对应的字段切割规则,根据所述字段切割规则对所述单证影像进行切割,得到各个字段对应的目标数据区域。
在一个实施例中,所述处理器所执行的所述对所述目标数据区域中的信息进行识别,得到可编辑的数据信息的步骤包括:对所述目标数据区域中的数据信息进行定位,采用图片文字识别技术对所述数据信息进行识别,得到可编辑的数据信息。
在一个实施例中,所述处理器所执行的所述获取待录入信息的单证影像,确定所述单证影像的单证类型的步骤包括:获取待录入信息的单证影像,提取所述单证影像的影像编号,根据预设的影像编号和单证类型之间的对应关系,确定所述单证影像的单证类型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种单证信息录入的方法,所述方法包括:
获取待录入信息的单证影像,确定所述单证影像的单证类型;
根据所述单证类型确定与所述单证影像对应的单证模板;
将所述单证影像与所述单证模板进行对齐处理;
根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域;
对所述目标数据区域中的信息进行识别,得到可编辑的数据信息;
将所述数据信息按照所对应的字段信息进行存储,完成信息录入。
2.根据权利要求1所述的方法,其特征在于,所述将所述单证影像与所述单证模板进行对齐处理,包括:
确定所述单证影像中标题所在的位置;
根据所述标题所在的位置计算单证影像的倾斜角度;
根据所述倾斜角度旋转所述单证影像,确定旋转后的单证影像四个角所对应的坐标位置;
根据所述单证影像四个角所对应的坐标位置将所述单证影像与所述单证模板进行对齐。
3.根据权利要求1所述的方法,其特征在于,所述根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域,包括:
获取与所述单证模板对应的字段切割规则;
根据所述字段切割规则对所述单证影像进行切割,得到各个字段对应的目标数据区域。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标数据区域中的信息进行识别,得到可编辑的数据信息,包括:
对所述目标数据区域中的数据信息进行定位;
采用图片文字识别技术对所述数据信息进行识别,得到可编辑的数据信息。
5.根据权利要求1所述的方法,其特征在于,所述获取待录入信息的单证影像,确定所述单证影像的单证类型,包括:
获取待录入信息的单证影像,提取所述单证影像的影像编号;
根据预设的影像编号和单证类型之间的对应关系,确定所述单证影像的单证类型。
6.一种单证信息录入的装置,其特征在于,所述装置包括:
类型确定模块,用于获取待录入信息的单证影像,确定所述单证影像的单证类型;
模板确定模块,用于根据所述单证类型确定与所述单证影像对应的单证模板;
处理模块,用于将所述单证影像与所述单证模板进行对齐处理;
切割模块,用于根据所述单证模板将对齐处理后的单证影像进行切割得到各个字段对应的目标数据区域;
识别模块,用于对所述目标数据区域中的信息进行识别,得到可编辑的数据信息;
存储模块,用于将所述数据信息按照所对应的字段信息进行存储,完成信息录入。
7.根据权利要求6所述的装置,其特征在于,所述处理模块包括:
位置确定模块,用于确定所述单证影像中标题所在的位置;
角度计算模块,用于根据所述标题所在的位置计算单证影像的倾斜角度;
坐标确定模块,用于根据所述倾斜角度旋转所述单证影像,确定旋转后的单证影像四个角所对应的坐标位置;
对齐模块,用于根据所述单证影像四个角所对应的坐标位置将所述单证影像与所述单证模板进行对齐。
8.根据权利要求6所述的装置,其特征在于,所述切割模块还用于获取与所述单证模板对应的字段切割规则,根据所述字段切割规则对所述单证影像进行切割,得到各个字段对应的目标数据区域。
9.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-5任意一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5任意一项所述方法的步骤。
CN201710487870.XA 2017-06-23 2017-06-23 单证信息录入的方法、装置、计算机设备及存储介质 Pending CN107679442A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710487870.XA CN107679442A (zh) 2017-06-23 2017-06-23 单证信息录入的方法、装置、计算机设备及存储介质
PCT/CN2017/108079 WO2018233171A1 (zh) 2017-06-23 2017-10-27 单证信息录入的方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710487870.XA CN107679442A (zh) 2017-06-23 2017-06-23 单证信息录入的方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN107679442A true CN107679442A (zh) 2018-02-09

Family

ID=61133491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710487870.XA Pending CN107679442A (zh) 2017-06-23 2017-06-23 单证信息录入的方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN107679442A (zh)
WO (1) WO2018233171A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335199A (zh) * 2018-03-13 2018-07-27 平安普惠企业管理有限公司 贷款请求处理方法、装置、计算机设备和存储介质
CN109815954A (zh) * 2019-01-31 2019-05-28 科大讯飞股份有限公司 增值税发票图像的方向校正方法、装置、设备及存储介质
CN109934185A (zh) * 2019-03-18 2019-06-25 网易有道信息技术(北京)有限公司 数据处理方法及装置、介质和计算设备
CN109977949A (zh) * 2019-03-20 2019-07-05 深圳市华付信息技术有限公司 边框微调的文本定位方法、装置、计算机设备及存储介质
CN111652229A (zh) * 2020-05-25 2020-09-11 泰康保险集团股份有限公司 一种信息输入方法、装置、电子设备及存储介质
CN111767818A (zh) * 2020-06-23 2020-10-13 北京思特奇信息技术股份有限公司 一种业务智能受理的方法和装置
CN112668041A (zh) * 2020-12-17 2021-04-16 平安消费金融有限公司 单证文件的生成方法、装置、计算机设备和存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488399A (zh) * 2020-05-06 2020-08-04 北京俩撇科技有限公司 一种区块链系统、交易处理方法及装置
CN112016561B (zh) * 2020-09-01 2023-08-04 中国银行股份有限公司 一种文本识别方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034848A (zh) * 2012-12-19 2013-04-10 方正国际软件有限公司 一种表单类型的识别方法
CN103488965A (zh) * 2013-08-20 2014-01-01 成都三泰电子实业股份有限公司 运单信息录入和彩色色块编码解码系统
CN105095842A (zh) * 2014-05-22 2015-11-25 阿里巴巴集团控股有限公司 一种单据的信息识别的方法和装置
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103208004A (zh) * 2013-03-15 2013-07-17 北京英迈杰科技有限公司 票据信息区域自动识别和提取方法及设备
CN104573616A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 一种信息识别方法、相关装置及系统
CN103617415A (zh) * 2013-11-19 2014-03-05 北京京东尚科信息技术有限公司 一种自动识别发票的装置和方法
CN105005793B (zh) * 2015-07-15 2018-02-27 广州敦和信息技术有限公司 一种发票字条自动识别录入的方法及装置
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034848A (zh) * 2012-12-19 2013-04-10 方正国际软件有限公司 一种表单类型的识别方法
CN103488965A (zh) * 2013-08-20 2014-01-01 成都三泰电子实业股份有限公司 运单信息录入和彩色色块编码解码系统
CN105095842A (zh) * 2014-05-22 2015-11-25 阿里巴巴集团控股有限公司 一种单据的信息识别的方法和装置
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335199A (zh) * 2018-03-13 2018-07-27 平安普惠企业管理有限公司 贷款请求处理方法、装置、计算机设备和存储介质
CN109815954A (zh) * 2019-01-31 2019-05-28 科大讯飞股份有限公司 增值税发票图像的方向校正方法、装置、设备及存储介质
CN109934185A (zh) * 2019-03-18 2019-06-25 网易有道信息技术(北京)有限公司 数据处理方法及装置、介质和计算设备
CN109977949A (zh) * 2019-03-20 2019-07-05 深圳市华付信息技术有限公司 边框微调的文本定位方法、装置、计算机设备及存储介质
CN109977949B (zh) * 2019-03-20 2024-01-26 深圳华付技术股份有限公司 边框微调的文本定位方法、装置、计算机设备及存储介质
CN111652229A (zh) * 2020-05-25 2020-09-11 泰康保险集团股份有限公司 一种信息输入方法、装置、电子设备及存储介质
CN111652229B (zh) * 2020-05-25 2023-09-12 泰康保险集团股份有限公司 一种信息输入方法、装置、电子设备及存储介质
CN111767818A (zh) * 2020-06-23 2020-10-13 北京思特奇信息技术股份有限公司 一种业务智能受理的方法和装置
CN111767818B (zh) * 2020-06-23 2024-04-26 北京思特奇信息技术股份有限公司 一种业务智能受理的方法和装置
CN112668041A (zh) * 2020-12-17 2021-04-16 平安消费金融有限公司 单证文件的生成方法、装置、计算机设备和存储介质
CN112668041B (zh) * 2020-12-17 2023-07-04 平安消费金融有限公司 单证文件的生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2018233171A1 (zh) 2018-12-27

Similar Documents

Publication Publication Date Title
CN107679442A (zh) 单证信息录入的方法、装置、计算机设备及存储介质
AU2017302250B2 (en) Optical character recognition in structured documents
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
US8718364B2 (en) Apparatus and method for digitizing documents with extracted region data
WO2018233055A1 (zh) 保单信息录入的方法、装置、计算机设备及存储介质
US10339373B1 (en) Optical character recognition utilizing hashed templates
WO2014086287A1 (zh) 文本图像自动切分方法及装置,自动切分手写条目的方法
Chen et al. Shadow-based Building Detection and Segmentation in High-resolution Remote Sensing Image.
CN109255300B (zh) 票据信息提取方法、装置、计算机设备及存储介质
CN110097059B (zh) 基于生成对抗网络的文档图像二值化方法、系统、装置
CN111079571A (zh) 证卡信息识别及其边缘检测模型训练方法、装置
CN111931771B (zh) 票据内容识别方法、装置、介质及电子设备
US20060204134A1 (en) Method and system of viewing digitized roll film images
CN113673500A (zh) 证件图像识别方法、装置、电子设备及存储介质
CN112926421A (zh) 图像处理方法和装置、电子设备和存储介质
CN104408403A (zh) 一种二次录入不一致的仲裁方法及装置
CN112906532B (zh) 图像处理方法和装置、电子设备和存储介质
US9886629B2 (en) Techniques for restoring content from a torn document
Hertlein et al. Inv3D: a high-resolution 3D invoice dataset for template-guided single-image document unwarping
CN108629786B (zh) 图像边缘检测方法及装置
CN109685074B (zh) 一种基于Scharr算子的银行卡卡号行定位方法
GB2473228A (en) Segmenting Document Images
JP5846378B2 (ja) 情報管理方法及び情報管理システム
CN107239463B (zh) 一种景区地图生成方法及装置
Li et al. Study on key techniques for camera-based hydrological record image digitization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209

RJ01 Rejection of invention patent application after publication