CN110866457A - 一种电子保单的获得方法、装置、计算机设备和存储介质 - Google Patents

一种电子保单的获得方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110866457A
CN110866457A CN201911031333.XA CN201911031333A CN110866457A CN 110866457 A CN110866457 A CN 110866457A CN 201911031333 A CN201911031333 A CN 201911031333A CN 110866457 A CN110866457 A CN 110866457A
Authority
CN
China
Prior art keywords
policy
data
text box
picture
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911031333.XA
Other languages
English (en)
Inventor
田立文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Century Baozhong Beijing Network Technology Co Ltd
Original Assignee
Century Baozhong Beijing Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Century Baozhong Beijing Network Technology Co Ltd filed Critical Century Baozhong Beijing Network Technology Co Ltd
Priority to CN201911031333.XA priority Critical patent/CN110866457A/zh
Publication of CN110866457A publication Critical patent/CN110866457A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

本申请涉及一种电子保单的获得方法、装置、计算机设备和存储介质。所述方法包括:对接收到的保单图片进行预处理,以获得图像数据;对图像数据进行文本框的识别,将识别的结果作为第一数据;根据第一数据从预设的保单模板集中、确定保单图片对应的保单模板;确定对保单模板进行文本框识别后获得的第二数据;根据第二数据与第一数据,获得保单图片对应的电子保单。通过该方法促进了非受控场景应用中保单OCR的发展,能精准的,更快捷的对保单图片内容进行提取、转换和存储。

Description

一种电子保单的获得方法、装置、计算机设备和存储介质
技术领域
本申请涉及图像识别技术领域,特别是涉及一种电子保单的获得方法、装置、计算机设备和存储介质。
背景技术
随着保险公司的日益增加,及保险行业的良性发展,普通公众也有了越来越强的保险意识,因此保险的种类和样式也就越来越多。相应的,保险条款越来越多,不同公司的保险单的样式也越发不同,这就造成了保单条款的冗余和繁琐。随着互联网的发展,为了方便家庭统一管理保单,越来越多的用户需要保单管理系统。
目前没有一套完整的识别技术的体系,能对纸质和电子保单OCR(OpticalCharacter Recognition,光学字符识别)获取信息,因为不同公司的保险单的样式不同,属于非受控场景,识别起来的不确定因素特很多,如大小,尺寸,环境,拍照角度,存在的技术问题有如何将这类非受控场景的图片转换成受控场景,如何对转化受控之后的图片进行内容提取,如何对提取后的内容进行解析。
发明内容
基于此,有必要针对上述技术问题,提供一种电子保单的获得方法、装置、计算机设备和存储介质。
一种电子保单的获得方法,所述方法包括:
对接收到的保单图片进行预处理,以获得图像数据;
对所述图像数据进行文本框的识别,根据所述识别的结果确定所述保单图片的分类结果,将所述文本框的识别的结果和所述分类的结果作为第一数据;
根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板;
确定保单模版后、获取对应已经完成的文本框标准位置和识别结果作为第二数据;
根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单。
在此基础上,所述对接收到的保单图片进行预处理,以获得图像数据,包括:
获取所述保单图片的角点坐标;根据所述角点坐标将扭曲的保单图片转换成对边平行的保单图片,将其作为图像数据;
和/或,
将所述保单图片进行缩放处理,以获得预设尺寸的保单图片,将其作为图像数据;
和/或,
对所述保单图片进行颜色统一处理,以获得背景颜色一致的保单图片,将其作为图像数据。
在此基础上,所述根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板之前,还包括:
通过目标检测标注工具制作保单模板;
在所述保单模板中进行文本框的识别与标记,将所述文本框标记为固定区域框和填充区域框;
对所述固定区域框中的文字进行记录;
将所述填充区域框与其对应的固定区域框关联保存;
集合所述保单模板以构成保单模板集。
在此基础上,所述根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板,包括:
确定第一数据中固定区域框的坐标和对应的文字;
从所述保单模板集中选择与所述固定区域框的坐标和对应的文字相匹配的保单模板。
在此基础上,所述根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单,包括:
根据所述第一数据与所述第二数据在预设区域的比例关系,确定比例转换器;
将所述第一数据中属于同一行的文本框进行汇集处理;
通过所述比例转换器、将所述第二数据的格式转化为所述第一数据的格式;
通过所述第二数据中、固定区域框以及与其对应的填充区域框的关系,确定所述第一数据中固定区域框以及与其对应的填充区域框的关系;
对所述第一数据中固定区域框以及与其对应的填充区域框进行文字识别,所述固定区域框与所述填充区域框的数据通过键值对形式保存;
根据所述保单模板和所述键值对生成电子保单。
在此基础上,所述根据所述第一数据与所述第二数据在预设区域的比例关系,确定比例转换器,包括:
获取第一数据中位于头部的文本框的第一文本框信息,所述第一文本框信息包括所述第一文本框的高、宽和行号;
获取第二数据中位于头部的文本框的第二文本框信息,所述第二文本框信息包括所述第二文本框的高、宽和行号;
根据所述第一文本框信息与所述第二文本框信息确定所述第一数据与所述第二数据的偏差值;
根据所述偏差值确定比例转换器。
在此基础上,所述将所述第一数据中属于同一行的文本框进行汇集处理,包括:
确定所述文本框的行号和高;
确定行号相同的文本框作为待处理文本框;
当所述待处理文本框之间的高符合预设条件时,对所述文本框进行拼接。
一种电子保单的获得装置,所述装置包括:
图像数据获取模块,用于对接收到的保单图片进行预处理,以获得图像数据;
第一数据获取模块,用于对所述图像数据进行文本框的识别,根据所述识别的结果确定所述保单图片的分类结果,将所述文本框的识别的结果和所述分类的结果作为第一数据;
保单模板确定模块,用于根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板;
第二数据确定模块,用于确定保单模版后、获取对应已经完成的文本框标准位置和识别结果作为第二数据;
电子保单生成模块,用于根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
对接收到的保单图片进行预处理,以获得图像数据;
对所述图像数据进行文本框的识别,根据所述识别的结果确定所述保单图片的分类结果,将所述文本框的识别的结果和所述分类的结果作为第一数据;
根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板;
确定保单模版后、获取对应已经完成的文本框标准位置和识别结果作为第二数据;
根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
对接收到的保单图片进行预处理,以获得图像数据;
对所述图像数据进行文本框的识别,根据所述识别的结果确定所述保单图片的分类结果,将所述文本框的识别的结果和所述分类的结果作为第一数据;
根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板;
确定保单模版后、获取对应已经完成的文本框标准位置和识别结果作为第二数据;
根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单。上述一种电子保单的获得方法、装置、计算机设备和存储介质,能够促进互联网保险与人工智能的有机结合,提升用户体验和效率,促进行业保单标准化进程,提供了一种方便快捷并且统一的技术,方便保单的管理,促进了非受控场景应用中保单OCR的发展,能精准的,更快捷的对保单图片内容进行提取、转换和存储。
附图说明
图1为一个实施例中一种电子保单的获得方法的应用环境图;
图2为一个实施例中一种电子保单的获得方法的流程示意图;
图3为一个实施例中一种对接收到的保单图片进行预处理,以获得图像数据的方法的流程图;
图4为一个实施例中一种制作保单模板集的方法的流程图;
图5为一个实施例中一种根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板的方法的流程图;
图6为一个实施例中一种根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单的方法的流程图;
图7为一个实施例中一种电子保单的获得装置的结构图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的一种电子保单的获得方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。用户通过终端102上传保单图片,服务器104对接收到的保单图片进行预处理,以获得图像数据。服务器104对图像数据进行文本框的识别,将所述识别的结果作为第一数据,服务器104根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板;服务器104通过模版找到该模版下已经准好的文本框标准位置和比对数据作为第二数据;服务器104根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单。用户通过终端102可以访问服务器104中的电子保单。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种电子保单的获得方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤201,对接收到的保单图片进行预处理,以获得图像数据。
电子保单是指从用户出接收到的保单,可以是保单的照片或者保单的扫描件等。图像数据是指对保单图片进行预处理后,获得的规范的图像数据。对于不同的图像格式,有着不同的存储格式,不同的压缩方式。预处理主要包括二值化,噪声去除,倾斜较正等,是为了获得格式和表达相对一致的图像数据。
其中,二值化是对摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的,更好的识别文字,我们需要先对彩色图进行处理,使图片只前景信息与背景信息,可以简单的定义前景信息为黑色,背景信息为白色,这就是二值化图了。噪声去除是对于不同的文档,我们对噪声的定义可以不同,根据噪声的特征进行去噪,就叫做噪声去除。倾斜较正是由于一般用户,在拍照文档时,都比较随意,因此拍照出来的图片不可避免的产生倾斜,这就需要文字识别软件进行较正。
在一可行的实现方式中,通过对保单进行旋转、剪切、填充等方式的处理,将保单图片转化为图像数据。
步骤202,对所述图像数据进行文本框的识别,根据所述识别的结果确定所述保单图片的分类结果,将所述文本框的识别的结果和所述分类的结果作为第一数据。
一般的,获得文本框的方式可以是:首先,对图片进行水平投影,找到每一行的上界限和下界限,进行行切割。其次,对切割出来的每一行,进行垂直投影,找到每一个字符的左右边界,进行单个字符的切割。
其中,水平投影是对一张图片的每一行元素进行统计(就是往水平方向统计),然后我们根据这个统计结果画出统计结果图,进而确定每一行的起始点和结束点。下面提到的垂直投影也是类似的,只是它的投影方向是往下的,即统计每一列的元素个数。
当然,还可以通过深度学习训练模型,进行文本框识别。本实施例对如何进行文本框的识别不做限制。
步骤203,根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板。
根据第一数据从预设的保单模板集中选择可以对应的保单模板。
步骤204,确定保单模版后、获取对应已经完成的文本框标准位置和识别结果作为第二数据。
确定好保单模板后,对保单模板进行文本框的识别。当然,可以知道的是,在构建保单模板集的时候,就可以对各个保单模板进行文本框的识别,将识别的结果作为第二数据进行保存。
步骤205,根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单。
通过第二数据获得的标准比对数据,对识别的内容进行比对,并确定内容含义。通过第二数据获得的标准位置进行文本语义解析,后将数据以解析内容统一存储标准字段,进行存储,以获得最终的电子保单。
本发明通过对接收到的保单图片进行预处理,以获得图像数据;对图像数据进行文本框的识别,将将识别结果和分类结果作为第一数据;根据第一数据从预设的保单模板集中、确定保单图片对应的保单模板;:确定保单模版后获取对应已经完成的文本框标准位置和识别结果作为第二数据;根据第二数据与第一数据,获得保单图片对应的电子保单的方式,宏观方向,能够促进互联网保险与人工智能的有机结合,提升用户体验和效率,促进行业保单标准化进程,微观方向,提供了一种方便快捷并且统一的技术,方便保单的管理,促进了非受控场景应用中保单OCR的发展,能精准的,更快捷的对保单图片内容进行提取、转换和存储。
在上述实施例的基础上,如图3所示,提供了一种对接收到的保单图片进行预处理,以获得图像数据的方法的流程图,包括以下步骤:
步骤2011,获取所述保单图片的角点坐标。
步骤2012,根据所述角点坐标将扭曲的保单图片转换成对边平行的保单图片,将其作为图像数据。
在一可行的实现方式中,先制作任意角度含保单的图片,通过工具标记保单角点坐标位置;选用深度网络模型对数据进行识别;调用加载模型,将用户上传数据进行识别,反馈回位置数据;获得保单图片的角点坐标数据后,然后通过角点坐标对图像数据进行截取后,将截图图片进行形态学变换的‘还原’算法,将扭曲的图片转换成对边平行的矩形图像,并将对边平行的矩形图像作为图像数据。
步骤2013,将所述保单图片进行缩放处理,以获得预设尺寸的保单图片,将其作为图像数据。
步骤2014,对所述保单图片进行颜色统一处理,以获得背景颜色一致的保单图片,将其作为图像数据。
在一可行的实现方式中,使用‘霍夫变换’算法判断图像旋转角度对保单图片进行旋转校正,并根据保单的背景颜色进行旋转后残余部分颜色填充。
步骤2011-步骤2012,实现了畸变校正的预处理。步骤2013实现了缩放处理的预处理。步骤2014实现了颜色统一的预处理。上述三种预处理的方式可以根据实际情况进行选择,彼此之间为和/或的关系。
在上述实施例的基础上,如图4所示,提供了一种制作保单模板集的方法的流程图,包括以下步骤:
步骤301,通过目标检测标注工具制作保单模板。
步骤302,在所述保单模板中进行文本框的识别与标记,将所述文本框标记为固定区域框和填充区域框。
步骤303,对所述固定区域框中的文字进行记录。
步骤304,将所述填充区域框与其对应的固定区域框关联保存。
步骤305,集合所述保单模板以构成保单模板集。
在一可行的实现方式中,选用标准图片通过labelimage工具,对数据进行固定区域框和填充区域框的划分,对特殊区域的处理进行特殊标记;同时对固定区域框的固定内容的汉字进行记录。将标记的文本框转进行格式转化,且文本数据存储名称以分类结果值命名,将固定内容汉字进行转换和对应文本数据进行存储,作为比对信息提升精准度,且文本数据存储名称以分类结果值命名;将特殊区域左边进行文档存储,以分类结果值命名;将仓颉编码所需编码转换区域进行文档存储,以分类结果值命名。
在上述实施例的基础上,如图5所示,提供了一种根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板的方法的流程图,包括以下步骤:
步骤2031,确定第一数据中固定区域框的坐标和对应的文字。
步骤2032,从所述保单模板集中选择与所述固定区域框的坐标和对应的文字相匹配的保单模板。
可选的,将电子保单分类的数据集,进行图片进行标记,标记的结果可以作为第一数据,选用深度网络模型对数据分类识别训练获得模型;调用加载模型,实现对图像数据的预测保单模版分类。
在上述实施例的基础上,如图6所示,提供了一种根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单的方法的流程图,包括以下步骤:
步骤2051,根据所述第一数据与所述第二数据在预设区域的比例关系,确定比例转换器。
具体的,获取第一数据中位于头部的文本框的第一文本框信息,所述第一文本框信息包括所述第一文本框的高、宽和行号;获取第二数据中位于头部的文本框的第二文本框信息,所述第二文本框信息包括所述第二文本框的高、宽和行号;根据所述第一文本框信息与所述第二文本框信息确定所述第一数据与所述第二数据的偏差值;根据所述偏差值确定比例转换器。
步骤2052,将所述第一数据中属于同一行的文本框进行汇集处理。
具体的,确定文本框的行号和高;确定行号相同的文本框作为待处理文本框;当待处理文本框之间的高符合预设条件时,对文本框进行拼接。
步骤2053,通过所述比例转换器、将所述第二数据的格式转化为所述第一数据的格式。
可选的,如果这里应该是标准数据转化成实际数据。
步骤2054,通过所述第二数据中、固定区域框以及与其对应的填充区域框的关系,确定所述第一数据中固定区域框以及与其对应的填充区域框的关系。
步骤2055,对所述第一数据中固定区域框以及与其对应的填充区域框进行文字识别,所述固定区域框与所述填充区域框的数据通过键值对形式保存。
步骤2056,根据所述保单模板和所述键值对生成电子保单。
在一可行的实现方式中,通过第二数据中的所有的固定区域框的信息,获取的宽高和行号,对宽高进行设置,对行号进行设置。并通过首行坐标位置与图片经过水平和垂直投影算法获得的坐标进行偏差值计算,通过以上两步计算获得在第一数据的文本框中找到对应固定区域框位置。再通过第一数据中的固定区域框与第二数据中的固定区域框的线性关系,获得比例转换器将第二数据中的固定区域框转化为第一数据中的固定区域框的。
在一可行的实现方式中,将数据进行排序,设定行范围依据每行的高h的0.8倍和0.5倍,将相同行划分为:拼接行和普通行;将满足条件的数据以列表形式存储row_key,row_value,row_h;row_key存储为行数据,row_value存储为文本框坐标数据;的相同的索引对应三个列表的相同内容;对拼接行数据进行拼接处理;对特殊区域记作‘t1,t2,t3’结合比例转换器,t1表示标准固定区域合并处理,t2表示需要删除区域的文本框,t3表示下方特殊区域的固定内容单独识别;将row_key[i]作为键,row_value[i]作为值,形成索引一一对应的键值对,记作{row_key[i]:row_value[i]},将此数据作为第一数据。
本发明通过先获取用户纸质和电子保单的保单图片,进行保单的畸变校正功能,对保单图片进行目标检测,获取保单图片的角点坐标,然后通过角点坐标对保单图片进行截取后,将截图图片进行形态学变换,该功能目的获取标准统一样式图像,为后续用统一预处理做准备;用‘霍夫变换’算法判断图像旋转角度进行旋转校正,以获得图像数据。通过保单分类模型,确定保单属于保单模板集中的某一保单模板,获取对应的解析图片内容的方式和数据,第二数据;然后通过保单ocr获取文本框数据坐标,作为第一数据;将第二数据和第一数据通过‘HL’算法获取比例转换器,通过‘XZ’算法获取将坐标相同行的数据汇集在一起,以键为行号,值为对应同一行内的文本框坐标数据,同时去除数据中的特殊区域;将第一数据按照第二数据的固定区域和填充区域的区分方式解析,以第二数据为标准,通过比例转换器,找到第一数据中对应的数据,然后对找到的文本框,通过坐标位置剪切成图片,进行文本OCR识别内容。然后通过第二数据获得的标准比对数据,对识别的内容进行比对,并确定内容含义。通过标准位置进行文本语义解析,后将数据以解析内容统一存储标准字段,进行存储,以获得最终的电子保单。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种电子保单的获得装置的结构图,包括:图像数据获取模块71、第一数据获取模块72、保单模板确定模块73、第二数据确定模块74和电子保单生成模块75,其中:
图像数据获取模块71,用于对接收到的保单图片进行预处理,以获得图像数据;
第一数据获取模块72,用于对所述图像数据进行文本框的识别,根据所述识别的结果确定所述保单图片的分类结果,将所述文本框的识别的结果和所述分类的结果作为第一数据;
保单模板确定模块73,用于根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板;
第二数据确定模块74,用于确定保单模版后、获取对应已经完成的文本框标准位置和识别结果作为第二数据;
电子保单生成模块75,用于根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单。
在上述实施例的基础上,图像数据获取模块71还包括:
第一预处理子模块,用于获取所述保单图片的角点坐标;根据所述角点坐标将扭曲的保单图片转换成对边平行的保单图片,将其作为图像数据;
在上述实施例的基础上,图像数据获取模块71还包括:
第二预处理子模块,用于将所述保单图片进行缩放处理,以获得预设尺寸的保单图片,将其作为图像数据。
在上述实施例的基础上,图像数据获取模块71还包括:
第三预处理子模块,用于对所述保单图片进行颜色统一处理,以获得背景颜色一致的保单图片,将其作为图像数据。
在上述实施例的基础上,还包括:
模板制作模块,用于通过目标检测标注工具制作保单模板;
文本框标记模块,用于在所述保单模板中进行文本框的识别与标记,将所述文本框标记为固定区域框和填充区域框;
文字记录模块,用于对所述固定区域框中的文字进行记录;
关联保存模块,用于将所述填充区域框与其对应的固定区域框关联保存;
模板集合模块,用于集合所述保单模板以构成保单模板集。
在上述实施例的基础上,保单模板确定模块73还包括:
第一数据确定子模块,用于确定第一数据中固定区域框的坐标和对应的文字;
模板匹配子模块,用于从所述保单模板集中选择与所述固定区域框的坐标和对应的文字相匹配的保单模板。
在上述实施例的基础上,电子保单生成模块75包括:
比例转换器确定子模块,用于根据所述第一数据与所述第二数据在预设区域的比例关系,确定比例转换器;
汇集处理子模块,用于将所述第一数据中属于同一行的文本框进行汇集处理;
格式转化子模块,用于通过所述比例转换器、将所述第二数据的格式转化为所述第一数据的格式;
关系对应子模块,用于通过所述第二数据中、固定区域框以及与其对应的填充区域框的关系,确定所述第一数据中固定区域框以及与其对应的填充区域框的关系;
键值对保存子模块,用于对所述第一数据中固定区域框以及与其对应的填充区域框进行文字识别,所述固定区域框与所述填充区域框的数据通过键值对形式保存;
电子保单生成子模块,用于根据所述保单模板和所述键值对生成电子保单。
在上述实施例的基础上,比例转换器确定子模块包括:
第一文本框获取单元,用于获取第一数据中位于头部的文本框的第一文本框信息,所述第一文本框信息包括所述第一文本框的高、宽和行号;
第二文本框获取单元,用于获取第二数据中位于头部的文本框的第二文本框信息,所述第二文本框信息包括所述第二文本框的高、宽和行号;
偏差值确定单元,用于根据所述第一文本框信息与所述第二文本框信息确定所述第一数据与所述第二数据的偏差值;
比例转换器确定单元,用于根据所述偏差值确定比例转换器。
在上述实施例的基础上,汇集处理子模块包括:
文本框信息确定单元,用于确定所述文本框的行号和高;
待处理文本框确定单元,用于确定行号相同的文本框作为待处理文本框;
文本框拼接单元,用于当所述待处理文本框之间的高符合预设条件时,对所述文本框进行拼接。
关于电子保单的获得装置的具体限定可以参见上文中对于一种电子保单的获得方法的限定,在此不再赘述。上述电子保单的获得装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
对接收到的保单图片进行预处理,以获得图像数据;
对所述图像数据进行文本框的识别,根据所述识别的结果确定所述保单图片的分类结果,将所述文本框的识别的结果和所述分类的结果作为第一数据;
根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板;
确定保单模版后、获取对应已经完成的文本框标准位置和识别结果作为第二数据;
根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单。
在此基础上,所述对接收到的保单图片进行预处理,以获得图像数据,包括:
获取所述保单图片的角点坐标;根据所述角点坐标将扭曲的保单图片转换成对边平行的保单图片,将其作为图像数据;
和/或,
将所述保单图片进行缩放处理,以获得预设尺寸的保单图片,将其作为图像数据;
和/或,
对所述保单图片进行颜色统一处理,以获得背景颜色一致的保单图片,将其作为图像数据。
在此基础上,所述根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板之前,还包括:
通过目标检测标注工具制作保单模板;
在所述保单模板中进行文本框的识别与标记,将所述文本框标记为固定区域框和填充区域框;
对所述固定区域框中的文字进行记录;
将所述填充区域框与其对应的固定区域框关联保存;
集合所述保单模板以构成保单模板集。
在此基础上,所述根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板,包括:
确定第一数据中固定区域框的坐标和对应的文字;
从所述保单模板集中选择与所述固定区域框的坐标和对应的文字相匹配的保单模板。
在此基础上,所述根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单,包括:
根据所述第一数据与所述第二数据在预设区域的比例关系,确定比例转换器;
将所述第一数据中属于同一行的文本框进行汇集处理;
通过所述比例转换器、将所述第二数据的格式转化为所述第一数据的格式;
通过所述第二数据中、固定区域框以及与其对应的填充区域框的关系,确定所述第一数据中固定区域框以及与其对应的填充区域框的关系;
对所述第一数据中固定区域框以及与其对应的填充区域框进行文字识别,所述固定区域框与所述填充区域框的数据通过键值对形式保存;
根据所述保单模板和所述键值对生成电子保单。
在此基础上,所述根据所述第一数据与所述第二数据在预设区域的比例关系,确定比例转换器,包括:
获取第一数据中位于头部的文本框的第一文本框信息,所述第一文本框信息包括所述第一文本框的高、宽和行号;
获取第二数据中位于头部的文本框的第二文本框信息,所述第二文本框信息包括所述第二文本框的高、宽和行号;
根据所述第一文本框信息与所述第二文本框信息确定所述第一数据与所述第二数据的偏差值;
根据所述偏差值确定比例转换器。
在此基础上,所述将所述第一数据中属于同一行的文本框进行汇集处理,包括:
确定所述文本框的行号和高;
确定行号相同的文本框作为待处理文本框;
当所述待处理文本框之间的高符合预设条件时,对所述文本框进行拼接。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
对接收到的保单图片进行预处理,以获得图像数据;
对所述图像数据进行文本框的识别,根据所述识别的结果确定所述保单图片的分类结果,将所述文本框的识别的结果和所述分类的结果作为第一数据;
根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板;
确定保单模版后、获取对应已经完成的文本框标准位置和识别结果作为第二数据;
根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单。
在此基础上,所述对接收到的保单图片进行预处理,以获得图像数据,包括:
获取所述保单图片的角点坐标;根据所述角点坐标将扭曲的保单图片转换成对边平行的保单图片,将其作为图像数据;
和/或,
将所述保单图片进行缩放处理,以获得预设尺寸的保单图片,将其作为图像数据;
和/或,
对所述保单图片进行颜色统一处理,以获得背景颜色一致的保单图片,将其作为图像数据。
在此基础上,所述根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板之前,还包括:
通过目标检测标注工具制作保单模板;
在所述保单模板中进行文本框的识别与标记,将所述文本框标记为固定区域框和填充区域框;
对所述固定区域框中的文字进行记录;
将所述填充区域框与其对应的固定区域框关联保存;
集合所述保单模板以构成保单模板集。
在此基础上,所述根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板,包括:
确定第一数据中固定区域框的坐标和对应的文字;
从所述保单模板集中选择与所述固定区域框的坐标和对应的文字相匹配的保单模板。
在此基础上,所述根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单,包括:
根据所述第一数据与所述第二数据在预设区域的比例关系,确定比例转换器;
将所述第一数据中属于同一行的文本框进行汇集处理;
通过所述比例转换器、将所述第二数据的格式转化为所述第一数据的格式;
通过所述第二数据中、固定区域框以及与其对应的填充区域框的关系,确定所述第一数据中固定区域框以及与其对应的填充区域框的关系;
对所述第一数据中固定区域框以及与其对应的填充区域框进行文字识别,所述固定区域框与所述填充区域框的数据通过键值对形式保存;
根据所述保单模板和所述键值对生成电子保单。
在此基础上,所述根据所述第一数据与所述第二数据在预设区域的比例关系,确定比例转换器,包括:
获取第一数据中位于头部的文本框的第一文本框信息,所述第一文本框信息包括所述第一文本框的高、宽和行号;
获取第二数据中位于头部的文本框的第二文本框信息,所述第二文本框信息包括所述第二文本框的高、宽和行号;
根据所述第一文本框信息与所述第二文本框信息确定所述第一数据与所述第二数据的偏差值;
根据所述偏差值确定比例转换器。
在此基础上,所述将所述第一数据中属于同一行的文本框进行汇集处理,包括:
确定所述文本框的行号和高;
确定行号相同的文本框作为待处理文本框;
当所述待处理文本框之间的高符合预设条件时,对所述文本框进行拼接。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种电子保单的获得方法,其特征在于,所述方法包括:
对接收到的保单图片进行预处理,以获得图像数据;
对所述图像数据进行文本框的识别,根据所述识别的结果确定所述保单图片的分类结果,将所述文本框的识别的结果和所述分类的结果作为第一数据;
根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板;
确定保单模版后、获取对应已经完成的文本框标准位置和识别结果作为第二数据;
根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单。
2.根据权利要求1所述的方法,其特征在于,所述对接收到的保单图片进行预处理,以获得图像数据,包括:
获取所述保单图片的角点坐标;根据所述角点坐标将扭曲的保单图片转换成对边平行的保单图片,将其作为图像数据;
和/或,
将所述保单图片进行缩放处理,以获得预设尺寸的保单图片,将其作为图像数据;
和/或,
对所述保单图片进行颜色统一处理,以获得背景颜色一致的保单图片,将其作为图像数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板之前,还包括:
通过目标检测标注工具制作保单模板;
在所述保单模板中进行文本框的识别与标记,将所述文本框标记为固定区域框和填充区域框;
对所述固定区域框中的文字进行记录;
将所述填充区域框与其对应的固定区域框关联保存;
集合所述保单模板以构成保单模板集。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板,包括:
确定第一数据中固定区域框的坐标和对应的文字;
从所述保单模板集中选择与所述固定区域框的坐标和对应的文字相匹配的保单模板。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单,包括:
根据所述第一数据与所述第二数据在预设区域的比例关系,确定比例转换器;
将所述第一数据中属于同一行的文本框进行汇集处理;
通过所述比例转换器、将所述第二数据的格式转化为所述第一数据的格式;
通过所述第二数据中、固定区域框以及与其对应的填充区域框的关系,确定所述第一数据中固定区域框以及与其对应的填充区域框的关系;
对所述第一数据中固定区域框以及与其对应的填充区域框进行文字识别,所述固定区域框与所述填充区域框的数据通过键值对形式保存;
根据所述保单模板和所述键值对生成电子保单。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一数据与所述第二数据在预设区域的比例关系,确定比例转换器,包括:
获取第一数据中位于头部的文本框的第一文本框信息,所述第一文本框信息包括所述第一文本框的高、宽和行号;
获取第二数据中位于头部的文本框的第二文本框信息,所述第二文本框信息包括所述第二文本框的高、宽和行号;
根据所述第一文本框信息与所述第二文本框信息确定所述第一数据与所述第二数据的偏差值;
根据所述偏差值确定比例转换器。
7.根据权利要求5所述的方法,其特征在于,所述将所述第一数据中属于同一行的文本框进行汇集处理,包括:
确定所述文本框的行号和高;
确定行号相同的文本框作为待处理文本框;
当所述待处理文本框之间的高符合预设条件时,对所述文本框进行拼接。
8.一种电子保单的获得装置,其特征在于,所述装置包括:
图像数据获取模块,用于对接收到的保单图片进行预处理,以获得图像数据;
第一数据获取模块,用于对所述图像数据进行文本框的识别,根据所述识别的结果确定所述保单图片的分类结果,将所述文本框的识别的结果和所述分类的结果作为第一数据;
保单模板确定模块,用于根据所述第一数据从预设的保单模板集中、确定所述保单图片对应的保单模板;
第二数据确定模块,用于确定保单模版后、获取对应已经完成的文本框标准位置和识别结果作为第二数据;
电子保单生成模块,用于根据所述第二数据与所述第一数据,获得所述保单图片对应的电子保单。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201911031333.XA 2019-10-28 2019-10-28 一种电子保单的获得方法、装置、计算机设备和存储介质 Pending CN110866457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911031333.XA CN110866457A (zh) 2019-10-28 2019-10-28 一种电子保单的获得方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911031333.XA CN110866457A (zh) 2019-10-28 2019-10-28 一种电子保单的获得方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110866457A true CN110866457A (zh) 2020-03-06

Family

ID=69653450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911031333.XA Pending CN110866457A (zh) 2019-10-28 2019-10-28 一种电子保单的获得方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110866457A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666868A (zh) * 2020-06-03 2020-09-15 阳光保险集团股份有限公司 保险单识别方法、装置以及计算机设备
CN112348024A (zh) * 2020-10-29 2021-02-09 北京信工博特智能科技有限公司 一种基于深度学习优化网络的图文识别方法及系统
CN113011406A (zh) * 2021-03-24 2021-06-22 浪潮云信息技术股份公司 一种单模板工作流优化方法
CN113537221A (zh) * 2020-04-15 2021-10-22 阿里巴巴集团控股有限公司 图像识别方法、装置和设备
CN115063814A (zh) * 2022-08-22 2022-09-16 深圳爱莫科技有限公司 一种通用的商品价签图像识别方法及处理设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839058A (zh) * 2012-11-21 2014-06-04 方正国际软件(北京)有限公司 一种基于标准模版的文档图像的信息定位方法
CN104298991A (zh) * 2014-10-09 2015-01-21 中国石油集团工程设计有限责任公司 一种角图章信息提取方法
CN109635627A (zh) * 2018-10-23 2019-04-16 中国平安财产保险股份有限公司 图片信息提取方法、装置、计算机设备及存储介质
CN109784235A (zh) * 2018-12-29 2019-05-21 广东益萃网络科技有限公司 纸质表单的自动录入方法、装置、计算机设备和存储介质
CN110008944A (zh) * 2019-02-20 2019-07-12 平安科技(深圳)有限公司 基于模板匹配的ocr识别方法及装置、存储介质
CN110147774A (zh) * 2019-05-23 2019-08-20 阳光保险集团股份有限公司 表格式图片版面分析方法和计算机存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839058A (zh) * 2012-11-21 2014-06-04 方正国际软件(北京)有限公司 一种基于标准模版的文档图像的信息定位方法
CN104298991A (zh) * 2014-10-09 2015-01-21 中国石油集团工程设计有限责任公司 一种角图章信息提取方法
CN109635627A (zh) * 2018-10-23 2019-04-16 中国平安财产保险股份有限公司 图片信息提取方法、装置、计算机设备及存储介质
CN109784235A (zh) * 2018-12-29 2019-05-21 广东益萃网络科技有限公司 纸质表单的自动录入方法、装置、计算机设备和存储介质
CN110008944A (zh) * 2019-02-20 2019-07-12 平安科技(深圳)有限公司 基于模板匹配的ocr识别方法及装置、存储介质
CN110147774A (zh) * 2019-05-23 2019-08-20 阳光保险集团股份有限公司 表格式图片版面分析方法和计算机存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537221A (zh) * 2020-04-15 2021-10-22 阿里巴巴集团控股有限公司 图像识别方法、装置和设备
CN111666868A (zh) * 2020-06-03 2020-09-15 阳光保险集团股份有限公司 保险单识别方法、装置以及计算机设备
CN112348024A (zh) * 2020-10-29 2021-02-09 北京信工博特智能科技有限公司 一种基于深度学习优化网络的图文识别方法及系统
CN113011406A (zh) * 2021-03-24 2021-06-22 浪潮云信息技术股份公司 一种单模板工作流优化方法
CN115063814A (zh) * 2022-08-22 2022-09-16 深圳爱莫科技有限公司 一种通用的商品价签图像识别方法及处理设备
CN115063814B (zh) * 2022-08-22 2022-12-23 深圳爱莫科技有限公司 一种通用的商品价签图像识别方法及处理设备

Similar Documents

Publication Publication Date Title
CN110866457A (zh) 一种电子保单的获得方法、装置、计算机设备和存储介质
CN109492643B (zh) 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN110348294B (zh) Pdf文档中图表的定位方法、装置及计算机设备
CN110569341B (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
US9626555B2 (en) Content-based document image classification
JP6139396B2 (ja) 文書を表す二値画像を圧縮する方法及びプログラム
CN111191568B (zh) 翻拍图像识别方法、装置、设备及介质
WO2018233038A1 (zh) 基于深度学习的车牌识别方法、装置、设备及存储介质
US11790499B2 (en) Certificate image extraction method and terminal device
WO2018233055A1 (zh) 保单信息录入的方法、装置、计算机设备及存储介质
CN108108734B (zh) 一种车牌识别方法及装置
CN112669515B (zh) 票据图像识别方法、装置、电子设备和存储介质
CN110728687B (zh) 文件图像分割方法、装置、计算机设备和存储介质
CN112862024B (zh) 一种文本识别方法及系统
CN110795714A (zh) 一种身份验证方法、装置、计算机设备及存储介质
CN112883980B (zh) 一种数据处理方法及系统
CN111858977B (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN111291741B (zh) 单据识别方法、装置、计算机设备和存储介质
WO2021218183A1 (zh) 证件边沿检测方法、装置、设备及介质
CN110889341A (zh) 基于ai的表单图像识别方法、装置、计算机设备和存储介质
CN113806613B (zh) 训练图像集生成方法、装置、计算机设备及存储介质
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
CN112396057A (zh) 一种字符识别方法、装置及电子设备
CN113807218B (zh) 版面分析方法、装置、计算机设备和存储介质
CN110751140A (zh) 字符批量识别方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200306