CN107220648A - 理赔单据的字符识别方法及服务器 - Google Patents

理赔单据的字符识别方法及服务器 Download PDF

Info

Publication number
CN107220648A
CN107220648A CN201710233613.3A CN201710233613A CN107220648A CN 107220648 A CN107220648 A CN 107220648A CN 201710233613 A CN201710233613 A CN 201710233613A CN 107220648 A CN107220648 A CN 107220648A
Authority
CN
China
Prior art keywords
cut zone
character
training
model
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710233613.3A
Other languages
English (en)
Other versions
CN107220648B (zh
Inventor
金飞虎
薛燕
米艺
李欢欢
仇一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201710233613.3A priority Critical patent/CN107220648B/zh
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to JP2018536430A priority patent/JP6710483B2/ja
Priority to AU2017408799A priority patent/AU2017408799B2/en
Priority to PCT/CN2017/091363 priority patent/WO2018188199A1/zh
Priority to SG11201900263SA priority patent/SG11201900263SA/en
Priority to US16/084,244 priority patent/US10650231B2/en
Priority to KR1020187023693A priority patent/KR102171220B1/ko
Priority to EP17899230.1A priority patent/EP3432197B1/en
Publication of CN107220648A publication Critical patent/CN107220648A/zh
Priority to TW106135247A priority patent/TWI621077B/zh
Application granted granted Critical
Publication of CN107220648B publication Critical patent/CN107220648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Finance (AREA)
  • Biophysics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种理赔单据的字符识别方法及服务器,该方法包括:服务器在收到待识别字符的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域;调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别,以识别出各个分割区域中的字符。本发明由于考虑到理赔单据框架格式对识别精度的影响,在进行字符识别前先按照理赔单据框架格式的框线排布进行区域分割,再针对各个分割区域来进行字符识别,避免了在对整个理赔单据影像中的字符进行统一识别时单据中的框线对字符识别的影响及干涉,能有效提高对理赔单据中字符的识别精度。

Description

理赔单据的字符识别方法及服务器
技术领域
本发明涉及计算机技术领域,尤其涉及一种理赔单据的字符识别方法及服务器。
背景技术
随着大众保险意识的增强、购买保险的客户群大幅增多,保险公司需处理的客户理赔申请越来越多,保险公司作业人员需录入的理赔单据影像也越来越多,以致于录单作业人员的人力紧张,同时,经常会出现录单错误。为了有效减少录单错误、提高录单效率,目前,有些保险公司在录单作业过程中引入OCR(Optical Character Recognition,光学字符识别)技术,以自动识别出理赔单据影像的字符以填充到对应的输入栏位中。
然而,现有的利用OCR技术进行理赔单据影像字符的识别方案仅利用自身的识别引擎对整个理赔单据影像中的字符进行统一识别,并未考虑理赔单据框架格式对识别精度的影响,也并未考虑单据中的框线对字符识别的干涉,使得现有的识别方案的识别精度不高,需要耗费大量的人力、物力进行校验。
发明内容
本发明的主要目的在于提供一种理赔单据的字符识别方法及服务器,旨在提高理赔单据的识别精度。
为实现上述目的,本发明提供的一种理赔单据的字符识别方法,所述方法包括以下步骤:
服务器在收到待识别字符的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域;
调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别,以识别出各个分割区域中的字符。
优选地,所述调用预先确定的分析模型对获得的各个分割区域进行分析的步骤包括:
调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出可利用光学字符识别引擎识别的第一分割区域和不可利用光学字符识别引擎识别的第二分割区域;
所述利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别的步骤还包括:
利用预先确定的光学字符识别引擎对各个所述第一分割区域进行字符识别,以识别出各个所述第一分割区域中的字符,并调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以识别出各个所述第二分割区域中的字符。
优选地,所述预先确定的分析模型为卷积神经网络模型,所述预先确定的分析模型的训练过程如下:
A、针对预先确定的理赔单据框架格式,获取预设数量的基于该理赔单据框架格式的理赔单据影像样本;
B、对每一个理赔单据影像样本按照该理赔单据框架格式的框线排布进行区域分割,并确定出各个理赔单据影像样本中利用光学字符识别引擎识别错误的第三分割区域和利用光学字符识别引擎识别正确的第四分割区域;
C、将所有第三分割区域归入第一训练集,将所有第四分割区域归入第二训练集;
D、分别从所述第一训练集和所述第二训练集中提取出第一预设比例的分割区域作为待训练的分割区域,并将所述第一训练集和所述第二训练集中剩余的分割区域作为待验证的分割区域;
E、利用提取的各个待训练的分割区域进行模型训练,以生成所述预先确定的分析模型,并利用各个待验证的分割区域对生成的所述预先确定的分析模型进行验证;
F、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加理赔单据影像样本的数量,并重复执行上述步骤A、B、C、D、E,直至验证通过率大于或等于预设阈值。
优选地,所述预先确定的识别模型为长短期记忆LSTM模型,所述预先确定的识别模型的训练过程如下:
获取预设数量的分割区域样本,对各个分割区域样本以该分割区域样本所含字符来进行标注;
将预设数量的分割区域样本按照预设比例分为第一数据集和第二数据集,并将所述第一数据集作为训练集,将所述第二数据集作为测试集;
将所述第一数据集送入LSTM网络进行模型训练,每隔预设时间,使用训练得到的模型对所述第二数据集中的分割区域样本进行字符识别,并将识别的字符与该分割区域样本的标注进行比对,以计算识别的字符和标注的误差;
若训练得到的模型识别字符的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别字符的误差能够收敛;
若训练得到的模型识别字符的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的识别模型。
优选地,所述分割区域是由该理赔单据框架格式的框线所围成的最小单位的区域,且所述分割区域为不包含框线的区域。
此外,为实现上述目的,本发明还提供一种理赔单据的字符识别服务器,所述字符识别服务器包括:
分割模块,用于在收到待识别字符的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域;
识别模块,用于调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别,以识别出各个分割区域中的字符。
优选地,所述识别模块还用于:
调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出可利用光学字符识别引擎识别的第一分割区域和不可利用光学字符识别引擎识别的第二分割区域;
利用预先确定的光学字符识别引擎对各个所述第一分割区域进行字符识别,以识别出各个所述第一分割区域中的字符,并调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以识别出各个所述第二分割区域中的字符。
优选地,所述预先确定的分析模型为卷积神经网络模型,所述预先确定的分析模型的训练过程如下:
A、针对预先确定的理赔单据框架格式,获取预设数量的基于该理赔单据框架格式的理赔单据影像样本;
B、对每一个理赔单据影像样本按照该理赔单据框架格式的框线排布进行区域分割,并确定出各个理赔单据影像样本中利用光学字符识别引擎识别错误的第三分割区域和利用光学字符识别引擎识别正确的第四分割区域;
C、将所有第三分割区域归入第一训练集,将所有第四分割区域归入第二训练集;
D、分别从所述第一训练集和所述第二训练集中提取出第一预设比例的分割区域作为待训练的分割区域,并将所述第一训练集和所述第二训练集中剩余的分割区域作为待验证的分割区域;
E、利用提取的各个待训练的分割区域进行模型训练,以生成所述预先确定的分析模型,并利用各个待验证的分割区域对生成的所述预先确定的分析模型进行验证;
F、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加理赔单据影像样本的数量,并重复执行上述步骤A、B、C、D、E,直至验证通过率大于或等于预设阈值。
优选地,所述预先确定的识别模型为长短期记忆LSTM模型,所述预先确定的识别模型的训练过程如下:
获取预设数量的分割区域样本,对各个分割区域样本以该分割区域样本所含字符来进行标注;
将预设数量的分割区域样本按照预设比例分为第一数据集和第二数据集,并将所述第一数据集作为训练集,将所述第二数据集作为测试集;
将所述第一数据集送入LSTM网络进行模型训练,每隔预设时间,使用训练得到的模型对所述第二数据集中的分割区域样本进行字符识别,并将识别的字符与该分割区域样本的标注进行比对,以计算识别的字符和标注的误差;
若训练得到的模型识别字符的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别字符的误差能够收敛;
若训练得到的模型识别字符的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的识别模型。
优选地,所述分割区域是由该理赔单据框架格式的框线所围成的最小单位的区域,且所述分割区域为不包含框线的区域。
本发明提出的理赔单据的字符识别方法及服务器,在对理赔单据影像进行字符识别前,按照该理赔单据框架格式的框线排布对其进行区域分割,利用预先确定的识别规则对该理赔单据的各个分割区域分别进行字符识别,以分别识别出各个分割区域中的字符。由于考虑到理赔单据框架格式对识别精度的影响,在进行字符识别前先按照理赔单据框架格式的框线排布进行区域分割,再针对各个分割区域来进行字符识别,避免了在对整个理赔单据影像中的字符进行统一识别时单据中的框线对字符识别的影响及干涉,能有效提高对理赔单据中字符的识别精度。
附图说明
图1为本发明理赔单据的字符识别方法第一实施例的流程示意图;
图2为本发明理赔单据的字符识别方法第二实施例的流程示意图;
图3为本发明理赔单据的字符识别服务器第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种理赔单据的字符识别方法。
参照图1,图1为本发明理赔单据的字符识别方法第一实施例的流程示意图。
在第一实施例中,该理赔单据的字符识别方法包括:
步骤S10,服务器在收到待识别字符的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域;
本实施例中,服务器可以接收用户发出的包含待识别字符的理赔单据影像的字符识别请求,例如,接收用户通过手机、平板电脑、自助终端设备等终端发送的字符识别请求,如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的客户端上发送来的字符识别请求,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的字符识别请求。
服务器在收到待识别字符识别的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,理赔单据影像中按照其框架格式排布有横向或竖向的框线,以组成各项输入栏供用户填写相关信息。本实施例中,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域。例如,在一种实施方式中,由于一般不同类型的保险均对应有不同的单据格式模板,因此,可预先根据用户上传的单据类型(可能不同的保险有不同的单据格式),获取到对应的单据模板,然后根据模板的格式来分割。如可根据收到的待识别字符的理赔单据影像的单据类型,找到该理赔单据影像对应的单据模板,然后根据其对应的单据模板进行区域分割。该分割区域是由该理赔单据框架格式的框线所围成的最小单位的区域,且该分割区域为不包含框线的区域,以避免后续在对每一分割区域进行字符识别时框线对识别精度的干涉及影响,该分割区域类似于excel表格的每个方格,excel表格的每个方格即是最小区域内不包含框线的区域。
步骤S20,调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别,以识别出各个分割区域中的字符。
在按照该理赔单据框架格式的框线排布对理赔单据影像进行区域分割得到一个或多个分割区域后,可调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对各个分割区域分别进行字符识别,以识别出各个分割区域中的字符,也即理赔单据影像中的字符。例如,可利用预先确定的分析模型分析各个分割区域所适用的识别模型或识别方式,再根据分析出的结果针对各个分割区域利用适合各个分割区域自身的识别模型或识别方式来进行字符识别,以提高字符识别的准确率。如针对不同的分割区域,可分析出字符识别的方式为利用光学字符识别引擎进行识别,也可以用其他识别引擎或训练的识别模型来进行识别,在此不做限定。识别出各个分割区域中的字符,还可将各个分割区域中的字符自动填充、录入至与该理赔单据影像对应的电子理赔单据的各相应输入栏位中。
本实施例在对理赔单据影像进行字符识别前,按照该理赔单据框架格式的框线排布对其进行区域分割,利用预先确定的识别规则对该理赔单据的各个分割区域分别进行字符识别,以分别识别出各个分割区域中的字符。由于考虑到理赔单据框架格式对识别精度的影响,在进行字符识别前先按照理赔单据框架格式的框线排布进行区域分割,再针对各个分割区域来进行字符识别,避免了在对整个理赔单据影像中的字符进行统一识别时单据中的框线对字符识别的影响及干涉,能有效提高对理赔单据中字符的识别精度。
如图2所示,本发明第二实施例提出一种理赔单据的字符识别方法,在上述实施例的基础上,所述步骤S20包括:
步骤S201,调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出可利用光学字符识别引擎识别的第一分割区域和不可利用光学字符识别引擎识别的第二分割区域;
步骤S202,利用预先确定的光学字符识别引擎对各个所述第一分割区域进行字符识别,以识别出各个所述第一分割区域中的字符,并调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以识别出各个所述第二分割区域中的字符。
本实施例中,在按照该理赔单据框架格式的框线排布进行区域分割得到一个或多个分割区域后,在对获得的分割区域进行识别之前,还调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出无需深度识别的第一分割区域和需要深度识别的第二分割区域。例如,以当前自身的识别引擎为OCR字符识别引擎为例进行说明,可将OCR字符识别引擎能正确识别或识别率高的区域作为无需深度识别的区域,即利用当前自身的OCR字符识别引擎即可对该区域的字符进行正确的识别,无需借助其他识别方式。将OCR字符识别引擎无法识别或识别率低的区域作为需要深度识别的区域,即利用当前自身的OCR字符识别引擎无法对该区域的字符进行正确的识别,需借助其他识别方式如经训练过的识别模型来进行字符识别。
在分析出该理赔单据影像中可利用OCR字符识别引擎进行正确识别的第一分割区域和不可利用OCR字符识别引擎识别的第二分割区域之后,即可针对分析出的第一分割区域和第二分割区域采取不同的识别方式进行字符识别。利用预先确定的OCR字符识别引擎对各个所述第一分割区域进行字符识别,以正确识别出各个所述第一分割区域中的字符。调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以正确识别出各个所述第二分割区域中的字符,该预先确定的识别模型可以是针对大量分割区域样本进行训练好的识别模型,也可以是比自身的OCR字符识别引擎识别方式更复杂、识别效果更好的识别引擎,在此不做限定。
进一步地,在其他实施例中,所述预先确定的分析模型为卷积神经网络(Convolutional Neural Network,简称CNN)模型,所述预先确定的分析模型的训练过程如下:
A、针对预先确定的理赔单据框架格式,获取预设数量(例如,50万个)的基于该理赔单据框架格式的理赔单据影像样本;
B、对每一个理赔单据影像样本按照该理赔单据框架格式的框线排布进行区域分割,并确定出各个理赔单据影像样本中OCR字符识别引擎识别错误的第三分割区域和OCR字符识别引擎识别正确的第四分割区域;
C、将所有第三分割区域归入第一训练集,将所有第四分割区域归入第二训练集;
D、分别从第一训练集和第二训练集中提取出第一预设比例(例如,80%)的分割区域作为待训练的分割区域,并将第一训练集和第二训练集中剩余的分割区域作为待验证的分割区域;
E、利用提取的各个待训练的分割区域进行模型训练,以生成所述预先确定的分析模型,并利用各个待验证的分割区域对生成的所述预先确定的分析模型进行验证;
F、若验证通过率大于等于预设阈值(例如,98%),则训练完成,或者,若验证通过率小于预设阈值,则增加理赔单据影像样本的数量,并重复执行所述步骤A、B、C、D、E,直至验证通过率大于或等于预设阈值。
本实施例中利用经大量理赔单据影像样本训练过的卷积神经网络模型来进行分割区域分析,能够准确分析出理赔单据的各个分割区域中可利用OCR字符识别引擎来正确识别字符的第一分割区域和无法利用OCR字符识别引擎来正确识别字符的第二分割区域,以便后续针对第一分割区域和第二分割区域分别采用不同的识别方式来进行准确的字符识别操作,从而提高对理赔单据中字符的识别精度。
进一步地,在其他实施例中,所述预先确定的识别模型为长短期记忆(LongShort-Term Memory,简称LSTM)模型,所述预先确定的识别模型的训练过程如下:
获取预设数量(例如,10万)的区域样本,该区域样本可以是历史数据中对若干理赔单据按照其框架格式的框线排布进行区域分割后的分割区域样本。在一种实施方式中,可统一将分割区域样本中的字体设置为黑色,背景设置为白色,以便于进行字符识别。并将各个分割区域样本进行标注,如可将各个分割区域样本的名称命名为该分割区域样本所包含的字符以进行标注。
将预设数量的分割区域样本按照预设比例(例如,8:2)分为第一数据集和第二数据集,将第一数据集作为训练集,将第二数据集作为测试集,其中,第一数据集的样本数量比例大于或者等于第二数据集的样本数量比例。
将第一数据集送入LSTM网络进行模型训练,每隔预设时间(例如每30分钟或每进行1000次迭代),对模型使用第二数据集进行测试,以评估当前训练的模型效果。例如,在测试时,可使用训练得到的模型对第二数据集中的分割区域样本进行字符识别,并将利用训练得到的模型对分割区域样本的字符识别结果与该分割区域样本的标注进行比对,以计算出训练得到的模型的字符识别结果与该分割区域样本的标注的误差。具体地,在计算误差时,可采用编辑距离作为计算标准,其中,编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符,一般来说,编辑距离越小,两个串的相似度越大。因此,在以编辑距离作为计算标准来计算训练得到的模型的字符识别结果与该分割区域样本的标注的误差时,计算得到的误差越小,说明训练得到的模型的字符识别结果与该分割区域样本的标注的相似度越大;相反,计算得到的误差越大,说明训练得到的模型的字符识别结果与该分割区域样本的标注的相似度越小。
由于该分割区域样本的标注为该分割区域样本的名称也即该分割区域样本所包含的字符,因此,计算出的训练得到的模型的字符识别结果与该分割区域样本的标注的误差即为训练得到的模型的字符识别结果与该分割区域样本所包含的字符之间的误差,能反映出训练得到的模型识别出的字符与正确的字符之间的误差。记录每一次对训练的模型使用第二数据集进行测试的误差,并分析误差的变化趋势,若分析测试时的训练模型对分割区域样本的字符识别的误差出现发散,则调整训练参数如activation函数、LSTM层数、输入输出的变量维度等,并重新训练,使测试时的训练模型对分割区域样本的字符识别的误差能够收敛。当分析测试时的训练模型对分割区域样本的字符识别的误差收敛后,则结束模型训练,将生成的训练模型作为训练好的所述预先确定的识别模型。
本实施例中,针对OCR字符识别引擎无法识别的区域,采用训练好的LSTM模型进行识别,由于LSTM模型为经大量分割区域样本训练过的,且对分割区域样本的字符识别的误差收敛的模型,配合LSTM模型自身的长期记忆功能使该LSTM模型在识别分割区域中的字符时,能利用模型记住的长期信息如上下文信息等,更加准确地识别出分割区域中的字符,从而进一步提高对理赔单据中字符的识别精度。
本发明进一步提供一种理赔单据的字符识别服务器。
参照图3,图3为本发明理赔单据的字符识别服务器第一实施例的功能模块示意图。
在第一实施例中,该理赔单据的字符识别服务器包括:
分割模块01,用于在收到待识别字符的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域;
本实施例中,服务器可以接收用户发出的包含待识别字符的理赔单据影像的字符识别请求,例如,接收用户通过手机、平板电脑、自助终端设备等终端发送的字符识别请求,如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的客户端上发送来的字符识别请求,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的字符识别请求。
服务器在收到待识别字符识别的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,理赔单据影像中按照其框架格式排布有横向或竖向的框线,以组成各项输入栏供用户填写相关信息。本实施例中,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域。例如,在一种实施方式中,由于一般不同类型的保险均对应有不同的单据格式模板,因此,可预先根据用户上传的单据类型(可能不同的保险有不同的单据格式),获取到对应的单据模板,然后根据模板的格式来分割。如可根据收到的待识别字符的理赔单据影像的单据类型,找到该理赔单据影像对应的单据模板,然后根据其对应的单据模板进行区域分割。该分割区域是由该理赔单据框架格式的框线所围成的最小单位的区域,且该分割区域为不包含框线的区域,以避免后续在对每一分割区域进行字符识别时框线对识别精度的干涉及影响,该分割区域类似于excel表格的每个方格,excel表格的每个方格即是最小区域内不包含框线的区域。
识别模块02,用于调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别,以识别出各个分割区域中的字符。
在按照该理赔单据框架格式的框线排布对理赔单据影像进行区域分割得到一个或多个分割区域后,可调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对各个分割区域分别进行字符识别,以识别出各个分割区域中的字符,也即理赔单据影像中的字符。例如,可利用预先确定的分析模型分析各个分割区域所适用的识别模型或识别方式,再根据分析出的结果针对各个分割区域利用适合各个分割区域自身的识别模型或识别方式来进行字符识别,以提高字符识别的准确率。如针对不同的分割区域,可分析出字符识别的方式为利用光学字符识别引擎进行识别,也可以用其他识别引擎或训练的识别模型来进行识别,在此不做限定。识别出各个分割区域中的字符,还可将各个分割区域中的字符自动填充、录入至与该理赔单据影像对应的电子理赔单据的各相应输入栏位中。
本实施例在对理赔单据影像进行字符识别前,按照该理赔单据框架格式的框线排布对其进行区域分割,利用预先确定的识别规则对该理赔单据的各个分割区域分别进行字符识别,以分别识别出各个分割区域中的字符。由于考虑到理赔单据框架格式对识别精度的影响,在进行字符识别前先按照理赔单据框架格式的框线排布进行区域分割,再针对各个分割区域来进行字符识别,避免了在对整个理赔单据影像中的字符进行统一识别时单据中的框线对字符识别的影响及干涉,能有效提高对理赔单据中字符的识别精度。
进一步地,在上述实施例的基础上,上述识别模块02还用于:
调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出可利用光学字符识别引擎识别的第一分割区域和不可利用光学字符识别引擎识别的第二分割区域;
利用预先确定的光学字符识别引擎对各个所述第一分割区域进行字符识别,以识别出各个所述第一分割区域中的字符,并调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以识别出各个所述第二分割区域中的字符。
本实施例中,在按照该理赔单据框架格式的框线排布进行区域分割得到一个或多个分割区域后,在对获得的分割区域进行识别之前,还调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出无需深度识别的第一分割区域和需要深度识别的第二分割区域。例如,以当前自身的识别引擎为OCR字符识别引擎为例进行说明,可将OCR字符识别引擎能正确识别或识别率高的区域作为无需深度识别的区域,即利用当前自身的OCR字符识别引擎即可对该区域的字符进行正确的识别,无需借助其他识别方式。将OCR字符识别引擎无法识别或识别率低的区域作为需要深度识别的区域,即利用当前自身的OCR字符识别引擎无法对该区域的字符进行正确的识别,需借助其他识别方式如经训练过的识别模型来进行字符识别。
在分析出该理赔单据影像中可利用OCR字符识别引擎进行正确识别的第一分割区域和不可利用OCR字符识别引擎识别的第二分割区域之后,即可针对分析出的第一分割区域和第二分割区域采取不同的识别方式进行字符识别。利用预先确定的OCR字符识别引擎对各个所述第一分割区域进行字符识别,以正确识别出各个所述第一分割区域中的字符。调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以正确识别出各个所述第二分割区域中的字符,该预先确定的识别模型可以是针对大量分割区域样本进行训练好的识别模型,也可以是比自身的OCR字符识别引擎识别方式更复杂、识别效果更好的识别引擎,在此不做限定。
进一步地,在其他实施例中,所述预先确定的分析模型为卷积神经网络(Convolutional Neural Network,简称CNN)模型,所述预先确定的分析模型的训练过程如下:
A、针对预先确定的理赔单据框架格式,获取预设数量(例如,50万个)的基于该理赔单据框架格式的理赔单据影像样本;
B、对每一个理赔单据影像样本按照该理赔单据框架格式的框线排布进行区域分割,并确定出各个理赔单据影像样本中OCR字符识别引擎识别错误的第三分割区域和OCR字符识别引擎识别正确的第四分割区域;
C、将所有第三分割区域归入第一训练集,将所有第四分割区域归入第二训练集;
D、分别从第一训练集和第二训练集中提取出第一预设比例(例如,80%)的分割区域作为待训练的分割区域,并将第一训练集和第二训练集中剩余的分割区域作为待验证的分割区域;
E、利用提取的各个待训练的分割区域进行模型训练,以生成所述预先确定的分析模型,并利用各个待验证的分割区域对生成的所述预先确定的分析模型进行验证;
F、若验证通过率大于等于预设阈值(例如,98%),则训练完成,或者,若验证通过率小于预设阈值,则增加理赔单据影像样本的数量,并重复执行所述步骤A、B、C、D、E,直至验证通过率大于或等于预设阈值。
本实施例中利用经大量理赔单据影像样本训练过的卷积神经网络模型来进行分割区域分析,能够准确分析出理赔单据的各个分割区域中可利用OCR字符识别引擎来正确识别字符的第一分割区域和无法利用OCR字符识别引擎来正确识别字符的第二分割区域,以便后续针对第一分割区域和第二分割区域分别采用不同的识别方式来进行准确的字符识别操作,从而提高对理赔单据中字符的识别精度。
进一步地,在其他实施例中,所述预先确定的识别模型为长短期记忆(LongShort-Term Memory,简称LSTM)模型,所述预先确定的识别模型的训练过程如下:
获取预设数量(例如,10万)的区域样本,该区域样本可以是历史数据中对若干理赔单据按照其框架格式的框线排布进行区域分割后的分割区域样本。在一种实施方式中,可统一将分割区域样本中的字体设置为黑色,背景设置为白色,以便于进行字符识别。并将各个分割区域样本进行标注,如可将各个分割区域样本的名称命名为该分割区域样本所包含的字符以进行标注。
将预设数量的分割区域样本按照预设比例(例如,8:2)分为第一数据集和第二数据集,将第一数据集作为训练集,将第二数据集作为测试集,其中,第一数据集的样本数量比例大于或者等于第二数据集的样本数量比例。
将第一数据集送入LSTM网络进行模型训练,每隔预设时间(例如每30分钟或每进行1000次迭代),对模型使用第二数据集进行测试,以评估当前训练的模型效果。例如,在测试时,可使用训练得到的模型对第二数据集中的分割区域样本进行字符识别,并将利用训练得到的模型对分割区域样本的字符识别结果与该分割区域样本的标注进行比对,以计算出训练得到的模型的字符识别结果与该分割区域样本的标注的误差。具体地,在计算误差时,可采用编辑距离作为计算标准,其中,编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符,一般来说,编辑距离越小,两个串的相似度越大。因此,在以编辑距离作为计算标准来计算训练得到的模型的字符识别结果与该分割区域样本的标注的误差时,计算得到的误差越小,说明训练得到的模型的字符识别结果与该分割区域样本的标注的相似度越大;相反,计算得到的误差越大,说明训练得到的模型的字符识别结果与该分割区域样本的标注的相似度越小。
由于该分割区域样本的标注为该分割区域样本的名称也即该分割区域样本所包含的字符,因此,计算出的训练得到的模型的字符识别结果与该分割区域样本的标注的误差即为训练得到的模型的字符识别结果与该分割区域样本所包含的字符之间的误差,能反映出训练得到的模型识别出的字符与正确的字符之间的误差。记录每一次对训练的模型使用第二数据集进行测试的误差,并分析误差的变化趋势,若分析测试时的训练模型对分割区域样本的字符识别的误差出现发散,则调整训练参数如activation函数、LSTM层数、输入输出的变量维度等,并重新训练,使测试时的训练模型对分割区域样本的字符识别的误差能够收敛。当分析测试时的训练模型对分割区域样本的字符识别的误差收敛后,则结束模型训练,将生成的训练模型作为训练好的所述预先确定的识别模型。
本实施例中,针对OCR字符识别引擎无法识别的区域,采用训练好的LSTM模型进行识别,由于LSTM模型为经大量分割区域样本训练过的,且对分割区域样本的字符识别的误差收敛的模型,配合LSTM模型自身的长期记忆功能使该LSTM模型在识别分割区域中的字符时,能利用模型记住的长期信息如上下文信息等,更加准确地识别出分割区域中的字符,从而进一步提高对理赔单据中字符的识别精度。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

Claims (10)

1.一种理赔单据的字符识别方法,其特征在于,所述方法包括以下步骤:
服务器在收到待识别字符的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域;
调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别,以识别出各个分割区域中的字符。
2.如权利要求1所述的理赔单据的字符识别方法,其特征在于,所述调用预先确定的分析模型对获得的各个分割区域进行分析的步骤包括:
调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出可利用光学字符识别引擎识别的第一分割区域和不可利用光学字符识别引擎识别的第二分割区域;
所述利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别的步骤还包括:
利用预先确定的光学字符识别引擎对各个所述第一分割区域进行字符识别,以识别出各个所述第一分割区域中的字符,并调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以识别出各个所述第二分割区域中的字符。
3.如权利要求2所述的理赔单据的字符识别方法,其特征在于,所述预先确定的分析模型为卷积神经网络模型,所述预先确定的分析模型的训练过程如下:
A、针对预先确定的理赔单据框架格式,获取预设数量的基于该理赔单据框架格式的理赔单据影像样本;
B、对每一个理赔单据影像样本按照该理赔单据框架格式的框线排布进行区域分割,并确定出各个理赔单据影像样本中利用光学字符识别引擎识别错误的第三分割区域和利用光学字符识别引擎识别正确的第四分割区域;
C、将所有第三分割区域归入第一训练集,将所有第四分割区域归入第二训练集;
D、分别从所述第一训练集和所述第二训练集中提取出第一预设比例的分割区域作为待训练的分割区域,并将所述第一训练集和所述第二训练集中剩余的分割区域作为待验证的分割区域;
E、利用提取的各个待训练的分割区域进行模型训练,以生成所述预先确定的分析模型,并利用各个待验证的分割区域对生成的所述预先确定的分析模型进行验证;
F、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加理赔单据影像样本的数量,并重复执行上述步骤A、B、C、D、E,直至验证通过率大于或等于预设阈值。
4.如权利要求2或3所述的理赔单据的字符识别方法,其特征在于,所述预先确定的识别模型为长短期记忆LSTM模型,所述预先确定的识别模型的训练过程如下:
获取预设数量的分割区域样本,对各个分割区域样本以该分割区域样本所含字符来进行标注;
将预设数量的分割区域样本按照预设比例分为第一数据集和第二数据集,并将所述第一数据集作为训练集,将所述第二数据集作为测试集;
将所述第一数据集送入LSTM网络进行模型训练,每隔预设时间,使用训练得到的模型对所述第二数据集中的分割区域样本进行字符识别,并将识别的字符与该分割区域样本的标注进行比对,以计算识别的字符和标注的误差;
若训练得到的模型识别字符的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别字符的误差能够收敛;
若训练得到的模型识别字符的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的识别模型。
5.如权利要求1所述的理赔单据的字符识别方法,其特征在于,所述分割区域是由该理赔单据框架格式的框线所围成的最小单位的区域,且所述分割区域为不包含框线的区域。
6.一种理赔单据的字符识别服务器,其特征在于,所述字符识别服务器包括:
分割模块,用于在收到待识别字符的理赔单据影像后,按照该理赔单据框架格式的框线排布进行区域分割,获得一个或多个分割区域;
识别模块,用于调用预先确定的分析模型对获得的各个分割区域进行分析,并利用预先确定的识别规则对分析出的各个分割区域分别进行字符识别,以识别出各个分割区域中的字符。
7.如权利要求6所述的理赔单据的字符识别服务器,其特征在于,所述识别模块还用于:
调用预先确定的分析模型对获得的各个分割区域进行分析,以分析出可利用光学字符识别引擎识别的第一分割区域和不可利用光学字符识别引擎识别的第二分割区域;
利用预先确定的光学字符识别引擎对各个所述第一分割区域进行字符识别,以识别出各个所述第一分割区域中的字符,并调用预先确定的识别模型对各个所述第二分割区域进行字符识别,以识别出各个所述第二分割区域中的字符。
8.如权利要求7所述的理赔单据的字符识别服务器,其特征在于,所述预先确定的分析模型为卷积神经网络模型,所述预先确定的分析模型的训练过程如下:
A、针对预先确定的理赔单据框架格式,获取预设数量的基于该理赔单据框架格式的理赔单据影像样本;
B、对每一个理赔单据影像样本按照该理赔单据框架格式的框线排布进行区域分割,并确定出各个理赔单据影像样本中利用光学字符识别引擎识别错误的第三分割区域和利用光学字符识别引擎识别正确的第四分割区域;
C、将所有第三分割区域归入第一训练集,将所有第四分割区域归入第二训练集;
D、分别从所述第一训练集和所述第二训练集中提取出第一预设比例的分割区域作为待训练的分割区域,并将所述第一训练集和所述第二训练集中剩余的分割区域作为待验证的分割区域;
E、利用提取的各个待训练的分割区域进行模型训练,以生成所述预先确定的分析模型,并利用各个待验证的分割区域对生成的所述预先确定的分析模型进行验证;
F、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加理赔单据影像样本的数量,并重复执行上述步骤A、B、C、D、E,直至验证通过率大于或等于预设阈值。
9.如权利要求7或8所述的理赔单据的字符识别服务器,其特征在于,所述预先确定的识别模型为长短期记忆LSTM模型,所述预先确定的识别模型的训练过程如下:
获取预设数量的分割区域样本,对各个分割区域样本以该分割区域样本所含字符来进行标注;
将预设数量的分割区域样本按照预设比例分为第一数据集和第二数据集,并将所述第一数据集作为训练集,将所述第二数据集作为测试集;
将所述第一数据集送入LSTM网络进行模型训练,每隔预设时间,使用训练得到的模型对所述第二数据集中的分割区域样本进行字符识别,并将识别的字符与该分割区域样本的标注进行比对,以计算识别的字符和标注的误差;
若训练得到的模型识别字符的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别字符的误差能够收敛;
若训练得到的模型识别字符的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的识别模型。
10.如权利要求6所述的理赔单据的字符识别服务器,其特征在于,所述分割区域是由该理赔单据框架格式的框线所围成的最小单位的区域,且所述分割区域为不包含框线的区域。
CN201710233613.3A 2017-04-11 2017-04-11 理赔单据的字符识别方法及服务器 Active CN107220648B (zh)

Priority Applications (9)

Application Number Priority Date Filing Date Title
CN201710233613.3A CN107220648B (zh) 2017-04-11 2017-04-11 理赔单据的字符识别方法及服务器
AU2017408799A AU2017408799B2 (en) 2017-04-11 2017-06-30 Method, device and server for recognizing characters for claim document, and storage medium
PCT/CN2017/091363 WO2018188199A1 (zh) 2017-04-11 2017-06-30 理赔单据的字符识别方法、装置、服务器及存储介质
SG11201900263SA SG11201900263SA (en) 2017-04-11 2017-06-30 Method, device and server for recognizing characters of claim document, and storage medium
JP2018536430A JP6710483B2 (ja) 2017-04-11 2017-06-30 損害賠償請求書類の文字認識方法、装置、サーバ及び記憶媒体
US16/084,244 US10650231B2 (en) 2017-04-11 2017-06-30 Method, device and server for recognizing characters of claim document, and storage medium
KR1020187023693A KR102171220B1 (ko) 2017-04-11 2017-06-30 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체
EP17899230.1A EP3432197B1 (en) 2017-04-11 2017-06-30 Method and device for identifying characters of claim settlement bill, server and storage medium
TW106135247A TWI621077B (zh) 2017-04-11 2017-10-13 理賠單據的字元識別方法及伺服器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710233613.3A CN107220648B (zh) 2017-04-11 2017-04-11 理赔单据的字符识别方法及服务器

Publications (2)

Publication Number Publication Date
CN107220648A true CN107220648A (zh) 2017-09-29
CN107220648B CN107220648B (zh) 2018-06-22

Family

ID=59927567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710233613.3A Active CN107220648B (zh) 2017-04-11 2017-04-11 理赔单据的字符识别方法及服务器

Country Status (9)

Country Link
US (1) US10650231B2 (zh)
EP (1) EP3432197B1 (zh)
JP (1) JP6710483B2 (zh)
KR (1) KR102171220B1 (zh)
CN (1) CN107220648B (zh)
AU (1) AU2017408799B2 (zh)
SG (1) SG11201900263SA (zh)
TW (1) TWI621077B (zh)
WO (1) WO2018188199A1 (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766809A (zh) * 2017-10-09 2018-03-06 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN108198591A (zh) * 2017-12-28 2018-06-22 泰康保险集团股份有限公司 用于远程审核单据的方法与装置
CN108319641A (zh) * 2017-12-21 2018-07-24 无锡雅座在线科技股份有限公司 菜品信息录入方法及装置
CN108564035A (zh) * 2018-04-13 2018-09-21 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
CN108595519A (zh) * 2018-03-26 2018-09-28 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
CN109190594A (zh) * 2018-09-21 2019-01-11 广东蔚海数问大数据科技有限公司 光学字符识别系统及信息提取方法
CN109344838A (zh) * 2018-11-02 2019-02-15 长江大学 发票信息自动快速识别方法、系统以及装置
CN109492549A (zh) * 2018-10-24 2019-03-19 杭州睿琪软件有限公司 一种训练样本集处理、模型训练方法及系统
WO2019071660A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
CN109784341A (zh) * 2018-12-25 2019-05-21 华南理工大学 一种基于lstm神经网络的医疗单据识别方法
CN109903172A (zh) * 2019-01-31 2019-06-18 阿里巴巴集团控股有限公司 理赔信息提取方法和装置、电子设备
CN110084704A (zh) * 2019-03-15 2019-08-02 北京水滴互联科技有限公司 一种互助保障服务器、系统及互助保障方法
CN110135225A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN110321760A (zh) * 2018-03-29 2019-10-11 北京和缓医疗科技有限公司 一种医疗单据识别方法和装置
CN110390320A (zh) * 2018-08-13 2019-10-29 杭州睿琪软件有限公司 一种包含有多张单据的影像信息的识别方法及系统
CN110569700A (zh) * 2018-09-26 2019-12-13 阿里巴巴集团控股有限公司 优化损伤识别结果的方法及装置
WO2019241897A1 (en) * 2018-06-21 2019-12-26 Element Ai Inc. Data extraction from short business documents
JP2020027598A (ja) * 2018-12-27 2020-02-20 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
CN111539424A (zh) * 2020-04-21 2020-08-14 北京云从科技有限公司 一种基于ocr的图像处理方法、系统、设备及介质
CN112016553A (zh) * 2019-05-28 2020-12-01 创新先进技术有限公司 光学字符识别(ocr)系统、自动ocr更正系统、方法
CN112686262A (zh) * 2020-12-28 2021-04-20 广州博士信息技术研究院有限公司 一种基于图像识别技术的手册提取结构化数据并快速归档的方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102150815B1 (ko) * 2018-11-02 2020-09-02 알리바바 그룹 홀딩 리미티드 다수의 시스템 지시자의 모니터링
TWI684950B (zh) * 2018-12-12 2020-02-11 全友電腦股份有限公司 物種數據解析方法、系統及電腦程式產品
TWI703508B (zh) * 2018-12-19 2020-09-01 洽吧智能股份有限公司 字元影像識別方法與系統
CN110610175A (zh) * 2019-08-06 2019-12-24 深圳市华付信息技术有限公司 一种ocr数据误标注清洗方法
US11481605B2 (en) 2019-10-25 2022-10-25 Servicenow Canada Inc. 2D document extractor
CN111291742B (zh) * 2020-02-10 2023-08-04 北京百度网讯科技有限公司 对象识别方法和装置、电子设备、存储介质
US11972489B1 (en) 2020-04-24 2024-04-30 State Farm Mutual Automobile Insurance Company Claims process assistance using models
CN111259873B (zh) * 2020-04-26 2021-02-26 江苏联著实业股份有限公司 一种表格数据提取方法及装置
CN115981798B (zh) * 2023-03-21 2023-08-01 北京探境科技有限公司 文件解析方法、装置、计算机设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256772A (ja) * 2002-03-06 2003-09-12 Ricoh Co Ltd 文字認識装置及び記録媒体
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106557747A (zh) * 2016-11-15 2017-04-05 平安科技(深圳)有限公司 识别保险单号码的方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04304586A (ja) 1991-04-01 1992-10-27 Mitsubishi Electric Corp 文字認識装置
TW200802137A (en) 2006-06-16 2008-01-01 Univ Nat Chiao Tung Serial-type license plate recognition system
TWI355853B (en) 2008-04-25 2012-01-01 Hon Hai Prec Ind Co Ltd Image capturing device and image arranging method
KR101028670B1 (ko) * 2008-10-22 2011-04-12 엔에이치엔(주) 언어모델과 ocr을 이용하여 문서에 포함된 문자열을 인식하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP4856235B2 (ja) 2009-12-15 2012-01-18 富士通株式会社 帳票認識方法及び帳票認識装置
US8625113B2 (en) * 2010-09-24 2014-01-07 Ricoh Company Ltd System and method for distributed optical character recognition processing
CN102567764B (zh) * 2012-01-13 2016-03-02 中国工商银行股份有限公司 一种提高电子影像识别效率的票据凭证及系统
JP5753828B2 (ja) * 2012-09-27 2015-07-22 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像処理プログラム
CN103258198B (zh) * 2013-04-26 2015-12-23 四川大学 一种表格文档图像中字符提取方法
US9800895B2 (en) 2013-06-27 2017-10-24 Qualcomm Incorporated Depth oriented inter-view motion vector prediction
JP6773400B2 (ja) * 2014-09-30 2020-10-21 メディア株式会社 帳票認識装置、帳票認識システム、帳票認識システムのプログラム、帳票認識システムの制御方法、帳票認識システムプログラムを搭載した記録媒体
US9659213B2 (en) * 2015-07-03 2017-05-23 Cognizant Technology Solutions India Pvt. Ltd. System and method for efficient recognition of handwritten characters in documents
WO2018071403A1 (en) * 2016-10-10 2018-04-19 Insurance Services Office, Inc. Systems and methods for optical charater recognition for low-resolution ducuments
JP6401806B2 (ja) * 2017-02-14 2018-10-10 株式会社Pfu 日付識別装置、日付識別方法及び日付識別プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256772A (ja) * 2002-03-06 2003-09-12 Ricoh Co Ltd 文字認識装置及び記録媒体
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106557747A (zh) * 2016-11-15 2017-04-05 平安科技(深圳)有限公司 识别保险单号码的方法及装置

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766809B (zh) * 2017-10-09 2020-05-19 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
WO2019071660A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
WO2019071662A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN107766809A (zh) * 2017-10-09 2018-03-06 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN108319641A (zh) * 2017-12-21 2018-07-24 无锡雅座在线科技股份有限公司 菜品信息录入方法及装置
CN108198591A (zh) * 2017-12-28 2018-06-22 泰康保险集团股份有限公司 用于远程审核单据的方法与装置
CN110135225A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN110135225B (zh) * 2018-02-09 2021-04-09 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN108595519A (zh) * 2018-03-26 2018-09-28 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
CN110321760A (zh) * 2018-03-29 2019-10-11 北京和缓医疗科技有限公司 一种医疗单据识别方法和装置
US10977513B2 (en) 2018-04-13 2021-04-13 Hangzhou Glorify Software Limited Method, system and computer readable storage medium for identifying information carried on sheet
CN108564035B (zh) * 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
CN108564035A (zh) * 2018-04-13 2018-09-21 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
WO2019241897A1 (en) * 2018-06-21 2019-12-26 Element Ai Inc. Data extraction from short business documents
CN110390320A (zh) * 2018-08-13 2019-10-29 杭州睿琪软件有限公司 一种包含有多张单据的影像信息的识别方法及系统
CN109190594A (zh) * 2018-09-21 2019-01-11 广东蔚海数问大数据科技有限公司 光学字符识别系统及信息提取方法
CN110569700A (zh) * 2018-09-26 2019-12-13 阿里巴巴集团控股有限公司 优化损伤识别结果的方法及装置
CN109492549A (zh) * 2018-10-24 2019-03-19 杭州睿琪软件有限公司 一种训练样本集处理、模型训练方法及系统
CN109344838A (zh) * 2018-11-02 2019-02-15 长江大学 发票信息自动快速识别方法、系统以及装置
CN109344838B (zh) * 2018-11-02 2023-11-24 长江大学 发票信息自动快速识别方法、系统以及装置
CN109784341A (zh) * 2018-12-25 2019-05-21 华南理工大学 一种基于lstm神经网络的医疗单据识别方法
JP2020027598A (ja) * 2018-12-27 2020-02-20 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
WO2020155790A1 (zh) * 2019-01-31 2020-08-06 阿里巴巴集团控股有限公司 理赔信息提取方法和装置、电子设备
CN109903172A (zh) * 2019-01-31 2019-06-18 阿里巴巴集团控股有限公司 理赔信息提取方法和装置、电子设备
TWI712980B (zh) * 2019-01-31 2020-12-11 開曼群島商創新先進技術有限公司 理賠資訊提取方法和裝置、電子設備
CN110084704A (zh) * 2019-03-15 2019-08-02 北京水滴互联科技有限公司 一种互助保障服务器、系统及互助保障方法
CN112016553A (zh) * 2019-05-28 2020-12-01 创新先进技术有限公司 光学字符识别(ocr)系统、自动ocr更正系统、方法
US11023766B2 (en) 2019-05-28 2021-06-01 Advanced New Technologies Co., Ltd. Automatic optical character recognition (OCR) correction
CN111539424A (zh) * 2020-04-21 2020-08-14 北京云从科技有限公司 一种基于ocr的图像处理方法、系统、设备及介质
CN112686262A (zh) * 2020-12-28 2021-04-20 广州博士信息技术研究院有限公司 一种基于图像识别技术的手册提取结构化数据并快速归档的方法

Also Published As

Publication number Publication date
SG11201900263SA (en) 2019-02-27
JP6710483B2 (ja) 2020-06-17
TW201837788A (zh) 2018-10-16
CN107220648B (zh) 2018-06-22
TWI621077B (zh) 2018-04-11
AU2017408799A1 (en) 2018-11-08
KR20190026641A (ko) 2019-03-13
US20190147239A1 (en) 2019-05-16
AU2017408799B2 (en) 2019-10-10
US10650231B2 (en) 2020-05-12
EP3432197A1 (en) 2019-01-23
EP3432197A4 (en) 2019-06-19
JP2019520615A (ja) 2019-07-18
KR102171220B1 (ko) 2020-10-29
WO2018188199A1 (zh) 2018-10-18
EP3432197B1 (en) 2022-07-06

Similar Documents

Publication Publication Date Title
CN107220648B (zh) 理赔单据的字符识别方法及服务器
CN106557747B (zh) 识别保险单号码的方法及装置
CN110275834A (zh) 用户界面自动化测试系统及方法
CN108280542A (zh) 一种用户画像模型的优化方法、介质以及设备
CN110110726A (zh) 电力设备铭牌识别方法、装置、计算机设备和存储介质
CN107291775A (zh) 错误样本的修复语料生成方法和装置
CN110245227B (zh) 文本分类的融合分类器的训练方法及设备
CN110674876A (zh) 一种字符检测方法、装置、电子设备及计算机可读介质
CN110135225A (zh) 样本标注方法及计算机存储介质
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN107958204A (zh) 征信报告识别方法、装置、计算机设备及存储介质
CN112464925A (zh) 基于机器学习的移动端开户资料银行信息自动提取方法
CN111353689B (zh) 一种风险评估方法及装置
CN114207676A (zh) 手写体识别方法、装置、电子设备及存储介质
CN115937899A (zh) 基于深度学习的轻量级人体关键点检测方法
CN107135402A (zh) 一种识别电视台图标的方法及装置
CN113312485B (zh) 日志自动化分类方法及装置、计算机可读存储介质
CN112348922B (zh) 一种测井曲线自动绘制方法、系统、装置及存储介质
CN114724162A (zh) 文本识别模型的训练方法、装置、计算机设备及存储介质
CN110414929A (zh) 一种汽车配件图片智能审核方法
CN114186043B (zh) 预训练方法、装置、设备和存储介质
CN113343816A (zh) 一种针对ocr简历识别算法的自动化测试方法和系统
CN112766391A (zh) 一种制作单据的方法、系统、设备及介质
CN114615172A (zh) 流量检测方法及系统、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant