CN110598527A - 基于机器学习的理赔保单号码识别方法及相关设备 - Google Patents

基于机器学习的理赔保单号码识别方法及相关设备 Download PDF

Info

Publication number
CN110598527A
CN110598527A CN201910673059.XA CN201910673059A CN110598527A CN 110598527 A CN110598527 A CN 110598527A CN 201910673059 A CN201910673059 A CN 201910673059A CN 110598527 A CN110598527 A CN 110598527A
Authority
CN
China
Prior art keywords
policy
policy number
insurance
picture
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910673059.XA
Other languages
English (en)
Other versions
CN110598527B (zh
Inventor
王晶晶
吴东勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910673059.XA priority Critical patent/CN110598527B/zh
Publication of CN110598527A publication Critical patent/CN110598527A/zh
Application granted granted Critical
Publication of CN110598527B publication Critical patent/CN110598527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Geometry (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种基于机器学习的理赔保单号码识别方法,包括:获取理赔保单图片中包含保单号码在内的第一目标行字符区域图片;识别并输出第一目标行字符区域图片中的保单号码;当保单号码与预先存储的保单号码不匹配时,显示与保单号码相似度大于预设相似度阈值的候选保单号码;当侦测到候选保单号码中的一个保单号码的选定操作时,将该选定的保单号码作为目标保单号码;发送理赔保单图片及对应目标保单号码的保险合同至审核人。本发明还提供一种基于机器学习的理赔保单号码识别装置、终端及存储介质。本发明通过确定所输出的保单号码与预先存储的保单号码不匹配时给出候选保单号码,由于候选保单号码数量较少,节省了人工确认时间,准确率更高。

Description

基于机器学习的理赔保单号码识别方法及相关设备
技术领域
本发明涉及保险技术领域,具体涉及一种基于机器学习的理赔保单号码识别方法、装置、终端及存储介质。
背景技术
保险公司中有很多保险单以图片的形式进行存储,不同类型的保险单的保单号码标注在不同的位置,要想快速的获取每张保险单上面的保单号码,工作人员一般需要根据保险单的大小,颜色及内容布局进行整理,然后通过人工操作的方式一张张获取,当保险单图片的数量较多,工作人员无法快速地得到每一张保险单图片的保单号码,导致工作量非常大,降低工作效率。
发明内容
鉴于以上内容,有必要提出一种基于机器学习的理赔保单号码识别方法、装置、终端及存储介质,通过确定所输出的保单号码与数据库中预先存储的保单号码不匹配时给出候选保单号码,由于候选保单号码数量较少,节省了人工确认时间,准确率更高。
本发明的第一方面提供一种基于机器学习的理赔保单号码识别方法,所述方法包括:
在接收到理赔保单图片后,获取所述理赔保单图片中包含保单号码在内的第一目标行字符区域图片;
调用预先训练生成的第一识别模型对所述第一目标行字符区域图片进行识别并输出保单号码;
判断所输出的保单号码与数据库中预先存储的保单号码是否匹配;
当确定所输出的保单号码与数据库中预先存储的保单号码不匹配时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码;
当侦测到审核人员对所述候选保单号码中的一个保单号码的选定操作时,将该选定的保单号码作为所述理赔保单的目标保单号码;
发送所述理赔保单图片及对应所述目标保单号码的保险合同至审核人。
优选的,所述判断所输出的保单号码与数据库中预先存储的保单号码是否匹配包括:
计算所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度;
当相似度为1时,确定所输出的保单号码与数据库中预先存储的保单号码匹配;
当相似度不为1时,确定所输出的保单号码与数据库中预先存储的保单号码不匹配。
优选的,所述计算所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度包括:
对所输出的保单号码及所述预先存储的保单号码分别进行标序;
识别所输出的保单号码与所述预先存储的保单号码具有相同序号的字符;
统计所输出的保单号码与所述预先存储的保单号码中序号相同且对应序号上的字符也相同的字符的个数;
计算所统计的个数占所输出的保单号码中的字符总个数的比例;
将所述比例作为所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度。
优选的,在所述显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码之前,所述方法还包括:
获取所述理赔保单图片中包含被保险人姓名在内的第二目标行字符区域图片;
调用预先训练生成的第二识别模型对所述第二目标行字符区域图片进行识别并输出所述理赔保单图片的被保险人姓名;
判断所述被保险人姓名与所述候选保单号码对应的被保险人姓名是否相同;
当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名相同时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码;
当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名不相同时,显示不存在对应所述理赔保单图片的保险合同的提示信息。
优选的,当侦测到审核人员对预设图标的选定操作时,所述方法还包括:
发送理赔不被受理的短信至理赔申请人。
优选的,当确定所输出的保单号码与数据库中预先存储的保单号码匹配时,所述方法还包括:
发送所述理赔保单图片及对应所述理赔保单图片中的保单号码的保险合同至所述审核人;
发送已受理理赔申请的短信至理赔申请人。
优选的,所述预设相似度阈值是通过如下确定的:
统计所输出的保单号码中的字符与数据库中预先存储的保单号码对应顺序处的字符相同的字符的总个数;
将所述总个数减1后得到的数值确定为所述预设相似度阈值。
本发明的第二方面提供一种基于机器学习的理赔保单号码识别装置,所述装置包括:
获取模块,用于在接收到理赔保单图片后,获取所述理赔保单图片中包含保单号码在内的第一目标行字符区域图片;
识别模块,用于调用预先训练生成的第一识别模型对所述第一目标行字符区域图片进行识别并输出保单号码;
判断模块,用于判断所输出的保单号码与数据库中预先存储的保单号码是否匹配;
显示模块,用于当所述判断模块确定所输出的保单号码与数据库中预先存储的保单号码不匹配时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码;
选定模块,用于当侦测到审核人员对所述候选保单号码中的一个保单号码的选定操作时,将该选定的保单号码作为所述理赔保单的目标保单号码;
发送模块,用于发送所述理赔保单图片及对应所述目标保单号码的保险合同至审核人。
本发明的第三方面提供一种终端,所述终端包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于机器学习的理赔保单号码识别方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于机器学习的理赔保单号码识别方法。
综上所述,本发明所述的基于机器学习的理赔保单号码识别方法、装置、终端及存储介质,在接收到理赔保单图片后,获取所述理赔保单图片中包含保单号码在内的第一目标行字符区域图片;调用预先训练生成的第一识别模型对所述第一目标行字符区域图片进行识别并输出保单号码;判断所输出的保单号码与数据库中预先存储的保单号码是否匹配;当确定所输出的保单号码与数据库中预先存储的保单号码不匹配时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码;当侦测到审核人员对所述候选保单号码中的一个保单号码的选定操作时,将该选定的保单号码作为所述理赔保单的目标保单号码;发送所述理赔保单图片及对应所述目标保单号码的保险合同至审核人。由于候选保单号码数量较少,节省了人工确认时间,准确率更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例一提供的基于机器学习的理赔保单号码识别方法的流程图。
图2是本发明实施例二提供的基于机器学习的理赔保单号码识别装置的结构图。
图3是本发明实施例三提供的终端的结构示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
图1是本发明实施例一提供的基于机器学习的理赔保单号码识别方法的流程图。
在本实施例中,所述基于机器学习的理赔保单号码识别方法可以应用于终端中,对于需要进行基于机器学习的理赔保单号码识别的终端,可以直接在终端上集成本发明的方法所提供的基于机器学习的理赔保单号码识别的功能,或者以软件开发工具包(Software Development Kit,SKD)的形式运行在终端中。
如图1所示,所述基于机器学习的理赔保单号码识别方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11:在接收到理赔保单图片后,获取所述理赔保单图片中包含保单号码在内的第一目标行字符区域图片。
本实施例中,理赔保单的类型有多种,例如有理赔车险保险单、理赔寿险保险单及理赔意外伤害保险单等,每一种理赔保险单为一种保险类型。请求理赔的保险公司不同,理赔保单申请书(简称为理赔保单)也不相同,对应的理赔保单图片也不相同。对于不同类型的理赔保单,其保单号码所处的位置并不相同,例如有些保单号码位于理赔保单右上角偏上的位置,有些保单号码位于理赔保单右上角偏左的位置。
本实施例中,可以预先将不同类型的理赔保单与保单号码所处的位置进行关联存储,在接收到理赔保单图片后,根据理赔保单的大小、颜色及内容布局等进行综合识别,以判断该理赔保单图片所属的保险类型。在识别出其所属的保险类型后,基于该保险类型与保单号码在理赔保单图片中的位置关系从所述理赔保单图片中截取包含所述保单号码在内的第一目标行字符区域图片,进一步识别该第一目标行字符区域图片中的字符即可得到保单号码。
一般理赔申请书都是由理赔申请人手写的,保险公司接收到理赔申请人手写的理赔申请书之后,可通过对理赔申请书进行拍照或者扫描的方式得到理赔保单图片。
S12:调用预先训练生成的第一识别模型对所述目标行字符区域图片进行识别并输出所述理赔保单图片的保单号码。
本实施例中,可以预先训练生成用于识别理赔保单中的保单号码的第一识别模型,所述第一识别模型可以是图像处理相关的多种模型中的一种。
将所述包含保单号码在内的第一目标行字符区域图片输入至预先训练生成的第一识别模型中,以识别得到该第一目标行字符区域图片中的每一个字符。一般来说,保单号码为一串字符,当第一目标行字符区域图片中的每一个字符被识别出来后,可以得到一串由字符组成的保单号码。
优选地,所述第一识别模型的训练过程包括:
1)获取预设数量的理赔保单样本图片,将包含保单号码的理赔保单样本图片作为第一图片集,并将不包含保单号码的理赔保单样本图片作为第二图片集;
2)从所述第一图片集和第二图片集中分别提取出预设比例的理赔保单样本图片作为待训练的样本图片,并将第一图片集和第二图片集中剩余的理赔保单样本图片作为待验证的样本图片;
3)利用各待训练的样本图片进行模型训练,以生成卷积神经网络模型,并利用各待验证的样本图片对所生成的所述卷积神经网络模型进行验证;
4)若验证通过率大于等于预设阈值,则训练完成,否则增加所述理赔保单样本图片的数量,以重新进行训练及验证。
示例性的,假设获取10万张理赔保单样本图片,其中,理赔保单样本图片仅包含一行数字,该行数字为保单号码,字体为黑色,背景为白色,并可将各个理赔保单样本图片的名称命名为所含的保单号码。提取预设比例的理赔保单样本图片作为训练集,并将该10万张理赔保单样本图片中剩余的理赔保单样本图片作为验证集,训练集中的理赔保单样本图片的数量大于验证集中的理赔保单样本图片的数量,例如将理赔保单样本图片中的80%的理赔保单样本图片作为训练集,将剩余的20%的理赔保单样本图片作为验证集。
在第一次训练卷积神经网络模型时,该卷积神经网络模型的参数采用默认的参数进行训练,在训练的过程中不断调整参数,在训练生成该卷积神经网络模型后,利用各待验证的样本图片对所生成的卷积神经网络模型进行验证,如果验证通过率大于等于预设阈值,例如通过率大于等于98%,则训练结束。然后以该训练得到的卷积神经网络模型为识别目标行字符区域图片的第一识别模型。如果验证通过率小于预设阈值时,例如通过率小于98%,则增加参与训练的理赔保单样本图片的数量,然后重新训练卷积神经网络模型,直至训练得到的卷积神经网络模型的验证通过率大于或者等于预设阈值即可。
在验证时,使用训练得到的卷积神经网络模型对验证集中的保单号码样本图片进行保单号码识别,并将识别结果与该保单号码样本图片的所用的名称进行对比(该保单号码样本图片利用该保单号码进行命名),以评估所训练的卷积神经网络模型的识别效果。
所述卷积神经网络为现有技术,本发明在此不做详细阐述。
S13:判断所输出的保单号码与数据库中预先存储的保单号码是否匹配。
本实施例中,保险公司可以预先建立一个数据库,所述数据库中记录了所有保险人购买的所有类型的保单号码,同时关联记录了保险人姓名、联系方式、身份证号码、购买的保险险种等。应当理解的是,保单号码是唯一的,不会存在有两个相同的保单号码,不同的保单号码可以对应姓名相同的保险人。
具体的,所述判断所输出的保单号码与数据库中预先存储的保单号码是否匹配包括:
计算所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度;
当相似度为1时,确定所输出的保单号码与数据库中预先存储的保单号码匹配;
当相似度不为1时,确定所输出的保单号码与数据库中预先存储的保单号码不匹配。
在输出理赔保单图片上的保单号码后,将所输出的保单号码与数据库中的保单号码进行一一匹配。当确定数据库中预先存储的保单号码中有一个保单号码与所输出的保单号码的相似度为1时,认为匹配成功;当确定数据库中预先存储的保单号码中任何一个保单号码与所输出的保单号码的相似度不为1,认为匹配失败。
具体的,所述计算所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度包括:
对所输出的保单号码及所述数据库中预先存储的保单号码分别进行标序;
识别所输出的保单号码与所述预先存储的保单号码具有相同序号的字符;
统计所输出的保单号码与所述预先存储的保单号码中序号相同且对应序号上的字符也相同的字符的个数;
计算所统计的个数占所输出的保单号码中的字符总个数的比例;
将所述比例作为所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度。
示例性的,若所输出的保单号码为“9567158”,数据库预先存储的保单号码有“9566158”及“9556158”,则保单号码“9567158”、“9566158”、“9556158”中的字符依次排序为第一序号、第二序号、第三序号、第四序号、第五序号、第六序号及第七序号。识别所输出的保单号码“9567158”与预先存储的保单号码“9566158”及“9556158”具有相同序号的字符,例如,识别所输出的保单号码的第一序号上的字符与预先存储的保单号码的第一序号上的字符是否相同。统计所输出的保单号码“9567158”与预先存储的保单号码“9566158”序号相同且对应序号上的字符也相同的字符有位于第一序号上的字符“9”、位于第二序号上的字符“5”、位于第三序号上的字符“6”、位于第五序号上的字符“1”、位于第六序号上的字符“5”及位于第七序号上的字符“8”共6个。计算所统计的个数占所输出的保单号码中的字符总个数的比例为85.7%。则所输出的保单号码“9567158”与保单号码“9566158”的相似度为85.7%。同理,采用同样的计算方法得到所输出的保单号码“9567158”与保单号码“9556158”的相似度为71.4%。
当确定所输出的保单号码与数据库中预先存储的保单号码匹配时,可以执行S14;当确定所输出的保单号码与数据库中预先存储的保单号码不匹配时,可以执行S15。
S14:发送所述理赔保单图片及对应所述理赔保单图片中的保单号码的保险合同至审核人。
本实施例中,当确定所输出的保单号码与数据库中预先存储的保单号码匹配时,可以将所述理赔保单图片及对应所述理赔保单图片中的保单号码的保险合同一起发送至审核人进行审核。
优选的,在发送所述理赔保单图片及对应所述理赔保单图片中的保单号码的保险合同至审核人的同时,所述方法还包括:发送已受理理赔申请的短信至理赔申请人。
S15:显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码。
本实施例中,当确定所输出的保单号码与数据库中预先存储的保单号码不匹配时,表明理赔申请人手写的保单号码在数据库中找不到匹配的保单号码,此种情况可能是由于理赔申请人手写保单号码时存在失误,保单号码错写、漏写或者多写导致无法成功匹配,可以将与所输出的保单号码相似度大于预设相似度阈值的保单号码作为候选保单号码并进行显示,供审核人员进行人工确认是否存在失误。
本实施例中,可以在计算所输出的保单号码与数据库中预先存储的保单号码之间的相似度之后提供显示界面,在所述显示界面上根据预先设置的显示方式显示相似度大于预设相似度阈值的候选保单号码。所述预先设置的显示方式包括:将所述相似度按照由大到小的顺序进行排序;对应最高相似度的候选保单号码显示在第一行;对应次高相似度的候选保单号码显示在第二行;以此类推;对应最低相似度的候选保单号码显示在最后一行。
所述预设相似度阈值为预先设置的相似度临界值。
在其他实施例中,所述预设相似度阈值是通过如下确定的:统计所输出的保单号码中的字符与数据库中预先存储的保单号码对应顺序处的字符相同的字符的总个数;将所述总个数减1后得到的数值确定为所述预设相似度阈值。即从数据库中匹配出与所输出的保单号码中的字符仅有一位匹配不上的保单号码。
需要指出的是,若所输出的保单号码与数据库中的某个保单号码的顺序及对应顺序处的字符均相同,但数据库中的该保单号码多了一位字符或者少了一位字符,认为此种情况下,数据库中的该保单号码也作为候选保单号码进行显示。例如,所输出的保单号码为“9567158”,数据库预先存储的保单号码有“95671581”、“956715”,则将保单号码“95671581”、“956715”作为候选保单号码。
通过统计匹配的字符个数确定候选保单号码,能够将理赔申请人可能出现的错写、漏写、多写等原因造成的保单号码匹配失败的情况全都考虑在内,获取所有与所输出的保单号码相似度大于预设相似度阈值的候选保单号码并进行显示,避免检索过程中出现了遗漏,同时显示候选保单号码,能够便于保险公司的审核人员清楚明了的对候选保单号码进行校验。
优选的,在所述显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码之前,所述方法还包括:
获取所述理赔保单图片中包含被保险人姓名在内的第二目标行字符区域图片;
调用预先训练生成的第二识别模型对所述第二目标行字符区域图片进行识别并输出所述理赔保单图片中的被保险人姓名;
判断所述被保险人姓名与所述候选保单号码对应的被保险人姓名是否相同;
当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名相同时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码;
当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名不相同时,显示不存在对应所述理赔保单图片的保险合同的提示信息。
对于不同类型的理赔保单,理赔保单中的被保险人姓名所处的位置也不相同。可以预先将不同类型的理赔保单与被保险人姓名在理赔保单图片中所处的位置进行关联存储。在识别出其所属的保险类型后,基于该保险类型与被保险人姓名在理赔保单图片中的位置关系提取所述被保险人姓名在所述理赔保单图片中对应的第二目标行字符区域图片,在提取了保险人姓名对应的第二目标行字符区域图片后,只需要调用预先训练生成的第二识别模型进一步识别出该第二目标行字符区域图片中的字符即可得到被保险人姓名。
关于所述第二识别模型的训练过程同所述用于识别保单号码的第一识别模型的训练过程,本文在此不再详细阐述。
当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名不相同时,还可以发送理赔不被受理的短信至理赔申请人,以通知理赔申请人理赔状态。当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名相同时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码。
通过第二识别模型识别理赔保单图片中的被保险人姓名,并判断被保险人姓名与候选保单号码对应的被保险人姓名是否相同来进一步确认理赔保单图片中的保单号码是否由于理赔申请人误写造成的。在确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名相同时,将与所输出的保单号码相似度大于预设相似度阈值的候选保单号码显示出来以供保险公司的审核人员再次进行人工确认与排查。在确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名不相同时,方才认为理赔事实不符,后续短信通知理赔申请人理赔审核的结果,从而可以避免一发现保单号码匹配不上就通知理赔申请人理赔不予受理,给理赔申请人带来不必要的麻烦,且理赔体验不佳。
S16:当侦测到审核人员对所述候选保单号码中的一个保单号码的选定操作时,将该选定的保单号码作为所述理赔保单的目标保单号码。
在显示候选保单号码之后,审核人员可以在所述显示界面上执行选定操作,根据所述审核人员的选定操作,执行相对应的功能。若审核人员选定所述候选保单号码中的一个保单号码时,将该选定的保单号码作为所述理赔保单的目标保单号码;当审核人员选定的是预设图标时,表明所述候选保单号码中的任何一个保单号码均不可取,则发送理赔不被受理的短信至理赔申请人,以通知理赔申请人理赔状态。
S17:发送所述理赔保单图片及对应所述目标保单号码的保险合同至审核人。
综上所述,本发明所述的基于机器学习的理赔保单号码识别方法,在接收到理赔保单图片后,获取所述理赔保单图片中包含保单号码在内的第一目标行字符区域图片;调用预先训练生成的第一识别模型对所述第一目标行字符区域图片进行识别并输出保单号码;判断所输出的保单号码与数据库中预先存储的保单号码是否匹配;当确定所输出的保单号码与数据库中预先存储的保单号码不匹配时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码;当侦测到审核人员对所述候选保单号码中的一个保单号码的选定操作时,将该选定的保单号码作为所述理赔保单的目标保单号码;发送所述理赔保单图片及对应所述目标保单号码的保险合同至审核人。由于候选保单号码数量较少,节省了人工确认时间,准确率更高。
实施例二
图2是本发明实施例二提供的基于机器学习的理赔保单号码识别装置的结构图。
在一些实施例中,所述基于机器学习的理赔保单号码识别装置20可以包括多个由程序代码段所组成的功能模块。所述基于机器学习的理赔保单号码识别装置20中的各个程序段的程序代码可以存储于终端的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)对理赔保单号码进行识别。
本实施例中,所述基于机器学习的理赔保单号码识别装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、识别模块202、判断模块203、发送模块204、显示模块205及选定模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
获取模块201,用于在接收到理赔保单图片后,获取所述理赔保单图片中包含保单号码在内的第一目标行字符区域图片。
本实施例中,理赔保单的类型有多种,例如有理赔车险保险单、理赔寿险保险单及理赔意外伤害保险单等,每一种理赔保险单为一种保险类型。请求理赔的保险公司不同,理赔保单申请书(简称为理赔保单)也不相同,对应的理赔保单图片也不相同。对于不同类型的理赔保单,其保单号码所处的位置并不相同,例如有些保单号码位于理赔保单右上角偏上的位置,有些保单号码位于理赔保单右上角偏左的位置。
本实施例中,可以预先将不同类型的理赔保单与保单号码所处的位置进行关联存储,在接收到理赔保单图片后,根据理赔保单的大小、颜色及内容布局等进行综合识别,以判断该理赔保单图片所属的保险类型。在识别出其所属的保险类型后,基于该保险类型与保单号码在理赔保单图片中的位置关系从所述理赔保单图片中截取包含所述保单号码在内的第一目标行字符区域图片,进一步识别该第一目标行字符区域图片中的字符即可得到保单号码。
一般理赔申请书都是由理赔申请人手写的,保险公司接收到理赔申请人手写的理赔申请书之后,可通过对理赔申请书进行拍照或者扫描的方式得到理赔保单图片。
识别模块202,用于调用预先训练生成的第一识别模型对所述目标行字符区域图片进行识别并输出所述理赔保单图片的保单号码。
本实施例中,可以预先训练生成用于识别理赔保单中的保单号码的第一识别模型,所述第一识别模型可以是图像处理相关的多种模型中的一种。
将所述包含保单号码在内的第一目标行字符区域图片输入至预先训练生成的第一识别模型中,以识别得到该第一目标行字符区域图片中的每一个字符。一般来说,保单号码为一串字符,当第一目标行字符区域图片中的每一个字符被识别出来后,可以得到一串由字符组成的保单号码。
优选地,所述第一识别模型的训练过程包括:
1)获取预设数量的理赔保单样本图片,将包含保单号码的理赔保单样本图片作为第一图片集,并将不包含保单号码的理赔保单样本图片作为第二图片集;
2)从所述第一图片集和第二图片集中分别提取出预设比例的理赔保单样本图片作为待训练的样本图片,并将第一图片集和第二图片集中剩余的理赔保单样本图片作为待验证的样本图片;
3)利用各待训练的样本图片进行模型训练,以生成卷积神经网络模型,并利用各待验证的样本图片对所生成的所述卷积神经网络模型进行验证;
4)若验证通过率大于等于预设阈值,则训练完成,否则增加所述理赔保单样本图片的数量,以重新进行训练及验证。
示例性的,假设获取10万张理赔保单样本图片,其中,理赔保单样本图片仅包含一行数字,该行数字为保单号码,字体为黑色,背景为白色,并可将各个理赔保单样本图片的名称命名为所含的保单号码。提取预设比例的理赔保单样本图片作为训练集,并将该10万张理赔保单样本图片中剩余的理赔保单样本图片作为验证集,训练集中的理赔保单样本图片的数量大于验证集中的理赔保单样本图片的数量,例如将理赔保单样本图片中的80%的理赔保单样本图片作为训练集,将剩余的20%的理赔保单样本图片作为验证集。
在第一次训练卷积神经网络模型时,该卷积神经网络模型的参数采用默认的参数进行训练,在训练的过程中不断调整参数,在训练生成该卷积神经网络模型后,利用各待验证的样本图片对所生成的卷积神经网络模型进行验证,如果验证通过率大于等于预设阈值,例如通过率大于等于98%,则训练结束。然后以该训练得到的卷积神经网络模型为识别目标行字符区域图片的第一识别模型如果验证通过率小于预设阈值时,例如通过率小于98%,则增加参与训练的理赔保单样本图片的数量,然后重新训练卷积神经网络模型,直至训练得到的卷积神经网络模型的验证通过率大于或者等于预设阈值即可。
在验证时,使用训练得到的卷积神经网络模型对验证集中的保单号码样本图片进行保单号码识别,并将识别结果与该保单号码样本图片的所用的名称进行对比(该保单号码样本图片利用该保单号码进行命名),以评估所训练的卷积神经网络模型的识别效果。
所述卷积神经网络为现有技术,本发明在此不做详细阐述。
判断模块203,用于判断所输出的保单号码与数据库中预先存储的保单号码是否匹配。
本实施例中,保险公司可以预先建立一个数据库,所述数据库中记录了所有保险人购买的所有类型的保单号码,同时关联记录了保险人姓名、联系方式、身份证号码、购买的保险险种等。应当理解的是,保单号码是唯一的,不会存在有两个相同的保单号码,不同的保单号码可以对应姓名相同的保险人。
具体的,所述判断模块203判断所输出的保单号码与数据库中预先存储的保单号码是否匹配包括:
计算所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度;
当相似度为1时,确定所输出的保单号码与数据库中预先存储的保单号码匹配;
当相似度不为1时,确定所输出的保单号码与数据库中预先存储的保单号码不匹配。
在输出理赔保单图片上的保单号码后,将所输出的保单号码与数据库中的保单号码进行一一匹配。当确定数据库中预先存储的保单号码中有一个保单号码与所输出的保单号码的相似度为1时,认为匹配成功;当确定数据库中预先存储的保单号码中任何一个保单号码与所输出的保单号码的相似度不为1,认为匹配失败。
具体的,所述计算所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度包括:
对所输出的保单号码及所述数据库中预先存储的保单号码分别进行标序;
识别所输出的保单号码与所述预先存储的保单号码具有相同序号的字符;
统计所输出的保单号码与所述预先存储的保单号码中序号相同且对应序号上的字符也相同的字符的个数;
计算所统计的个数占所输出的保单号码中的字符总个数的比例;
将所述比例作为所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度。
示例性的,若所输出的保单号码为“9567158”,数据库预先存储的保单号码有“9566158”及“9556158”,则保单号码“9567158”、“9566158”、“9556158”中的字符依次排序为第一序号、第二序号、第三序号、第四序号、第五序号、第六序号及第七序号。识别所输出的保单号码“9567158”与预先存储的保单号码“9566158”及“9556158”具有相同序号的字符,例如,识别所输出的保单号码的第一序号上的字符与预先存储的保单号码的第一序号上的字符是否相同。统计所输出的保单号码“9567158”与预先存储的保单号码“9566158”序号相同且对应序号上的字符也相同的字符有位于第一序号上的字符“9”、位于第二序号上的字符“5”、位于第三序号上的字符“6”、位于第五序号上的字符“1”、位于第六序号上的字符“5”及位于第七序号上的字符“8”共6个。计算所统计的个数占所输出的保单号码中的字符总个数的比例为85.7%。则所输出的保单号码“9567158”与保单号码“9566158”的相似度为85.7%。同理,采用同样的计算方法得到所输出的保单号码“9567158”与保单号码“9556158”的相似度为71.4%。
发送模块204,用于发送所述理赔保单图片及对应所述理赔保单图片中的保单号码的保险合同至审核人。
本实施例中,当确定所输出的保单号码与数据库中预先存储的保单号码匹配时,可以将所述理赔保单图片及对应所述理赔保单图片中的保单号码的保险合同一起发送至审核人进行审核。
优选的,在发送所述理赔保单图片及对应所述理赔保单图片中的保单号码的保险合同至审核人的同时,所述发送模块204,还用于发送已受理理赔申请的短信至理赔申请人。
显示模块205,用于当所述判断模块203确定所输出的保单号码与数据库中预先存储的保单号码不匹配时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码。
本实施例中,当确定所输出的保单号码与数据库中预先存储的保单号码不匹配时,表明理赔申请人手写的保单号码在数据库中找不到匹配的保单号码,此种情况可能是由于理赔申请人手写保单号码时存在失误,保单号码错写、漏写或者多写导致无法成功匹配,可以将与所输出的保单号码相似度大于预设相似度阈值的保单号码作为候选保单号码并进行显示,供审核人员进行人工确认是否存在失误。
本实施例中,可以在计算所输出的保单号码与数据库中预先存储的保单号码之间的相似度之后提供显示界面,在所述显示界面上根据预先设置的显示方式显示相似度大于预设相似度阈值的候选保单号码。所述预先设置的显示方式包括:将所述相似度按照由大到小的顺序进行排序;对应最高相似度的候选保单号码显示在第一行;对应次高相似度的候选保单号码显示在第二行;以此类推;对应最低相似度的候选保单号码显示在最后一行。
所述预设相似度阈值为预先设置的相似度临界值。
在其他实施例中,所述预设相似度阈值是通过如下确定的:统计所输出的保单号码中的字符与数据库中预先存储的保单号码对应顺序处的字符相同的字符的总个数;将所述总个数减1后得到的数值确定为所述预设相似度阈值。即从数据库中匹配出与所输出的保单号码中的字符仅有一位匹配不上的保单号码。
需要指出的是,若所输出的保单号码与数据库中的某个保单号码的顺序及对应顺序处的字符均相同,但数据库中的该保单号码多了一位字符或者少了一位字符,认为此种情况下,数据库中的该保单号码也作为候选保单号码进行显示。例如,所输出的保单号码为“9567158”,数据库预先存储的保单号码有“95671581”、“956715”,则将保单号码“95671581”、“956715”作为候选保单号码。
通过统计匹配的字符个数确定候选保单号码,能够将理赔申请人可能出现的错写、漏写、多写等原因造成的保单号码匹配失败的情况全都考虑在内,获取所有与所输出的保单号码相似度大于预设相似度阈值的候选保单号码并进行显示,避免检索过程中出现了遗漏,同时显示候选保单号码,能够便于保险公司的审核人员清楚明了的对候选保单号码进行校验。
优选的,在所述显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码之前,所述获取模块201,还用于获取所述理赔保单图片中包含被保险人姓名在内的第二目标行字符区域图片;
所述识别模块202,还用于调用预先训练生成的第二识别模型对所述第二目标行字符区域图片进行识别并输出所述理赔保单图片中的被保险人姓名;
所述判断模块203,还用于判断所述被保险人姓名与所述候选保单号码对应的被保险人姓名是否相同;
所述显示模块205,还用于当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名相同时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码;
所述显示模块205,还用于当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名不相同时,显示不存在对应所述理赔保单图片的保险合同的提示信息。
对于不同类型的理赔保单,理赔保单中的被保险人姓名所处的位置也不相同。可以预先将不同类型的理赔保单与被保险人姓名在理赔保单图片中所处的位置进行关联存储。在识别出其所属的保险类型后,基于该保险类型与被保险人姓名在理赔保单图片中的位置关系提取所述被保险人姓名在所述理赔保单图片中对应的第二目标行字符区域图片,在提取了保险人姓名对应的第二目标行字符区域图片后,只需要调用预先训练生成的第二识别模型进一步识别出该第二目标行字符区域图片中的字符即可得到被保险人姓名。
关于所述第二识别模型的训练过程同所述用于识别保单号码的第一识别模型的训练过程,本文在此不再详细阐述。
当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名不相同时,还可以发送理赔不被受理的短信至理赔申请人,以通知理赔申请人理赔状态。当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名相同时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码。
通过第二识别模型识别理赔保单图片中的被保险人姓名,并判断被保险人姓名与候选保单号码对应的被保险人姓名是否相同来进一步确认理赔保单图片中的保单号码是否由于理赔申请人误写造成的。在确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名相同时,将与所输出的保单号码相似度大于预设相似度阈值的候选保单号码显示出来以供保险公司的审核人员再次进行人工确认与排查。在确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名不相同时,方才认为理赔事实不符,后续短信通知理赔申请人理赔审核的结果,从而可以避免一发现保单号码匹配不上就通知理赔申请人理赔不予受理,给理赔申请人带来不必要的麻烦,且理赔体验不佳。
选定模块206,用于当侦测到审核人员对所述候选保单号码中的一个保单号码的选定操作时,将该选定的保单号码作为所述理赔保单的目标保单号码。
在显示候选保单号码之后,审核人员可以在所述显示界面上执行选定操作,根据所述审核人员的选定操作,执行相对应的功能。若审核人员选定所述候选保单号码中的一个保单号码时,将该选定的保单号码作为所述理赔保单的目标保单号码;当审核人员选定的是预设图标时,表明所述候选保单号码中的任何一个保单号码均不可取,则发送理赔不被受理的短信至理赔申请人,以通知理赔申请人理赔状态。
所述发送模块204,用于发送所述理赔保单图片及对应所述目标保单号码的保险合同至审核人。
综上所述,本发明所述的基于机器学习的理赔保单号码识别装置,在接收到理赔保单图片后,获取所述理赔保单图片中包含保单号码在内的第一目标行字符区域图片;调用预先训练生成的第一识别模型对所述第一目标行字符区域图片进行识别并输出保单号码;判断所输出的保单号码与数据库中预先存储的保单号码是否匹配;当确定所输出的保单号码与数据库中预先存储的保单号码不匹配时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码;当侦测到审核人员对所述候选保单号码中的一个保单号码的选定操作时,将该选定的保单号码作为所述理赔保单的目标保单号码;发送所述理赔保单图片及对应所述目标保单号码的保险合同至审核人。由于候选保单号码数量较少,节省了人工确认时间,准确率更高。
实施例三
参阅图3所示,为本发明实施例三提供的终端的结构示意图。在本发明较佳实施例中,所述终端3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的终端的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述终端3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述终端3包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的终端,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述终端3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述终端3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述终端3中的基于机器学习的理赔保单号码识别装置20,并在终端3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述终端3的控制核心(Control Unit),利用各种接口和线路连接整个终端3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行终端3的各种功能和处理数据,例如执行基于机器学习的理赔保单号码的识别。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述终端3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述终端3的操作装置以及安装的各类应用程序(如所述的基于机器学习的理赔保单号码识别装置20)、程序代码等,例如,上述的各个模块。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到基于机器学习的理赔保单号码的识别的目的。
在本发明的一个实施例中,所述存储器31存储多个指令,所述多个指令被所述至少一个处理器32所执行以实现基于机器学习的理赔保单号码的识别。
具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于机器学习的理赔保单号码识别方法,其特征在于,所述方法包括:
在接收到理赔保单图片后,获取所述理赔保单图片中包含保单号码在内的第一目标行字符区域图片;
调用预先训练生成的第一识别模型对所述第一目标行字符区域图片进行识别并输出所述理赔保单图片的保单号码;
判断所输出的保单号码与数据库中预先存储的保单号码是否匹配;
当确定所输出的保单号码与数据库中预先存储的保单号码不匹配时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码;
当侦测到审核人员对所述候选保单号码中的一个保单号码的选定操作时,将该选定的保单号码作为所述理赔保单图片的目标保单号码;
发送所述理赔保单图片及对应所述目标保单号码的保险合同至审核人。
2.如权利要求1所述的方法,其特征在于,所述判断所输出的保单号码与数据库中预先存储的保单号码是否匹配包括:
计算所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度;
当相似度为1时,确定所输出的保单号码与数据库中预先存储的保单号码匹配;
当相似度不为1时,确定所输出的保单号码与数据库中预先存储的保单号码不匹配。
3.如权利要求2所述的方法,其特征在于,所述计算所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度包括:
对所输出的保单号码及所述预先存储的保单号码分别进行标序;
识别所输出的保单号码与所述预先存储的保单号码具有相同序号的字符;
统计所输出的保单号码与所述预先存储的保单号码中序号相同且对应序号上的字符也相同的字符的个数;
计算所统计的个数占所输出的保单号码中的字符总个数的比例;
将所述比例作为所输出的保单号码与所述数据库中预先存储的保单号码之间的相似度。
4.如权利要求1所述的方法,其特征在于,在所述显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码之前,所述方法还包括:
获取所述理赔保单图片中包含被保险人姓名在内的第二目标行字符区域图片;
调用预先训练生成的第二识别模型对所述第二目标行字符区域图片进行识别并输出所述理赔保单图片的被保险人姓名;
判断所述被保险人姓名与所述候选保单号码对应的被保险人姓名是否相同;
当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名相同时,执行所述显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码的步骤;
当确定所述被保险人姓名与所述候选保单号码对应的被保险人姓名不相同时,显示不存在对应所述理赔保单图片的保险合同的提示信息。
5.如权利要求1所述的方法,其特征在于,当侦测到审核人员对预设图标的选定操作时,所述方法还包括:
发送理赔不被受理的短信至理赔申请人。
6.如权利要求1所述的方法,其特征在于,当确定所输出的保单号码与数据库中预先存储的保单号码匹配时,所述方法还包括:
发送所述理赔保单图片及对应所述理赔保单图片中的保单号码的保险合同至所述审核人;
发送已受理理赔申请的短信至理赔申请人。
7.如权利要求1至6中任意一项所述的方法,其特征在于,所述预设相似度阈值是通过如下步骤确定的:
统计所输出的保单号码中的字符与数据库中预先存储的保单号码对应顺序处的字符相同的字符的总个数;
将所述总个数减1后得到的数值确定为所述预设相似度阈值。
8.一种基于机器学习的理赔保单号码识别装置,其特征在于,所述装置包括:
获取模块,用于在接收到理赔保单图片后,获取所述理赔保单图片中包含保单号码在内的第一目标行字符区域图片;
识别模块,用于调用预先训练生成的第一识别模型对所述第一目标行字符区域图片进行识别并输出保单号码;
判断模块,用于判断所输出的保单号码与数据库中预先存储的保单号码是否匹配;
显示模块,用于当所述判断模块确定所输出的保单号码与数据库中预先存储的保单号码不匹配时,显示与所输出的保单号码相似度大于预设相似度阈值的候选保单号码;
选定模块,用于当侦测到审核人员对所述候选保单号码中的一个保单号码的选定操作时,将该选定的保单号码作为所述理赔保单的目标保单号码;
发送模块,用于发送所述理赔保单图片及对应所述目标保单号码的保险合同至审核人。
9.一种终端,其特征在于,所述终端包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于机器学习的理赔保单号码识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于机器学习的理赔保单号码识别方法。
CN201910673059.XA 2019-07-24 2019-07-24 基于机器学习的理赔保单号码识别方法及相关设备 Active CN110598527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910673059.XA CN110598527B (zh) 2019-07-24 2019-07-24 基于机器学习的理赔保单号码识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910673059.XA CN110598527B (zh) 2019-07-24 2019-07-24 基于机器学习的理赔保单号码识别方法及相关设备

Publications (2)

Publication Number Publication Date
CN110598527A true CN110598527A (zh) 2019-12-20
CN110598527B CN110598527B (zh) 2024-05-28

Family

ID=68852997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910673059.XA Active CN110598527B (zh) 2019-07-24 2019-07-24 基于机器学习的理赔保单号码识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN110598527B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382290A (zh) * 2020-02-24 2020-07-07 泰康保险集团股份有限公司 一种单据图片的处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036998A (ja) * 2016-09-02 2018-03-08 株式会社アイリックコーポレーション 保険証券画像解析システム、記載内容解析装置、携帯端末および携帯端末用のプログラム
CN109918984A (zh) * 2018-12-15 2019-06-21 深圳壹账通智能科技有限公司 保险单号码识别方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036998A (ja) * 2016-09-02 2018-03-08 株式会社アイリックコーポレーション 保険証券画像解析システム、記載内容解析装置、携帯端末および携帯端末用のプログラム
CN109918984A (zh) * 2018-12-15 2019-06-21 深圳壹账通智能科技有限公司 保险单号码识别方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382290A (zh) * 2020-02-24 2020-07-07 泰康保险集团股份有限公司 一种单据图片的处理方法及装置
CN111382290B (zh) * 2020-02-24 2023-10-10 泰康保险集团股份有限公司 一种单据图片的处理方法及装置

Also Published As

Publication number Publication date
CN110598527B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
US11023533B2 (en) Node task data display method and apparatus, storage medium and computer equipment
CN111814775B (zh) 目标对象异常行为识别方法、装置、终端及存储介质
CN113780691A (zh) 数据测试方法、装置、电子设备及存储介质
CN109918984A (zh) 保险单号码识别方法、装置、电子设备及存储介质
CN112990870A (zh) 基于核电设备的巡检文件生成方法、装置和计算机设备
CN112016905B (zh) 基于审批流程的信息展示方法、装置、电子设备及介质
CN113435998A (zh) 贷款逾期预测方法、装置、电子设备及存储介质
CN113190372A (zh) 多源数据的故障处理方法、装置、电子设备及存储介质
CN111401691A (zh) 业务进度监控方法、装置及计算机可读存储介质
CN113596844A (zh) 一种基于数据信息的预警方法、装置、介质及电子设备
CN110689443A (zh) 出险数据处理方法、装置及存储介质、服务器
CN113486316A (zh) 用户身份验证方法、装置、电子设备及可读存储介质
CN113572900A (zh) 外呼测试方法、装置、计算机设备和计算机可读存储介质
CN112634017A (zh) 远程开卡激活方法、装置、电子设备及计算机存储介质
CN111932413A (zh) 案件要素提取方法、装置、设备及介质
CN112801016B (zh) 一种选票数据统计方法、装置、设备和介质
CN110598527B (zh) 基于机器学习的理赔保单号码识别方法及相关设备
CN111738182A (zh) 基于图像识别的身份验证方法、装置、终端及存储介质
CN116562894A (zh) 车险理赔欺诈风险识别方法、装置、电子设备及存储介质
CN112685546B (zh) 人机多轮对话方法、装置及计算机可读存储介质
CN115222549A (zh) 风险评估处理方法、装置、计算机设备及存储介质
CN110348984B (zh) 不同交易渠道下的信用卡数据自动化输入方法及相关设备
CN112560721A (zh) 无感知模型切换方法、装置、电子设备及存储介质
CN113095284A (zh) 人脸选取方法、装置、设备及计算机可读存储介质
CN114548825B (zh) 投诉工单失真检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant