CN110175608A - 一种保险理赔附件处理方法及装置 - Google Patents

一种保险理赔附件处理方法及装置 Download PDF

Info

Publication number
CN110175608A
CN110175608A CN201910303749.6A CN201910303749A CN110175608A CN 110175608 A CN110175608 A CN 110175608A CN 201910303749 A CN201910303749 A CN 201910303749A CN 110175608 A CN110175608 A CN 110175608A
Authority
CN
China
Prior art keywords
character
picture
text
processed
identification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910303749.6A
Other languages
English (en)
Inventor
青涛
屈湘南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN201910303749.6A priority Critical patent/CN110175608A/zh
Publication of CN110175608A publication Critical patent/CN110175608A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

本发明实施例提供了一种保险理赔附件处理方法及装置,本发明涉及人工智能技术领域,方法包括:获取理赔附件,理赔附件携带待处理图片;向文本识别模型发送待处理图片,并获取文本识别模型输出的识别文本;向预设的敏感字符识别模型输入识别文本;获取敏感字符识别模型输出的对比文本,在对比文本中,敏感字符高亮显示;敏感字符包括以下至少之一:数字字符、文字字符、字母字符、符号字符;根据对比文本中的敏感字符对待处理图片进行模糊处理;用模糊处理后的图片替换理赔附件中的待处理图片。本发明实施例提供的技术方案能够解决现有技术中理赔附件脱敏处理效率低的问题。

Description

一种保险理赔附件处理方法及装置
【技术领域】
本发明涉及人工智能技术领域,尤其涉及一种保险理赔附件处理方法及装置。
【背景技术】
目前,现有的理赔系统中很多案例信息的赔案处理报告、赔款计算书等,在提供给外部人员时容易泄露其中的敏感字符,例如:用户的身份信息、姓名、理赔金额等。目前一般采用先下载至本地,再通过人工识别敏感字符,并进行脱敏处理后再上传至理赔系统,这种脱敏处理方式效率低。
【发明内容】
有鉴于此,本发明实施例提供了一种保险理赔附件处理方法及装置,用以解决现有技术中理赔附件脱敏处理方式效率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种保险理赔附件处理方法,所述方法包括:
获取理赔附件,所述理赔附件携带待处理图片;向文本识别模型发送所述待处理图片,并获取所述文本识别模型输出的识别文本;向预设的敏感字符识别模型输入所述识别文本;获取所述敏感字符识别模型输出的对比文本,在所述对比文本中,敏感字符高亮显示;所述敏感字符包括以下至少之一:数字字符、文字字符、字母字符、符号字符;根据所述对比文本中的所述敏感字符对所述待处理图片进行模糊处理;用模糊处理后的图片替换所述理赔附件中的待处理图片。
进一步地,所述文本识别模型包括卷积层、循环网络层及转译层,所述向文本识别模型发送所述待处理图片,并获取所述文本识别模型输出的识别文本,包括:所述卷积层对所述待处理图片切块进行特征提取,得到特征序列;向所述循环网络层输入所述特征序列进行字符的识别;经过所述转译层对识别的结果进行处理,生成所述识别文本。
进一步地,在所述向预设的敏感字符识别模型输入所述识别文本之前,所述方法还包括:获取包括敏感字符的文本样本,并按照预设比例分为训练集及测试集,其中,所述敏感字符的类型包括汉字字符、数字字符、字母字符及符号字符中的至少一种;通过所述训练集对所述敏感字符识别模型进行训练;利用所述测试集测试所述敏感字符识别模型的准确率;当所述准确率大于或等于预设阈值时,结束训练并得到训练好的所述敏感字符识别模型;当所述准确率小于所述预设阈值时,增加所述训练集中的文本样本的数量,并继续训练所述敏感字符识别模型,直至所述准确率大于或等于所述预设阈值。
进一步地,所述向文本识别模型发送所述待处理图片,包括:判断所述待处理图片的格式是否为预设格式;若是,则向所述文本识别模型发送所述待处理图片;若否,则通过预设的转换器将所述待处理图片转换为所述预设格式的图片后,再向所述文本识别模型发送格式转换后的所述待处理图片。
进一步地,在所述向文本识别模型发送所述待处理图片之前,所述方法还包括:对所述待处理图片进行倾斜矫正、增强处理、二值化处理及降噪处理。
进一步地,在所述向文本识别模型发送所述待处理图片之前,所述方法还包括:根据预设规则对所述待处理图片进行区域分割,将分割处理后的图片用于文本识别。
进一步地,所述根据所述对比文本中的所述敏感字符对所述待处理图片进行模糊处理,包括:基于用户选择的处理方式,对所述待处理图片中的敏感字符进行模糊处理,所述处理方式包括马赛克、涂抹、字符覆盖、图层覆盖中的至少一种。
为了实现上述目的,根据本发明的一个方面,提供了一种保险理赔附件处理装置,所述装置包括:第一获取单元,用于获取理赔附件,所述理赔附件携带待处理图片;发送单元,用于向文本识别模型发送所述待处理图片,并获取所述文本识别模型输出的识别文本;输入单元,用于向预设的敏感字符识别模型输入所述识别文本;第二获取单元,用于获取所述敏感字符识别模型输出的对比文本,在所述对比文本中,敏感字符高亮显示;所述敏感字符包括以下至少之一:数字字符、文字字符、字母字符、符号字符;处理单元,用于根据所述对比文本中的所述敏感字符对所述待处理图片进行模糊处理;替换单元,用于用模糊处理后的图片替换所述理赔附件中的待处理图片。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机非易失性存储介质,所述存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在设备执行上述的保险理赔附件处理方法。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的保险理赔附件处理方法的步骤。
在本方案中,通过对待处理图片的自动识别,将待处理图片转为文本格式,再将文本格式中的敏感信息自动识别出来,方便用户快速将敏感信息进行模糊处理,无需通过人工查找敏感信息,可以有效提高理赔附件脱敏处理的效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种可选的保险理赔附件处理方法的流程图;
图2是本发明实施例提供的一种可选的保险理赔附件处理装置的示意图;
图3是本发明实施例提供的一种可选的计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一获取单元也可以被称为第二获取单元,类似地,第二获取单元也可以被称为第一获取单元。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1是根据本发明实施例的一种保险理赔附件处理方法的流程图,如图1所示,该方法包括:
步骤S101,获取理赔附件,理赔附件携带待处理图片。
步骤S102,向文本识别模型发送待处理图片,并获取文本识别模型输出的识别文本。
步骤S103,向预设的敏感字符识别模型输入识别文本。
步骤S104,获取敏感字符识别模型输出的对比文本,在对比文本中,敏感字符高亮显示;敏感字符包括以下至少之一:数字字符、文字字符、字母字符、符号字符。
步骤S105,根据对比文本中的敏感字符对待处理图片进行模糊处理。
步骤S106,用模糊处理后的图片替换理赔附件中的待处理图片。
其中,理赔附件包括赔案处理报告、赔款计算书、保单资料等。理赔附件是案例的重要信息,经常涉及信息的敏感性、保密性问题。可以这些理赔附件通过客户确认签字后一般会扫描保留电子档。
在本方案中,通过对待处理图片的自动识别,将待处理图片转为文本格式,再将文本格式中的敏感信息自动识别出来,方便用户快速将敏感信息进行模糊处理,无需通过人工查找敏感信息,可以有效提高理赔附件脱敏处理的效率。
可选地,向文本识别模型发送待处理图片,包括:判断待处理图片的格式是否为预设格式;若是,则向文本识别模型发送待处理图片;若否,则通过预设的转换器将待处理图片转换为预设格式的图片后,再向文本识别模型发送格式转换后的待处理图片。
例如:文本识别模型的预设格式为pdf格式,当待处理图片为jpg格式或png格式,则需要将待处理图片转换为预设格式,再导入文本识别模型中。
可选地,在向文本识别模型发送待处理图片之前,方法还包括:对待处理图片进行倾斜矫正、增强处理、二值化处理及降噪处理。其中,增强处理是使待处理图片的亮、暗更清楚,黑白分明;二值化处理能够将待处理图片中的字符与背景区分开;降噪处理能够去掉待处理图片中的干扰噪声。
可选地,倾斜矫正可以采用霍夫变换方法计算待处理图片的倾斜角度,再根据倾斜角度对待处理图片进行旋转矫正。可以理解地,在理赔人员和客户签字处理后,一般通过拍照将文件保留,在拍照过程中容易受外界影响拍歪,因此通过倾斜矫正,使得图片内容在识别时更加准确。
可选地,对待处理图片进行增强处理的方式,包括:将待处理图片进行区域划分,利用图像归一化算法根据预设均值和预设方差对各个所述区域的红色通道图像、绿色通道图像、蓝色通道图像进行归一化。例如,采用同一均值和方差对待处理图片的各个区域的RGB通道图像进行依次遍历,得到增强处理后的图片。
可选地,对待处理图片进行二值化处理,是将图片的像素点的值处理为两种像素值,255或0,其中,255为白色,0为黑色,这样使得字符颜色相对于背景颜色更加鲜明。对待处理图片进行降噪处理可以采用均值滤波、自适应维纳滤波、小波滤波等方式。
可选地,文本识别模型包括卷积层、循环网络层及转译层,向文本识别模型发送待处理图片,并获取文本识别模型输出的识别文本,包括:
卷积层对待处理图片切块进行特征提取,得到特征序列;向循环网络层输入特征序列进行字符的识别;经过转译层对识别的结果进行处理,生成识别文本。
具体地,利用卷积层的卷积神经网络提取待处理图片的二维特征矩阵,再按照矩阵中的列方向对二维特征矩阵进行序列化得到特征序列,然后提取特征序列中的有效字符信息,得到特征向量;循环网络层根据特征向量识别得到字符。
具体地,文本识别模型也是通过大量的图片样本进行训练得到。
在其他实施方式中,也可以采用光学字符识别方法识别待处理图片中的字符,可以理解地,只有将图片中的字符转换为计算机可识别的字符,才能用敏感字符识别模型来进行识别。
可选地,在向文本识别模型发送待处理图片之前,方法还包括:根据预设规则对待处理图片进行区域分割,将分割处理后的图片用于文本识别。例如保险合同中的保险人、被保险人及关于保险人身份证之类所在的区域分割出来,用于文本识别,而待识别图片中的关于保险的一些常规声明,通用规则所在的区域分割后,无需输入文本识别模型。
在一种实施方式中,可以根据待处理图片所对应的理赔附件的名称,去调用模板分割规则。例如:赔款计算书包括多个预设字段(如:被保险人、计算书号、保单号码、出险地点、出险原因、保险金额、赔偿金额等),根据预设字段的敏感标签来对待处理图片进行分割,使得其中的被保险人,赔偿金额的字段图片被分割出来。
可选地,将从识别文本中的设有敏感标签的预设字段所关联的字符确定为敏感字符。
可选地,向预设的敏感字符识别模型输入识别文本之前,方法还包括:获取包括敏感字符的文本样本,并按照预设比例分为训练集及测试集,其中,敏感字符的类型包括汉字字符、数字字符、字母字符及符号字符中的至少一种;通过训练集对敏感字符识别模型进行训练;利用测试集测试敏感字符识别模型的准确率;当准确率大于或等于预设阈值时,结束训练并得到训练好的敏感字符识别模型;当准确率小于预设阈值时,增加训练集中的文本样本的数量,并继续训练敏感字符识别模型,直至准确率大于或等于预设阈值。其中,预设比例为8:2。
可以理解地,预设字段例如“姓名”“身份证号”“赔偿金额”等,训练集中的文本样本通过人工标注敏感标签后用于训练敏感字符识别模型,使得敏感字符识别模型能够识别未经过标注的测试文本中的敏感字符。例如将测试文本中“姓名:李明”进行通过预设的高亮色显示。
可选地,根据对比文本中的敏感字符对待处理图片进行模糊处理,包括:基于用户选择的处理方式,对待处理图片中的敏感字符进行模糊处理,处理方式包括马赛克、涂抹、字符覆盖、图层覆盖中的至少一种。
例如:待处理图片中的敏感字符投保人“李明”,可以根据用户选择的马赛克将“李明”两字进行马赛克;或者用涂抹的方式使其模糊化;或者用字符覆盖如“***”或者“aaa”等预设的字符对“李明”两字进行覆盖,使其模糊化;或者,用户选定图层,例如白色图层、灰色图层、或预设图案(花纹图案)的图层直接覆盖在现有的图片上的“李明”字符处,使得这两个敏感字符在图层覆盖后不能被看清。
具体地,可以根据用户选择的马赛克直径大小来实施模糊处理,还可以调节涂抹工具的尺寸,字符覆盖的面积、图层覆盖的颜色,从而实现多样化处理。
例如:用户可以将被投保人“李明”中的“明”字通过图层覆盖的方式来局部覆盖处理,也可以局部通过马赛克的方式来处理。赔偿金额“¥,500000”中的“5”通过字符局部覆盖的方式处理为“¥,a00000”。
本发明实施例提供了一种保险理赔附件处理装置,该装置用于执行上述保险理赔附件处理方法,如图2所示,该装置包括:第一获取单元10、发送单元20、输入单元30、第二获取单元40、处理单元50、替换单元60。
第一获取单元10,用于获取理赔附件,理赔附件携带待处理图片;
发送单元20,用于向文本识别模型发送待处理图片,并获取文本识别模型输出的识别文本;
输入单元30,用于向预设的敏感字符识别模型输入识别文本;
第二获取单元40,用于获取敏感字符识别模型输出的对比文本,在对比文本中,敏感字符高亮显示;敏感字符包括以下至少之一:数字字符、文字字符、字母字符、符号字符;
处理单元50,用于根据对比文本中的敏感字符对待处理图片进行模糊处理;
替换单元60,用于用模糊处理后的图片替换理赔附件中的待处理图片。
其中,理赔附件包括赔案处理报告、赔款计算书、保单资料等。理赔附件是案例的重要信息,经常涉及信息的敏感性、保密性问题。可以这些理赔附件通过客户确认签字后一般会扫描保留电子档。
在本方案中,通过对待处理图片的自动识别,将待处理图片转为文本格式,再将文本格式中的敏感信息自动识别出来,方便用户快速将敏感信息进行模糊处理,无需通过人工查找敏感信息,可以有效提高理赔附件脱敏处理的效率。
可选地,发送单元20包括判断子单元、发送子单元、转换子单元。
判断子单元,用于判断待处理图片的格式是否为预设格式;发送子单元,用于若是,则向文本识别模型发送待处理图片;转换子单元,用于若否,则通过预设的转换器将待处理图片转换为预设格式的图片后,再向文本识别模型发送格式转换后的待处理图片。
例如:文本识别模型的预设格式为pdf格式,当待处理图片为jpg格式或png格式,则需要将待处理图片转换为预设格式,再导入文本识别模型中。
可选地,装置还包括预处理单元。
预处理单元,用于对待处理图片进行倾斜矫正、增强处理、二值化处理及降噪处理。其中,增强处理是使待处理图片的亮、暗更清楚,黑白分明;二值化处理能够将待处理图片中的字符与背景区分开;降噪处理能够去掉待处理图片中的干扰噪声。
可选地,倾斜矫正可以采用霍夫变换方法计算待处理图片的倾斜角度,再根据倾斜角度对待处理图片进行旋转矫正。可以理解地,在理赔人员和客户签字处理后,一般通过拍照将文件保留,在拍照过程中容易受外界影响拍歪,因此通过倾斜矫正,使得图片内容在识别时更加准确。
可选地,文本识别模型包括卷积层、循环网络层及转译层,卷积层对待处理图片切块进行特征提取,得到特征序列;向循环网络层输入特征序列进行字符的识别;经过转译层对识别的结果进行处理,生成识别文本。
具体地,利用卷积层的卷积神经网络提取待处理图片的二维特征矩阵,再按照矩阵中的列方向对二维特征矩阵进行序列化得到特征序列,然后提取特征序列中的有效字符信息,得到特征向量;循环网络层根据特征向量识别得到字符。其中,循环网络层可以是长短时神经记忆网络。
具体地,文本识别模型也是通过大量的图片样本进行训练得到。
在其他实施方式中,也可以采用光学字符识别方法识别待处理图片中的字符,可以理解地,只有将图片中的字符转换为计算机可识别的字符,才能立于敏感字符识别模型来进行识别。
可选地,装置还包括分割单元,用于根据预设规则对待处理图片进行区域分割,将分割处理后的图片用于文本识别。例如保险合同中的保险人、被保险人及关于保险人身份证之类所在的区域分割出来,用于文本识别,而待识别图片中的关于保险的一些常规声明,通用规则所在的区域分割后,无需输入文本识别模型。
在一种实施方式中,可以根据待处理图片所对应的理赔附件的名称,去调用模板分割规则。例如:赔款计算书包括多个预设字段(如:被保险人、计算书号、保单号码、出险地点、出险原因、保险金额、赔偿金额等),根据预设字段等敏感标签来对待处理图片进行分割,使得其中的被保险人,赔偿金额的字段图片被分割出来。
可选地,将从识别文本中的设有敏感标签的预设字段所关联的字符确定为敏感字符。
可选地,装置还包括第三获取单元、训练单元、测试单元、第四获取单元、再训练单元。
第三获取单元,用于获取包括敏感字符的文本样本,并按照预设比例分为训练集及测试集,其中,敏感字符的类型包括汉字字符、数字字符、字母字符及符号字符中的至少一种;训练单元,用于通过训练集对敏感字符识别模型进行训练;测试单元,用于利用测试集测试敏感字符识别模型的准确率;第四获取单元,用于当准确率大于或等于预设阈值时,结束训练并得到训练好的敏感字符识别模型;再训练单元,用于当准确率小于预设阈值时,增加训练集中的文本样本的数量,并继续训练敏感字符识别模型,直至准确率大于或等于预设阈值。其中,预设比例为8:2。
可以理解地,预设字段例如“姓名”“身份证号”“赔偿金额”等,训练集中的文本样本通过人工标注敏感标签后用于训练敏感字符识别模型,使得敏感字符识别模型能够识别未经过标注的测试文本中的敏感字符。例如将测试文本中“姓名:李明”进行通过预设的高亮色显示。
可选地,处理单元包括处理子单元,用于基于用户选择的处理方式,对待处理图片中的敏感字符进行模糊处理。
例如:待处理图片中的敏感字符投保人“李明”,可以根据用户选择的马赛克将“李明”两字进行马赛克;或者用涂抹的方式使其模糊化;或者用字符覆盖如“***”或者“aaa”等预设的字符对“李明”两字进行覆盖,使其模糊化;或者,用户选定图层,例如白色图层、灰色图层、或预设图案(花纹图案)的图层直接覆盖在现有的图片上的“李明”字符处,使得这两个敏感字符在图层覆盖后不能被看清。
具体地,可以根据用户选择的马赛克直径大小来实施模糊处理,还可以调节涂抹工具的尺寸,字符覆盖的面积、图层覆盖的颜色,从而实现多样化处理。
例如:用户可以将被投保人“李明”中的“明”字通过图层覆盖的方式来局部覆盖处理,也可以局部通过马赛克的方式来处理。赔偿金额“¥,500000”中的“5”通过字符局部覆盖的方式处理为“¥,a00000”。
本发明实施例提供了一种计算机非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以下步骤:
获取理赔附件,理赔附件携带待处理图片;向文本识别模型发送待处理图片,并获取文本识别模型输出的识别文本;向预设的敏感字符识别模型输入识别文本;获取敏感字符识别模型输出的对比文本,在对比文本中,敏感字符高亮显示;敏感字符包括以下至少之一:数字字符、文字字符、字母字符、符号字符;根据对比文本中的敏感字符对待处理图片进行模糊处理;用模糊处理后的图片替换理赔附件中的待处理图片。
可选地,文本识别模型包括卷积层、循环网络层及转译层,在程序运行时控制存储介质所在设备执行以下步骤:卷积层对待处理图片切块进行特征提取,得到特征序列;向循环网络层输入特征序列进行字符的识别;经过转译层对识别的结果进行处理,生成识别文本。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:获取包括敏感字符的文本样本,并按照预设比例分为训练集及测试集,其中,敏感字符的类型包括汉字字符、数字字符、字母字符及符号字符中的至少一种;通过训练集对敏感字符识别模型进行训练;利用测试集测试敏感字符识别模型的准确率;当准确率大于或等于预设阈值时,结束训练并得到训练好的敏感字符识别模型;当准确率小于预设阈值时,增加训练集中的文本样本的数量,并继续训练敏感字符识别模型,直至准确率大于或等于预设阈值。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:判断待处理图片的格式是否为预设格式;若是,则向文本识别模型发送待处理图片;若否,则通过预设的转换器将待处理图片转换为预设格式的图片后,再向文本识别模型发送格式转换后的待处理图片。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:根据预设规则对待处理图片进行区域分割,将分割处理后的图片用于文本识别。
图3是本发明实施例提供的一种计算机设备的示意图。如图3所示,该实施例的计算机设备100包括:处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机程序103,处理器101执行计算机程序103时实现实施例中的保险理赔附件处理方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器101执行时实现实施例中保险理赔附件处理装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器101、存储器102。本领域技术人员可以理解,图3仅仅是计算机设备100的示例,并不构成对计算机设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器101可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器102可以是计算机设备100的内部存储单元,例如计算机设备100的硬盘或内存。存储器102也可以是计算机设备100的外部存储设备,例如计算机设备100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器102还可以既包括计算机设备100的内部存储单元也包括外部存储设备。存储器102用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器102还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种保险理赔附件处理方法,其特征在于,所述方法包括:
获取理赔附件,所述理赔附件携带待处理图片;
向文本识别模型发送所述待处理图片,并获取所述文本识别模型输出的识别文本;
向预设的敏感字符识别模型输入所述识别文本;
获取所述敏感字符识别模型输出的对比文本,在所述对比文本中,敏感字符高亮显示;所述敏感字符包括以下至少之一:数字字符、文字字符、字母字符、符号字符;
根据所述对比文本中的所述敏感字符对所述待处理图片进行模糊处理;
用模糊处理后的图片替换所述理赔附件中的待处理图片。
2.根据权利要求1所述的方法,其特征在于,所述文本识别模型包括卷积层、循环网络层及转译层,所述向文本识别模型发送所述待处理图片,并获取所述文本识别模型输出的识别文本,包括:
所述卷积层对所述待处理图片切块进行特征提取,得到特征序列;向所述循环网络层输入所述特征序列进行字符的识别;经过所述转译层对识别的结果进行处理,生成所述识别文本。
3.根据权利要求1所述的方法,其特征在于,所述向预设的敏感字符识别模型输入所述识别文本之前,所述方法还包括:
获取包括敏感字符的文本样本,并按照预设比例分为训练集及测试集,其中,所述敏感字符的类型包括汉字字符、数字字符、字母字符及符号字符中的至少一种;
通过所述训练集对所述敏感字符识别模型进行训练;
利用所述测试集测试所述敏感字符识别模型的准确率;
当所述准确率大于或等于预设阈值时,结束训练并得到训练好的所述敏感字符识别模型;
当所述准确率小于所述预设阈值时,增加所述训练集中的文本样本的数量,并继续训练所述敏感字符识别模型,直至所述准确率大于或等于所述预设阈值。
4.根据权利要求1所述的方法,其特征在于,所述向文本识别模型发送所述待处理图片,包括:
判断所述待处理图片的格式是否为预设格式;
若是,则向所述文本识别模型发送所述待处理图片;
若否,则通过预设的转换器将所述待处理图片转换为所述预设格式的图片后,再向所述文本识别模型发送格式转换后的所述待处理图片。
5.根据权利要求1所述的方法,其特征在于,在所述向文本识别模型发送所述待处理图片之前,所述方法还包括:
对所述待处理图片进行倾斜矫正、增强处理、二值化处理及降噪处理。
6.根据权利要求1~5中任意一项所述的方法,其特征在于,在所述向文本识别模型发送所述待处理图片之前,所述方法还包括:
根据预设规则对所述待处理图片进行区域分割,将分割处理后的图片用于文本识别。
7.根据权利要求1~5中任意一项所述的方法,其特征在于,所述根据所述对比文本中的所述敏感字符对所述待处理图片进行模糊处理,包括:
基于用户选择的处理方式,对所述待处理图片中的敏感字符进行模糊处理,所述处理方式包括马赛克、涂抹、字符覆盖、图层覆盖中的至少一种。
8.一种保险理赔附件处理装置,其特征在于,所述装置包括:
第一获取单元,用于获取理赔附件,所述理赔附件携带待处理图片;
发送单元,用于向文本识别模型发送所述待处理图片,并获取所述文本识别模型输出的识别文本;
输入单元,用于向预设的敏感字符识别模型输入所述识别文本;
第二获取单元,用于获取所述敏感字符识别模型输出的对比文本,在所述对比文本中,敏感字符高亮显示;所述敏感字符包括以下至少之一:数字字符、文字字符、字母字符、符号字符;
处理单元,用于根据所述对比文本中的所述敏感字符对所述待处理图片进行模糊处理;
替换单元,用于用模糊处理后的图片替换所述理赔附件中的待处理图片。
9.一种计算机非易失性存储介质,所述存储介质包括存储的程序,其特征在于,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7任意一项所述的保险理赔附件处理方法。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的保险理赔附件处理方法的步骤。
CN201910303749.6A 2019-04-16 2019-04-16 一种保险理赔附件处理方法及装置 Pending CN110175608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910303749.6A CN110175608A (zh) 2019-04-16 2019-04-16 一种保险理赔附件处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910303749.6A CN110175608A (zh) 2019-04-16 2019-04-16 一种保险理赔附件处理方法及装置

Publications (1)

Publication Number Publication Date
CN110175608A true CN110175608A (zh) 2019-08-27

Family

ID=67689596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910303749.6A Pending CN110175608A (zh) 2019-04-16 2019-04-16 一种保险理赔附件处理方法及装置

Country Status (1)

Country Link
CN (1) CN110175608A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688668A (zh) * 2019-09-02 2020-01-14 平安普惠企业管理有限公司 一种电子合同存储方法及装置、电子设备
CN111159770A (zh) * 2019-12-31 2020-05-15 医渡云(北京)技术有限公司 文本数据脱敏方法、装置、介质及电子设备
CN111984983A (zh) * 2020-08-28 2020-11-24 山东健康医疗大数据有限公司 一种用户隐私加密的方法
CN112232338A (zh) * 2020-10-13 2021-01-15 中国平安人寿保险股份有限公司 核保理赔过程的资料录入方法、装置、设备及存储介质
CN112257718A (zh) * 2020-09-24 2021-01-22 南阳柯丽尔科技有限公司 一种关于放射科胶片的文本识别方法及装置
CN113743906A (zh) * 2021-09-09 2021-12-03 北京沃东天骏信息技术有限公司 一种确定业务处理策略的方法和装置
WO2022142041A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 意图识别模型的训练方法、装置、计算机设备和存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688668A (zh) * 2019-09-02 2020-01-14 平安普惠企业管理有限公司 一种电子合同存储方法及装置、电子设备
WO2021042540A1 (zh) * 2019-09-02 2021-03-11 平安普惠企业管理有限公司 电子合同存储方法及装置、电子设备、计算机可读存储介质
CN111159770A (zh) * 2019-12-31 2020-05-15 医渡云(北京)技术有限公司 文本数据脱敏方法、装置、介质及电子设备
CN111984983A (zh) * 2020-08-28 2020-11-24 山东健康医疗大数据有限公司 一种用户隐私加密的方法
CN112257718A (zh) * 2020-09-24 2021-01-22 南阳柯丽尔科技有限公司 一种关于放射科胶片的文本识别方法及装置
CN112232338A (zh) * 2020-10-13 2021-01-15 中国平安人寿保险股份有限公司 核保理赔过程的资料录入方法、装置、设备及存储介质
CN112232338B (zh) * 2020-10-13 2023-09-08 中国平安人寿保险股份有限公司 核保理赔过程的资料录入方法、装置、设备及存储介质
WO2022142041A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 意图识别模型的训练方法、装置、计算机设备和存储介质
CN113743906A (zh) * 2021-09-09 2021-12-03 北京沃东天骏信息技术有限公司 一种确定业务处理策略的方法和装置

Similar Documents

Publication Publication Date Title
CN110175608A (zh) 一种保险理赔附件处理方法及装置
CN108446697B (zh) 图片处理方法、电子装置及存储介质
CN103617432B (zh) 一种场景识别方法及装置
JP7458519B2 (ja) 画像解析方法、画像解析装置、プログラム、学習済み深層学習アルゴリズムの製造方法および学習済み深層学習アルゴリズム
CN108446621A (zh) 票据识别方法、服务器及计算机可读存储介质
US7925650B2 (en) Image management methods, image management systems, and articles of manufacture
KR100339691B1 (ko) 코드인식을 위한 장치 및 그 방법
CN113160257B (zh) 图像数据标注方法、装置、电子设备及存储介质
CN109858480A (zh) 一种数字式仪表识别方法
CN110879963B (zh) 一种敏感表情包检测方法、装置与电子设备
CN1937702A (zh) 图像处理设备、图像处理方法、以及计算机程序制品
CN110443212B (zh) 用于目标检测的正样本获取方法、装置、设备及存储介质
CN109934221B (zh) 基于注意力机制的电力设备自动分析识别监控方法及系统
CN110675940A (zh) 病理图像标注方法、装置、计算机设备及存储介质
CN111259891B (zh) 一种自然场景下身份证识别方法、装置、设备和介质
CN108460346A (zh) 指纹识别方法及装置
CN112966685B (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN107273890A (zh) 针对字符组合的图形验证码识别方法及装置
CN104268540A (zh) 一种基于图像的算式处理方法、装置及一种终端
CN108921172B (zh) 基于支持向量机的图像处理装置及方法
CN105405130A (zh) 基于聚类的证照图像高光检测方法及装置
CN111190595A (zh) 基于界面设计图自动生成界面代码的方法、装置、介质及电子设备
CN111784665A (zh) 基于傅里叶变换的oct图像质量评估方法、系统及装置
CN112035821A (zh) 图形验证码识别方法、装置、计算机设备及存储介质
CN108877030B (zh) 图像处理方法、装置、终端和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination