CN112232338B - 核保理赔过程的资料录入方法、装置、设备及存储介质 - Google Patents
核保理赔过程的资料录入方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112232338B CN112232338B CN202011089983.2A CN202011089983A CN112232338B CN 112232338 B CN112232338 B CN 112232338B CN 202011089983 A CN202011089983 A CN 202011089983A CN 112232338 B CN112232338 B CN 112232338B
- Authority
- CN
- China
- Prior art keywords
- sample set
- value
- network model
- attribute
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了核保理赔过程的资料录入方法、装置、设备及存储介质,涉及人工智能技术领域,该方法包括:确定需要识别的key值和对应的value并标定;采用OCR文字识别技术对所述训练样本集进行文字识别,并采用残差网络模型对所述识别后的训练样本集中的key值和对应的value进行特征提取,并进行比对核验,根据比对核验结果对所述残差网络模型进行优化;然后采用优化后的残差网络模型对校验样本集中的key值和对应的value进行特征提取;将提取到的value的属性与标定的value的属性进行比对核验,当比对通过率超过预设阈值时,判定识别生效,并利用所述残差网络模型进行识别,并自动将识别后的内容进行录入。本发明可应用至医疗系统中,提高核保理赔效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及核保理赔过程的资料录入方法、装置、设备及存储介质。
背景技术
目前在保险核保和理赔领域,身份核验一般采用人脸识别和证件识别的方式完成,但对于一些复杂的核保或理赔特别是理赔内容涉及大量医疗资料的场景,目前主要采用人工审核的方式进行处理,整个过程效率极低且成本高昂,核保理赔时间相对漫长,还容易出错。
发明内容
本发明实施例提供了核保理赔过程的资料录入方法、装置、设备及存储介质,旨在解决现有核保理赔过程的资料录入效率低、容易出错的问题。
第一方面,本发明实施例提供一种核保理赔过程的资料录入方法,其中,包括:
获取核保理赔过程的模板样本集,并将所述模板样本集进行划分,得到训练样本集和校验样本集,确定所述模板样本集中需要识别的key值和对应的value,并标定key值和value的属性;
采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集,并采用残差网络模型对所述识别后的训练样本集中的key值和对应的value进行特征提取,并基于提取出的key值对提取到的value的属性与标定的value的属性进行比对核验,根据比对核验结果对所述残差网络模型进行优化;
利用OCR文字识别技术对所述校验样本集进行文字识别,得到识别后的校验样本集,然后采用优化后的残差网络模型对所述识别后的校验样本集中的key值和对应的value进行特征提取;
将提取到的value的属性与标定的value的属性进行比对核验,计算比对通过率,当比对通过率超过预设阈值时,判定识别生效,并利用所述残差网络模型对指定核保理赔资料进行识别,并自动将识别后的内容进行录入。
第二方面,本发明实施例提供一种核保理赔过程的资料录入装置,其中,包括:
获取单元,用于获取核保理赔过程的模板样本集,并将所述模板样本集进行划分,得到训练样本集和校验样本集,确定所述模板样本集中需要识别的key值和对应的value,并标定key值和value的属性;
模型训练单元,用于采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集,并采用残差网络模型对所述识别后的训练样本集中的key值和对应的value进行特征提取,并基于提取出的key值对提取到的value的属性与标定的value的属性进行比对核验,根据比对核验结果对所述残差网络模型进行优化;
模型校验单元,用于利用OCR文字识别技术对所述校验样本集进行文字识别,得到识别后的校验样本集,然后采用优化后的残差网络模型对所述识别后的校验样本集中的key值和对应的value进行特征提取;
录入单元,用于将提取到的value的属性与标定的value的属性进行比对核验,计算比对通过率,当比对通过率超过预设阈值时,判定识别生效,并利用所述残差网络模型对指定核保理赔资料进行识别,并自动将识别后的内容进行录入。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如第一方面所述的核保理赔过程的资料录入方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时实现如第一方面所述的核保理赔过程的资料录入方法。
本发明实施例提供了核保理赔过程的资料录入方法、装置、设备及存储介质,该方法包括:采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集,并采用残差网络模型对所述识别后的训练样本集中的key值和对应的value进行特征提取,并基于提取出的key值对提取到的value的属性与标定的value的属性进行比对核验,根据比对核验结果对所述残差网络模型进行优化;利用所述残差网络模型对指定核保理赔资料进行识别,并自动将识别后的内容进行录入。本发明实施例提供的方法可对核保理赔人在核保理赔过程中的通用文件进行自动识别,从而快速录入识别出的信息,提高核保理赔效率,以及降低出错率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的核保理赔过程的资料录入方法的流程示意图;
图2为本发明实施例提供的核保理赔过程的资料录入方法的子流程示意图;
图3为本发明实施例提供的核保理赔过程的资料录入方法的另一子流程示意图;
图4为本发明实施例提供的核保理赔过程的资料录入方法的另一子流程示意图;
图5为本发明实施例提供的核保理赔过程的资料录入方法的另一子流程示意图;
图6为本发明实施例提供的核保理赔过程的资料录入装置的示意性框图;
图7为本发明实施例提供的核保理赔过程的资料录入装置的子单元示意性框图;
图8为本发明实施例提供的核保理赔过程的资料录入装置的另一子单元示意性框图;
图9为本发明实施例提供的核保理赔过程的资料录入装置的另一子单元示意性框图;
图10为本发明实施例提供的核保理赔过程的资料录入装置的另一子单元示意性框图;
图11为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的核保理赔过程的资料录入方法的流程示意图,该方法可以包括步骤S101~S104:
S101、获取核保理赔过程的模板样本集,并将所述模板样本集进行划分,得到训练样本集和校验样本集,确定所述模板样本集中需要识别的key值和对应的value,并标定key值和value的属性;
此步骤首先需要获取模板样本集,并进行划分,同时还需要确定模板样本集中的key值和对应的value。
在一实施例中,如图2所示,所述步骤S101包括步骤S201~S203:
S201、收集核保理赔过程的模板样本集,并按照预定比例将所述模板样本集划分为训练样本集和校验样本集;
现有技术中对核保理赔过程中的资料,均为采用APP上传资料的扫描件或者图片,然后由人工进行信息的录入,例如录入姓名、身高、体重、疾病既往史等等信息。
本实施例则是采用自动识别和录入的方式进行处理,即自动对通用资料样本集进行自动录入。
本步骤中,所述模板样本集是核保理赔人在核保理赔过程中的通用资料样本集,本步骤先收集该通用资料样本集,然后将收集到的通用资料样本集划分为训练样本集和校验样本集,训练样本集和校验样本集的划分比例可以是8:2。然后利用这些训练样本集来进行模型训练,以及通过这些校验样本集进行模型校验。
S202、确定所述模板样本集中需要识别的key值和对应的value,并存储所述key值和value的对应关系;
本步骤中,先确定模板样本集中需要识别的key值和对应的value。
其中的key值相当于字段,例如姓名、身高、体重、年龄、既往疾病史等等,所述的value值相当于字段值,例如张三、175cm、70kg、21、无,所述value的值也可称为value的属性。
确定了key值和value之后,还需要将二者对应,并存储二者的对应关系,以便后续进行比对。
S203、在所述模板样本集中标定key值和value的属性的位置以及内容。
本步骤是对模板样本集中的key值和value的属性的位置,并且还需要标定key值和value的内容,这样后续可以在训练过程中进行校验。
另外,由于模板样本集中可能包含多个同样的key值,而对应的value的属性不同,所以需要事先确定好各个位置的key值以及对应的value的属性,以便后续进行准确比对。
S102、采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集,并采用残差网络模型对所述识别后的训练样本集中的key值和对应的value进行特征提取,并基于提取出的key值对提取到的value的属性与标定的value的属性进行比对核验,根据比对核验结果对所述残差网络模型进行优化;
本步骤中先对训练样本集进行文字识别,然后采用残差网络模型进行特征提取,再进行比对核验,从而根据比对核验结果进行模型优化。
在一实施例中,如图3所示,所述步骤S102包括步骤S301~S304:
S301、采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集;
在一实施例中,所述步骤S301包括:
对所述训练样本集进行预处理、特征提取和降维以及分类结果优化,得到识别后的训练样本集。
本实施例中,文字识别的步骤主要包括:预处理、特征提取和降维、分类结果优化的步骤。
其中,预处理是指对包含文字的图像进行预处理以便后续进行特征提取和学习。预处理过程的主要目的是减少图像中的无用信息,以便方便后面的处理。
预处理主要包括:灰度化处理、二值化处理、降噪处理、文字切分处理以及归一化处理这些子步骤。
其中,灰度化处理实际上将彩色图像转变灰度图像(R=G=B),在灰度图像中,每个像素只需一个字节存放灰度值,灰度范围为0-255。本发明实施例中,灰度化处理可以采用分量法、最大值法、平均值法或者加权平均法实现。
二值化处理是指设定一个阈值T,利用该阈值T将图像的数据分成两部分:大于阈值T的像素群和小于阈值T的像素群,从而完成图像的二值化。通过二值化处理从多值的数字图像中直接提取出目标物体。所述的阈值T可以是固定阈值或者自适应阈值。
经过二值化处理后,图像只剩下两种颜色,即黑和白,其中一个是图像背景,另一个颜色即为需要识别的文字。降噪处理就是采用降噪算法剔除掉噪声。降噪效果的好坏对特征提取的影响极大。图像中噪声的来源可能有多种,这些噪声来源于图像采集、传输、压缩等各个方面。噪声的种类也各不相同,比如椒盐噪声,高斯噪声等,针对不同的噪声有不同的处理算法。本发明实施例采用的降噪处理的方法可以是基于均值滤波器、自适应维纳滤波器、中值滤波器或形态学噪声滤除器的方法,也可以采用小波去噪的方法。
归一化处理则是将单个的图像规整到同样的尺寸,在同一个规格下,才能应用统一的算法。
文字切分处理是将图像中的文字分割成单个文字,这样后续识别时即可逐个识别。
对于一段多行文本来讲,文字切分包含了行切分与字符切分两个步骤。如果文字有倾斜情况,则需要进行倾斜矫正,之后再进行文字切分。
本发明实施例中,可以将文字投影到y轴,并将所有值累加,这样就能得到一个在y轴上的直方图。直方图的谷底就是背景,峰值则是前景(文字)所在的区域。通过上述方法,就可以将每行文字的位置识别出来。字符切分和行切分类似,只是在字符切分过程中,需要将每行文字投影到x轴。但需要注意的是,同一行的两个字符往往间隙较小,所以有时会出现垂直方向上的重叠,投影的时候误认为是一个字符,从而造成切割的时候出错(多出现在英文字符);也可能存在同一个字符的左右结构在x轴的投影存在一个小间隙,切割时误将一个字符切分为两个字符(多出现在中文字符)。对于这种情况,可以预先设定一个字符宽度的期望值,切出的字符如果投影超出期望值,则认为是两个字符;如果小于这个期望值,则忽略这个间隙,把间隙左右的“字符”合成一个字符来识别。
特征提取和特征降维:特征是用来识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。提取出文字的特征后,还需要进行特征降维,如果特征的维数过高(特征一般用一个向量表示),分类器的效率会受到较大的影响,为了提高识别速率,所以需要进行特征降维,特征降维后的特征需要保留足够的信息量,以区分不同的文字。
经特征提取和特征降维后得到的特征送入至分类器,利用分类器进行文字识别,从而确定具体文字内容。分类器可采用以下方法:模板匹配法、判别函数法、神经网络分类法、基于规则推理法等来实现。另外在进行实际识别前,还需要对分类器进行有监督学习的训练。
由于分类器的分类结果不一定完全正确,比如对汉字的识别,由于汉字中形近字的存在,很容易将一个字识别成其形近字。所以需要通过分类结果优化来解决上述问题,例如本发明实施例可以通过语言模型来进行校正,语言模型的作用是分析字符前后的联系和含义,从而确定是否识别正确。另外,由于文字存在排版、字体大小等复杂情况,分类结果优化还可以包括对分类结果格式化。
S302、采用ResNet-18网络模型对识别后的训练样本集中的key值和对应的value进行特征提取;
在深度神经网络训练中,随着网络深度的增加,模型理论上可以取得更好的结果。但是经测试发现,深度神经网络中存在着退化问题(Degradationproblem)。而残差网络ResNet可以很好的解决退化问题。在残差网络中,对于一个堆积层结构(几层堆积而成),当输入为x时其学习到的特征记为H(x),假设希望其可以学习到残差F(x)=H(x)-x,原始的学习特征是F(x)+x。当残差为0时,此时堆积层仅仅做了恒等映射,网络性能不会下降,实际上残差不会为0,这也会使得堆积层在输入特征基础上学习到新的特征,从而拥有更好的性能。
本步骤中,残差网络模型为ResNet-18网络模型,该网络模型适合于图像识别和特征提取,识别效率和准确率较高。在一实施例中,所述ResNet-18网络模型包括17个卷积层和1个全连接层。
本步骤即为采用ResNet-18网络模型对识别后的训练样本集中的key值和对应的value进行特征提取,也就是提取对应的key值和value的属性。
S303、将提取出的key值与标定的key值进行匹配,获取匹配结果;
由于训练样本集中的key值可能有多个,所以需要根据key值的位置和内容将提取出的key值与标定的key值进行匹配,从而使二者一一对应,得到匹配结果,方便后续针对每一个key值进行相应的value的比对核验。
S304、基于所述匹配结果,对每一key值下提取出的value的属性与标定的value的属性进行比对核验,并根据比对核验结果对所述ResNet-18网络模型进行优化。
本步骤是针对每一个key值,将利用ResNet-18网络模型提取到的value属性与标定的value的属性进行比对核验,从而根据比对核验结果进行优化,使残差网络模型收敛。
在一实施例中,如图4所示,所述步骤S304包括步骤S401~S402:
S401、基于所述匹配结果,对每一key值下提取出的value的属性与标定的value的属性进行比对核验;
本步骤中,针对匹配到的key值,将提取出的value的属性与标定的value的属性进行比对核验,判断是否提取正确。
S402、将比对核验结果输入至损失函数,利用所述损失函数对所述ResNet-18网络模型中的网络参数进行调整,使损失函数达到收敛。
本发明实施例中,采用一个损失函数来对ResNet-18网络模型持续进行优化,使ResNet-18网络模型最终达到收敛。所述损失函数可以是均方差损失函数,也可以是交叉熵损失函数,或者二值化交叉熵损失函数。
S103、利用OCR文字识别技术对所述校验样本集进行文字识别,得到识别后的校验样本集,然后采用优化后的残差网络模型对所述识别后的校验样本集中的key值和对应的value进行特征提取;
本步骤中,利用OCR文字识别技术对校验样本集进行文字识别,文字识别的方式与前述对训练样本集的方式相同,此处不再赘述,最后得到识别后的校验样本集。并利用优化后的残差网络模型,如ResNet-18网络模型,对识别后的校验样本集中的key值和对应的value进行特征提取,从而获取key值和value的属性。
S104、将提取到的value的属性与标定的value的属性进行比对核验,计算比对通过率,当比对通过率超过预设阈值时,判定识别生效,并利用所述残差网络模型对指定核保理赔资料进行识别,并自动将识别后的内容进行录入。
本步骤判断是否残差网络模型的预测准确率是否满足要求,若是则可以判定识别生效,然后利用生效的残差网络模型进行实际预测。
在一实施例中,如图5所示,所述步骤S104包括步骤S501~S504:
S501、将提取到的value的属性与标定的value的属性进行比对核验,当针对每一key值,对应的value属性正确时,将识别正确数量加1;
本步骤中,不论样本集如何,其中的key值是确定的,例如姓名、身高、体重等等,所以本步骤可以针对每一个key值,统计对应的value属性识别正确与否。如果对应的value属性识别正确,则将识别正确数量加1。
S502、统计识别正确数量和识别错误数量,并根据识别正确数量和识别错误数量计算比对通过率,当比对通过率超过预设阈值时,判定识别生效;
通过统计总的识别数量以及识别正确数量,即可确定识别错误数量,这样根据识别正确数量和识别错误数量,可计算出比对通过率,如果比对通过率超过预设阈值,则表明系统识别合格,可上线进行实际的识别。
S503、利用所述ResNet-18网络模型对指定核保理赔资料进行识别,得到各key值和对应的value;
本步骤就是利用判定识别生效的残差网络模型对指定核保理赔资料进行识别,从而识别得到其中的key值和对应的value。
S504、将各key值与系统中key值进行匹配,当匹配到的key值对应的value自动录入到系统中。
本步骤中,将识别到的key值和系统中key值进行匹配,例如识别得到身高,那么将将对应的value录入到系统中即可,从而实现自动识别和录入。
本实施例提供的方法可对核保理赔人在核保理赔过程中的通用文件进行自动识别,从而快速录入识别出的信息,以便快速给出核保理赔结论,最终协助保险公司降低人工核保理赔成本,提高核保理赔效率。
本发明实施例还提供一种核保理赔过程的资料录入装置,该核保理赔过程的资料录入装置用于执行前述核保理赔过程的资料录入方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的核保理赔过程的资料录入装置的示意性框图。该核保理赔过程的资料录入装置600包括获取单元610、模型训练单元620、模型校验单元630、录入单元640。
获取单元610,用于获取核保理赔过程的模板样本集,并将所述模板样本集进行划分,得到训练样本集和校验样本集,确定所述模板样本集中需要识别的key值和对应的value,并标定key值和value的属性;
模型训练单元620,用于采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集,并采用残差网络模型对所述识别后的训练样本集中的key值和对应的value进行特征提取,并基于提取出的key值对提取到的value的属性与标定的value的属性进行比对核验,根据比对核验结果对所述残差网络模型进行优化;
模型校验单元630,用于利用OCR文字识别技术对所述校验样本集进行文字识别,得到识别后的校验样本集,然后采用优化后的残差网络模型对所述识别后的校验样本集中的key值和对应的value进行特征提取;
录入单元640,用于将提取到的value的属性与标定的value的属性进行比对核验,计算比对通过率,当比对通过率超过预设阈值时,判定识别生效,并利用所述残差网络模型对指定核保理赔资料进行识别,并自动将识别后的内容进行录入。
在一实施例中,如图7所示,所述获取单元610包括:
划分单元710,用于收集核保理赔过程的模板样本集,并按照预定比例将所述模板样本集划分为训练样本集和校验样本集;
存储单元720,用于确定所述模板样本集中需要识别的key值和对应的value,并存储所述key值和value的对应关系;
标定单元730,用于在所述模板样本集中标定key值和value的属性的位置以及内容。
在一实施例中,如图8所示,所述模型训练单元620包括:
文字识别单元810,用于采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集;
特征提取单元820,用于采用ResNet-18网络模型对识别后的训练样本集中的key值和对应的value进行特征提取;
匹配单元830,用于将提取出的key值与标定的key值进行匹配,获取匹配结果;
优化单元840,用于基于所述匹配结果,对每一key值下提取出的value的属性与标定的value的属性进行比对核验,并根据比对核验结果对所述ResNet-18网络模型进行优化。
在一实施例中,如图9所示,所述优化单元840包括:
比对核验单元910,用于基于所述匹配结果,对每一key值下提取出的value的属性与标定的value的属性进行比对核验;
参数调整单元920,用于将比对核验结果输入至损失函数,利用所述损失函数对所述ResNet-18网络模型中的网络参数进行调整,使损失函数达到收敛。
在一实施例中,如图10所示,所述录入单元640包括:
更新单元1010,用于将提取到的value的属性与标定的value的属性进行比对核验,当针对每一key值,对应的value属性正确时,将识别正确数量加1;
统计单元1020,用于统计识别正确数量和识别错误数量,并根据识别正确数量和识别错误数量计算比对通过率,当比对通过率超过预设阈值时,判定识别生效;
识别单元1030,用于利用所述ResNet-18网络模型对指定核保理赔资料进行识别,得到各key值和对应的value;
自动录入单元1040,用于将各key值与系统中key值进行匹配,当匹配到的key值对应的value自动录入到系统中。
在一实施例中,所述文字识别单元810包括:
OCR识别单元,用于对所述训练样本集进行预处理、特征提取和降维以及分类结果优化,得到识别后的训练样本集;
其中,所述预处理包括:灰度化处理、二值化处理、降噪处理、文字切分处理以及归一化处理。
在一实施例中,所述ResNet-18网络模型包括17个卷积层和1个全连接层。
本实施例提供的装置可对核保理赔人在核保理赔过程中的通用文件进行自动识别,从而快速录入识别出的信息,提高核保理赔效率,以及降低出错率。
上述核保理赔过程的资料录入装置600可以实现为计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本发明实施例提供的计算机设备的示意性框图。该计算机设备1100是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图11,该计算机设备1100包括通过系统总线1101连接的处理器1102、存储器和网络接口1105,其中,存储器可以包括非易失性存储介质1103和内存储器1104。
该非易失性存储介质1103可存储操作系统11031和计算机程序11032。该计算机程序11032被执行时,可使得处理器1102执行核保理赔过程的资料录入方法。
该处理器1102用于提供计算和控制能力,支撑整个计算机设备1100的运行。
该内存储器1104为非易失性存储介质1103中的计算机程序11032的运行提供环境,该计算机程序11032被处理器1102执行时,可使得处理器1102执行核保理赔过程的资料录入方法。
该网络接口1105用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备1100的限定,具体的计算机设备1100可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器1102用于运行存储在存储器中的计算机程序11032,以实现如下功能:获取核保理赔过程的模板样本集,并将所述模板样本集进行划分,得到训练样本集和校验样本集,确定所述模板样本集中需要识别的key值和对应的value,并标定key值和value的属性;采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集,并采用残差网络模型对所述识别后的训练样本集中的key值和对应的value进行特征提取,并基于提取出的key值对提取到的value的属性与标定的value的属性进行比对核验,根据比对核验结果对所述残差网络模型进行优化;利用OCR文字识别技术对所述校验样本集进行文字识别,得到识别后的校验样本集,然后采用优化后的残差网络模型对所述识别后的校验样本集中的key值和对应的value进行特征提取;将提取到的value的属性与标定的value的属性进行比对核验,计算比对通过率,当比对通过率超过预设阈值时,判定识别生效,并利用所述残差网络模型对指定核保理赔资料进行识别,并自动将识别后的内容进行录入。
本领域技术人员可以理解,图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器1102可以是中央处理单元(CentralProcessing Unit,CPU),该处理器1102还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:获取核保理赔过程的模板样本集,并将所述模板样本集进行划分,得到训练样本集和校验样本集,确定所述模板样本集中需要识别的key值和对应的value,并标定key值和value的属性;采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集,并采用残差网络模型对所述识别后的训练样本集中的key值和对应的value进行特征提取,并基于提取出的key值对提取到的value的属性与标定的value的属性进行比对核验,根据比对核验结果对所述残差网络模型进行优化;利用OCR文字识别技术对所述校验样本集进行文字识别,得到识别后的校验样本集,然后采用优化后的残差网络模型对所述识别后的校验样本集中的key值和对应的value进行特征提取;将提取到的value的属性与标定的value的属性进行比对核验,计算比对通过率,当比对通过率超过预设阈值时,判定识别生效,并利用所述残差网络模型对指定核保理赔资料进行识别,并自动将识别后的内容进行录入。应用到医疗科技场景中,可以实现信息的快速录入,提高核保理赔的效率。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种核保理赔过程的资料录入方法,其特征在于,包括:
获取核保理赔过程的模板样本集,并将所述模板样本集进行划分,得到训练样本集和校验样本集,确定所述模板样本集中需要识别的key值和对应的value,并标定key值和value的属性;
采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集,并采用残差网络模型对所述识别后的训练样本集中的key值和对应的value进行特征提取,并基于提取出的key值对提取到的value的属性与标定的value的属性进行比对核验,根据比对核验结果对所述残差网络模型进行优化;
利用OCR文字识别技术对所述校验样本集进行文字识别,得到识别后的校验样本集,然后采用优化后的残差网络模型对所述识别后的校验样本集中的key值和对应的value进行特征提取;
将提取到的value的属性与标定的value的属性进行比对核验,计算比对通过率,当比对通过率超过预设阈值时,判定识别生效,并利用所述残差网络模型对指定核保理赔资料进行识别,并自动将识别后的内容进行录入。
2.根据权利要求1所述的核保理赔过程的资料录入方法,其特征在于,所述获取核保理赔过程的模板样本集,并将所述模板样本集进行划分,得到训练样本集和校验样本集,确定所述模板样本集中需要识别的key值和对应的value,并标定key值和value的属性,包括:
收集核保理赔过程的模板样本集,并按照预定比例将所述模板样本集划分为训练样本集和校验样本集;
确定所述模板样本集中需要识别的key值和对应的value,并存储所述key值和value的对应关系;
在所述模板样本集中标定key值和value的属性的位置以及内容。
3.根据权利要求1所述的核保理赔过程的资料录入方法,其特征在于,所述采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集,并采用残差网络模型对所述识别后的训练样本集中的key值和对应的value进行特征提取,并基于提取出的key值对提取到的value的属性与标定的value的属性进行比对核验,根据比对核验结果对所述残差网络模型进行优化,包括:
采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集;
采用ResNet-18网络模型对识别后的训练样本集中的key值和对应的value进行特征提取;
将提取出的key值与标定的key值进行匹配,获取匹配结果;
基于所述匹配结果,对每一key值下提取出的value的属性与标定的value的属性进行比对核验,并根据比对核验结果对所述ResNet-18网络模型进行优化。
4.根据权利要求3所述的核保理赔过程的资料录入方法,其特征在于,所述基于所述匹配结果,对每一key值下提取出的value的属性与标定的value的属性进行比对核验,并根据比对核验结果对所述ResNet-18网络模型进行优化,包括:
基于所述匹配结果,对每一key值下提取出的value的属性与标定的value的属性进行比对核验;
将比对核验结果输入至损失函数,利用所述损失函数对所述ResNet-18网络模型中的网络参数进行调整,使损失函数达到收敛。
5.根据权利要求4所述的核保理赔过程的资料录入方法,其特征在于,所述将提取到的value的属性与标定的value的属性进行比对核验,计算比对通过率,当比对通过率超过预设阈值时,判定识别生效,并利用所述残差网络模型对指定核保理赔资料进行识别,并自动将识别后的内容进行录入,包括:
将提取到的value的属性与标定的value的属性进行比对核验,当针对每一key值,对应的value属性正确时,将识别正确数量加1;
统计识别正确数量和识别错误数量,并根据识别正确数量和识别错误数量计算比对通过率,当比对通过率超过预设阈值时,判定识别生效;
利用所述ResNet-18网络模型对指定核保理赔资料进行识别,得到各key值和对应的value;
将各key值与系统中key值进行匹配,当匹配到的key值对应的value自动录入到系统中。
6.根据权利要求3所述的核保理赔过程的资料录入方法,其特征在于,所述采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集,包括:
对所述训练样本集进行预处理、特征提取和降维以及分类结果优化,得到识别后的训练样本集;
其中,所述预处理包括:灰度化处理、二值化处理、降噪处理、文字切分处理以及归一化处理。
7.根据权利要求4所述的核保理赔过程的资料录入方法,其特征在于,所述ResNet-18网络模型包括17个卷积层和1个全连接层。
8.一种核保理赔过程的资料录入装置,其特征在于,包括:
获取单元,用于获取核保理赔过程的模板样本集,并将所述模板样本集进行划分,得到训练样本集和校验样本集,确定所述模板样本集中需要识别的key值和对应的value,并标定key值和value的属性;
模型训练单元,用于采用OCR文字识别技术对所述训练样本集进行文字识别,得到识别后的训练样本集,并采用残差网络模型对所述识别后的训练样本集中的key值和对应的value进行特征提取,并基于提取出的key值对提取到的value的属性与标定的value的属性进行比对核验,根据比对核验结果对所述残差网络模型进行优化;
模型校验单元,用于利用OCR文字识别技术对所述校验样本集进行文字识别,得到识别后的校验样本集,然后采用优化后的残差网络模型对所述识别后的校验样本集中的key值和对应的value进行特征提取;
录入单元,用于将提取到的value的属性与标定的value的属性进行比对核验,计算比对通过率,当比对通过率超过预设阈值时,判定识别生效,并利用所述残差网络模型对指定核保理赔资料进行识别,并自动将识别后的内容进行录入。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的核保理赔过程的资料录入方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时实现如权利要求1至7任一项所述的核保理赔过程的资料录入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011089983.2A CN112232338B (zh) | 2020-10-13 | 2020-10-13 | 核保理赔过程的资料录入方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011089983.2A CN112232338B (zh) | 2020-10-13 | 2020-10-13 | 核保理赔过程的资料录入方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112232338A CN112232338A (zh) | 2021-01-15 |
CN112232338B true CN112232338B (zh) | 2023-09-08 |
Family
ID=74112337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011089983.2A Active CN112232338B (zh) | 2020-10-13 | 2020-10-13 | 核保理赔过程的资料录入方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232338B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379555A (zh) * | 2021-06-07 | 2021-09-10 | 北京车与车科技有限公司 | 一种基于深度学习的车险风控定价模型方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163260A (zh) * | 2019-04-26 | 2019-08-23 | 平安科技(深圳)有限公司 | 基于残差网络的图像识别方法、装置、设备及存储介质 |
CN110175608A (zh) * | 2019-04-16 | 2019-08-27 | 中国平安财产保险股份有限公司 | 一种保险理赔附件处理方法及装置 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN110689440A (zh) * | 2019-08-13 | 2020-01-14 | 平安科技(深圳)有限公司 | 基于图片识别的车险理赔识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-10-13 CN CN202011089983.2A patent/CN112232338B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN110175608A (zh) * | 2019-04-16 | 2019-08-27 | 中国平安财产保险股份有限公司 | 一种保险理赔附件处理方法及装置 |
CN110163260A (zh) * | 2019-04-26 | 2019-08-23 | 平安科技(深圳)有限公司 | 基于残差网络的图像识别方法、装置、设备及存储介质 |
CN110689440A (zh) * | 2019-08-13 | 2020-01-14 | 平安科技(深圳)有限公司 | 基于图片识别的车险理赔识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112232338A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596166B (zh) | 一种基于卷积神经网络分类的集装箱箱号识别方法 | |
CN108764195B (zh) | 手写模型训练方法、手写字识别方法、装置、设备及介质 | |
CN108171104B (zh) | 一种文字检测方法及装置 | |
CN109086654B (zh) | 手写模型训练方法、文本识别方法、装置、设备及介质 | |
CN109740689B (zh) | 一种图像语义分割的错误标注数据筛选方法及系统 | |
CN109993201B (zh) | 一种图像处理方法、装置和可读存储介质 | |
CN109360179B (zh) | 一种图像融合方法、装置及可读存储介质 | |
CN110909618A (zh) | 一种宠物身份的识别方法及装置 | |
WO2013116865A1 (en) | Systems, methods, and media for updating a classifier | |
CN111507957B (zh) | 身份证图片转换方法、装置、计算机设备及存储介质 | |
CN116309575B (zh) | 基于图像处理的电插头生产质量检测方法 | |
CN111652117B (zh) | 一种对多文档图像分割的方法及介质 | |
CN112232338B (zh) | 核保理赔过程的资料录入方法、装置、设备及存储介质 | |
CN110874835B (zh) | 作物叶部病害抗性鉴定方法、系统、电子设备及存储介质 | |
CN115131590A (zh) | 目标检测模型的训练方法、目标检测方法及相关设备 | |
CN116403245B (zh) | 一种家禽育种数据分析方法及系统 | |
CN116258864B (zh) | 一种村庄规划建设大数据管理系统 | |
CN112784494A (zh) | 假阳性识别模型的训练方法、目标识别方法及装置 | |
CN113989823B (zh) | 基于ocr坐标的图片表格还原方法及系统 | |
CN116092170A (zh) | 一种基于大数据技术的专利价值分析系统 | |
CN112990225B (zh) | 一种复杂环境下的图像目标识别方法及装置 | |
CN112530079A (zh) | 一种检测票据要素的方法、装置、终端设备和存储介质 | |
CN115457023A (zh) | 基于图卷积的视网膜血管轮廓及高不确定度区域的图像细化分割方法 | |
CN111640076B (zh) | 一种图像补全方法、装置及电子设备 | |
CN114549884A (zh) | 一种异常图像检测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |