CN111445058B

CN111445058B - 数据分析方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111445058B
Application number: CN202010142303.2A
Authority: CN
Inventors: 欧光礼
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2024-05-28
Anticipated expiration: 2040-03-04
Also published as: CN111445058A

Abstract

本发明涉及人工智能技术领域，公开了一种数据分析方法，包括以下步骤：基于用户的数据分析请求获取待处理业务的证据信息，在所述用户的身份认证通过后，根据业务类型，从预设的模型库中选择对应的数据分析模型对证据信息进行理赔的分析，并判断所述证据信息中的图像信息来源是否合法，得到跳动幅度和业务数据，将所述跳动幅度和业务数据输入预设的结果预测模型生成预测结果。本发明还公开了一种数据分析装置、设备及计算机可读存储介质，从而实现快速的数据分析，降低人工成本，提高工作效率，降低业务处理时间，提升用户体验，最终达到提升产品竞争力，提升产品销售额的目标。

Description

数据分析方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种数据分析方法、装置、设备及计算机可读存储介质。

背景技术

伴随着信息技术的快速发展，我们日常生活中对数据的依赖程度逐渐提高，然而在办理某些业务时，对数据的处理却存在着许多问题，例如在保险理赔领域，理赔效率低下的问题显得尤为突出。虽然在身份的核验上使用了人脸识别和证件识别的方式，但是在其他某些业务操作上，却仍然采用最原始的人工操作，例如对于一些复杂的理赔，特别是当理赔内容涉及到大量医疗资料的时候，目前主要采用的仍然是人工审核的方式进行处理。在客户对时效性以及便捷性要求越来越高的今天，这种方法会降低用户的使用体验，显得早已不合时宜。同时这种原始的业务流程还会给业务人员带来诸多重复性的工作，占用业务人员大量时间，导致人力成本的提高。

发明内容

本发明的主要目的在于提供一种数据分析方法、装置、设备及计算机可读存储介质，旨在解决现有的业务处理方法，对数据计算的效率较低的技术问题。

为实现上述目的，本发明提供的一种数据分析方法，所述数据分析方法包括以下步骤：

接收到数据分析请求，根据所述数据分析请求从业务系统中获取待处理业务的证据信息，其中，所述数据分析请求包括所述待处理业务的业务类型，所述证据信息包括用于已办理所述待处理业务的用户的身份信息和与所述待处理业务对应的图像证据信息；

在对所述用户的身份信息认证通过后，根据所述业务类型，从预设的模型库中选择对应的数据分析模型，所述数据分析模型为基于图像分析算法训练得到；

通过所述数据分析模型提取所述图像证据信息中的业务数据和标识数据；

根据所述标识数据判断所述图像证据信息的来源是否合法；

若合法，则根据所述业务数据计算所述待处理业务在当前时间段产生的业务数据的跳动幅度；

根据所述跳动幅度和所述业务数据输入至预设的数据预测模型中进行数据的预测分析，生成预测结果，其中，所述预测结果用于对所述待处理业务的审核处理。

可选的，所述接收到数据分析请求，根据所述数据请求从业务系统获取待处理业务的证据信息的步骤包括：

通过所述业务系统中的摄像单元拍摄用户的人脸图像；

根据所述数据分析请求，建立所述业务系统与所述业务类型对应的通信链路，其中，所述通信链路包括所述业务系统与网站的通信链路和所述业务系统与数据库之间的通信链路；

基于所述通信链路，从所述网站和/或数据库中读取与所述业务类型对应的待处理业务的证据信息。

可选的，在所述接收到数据分析请求，根据所述业务分析请求获取待处理业务的证据信息的步骤之后，还包括：：

将所述人脸图像和所述图像证据信息上传至预设的图像质量评估模型中进行图像质量的评估，得到图像评估结果，其中，所述图像评估结果包括用于指示图像上字符清晰度的等级或指示所述图像上的字符被识别出来的概率中的一种；

根据所述图像评估结果，对所述清晰度等级低于预设等级或所述字符被识别出来的概率低于预设概率的所述人脸图像和所述图像证据信息采用预设的图像预处理模型进行高清处理。

可选的，所述数据分析模型包括字符检测模型、字符后处理模型和合法性识别模型；

所述通过所述数据分析模型提取所述图像证据信息中的业务数据和标识数据包括：

通过所述字符检测模型提取所述图像证据信息中的字符并通过所述字符后处理模型对所述字符进行纠错；

通过所述合法性识别模型，提取所述图像证据信息中的印章，并对其进行合法性识别。

可选的，所述通通过所述合法性识别模型，提取所述图像证据信息中的印章，并对其进行合法性识别的步骤包括：

根据印章的颜色配置规则，识别所述图像证据信息中的印章区域，并对其从进行切割，得到印章图像；

通过灰度共生矩阵技术，对所述印章图像进行处理，并提取处理后的印章图像中的印章纹理特征；

计算所述印章纹理特征与预设的印章数据库中对应的印章图像的第一相似度；

判断所述相似度是否大于预设预值；

若是，则确定所述图像证据信息为合法信息；

若否，则确定所述图像证据信息为非法信息。

可选的，通过以下方式训练得到所述预设的数据预测模型：

从预设数据库中获取历史业务数据，并利用所述图像分析技术对所述历史业务数据进行预处理，所述预处理为剔除所述历史业务数据中的缺失值；

从预处理的所述历史业务数据中提取特征数据，其中，所述特征数据包括证据样本和业务结果；

利用主成分分析算法对所述特征数据进行降维处理，得到业务有效数据；

使用聚类算法对所述业务有效数据进行聚类分析，得到所述特征数据的类别划分结果；

根据所述类别划分结果中对应的特征数据，提取业务处理规则，并基于所述业务处理规则生成对应的数据预测模型。

可选的，所述根据所述跳动幅度和所述业务数据输入至预设的数据预测模型中进行数据的预测分析，生成预测结果的步骤包括：

根据所述业务数据，计算所述待处理业务与所述业务类别对应的历史业务数据之间的第二相似度；

基于所述第二相似度获取相对应的业务处理规则，并根据所述业务处理规则对应的数据预测模型计算所述待处理业务的处理建议；

根据所述处理建议和所述跳动幅度，计算出所述待处理业务的预测结果。

此外，为实现上述目的，本发明还提供一种数据分析装置，所述数据分析装置包括：

获取模块，用于接收到数据分析请求，根据所述数据分析请求从业务系统中获取待处理业务的证据信息，其中，所述数据分析请求包括所述待处理业务的业务类型，所述证据信息包括用于已办理所述待处理业务的用户的身份信息和与所述待处理业务对应的图像证据信息；

模型选择模块，用于在对所述用户的身份信息认证通过后，根据所述业务类型，从预设的模型库中选择对应的数据分析模型，所述数据分析模型为基于图像分析算法训练得到；

数据提取模块，用于通过所述数据分析模型提取所述图像证据信息中的业务数据和标识数据；

合法性识别模块，用于根据所述标识数据判断所述图像证据信息的来源是否合法

变动计算模块，根据所述业务数据计算所述待处理业务在当前时间段产生的业务数据的跳动幅度；

数据预测模块，用于根据所述跳动幅度和所述业务数据输入至预设的数据预测模型中进行数据的预测分析，生成预测结果，其中，所述预测结果用于对所述待处理业务的审核处理。

可选的，所述获取模块包括拍照单元、通信单元和数据采集单元，其中：

所述拍照单元用于通过所述业务系统中的摄像单元拍摄用户的人脸图像；

所述通信单元用于根据所述数据分析请求，建立所述业务系统与所述业务类型对应的通信链路，其中，所述通信链路包括所述业务系统与网站的通信链路和所述业务系统与数据库之间的通信链路；

所述数据采集单元用于基于所述通信链路，从所述网站和/或数据库中读取与所述业务类型对应的待处理业务的证据信息。

可选的，所述数据分析装置还包括：图像处理模块，用于将所述人脸图像和所述图像证据信息上传至预设的图像质量评估模型中进行图像质量的评估，得到图像评估结果，其中，所述图像评估结果包括用于指示图像上字符清晰度的等级或指示所述图像上的字符被识别出来的概率；根据所述图像评估结果，对所述清晰度等级低于预设等级或所述字符被识别出来的概率低于预设概率的所述人脸图像和图像证据信息采用预设的图像预处理模型进行高清处理。

可选的，所述数据分析模型包括字符检测模型、字符后处理模型和合法性识别模型；所述数据提取模块包括字符提取单元和数据合法性验证单元，其中：

所述字符提取单元用于通过所述字符检测模型提取所述图像证据信息中的字符并通过所述字符后处理模型对所述字符进行纠错；

所述数据合法性验证单元用于通过所述合法性识别模型，提取所述图像证据信息中的印章，并对其进行合法性识别。

可选的，所述数据合法性验证单元包含图像切割单元、印章特征提取单元、相似度判断单元，第一相似度计算单元，其中：

所述图像切割单元用于根据印章的颜色配置规则，识别所述图像证据信息中的印章区域，并对其从进行切割，得到印章图像；

所述印章特征提取单元用于通过灰度共生矩阵技术，对所述印章图像进行处理，并提取处理后的印章图像中的印章纹理特征；

所述第一相似度计算单元计算所述印章纹理特征与预设的印章数据库中对应的印章图像的第一相似度；

所述第一相似度计算单元用于判断所述相似度是否大于预设预值。

可选的，所述数据分析装置还包括模型训练模块，所述模型训练模块包括数据处理单元、数据提取单元、降维单元、聚类单元，模型生成单元，其中：

所述数据处理单元用于从预设数据库中获取历史业务数据，并利用所述图像分析技术对所述历史业务数据进行预处理，所述预处理为剔除所述历史业务数据中的缺失值；

所述数据提取单元用于从预处理的所述历史业务数据中提取特征数据，其中，所述特征数据包括证据样本和业务处理结果；

所述降维单元用于利用主成分分析算法对所述特征数据进行降维处理，得到业务的有效数据；

所述聚类单元用于使用聚类算法对所述业务的有效数据进行聚类分析，得到所述特征数据的类别划分结果；

所述模型生成单元用于根据所述类别划分结果中对应的特征数据，提取业务处理规则，生成对应的数据分析模型。

可选的，数据预测模块包括第二相似度计算单元、理赔建议单元、计算结果单元，其中：

所述第二相似度计算单元用于根据所述业务数据，计算所述待处理业务与所述业务类别对应的历史理赔数据之间的第二相似度；

所述理赔建议单元用于基于所述第二相似度获取相对应的理赔规则，并根据所述业务处理规则计算所述待处理业务的处理建议；

所述计算结果单元用于根据所述处理建议和跳动幅度，计算出所述待处理业务的预测结果。

进一步地，为实现上述目的，本发明还提供一种数据分析设备，所述数据分析设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据分析程序，所述数据分析被所述处理器执行时实现如上述任一项所述的数据分析方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据分析程序，所述数据分析程序被处理器执行时实现如上述任一项所述的数据分析方法的步骤。

本发明提供一种数据分析方法，在为客户提供业务数据的分析服务时，可根据用户选择的待分析的业务类型以及提供的业务数据，基于图像分析对业务数据进行智能识别，提取所需业务信息，将这些信息输入至数据分析模型以及预测模型中，生成业务处理结果，进行快速分析预测。通过本方式能够实现对业务的快速分析，并根据对应的处理建议的预测结果，提高业务数据分析和处理的效率，协助公司降低人工分析成本，提高业务产品竞争力。

附图说明

图1为本发明实施例方案涉及的数据分析设备运行环境的结构示意图；

图2为本发明提供的数据分析方法一实施例的流程示意图；

图3为本发明提供的医疗发票识别的流程示意图；

图4为本发明提供的数据分析方法第二实施例的流程示意图；

图5为本发明提供的数据分析方法第三实施例的流程示意图；

图6为本发明提供的数据分析装置的功能模块示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种数据分析设备。

参照图1，图1为本发明实施例方案涉及的数据分析设备运行环境的结构示意图。

如图1所示，该数据分析设备包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线102用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的数据分析设备的硬件结构并不构成对本发明提供的数据分析设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据分析程序。其中，操作系统是控制CPU读取存储器1005中的数据分析程序和软件资源的程序的运行。

在图1所示的数据分析设备的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令等，而处理器1001可以用于调用存储器1005中存储的数据分析程序，并执行以下数据分析方法的各实施例的操作。

基于上述数据分析设备硬件结构，提出本发明数据分析方法的各个实施例。

参照图2，图2为本发明实施例提供的流程示意图。在本实施例中，所述数据分析方法包括以下步骤：

步骤S210，接收到数据分析请求，根据所述数据分析请求从业务系统中获取待处理业务的证据信息；

在该步骤中，所述数据分析请求包括所述待处理业务的业务类型，所述证据信息包括用于已办理所述待处理业务的用户的身份信息和与所述待处理业务对应的图像证据信息，将其应用至具体业务时，其请求为理赔处理请求，理赔处理请求应当理解为包括待理赔的业务类型，所述理赔信息包括用于认证理赔人身份的身份信息和图像证据信息；

在该步骤中，所述待理赔的业务类型具体可以是医疗保险、车险、以及其他保险种类，主要是理赔人在发出理赔处理请求时与系统进行人机交互得到的。所述身份信息包括人脸图像或身份证等可证明理赔人身份的证件，所述图像证据信息主要是根据待理赔事件的不同业务类型对应的不同票据扫描件，例如对于医疗保险对应医疗发票和医疗清单的扫描件，对于车险对应汽车维修单、驾驶证的扫描件等。

步骤S220，在对所述用户的身份信息认证通过后，根据所述业务类型，从预设的模型库中选择对应的数据分析模型；

在本实施例中，若所述用户为事故保险中的理赔人时，则该步骤应当理解为是在所述理赔人的身份认证通过后，根据所述业务类型，从预设的理赔数据分析模型库中选择对应的理赔数据分析模型，所述理赔数据分析模型为基于图像分析算法训练得到；

在实际应用中，身份认证指的是用户身份的确认技术，是保险理赔过程中的第一道防线，对理赔人的身份认证可以有多种方式，例如基于口令密码的认证技术、基于智能卡的认证技术或者基于生物特征识别的认证技术，甚至出现多种技术融合。

在本实施例中，所述理赔人的身份认证主要是通过人脸识别，具体是通过在理赔系统上预设的人脸识别模型，该人脸识别模型是预先通过不同的用户的人脸图像进行识别训练得到的。当然该身份认证还可以是通过证件识别的方式进行识别认证，具体通过证件识别模型对理赔人进行身份认证，例如身份证、社保卡等金融卡。

在该步骤中，所述预设的理赔数据分析模型库中包括多种理赔数据分析模型，按照不同的业务类型对理赔数据分析模型进行分组，在实际应用中，按照不同的业务类型调用理赔数据分析模型库中对应组别的理赔数据分析模型，所有的组别都包括字符检测模型、字符后处理模型，同时，根据不同的业务类型，有不同的理赔数据分析模型，例如若业务类型为医疗保险，则对应的组别中还包含有医疗票据识别模型，若业务类型为车险，则所述理赔数据分析模型还包含有汽车维修单识别模型、驾驶证识别模型等。

在实际应用中，所述理赔数据分析模型库中存储有多种业务类型的理赔数据分析模型，具体是按照业务类型进行分类，通过该业务类型的信息与对应的理赔数据分析模型建立对应关系，得到对应关系表，在实际使用时，通过业务类型直接从对应关系表中查询，基于查询的结果调度即可。

步骤S230，通过所述数据分析模型提取所述图像证据信息中的业务数据和标识数据；

在实际应用中，所述业务数据可以理解为是图像证据信息，在对提供的图像证据信息进行检测识别时，由于图像证据信息的内容分布存在一定的规律性，所以可先根据提供的图像证据信息对应的不同业务类型对图像材料进行区域划分，划分出包括有效审核信息的有效区域，该有效区域的图像可称为有效图像，然后再针对该有效图像进行后续的字符特征提取和识别。

在实际应用中，在对图像的字符内容进行检测识别后，有概率存在识别错误的字符，其原因可能是字符检测模型不够完善，也可能是待识别的图像存在污点导致识别不准确，或者是待识别字符存在易混淆字符，这时候需要字符后处理模型对字符检测模型输出的字符进行纠错。

在该步骤中，如果业务类型为医疗保险，则所述理赔数据为医疗费用字符，疾病类型字符等，如果是车险，则所述理赔数据为汽车维修费用字符，事故区域字符、车辆车型字符等，所述提取所述图像证据信息中的理赔数据主要是通过字符检测模型对所述图像证据信息进行字符的提取，并将提取到的字符输入至字符后处理模型中进行字符的纠错得到的。

步骤S240，根据所述标识数据判断所述图像证据信息的来源是否合法；

在该步骤中，所述标识数据包括图像证据信息中票据扫描件中的印章图像，通过灰度共生矩阵可将印章图像提取并获得印章图像的特征值，然后根据印章图像的特征值对印章数据库进行查询，判断印章来源的来源是否合法，当特征值与印章数据库的某一印章的特征值相似度达到预设的阈值时，判断信息来源合法。

步骤S250，若合法，根据所述业务数据计算所述待处理业务在当前时间段内产生的业务数据的跳动幅度；

在该步骤中，当所述业务数据为理赔数据时，则所述跳动幅度应当理解是风控因子，甚至还可以理解为是变动因子，所述变动因子具体是根据不同业务类型的理赔因子和理赔系数计算得到，而一个理赔因子对应一个理赔系数，一个理赔数据中可以存在多个理赔因子和理赔系数，也即是说，所述理赔数据可以分为多个小组，每小组理赔数据对应一个理赔因子，每个理赔因子对应一个理赔系数，也就是理赔数据、理赔因子、理赔系数存在一一对应关系。例如，若所述业务类型为医疗保险，提取获得的理赔数据为疾病类型字符，识别疾病类型为前列腺增生，对应理赔因子为N40，则对应的理赔系数为0.9；

在实际应用中，所述变动因子可以通过以下方式计算得到：

首先，设提取到的理赔数据存在K组，则采用以下公式可以计算获取得到所述变动因子：

其中，S代表变动因子，为一数值，α_j为所述理赔系数，通过同一理赔事件的不同理赔数据对应的理赔系数进行累乘，就可得到所述变动因子。

步骤S260，根据所述跳动幅度和业务数据输入至预设的数据分析模型中进行数据分析，生成预测结果。

在本实施例中，所述预测结果用于对所述待处理业务的审核处理，例如，在理赔业务中，其预测结果应当理解为是根据理赔数据分析得到的理赔处理结果，当然该结果只是一个预测的查考结果，可用于在实际理赔时的参考分析。在实际应用中，对于理赔业务，该步骤实现具体为：将所述变动因子和理赔数据输入至预设的数据分析模型中，基于理赔数据与历史理赔数据的相似度，可以获得理赔规则，将理赔数据代入至理赔规则中，可以获取得到理赔建议，由理赔建议和变动因子可以计算得到理赔结果进行理赔，如计算得到的理赔建议为X,变动因子为S,则理赔结果为Y＝X*S。

进一步地，在本实施例中，当所述业务类型为医疗保险，所述图像证据信息包括：医疗发票和医疗清单的扫描件时，上述步骤S210的具体实现为：

通过所述AI理赔系统中的摄像单元拍摄理赔人的人脸图像；

根据所述理赔处理请求，建立所述AI理赔系统与所述业务类型对应的通信链路，其中，所述通信链路包括所述AI理赔系统与网站的通信链路和所述AI理赔系统与数据库之间的通信链路；

基于所述通信链路，从所述网站和/或数据库中读取与所述业务类型对应的待理赔事件的医疗发票和医疗清单的扫描件。

在本实施例中，接收到理赔处理请求后，终端指示理赔人需要拍摄并上传理赔人自身的人脸图像，可以是通过理赔人事先通过拍摄设备自行进行拍摄，也可以是通过在所述AI理赔系统中的图像采集设备进行拍摄，具体可以是理赔人在发出理赔请求后，图像采集设备对理赔人进行拍摄得到人脸图像或者是通过图像采集设备拍摄一段视频，从视频中进行截取获得人脸图像。

在本实施例中，具体所述通信链路的形式、专线类型、通信方式或是通信容量等可以根据实际需求进行设定，在实际应用中，通信链路包括有线和无线两种方式，对于有线通信链路，可以为向网络服务器提供商申请安装或租用有线连接专线，对于无线通信链路，可以是如卫星，微波，蓝牙等基于无线通信协议的无线通信链路，或者是通过现有通信网络建立的VPN虚拟链路。

进一步地，由于输入的人脸图像和扫描件是通过各种设备得到的，而设备之间可能会存在参数上的差异，导致获取到的人脸图像和扫描件会有差异，例如模糊等，对此，为了保证输入的信息的准确定，在本实施例中，在上述步骤S210之后，还包括对输入的信息进行质量的评估，具体的实现为：

将所述人脸图像和扫描件上传至预设的图像质量评估模型中进行图像质量的评估，得到图像评估结果，其中，所述图像评估结果包括用于指示图像上字符清晰度的等级或指示所述图像上的字符被识别出来的概率；

根据所述图像评估结果，对所述清晰度等级低于预设等级或所述字符被识别出来的概率低于预设概率的所述人脸图像和扫描件采用预设的图像预处理模型进行高清处理。

在本实施例中，通过对所述人脸图像和扫描件进行图像质量评估，可以筛选出部分图像质量较差的人脸图像和扫描件，并对所述部分图像质量较差的人脸图像和扫描件进行预处理，在实际应用中，图像质量评估分为主观评估和客观评估，在本实施例中，通过预先设置图像质量评估模型的方法对输入的人脸图像和扫描件进行图像质量评估，图像质量评估模型的构建主要是通过根据训练集训练得到的模型，训练集包括：多个样本图像，以及每个样本图像针对预设数量图像参数中每一图像参数的样本值。

在该步骤中，对人脸图像和扫描件进行高清处理可以方便后续的特征识别和提取，主要的方式是去噪。所述去噪是指通过滤波器或是其它方式解决数字图像由于噪声干扰而导致图像质量下降的问题，在本案中主要是通过中值滤波进行去噪。所述中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术，其原理是将图像中一点的值用该点周围一个邻域各点的中值代替，使得周围的像素值更加接近真实值，从而消除孤立的噪点。

进一步地，在本发明数据分析方法一实施例中，所述数据分析模型包括字符检测模型、字符后处理模型和合法性识别模型，上述S230的具体实现方式包括：通过所述字符检测模型提取所述图像证据信息中的字符并通过所述字符后处理模型对所述字符进行纠错；通过所述合法性识别模型，提取所述图像证据信息中的印章，并对其进行合法性识别。

在实际应用中，若所述图像证据信息为发票类的信息时，具体通过所述字符检测模型和字符后处理模型，分别提取所述医疗发票清单和医疗发票中的医疗项目字符；

通过所述医疗票据识别模型，分别提取所述医疗发票和医疗清单中的印章，并对其进行合法性识别。

本实施例中，业务类型为医疗保险，所述理赔数据分析模型中的医疗票据识别模型可以通过以下方式训练获得：

获取预先收集好的医疗票据样本集；其中，所述医疗票据样本集包括医疗发票样本集和医疗清单样本集；

将区域信息样本输入至基于ResNet网络及CTC算法构建的深度学习网络；其中所述区域信息样本为医疗票据样本中的特定区域的区域样本，主要通过人为设定的方式进行选取；

获取预先生成的与相应图片内容对应的标准值，通过深度学习网络对区域信息样本的特征进行识别，生成相应的识别值；

根据识别值与标准值之间的差异修改深度学习网络中的参数；

利用修改参数后的深度学习网络迭代执行上述训练过程，直至深度学习网络对于医疗票据样本中图片内容识别生成的识别值与标准值一致或误差在预期范围内时，得到生成的医疗票据识别模型。

ResNet网络采用网络中增加残差网络的方法，解决当深度学习网络达到一定深度后误差升高，后向传播无法将梯度反馈到前面网络层，前面网络参数无法更新，导致训练变差的问题。残差网络增加一个恒等映射，跳过本层或多层运算，同时后向传播过程中，下一层网络梯度传递给上一层，解决深层网络梯度消失的问题，确保了深度学习网络的稳定性。当区域信息样本为字符串形式时，通过CTC算法能够根据区域信息样本中字符串的特征分类划分出不同字符各自的特征，并根据各字符的特征判定各个特征最大概率对应的字符内容。

进一步地，所述通过所述医疗票据识别模型，分别提取所述医疗发票和医疗清单中的印章，并对其进行合法性识别，具体实现可以是：

判断所述第一相似度是否大于预设预值；

若是，则确定所述图像证据信息为合法信息；

若否，则确定所述图像证据信息为非法信息。

在本实施例中，所述灰度共生矩阵的构造过程为：假设灰度共生矩阵可以表示为从灰度值1的点经过距离d＝(a，b)到达灰度值为j的点的概率，灰度共生矩阵用户＝(i,j,d,θ)(i,j＝O,1,2,…,K-1)表示，i、j分别表示像素对的灰度值，d表示像素对之间的距离，θ的取值为：0°，45°，90°，135°。

所述纹理特征主要包括熵、工阶矩、对比度和逆差矩，其表达式为：

熵G₁的表达式为：

二阶矩G₂的表达式为：

对比度G₃的表达式为：

逆差矩G₄的表达式为：

通过上式分别计算出图像的特征值，使得像素对在这4个方向(0°，45°，90°，135°)上移动，分别计算出4个特征值；最后把这4个方向上计算出来的特征值组合成一个大小为16的综合向量，这个综合向量可以定义为：G＝[G1k，G2k，G3k，G4k]，k∈(0°，45°，90°，135°)，再根据得到的两个综合特征向量计算第一相似度。

在本实施例中，对于所述数据分析模型，具体是通过根据一些用户的历史理赔数据进行训练得到的，具体的训练过程如下：

从预设数据库中获取历史理赔数据，并利用所述图像分析技术对所述历史理赔数据进行预处理，所述预处理为剔除所述历史理赔数据中的缺失值；

从预处理的所述历史理赔数据中提取特征数据，其中，所述特征数据包括证据样本和理赔结果；

利用主成分分析算法对所述特征数据进行降维处理，得到理赔有效数据；

使用聚类算法对所述理赔有效数据进行聚类分析，得到所述特征数据的类别划分结果；

根据所述类别划分结果中对应的特征数据，提取理赔规则，并基于所述理赔规则生成对应的数据分析模型。

在本实施例中由于在历史理赔数据的采集过程中，可能数据的采集方式不正确，导致数据中存在坏数据(比如：数据未被填写)，这些坏数据在表格中缺失值通常是以空值的形式存在，如果直接忽视这些坏数据，将会导致数据的聚类过程出现异常，因此，在实际应用中，如果采集到的历史理赔数据存在缺失值时，在对数据进行聚类之前需要对数据进行预处理，并将预处理后的正常数据进行聚类，可以提高聚类的效率。

在本实施例中，所述特征数据为决定历史理赔的有效数据，并在计算历史理赔金额时表现出的特征，该特征数据包括但不限于：医疗账单金额、预付金额和自费金额等；所述预设算法为PCA算法，该算法通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分，使用PCA算法对特征数据进行降维，可以缓解特征数据的高维度问题，并且在压缩特征数据的同时让特征数据的特征信息损失最小化；所述聚类算法为K-means算法，利用K-means算法以空间中K个点为中心进行聚类，对最靠近他们的特征数据进行归类，并通过迭代，逐次更新各聚类中心的值，直至得到最好的聚类，从而完成对不同特征划分为不同的类别。

进一步地，在本发明数据分析方法一实施例中，上述S230的具体实现方式包括：

在本实施例中，若所述待处理业务为理赔事件，所述业务处理规则为理赔规则时，得到步骤S230具体实现如下：根据所述理赔数据，计算所述待理赔事件与所述业务类别对应的历史理赔数据之间的第二相似度；基于所述第二相似度获取相对应的理赔规则，并根据所述理赔规则计算所述待理赔事件的理赔建议；根据所述理赔建议和所述变动因子，计算出所述待理赔事件的最终理赔结果。

在实际应用中，所述理赔规则指的是为保险人确定赔付保险金数额过程中的计算逻辑，可以根据各类别的历史理赔结果进行确定，在此不作限制，如对于本实施例，制定以下理赔规则：医疗保险理赔建议＝max(min(((账单金额-先期给付-部分自费-全额自费-不合理费用-免赔额)*赔付比例),剩余保额),0)。

图3为第一实施例提供的数据分析方法中的医疗发票识别流程图，具体实现过程包括：

步骤S310，将医疗发票图像扫描件进行图像质量评估，计算图像质量高低；

在实际应用中，图像质量评估可以通过多种方法实现，分为主观评估和客观评估，主观评估就是从人的主观感知来评价图像的质量，首先给出原始参考图像和失真图像，让标注者给失真图像评分，客观评估使用数学模型给出量化值，在本实施例中就是使用客观评估的方式，构建图像质量评估模型对输入的扫描件进行图像质量评估。

步骤S320，将图像质量低于预设质量阈值的图像扫描件进行中值滤波去噪处理；

在实际应用中，图像增强可分成两大类：频率域法和空间域法，频率域法能把图像看成一种二维信号，对其进行基于二维傅里叶变换的信号增强。采用低通滤波(即只让低频信号通过)法，可去掉图中的噪声；采用高通滤波法，则可增强边缘等高频信号，使模糊的图片变得清晰。空间域法中具有代表性的算法有局部求平均值法和中值滤波(取局部邻域中的中间像素值)法等，它们可用于去除或减弱噪声。在本实施例中，通过中值滤波对图像质量低的图像进行去噪处理。

步骤S330，将图像质量高于预设质量阈值以及经过去噪处理的图像扫描件进行图像分割，将其中的印章图像取出；

在该步骤中，后续需要进行图像的合法性检验，对图像的合法性检验主要是通过对图像中的印章图像进行判断，所以需要单独将印章图像从扫描件上切割下来进行判断，主要是基于印章图像的颜色进行判断切割。

步骤S340，验证所述印章图像的合法性；

在该步骤中，通过灰度共生矩阵对切割出来的印章图像进行特征值提取，将得到的特征值与印章数据库中的印章进行比对，比对成功则验证其具备合法性。

步骤S350，将具备合法性的图像扫描件进行字符提取并识别，得到医疗发票识别结果。

图4为本发明提供的数据分析方法另外一种实现方法的数据分析流程图，该实施例中，以保险中的理赔事件为例，对该方法进行说明，具体实现过程包括：

步骤S410，采集理赔过程中的人脸图像，以及证件图像、医疗发票图像和医疗清单图像的扫描件；

步骤S420，将人脸图像输入人脸识别模型进行人脸验证，验证并确定理赔人身份；

在该步骤中，将人脸图像输入人脸识别模型后输出为人脸特征矩阵，根据预先在数据库中储存的人脸特征矩阵与身份信息的对应关系，确认输入的人脸图像对应用户的身份信息。

步骤S430，将所述扫描件依次输入图像质量评估模型、图像预处理模型、字符检测模型、字符后处理模型中，然后按照扫描件的类别输入证件识别模型、医疗发票识别模型、医疗清单识别模型中，获取证件、医疗发票、医疗清单结果信息；

步骤S440，将所有识别结果输入数据分析模型分析生成理赔结果，进行快速理赔。

本实施例可根据理赔人选择的理赔的业务类型以及提供的理赔材料，基于图像分析对理赔材料进行智能识别，提取所需理赔信息，将这些信息输入至理赔数据分析模型以及数据分析模型中，生成理赔结果，进行快速理赔。通过本方式能够实现对保险的快速理赔，提高理赔效率，协助保险公司降低人工理赔成本，达到闪赔，提高产品竞争力。

本提案能够针对不同保险的业务类型，对理赔人提供的相应的理赔材料进行理赔数据的获取，根据所述理赔数据进行分析获得理赔结果，在具体实施例中，业务类型可以为车险，具体实现过程如下图5所示：

步骤S510，根据用户发送的理赔处理请求，获取车险理赔信息，所述车险理赔信息包括理赔人的人脸图像信息和材料证据信息；

在该步骤中，理赔人在发出理赔处理请求前需要上传自己的人脸图像以及办理车险理赔所需要的证据材料，将车险理赔信息附带在理赔处理请求中发送到系统中，系统接收到理赔通知请求后将车险理赔信息提取出来。

步骤S520，通过人脸识别模型对所述人脸图像信息进行身份认证；

步骤S530，若通过身份认证，则从预设的理赔数据分析模型库中选择与车险对应的理赔数据分析模型；

在该步骤中，所述理赔数据分析模型为根据实际需求组成的一组模型，对于业务类型为车险的情况，可以且不限于将驾驶证识别模型、保险单识别模型、财产损失证明识别模型等。

步骤S540，根据所述理赔数据分析模型提取材料证据信息中的车险理赔数据；

步骤S550，根据所述车险理赔数据获得变动因子，将所述变动因子和所述车险理赔数据输入数据分析模型中，得到车险理赔结果。

在该步骤中，业务类型为车险，则识别出的理赔数据包括事故区域和投保年度等等，拿投保年度为例，若为首年投保,对应的理赔因子为C3a，理赔系数为1，若为续保，对应的理赔因子为C3b，理赔系数为0.9，将得到的多项理赔系数，将多项理赔因子累乘得到变动因子，将变动因子与车险理赔数据输入数据分析模型后得到的理赔建议相乘，得到车险理赔结果。

为了解决上述的问题，本发明还提供一种数据分析装置，参照图6，图6为本发明实施例提供的数据分析装置的功能模块的示意图。在本实施例中，该装置包括：

获取模块61，用于接收到数据分析请求，根据所述数据分析请求从业务系统中获取待处理业务的证据信息，其中，所述数据分析请求包括所述待处理业务的业务类型，所述证据信息包括用于已办理所述待处理业务的用户的身份信息和与所述待处理业务对应的图像证据信息；

模型选择模块62，用于在对所述用户的身份信息认证通过后，根据所述业务类型，从预设的模型库中选择对应的数据分析模型，所述数据分析模型为基于图像分析算法训练得到；

数据提取模块63，用于通过所述数据分析模型提取所述图像证据信息中的业务数据和标识数据；

合法性识别模块64，用于根据所述标识数据判断所述图像证据信息的来源是否合法

变动计算模块65，根据所述业务数据计算所述待处理业务在当前时间段产生的业务数据的跳动幅度；

数据预测模块66，用于根据所述跳动幅度和所述业务数据输入至预设的数据预测模型中进行数据的预测分析，生成预测结果，其中，所述预测结果用于对所述待处理业务的审核处理。

基于与上述本发明实施例的数据分析方法相同的实施例说明内容，因此本实施例对数据分析装置的实施例内容不做过多赘述。

本发明为客户提供理赔服务时，可根据理赔人选择的理赔的业务类型以及提供的理赔材料，基于图像分析对理赔材料进行智能识别，提取所需理赔信息，将这些信息输入至理赔数据分析模型以及数据分析模型中，生成理赔结果，进行快速理赔。通过本方式实现对保险的快速理赔，协助保险公司降低人工理赔成本，提高核保效率，达到闪赔，提高产品竞争力。

在本实施例中，所述获取模块61包括拍照单元、通信单元和数据采集单元，其中：

进一步的，所述数据分析装置还包括图像处理模块，具体的该图像处理模块可以包括以下单元组成，包括图像质量评估单元和图像预处理单元，其中：

所述图像质量评估单元用于将所述人脸图像和所述图像证据信息上传至预设的图像质量评估模型中进行图像质量的评估，得到图像评估结果，其中，所述图像评估结果包括用于指示图像上字符清晰度的等级或指示所述图像上的字符被识别出来的概率；

所述图像预处理单元用于根据所述图像评估结果，对所述清晰度等级低于预设等级或所述字符被识别出来的概率低于预设概率的所述人脸图像和图像证据信息采用预设的图像预处理模型进行高清处理。

在本实施例中，所述数据分析模型包括字符检测模型、字符后处理模型和合法性识别模型；所述数据提取模块包括字符提取单元和数据合法性验证单元，其中：

进一步的，所述数据合法性验证单元包含图像切割单元、印章特征提取单元、相似度判断单元，第一相似度计算单元，其中：

在本实施例中，所述数据分析装置还包括模型训练模块，所述模型训练模块包括数据处理单元、数据提取单元、降维单元、聚类单元，模型生成单元，其中：

在本实施例中，数据预测模块包括第二相似度计算单元、理赔建议单元、计算结果单元，其中：

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有数据分析程序，所述数据分析程序被处理器执行时实现如上述任一项实施例中所述的数据分析方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种数据分析方法，其特征在于，所述数据分析方法包括以下步骤：

在对所述用户的身份信息认证通过后，根据所述业务类型，从预设的模型库中选择对应的数据分析模型，所述数据分析模型为基于图像分析算法训练得到，所述数据分析模型包括字符检测模型、字符后处理模型和合法性识别模型；

根据所述标识数据判断所述图像证据信息的来源是否合法；

若合法，则根据所述业务数据计算所述待处理业务在当前时间段内产生的业务数据的跳动幅度，当所述业务数据为理赔数据时，所述跳动幅度为变动因子，所述变动因子根据所述待处理业务的业务类型的理赔因子和理赔系数计算得到；

根据所述跳动幅度和所述业务数据输入至预设的数据预测模型中进行数据的预测分析，生成预测结果，其中，所述预测结果用于对所述待处理业务的审核处理；

通过所述合法性识别模型，提取所述图像证据信息中的印章，并对所述印章进行合法性识别；

所述通过所述合法性识别模型，提取所述图像证据信息中的印章，并对所述印章进行合法性识别包括：

根据印章的颜色配置规则，识别所述图像证据信息中的印章区域，并对所述印章区域从所述图像证据信息进行切割，得到印章图像；

判断所述第一相似度是否大于预设预值；

若是，则确定所述图像证据信息为合法信息；

若否，则确定所述图像证据信息为非法信息；

所述根据所述跳动幅度和所述业务数据输入至预设的数据预测模型中进行数据的预测分析，生成预测结果的步骤包括：

根据所述业务数据，计算所述待处理业务与所述业务类型对应的历史业务数据之间的第二相似度；

2.如权利要求1所述的数据分析方法，其特征在于，所述接收到数据分析请求，根据所述数据分析请求从业务系统获取待处理业务的证据信息的步骤包括：

通过所述业务系统中的摄像单元拍摄用户的人脸图像；

3.如权利要求2所述的数据分析方法，其特征在于，在所述接收到数据分析请求，根据所述数据分析请求从业务系统获取待处理业务的证据信息的步骤之后，还包括：

将所述人脸图像和所述图像证据信息上传至预设的图像质量评估模型中进行图像质量的评估，得到图像评估结果，其中，所述图像评估结果包括用于指示图像上字符清晰度的等级或指示所述图像上的字符被识别出来的概率；

根据所述图像评估结果，对所述清晰度的等级低于预设等级或所述字符被识别出来的概率低于预设概率的所述人脸图像和图像证据信息采用预设的图像预处理模型进行高清处理。

4.如权利要求1所述的数据分析方法，其特征在于，所述数据分析方法还包括通过以下方式训练得到所述数据预测模型：

从预设数据库中获取历史业务数据，并利用图像分析技术对所述历史业务数据进行预处理，所述预处理为剔除所述历史业务数据中的缺失值；

从预处理的所述历史业务数据中提取特征数据，其中，所述特征数据包括证据样本和业务处理结果；

利用主成分分析算法对所述特征数据进行降维处理，得到业务的有效数据；

使用聚类算法对所述业务的有效数据进行聚类分析，得到所述特征数据的类别划分结果；

5.一种数据分析装置，其特征在于，所述数据分析装置包括：

模型选择模块，用于在对所述用户的身份信息认证通过后，根据所述业务类型，从预设的模型库中选择对应的数据分析模型，所述数据分析模型为基于图像分析算法训练得到，所述数据分析模型包括字符检测模型、字符后处理模型和合法性识别模型；

变动计算模块，根据所述业务数据计算所述待处理业务在当前时间段产生的业务数据的跳动幅度，当所述业务数据为理赔数据时，所述跳动幅度为变动因子，所述变动因子根据所述待处理业务的业务类型的理赔因子和理赔系数计算得到；

数据预测模块，用于根据所述跳动幅度和所述业务数据输入至预设的数据预测模型中进行数据的预测分析，生成预测结果，其中，所述预测结果用于对所述待处理业务的审核处理；

所述数据提取模块包括字符提取单元和数据合法性验证单元，其中：

所述数据合法性验证单元用于通过所述合法性识别模型，提取所述图像证据信息中的印章，并对所述印章进行合法性识别；

所述数据合法性验证单元包含图像切割单元、印章特征提取单元、相似度判断单元，第一相似度计算单元，其中：

所述图像切割单元用于根据印章的颜色配置规则，识别所述图像证据信息中的印章区域，并对所述印章区域从所述图像证据信息进行切割，得到印章图像；

所述第一相似度计算单元用于计算所述印章纹理特征与预设的印章数据库中对应的印章图像的第一相似度；

判断所述第一相似度是否大于预设预值；

若是，则确定所述图像证据信息为合法信息；

若否，则确定所述图像证据信息为非法信息；

所述数据预测模块包括第二相似度计算单元、理赔建议单元、计算结果单元，其中：

所述第二相似度计算单元用于根据所述业务数据，计算所述待处理业务与所述业务类型对应的历史业务数据之间的第二相似度；

所述理赔建议单元用于基于所述第二相似度获取相对应的业务处理规则，并根据所述业务处理规则对应的数据预测模型计算所述待处理业务的处理建议；

所述计算结果单元用于根据所述处理建议和所述跳动幅度，计算出所述待处理业务的预测结果。

6.如权利要求5所述的数据分析装置，其特征在于，所述获取模块包括拍照单元、通信单元和数据采集单元，其中：

7.如权利要求6所述的数据分析装置，其特征在于，所述数据分析装置还包括：图像处理模块，用于将所述人脸图像和所述图像证据信息上传至预设的图像质量评估模型中进行图像质量的评估，得到图像评估结果，其中，所述图像评估结果包括用于指示图像上字符清晰度的等级或指示所述图像上的字符被识别出来的概率；

8.如权利要求5所述的数据分析装置，其特征在于，所述数据分析装置还包括模型训练模块，所述模型训练模块包括数据处理单元、数据提取单元、降维单元、聚类单元，模型生成单元，其中：

所述数据处理单元用于从预设数据库中获取历史业务数据，并利用图像分析技术对所述历史业务数据进行预处理，所述预处理为剔除所述历史业务数据中的缺失值；

所述模型生成单元用于根据所述类别划分结果中对应的特征数据，提取业务处理规则，并基于所述业务处理规则生成对应的数据预测模型。

9.一种数据分析设备，其特征在于，所述数据分析设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据分析程序，所述数据分析程序被所述处理器执行时实现如权利要求1-4中任一项所述的数据分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据分析程序，所述数据分析程序被处理器执行时实现如权利要求1-4中任一项所述的数据分析方法的步骤。