CN111145911A

CN111145911A - 异常数据识别处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111145911A
Application number: CN201911323771.3A
Authority: CN
Inventors: 安源; 施云川; 王嘉楠
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-12

Abstract

本申请涉及人工智能领域内的一种异常数据识别处理方法、装置、计算机设备和存储介质。所述方法包括：获取多份样本数据，建立相关系数矩阵，所述样本数据包括样本标识；利用所述相关系数矩阵与所述样本数据对所述多个样本标识进行筛选，筛选出相应的异常样本；对所述多份样本数据进行降维处理，得到每个样本标识对应的特征坐标；利用所述异常样本的特征坐标与其他样本标识的特征坐标，计算所述异常样本与其他样本标识之间的欧氏距离；当所述欧氏距离小于阈值时，将对应的样本数据标记为异常数据。采用本方法能够快速准确的识别理赔数据是否存在异常。

Description

异常数据识别处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种异常数据识别处理方法、装置、计算机设备和存储介质。

背景技术

医疗保险可以保障参保人在门诊、住院时所产生的费用，其中包括对医保范围内的慢性病的费用进行报销。为了防止恶意报销，需要对医保理赔数据进行有效审核。由于慢性病的诊疗时间较长，患者在不同时间的诊疗方式不同，用药也会不同。如糖尿病，有一期、二期、三期、后期并发症等。不同的疾病会有不同的诊疗方式以及不同的用药。由于每一种慢性病都涉及多种诊疗项目，每种诊疗项目中又包括多种用药，不同的用药又具有不同的规范要求。对多种慢性病医保报销的理赔数据进行审核时，如果采用人工审核，工作效率较低。如何快速准确的识别理赔数据中是否存在异常成为目前需要解决的一个技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够快速准确的识别理赔数据中是否存在异常的异常数据识别处理方法、装置、计算机设备和存储介质。

一种异常数据识别处理方法，所述方法包括：

获取多份样本数据，建立相关系数矩阵，所述样本数据包括样本标识；

利用所述相关系数矩阵与所述样本数据对所述多个样本标识进行筛选，筛选出相应的异常样本；

对所述多份样本数据进行降维处理，得到每个样本标识对应的特征坐标；

利用所述异常样本的特征坐标与其他样本标识的特征坐标，计算所述异常样本与其他样本标识之间的欧氏距离；

当所述欧氏距离小于阈值时，将相应样本标识对应的样本数据标记为异常数据。

在其中一个实施例中，所述样本数据包括多个维度；所述利用所述相关系数矩阵与所述样本数据对所述多个样本标识进行筛选包括：

利用预设系数对所述相关系数矩阵进行修正，得到修正后的相关系数矩阵；

获取每个样本标识在多个维度的得分，生成相应的得分向量；

利用所述修正后的相关系数矩阵、所述得分向量计算每个样本标识的汇总分；

根据所述汇总分进行筛选，得到至少一个异常样本。

在其中一个实施例中，所述样本数据包括多个维度；所述对所述多份样本数据进行降维处理包括：

通过计算所述样本数据中每个维度的方差，进行维度过滤；

根据所述方差对过滤后的维度进行分组，得到两个维度组合；

对每个维度组合分别进行降维处理，将降维后的两个维度组合进行拼接，生成与样本标识对应的特征坐标。

在其中一个实施例中，所述方法还包括：

当所述欧式距离大于阈值时，将所述样本数据标记为正常数据；

获取所述正常数据中的样本标识，根据所述样本标识获取当前理赔数据，所述当前理赔数据中包括诊疗项目；

当识别出所述诊疗项目发生变化时，调用诊疗路径图；所述诊疗路径图利用所述样本数据对有向图模型训练生成；

将所述诊疗项目进行编码，通过所述诊疗路径图对编码后的诊疗项目进行运算，识别所述当前理赔数据是否正常。

在其中一个实施例中，所述将所述诊疗项目进行编码，通过所述诊疗路径图对编码后的诊疗项目进行运算，识别所述当前理赔数据是否正常包括：

利用所述当前理赔数据中的诊疗项目，生成关键项目转移组；

对所述关键项目转移组进行编码，将编码后的向量输入所述疾病诊疗路径，得到对应的项目转移概率；

当所述项目转移概率低于预设概率时，生成报警提示信息。

一种异常数据识别处理装置，所述装置包括：

矩阵建立模块，用于获取多份样本数据，建立相关系数矩阵，所述样本数据包括样本标识；

筛选模块，用于利用所述相关系数矩阵与所述样本数据对所述多个样本标识进行筛选，筛选出相应的异常样本；

降维模块，用于对所述多份样本数据进行降维处理，得到每个样本标识对应的特征坐标；

异常识别模块，用于利用所述异常样本的特征坐标与其他样本标识的特征坐标，计算所述异常样本与其他样本标识之间的欧氏距离；当所述欧氏距离小于阈值时，将对应的样本数据标记为异常数据。

在其中一个实施例中，所述筛选模块还用于利用预设系数对所述相关系数矩阵进行修正，得到修正后的相关系数矩阵；获取每个样本标识在多个维度的得分，生成相应的得分向量；利用所述修正后的相关系数矩阵、所述得分向量计算每个样本标识的汇总分；根据所述汇总分进行筛选，得到至少一个异常样本。

在其中一个实施例中，所述装置还包括：

跟踪监控模块，用于当所述欧式距离大于阈值时，将所述样本数据标记为正常数据；获取所述正常数据中的样本标识，根据所述样本标识获取当前理赔数据，所述当前理赔数据中包括诊疗项目；当识别出所述诊疗项目发生变化时，调用诊疗路径图；所述诊疗路径图利用所述样本数据对有向图模型进行训练生成；将所述诊疗项目进行编码，通过所述诊疗路径图对编码后的诊疗项目进行运算，识别所述当前理赔数据是否正常。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

上述异常数据识别处理方法、装置、计算机设备和存储介质，通过多份样本数据建立相关系数矩阵，由此可以利用相关系数矩阵和样本数据在多个样本标识中筛选出相应的异常样本。由于样本数据中包括较多维度，通过对样本数据进行降维处理，可以得到每个样本标识的特征坐标。利用所述异常样本的特征坐标与其他样本标识的特征坐标，计算所述异常样本与其他样本标识之间的欧氏距离，欧氏距离越小表示该样本标识的样本数据与异常样本的样本数据越接近。由于异常样本对应的样本数据为异常数据，因此当所述欧氏距离小于阈值时，可以将对应的样本数据标记为异常数据。由此实现了在海量的理赔数据中快速准确的识别是否存在异常。

附图说明

图1为一个实施例中异常数据识别处理方法的应用场景图；

图2为一个实施例中异常数据识别处理方法的流程示意图；

图3为一个实施例中对多份样本数据进行降维处理步骤的流程示意图；

图4为一个实施例中对当前理赔数据的跟踪监控步骤的流程示意图；

图5为一个实施例中异常数据识别处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的异常数据识别处理方法，可以应用于如图1所示的应用环境中。其中，服务器102通过网络与大数据平台104进行通信。其中，服务器102、大数据平台104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种异常数据识别处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取多份样本数据，建立相关系数矩阵，样本数据包括样本标识。

服务器通过大数据平台获取多个患者的历史理赔数据。历史理赔数据也可以称为样本数据。每一个患者的历史理赔数据作为一份样本数据。每一份样本数据具有唯一的样本标识。例如，样本标识可以是患者标识，或者样本标识可以是样本流水号等。样本数据中包括多个维度，例如，核心用药、超量用药、无关用药等。服务器获取每个样本标识对应的每个维度的理赔数据进行归一化处理，得到每个维度的维度得分。

以核心用药为例，服务器获取每个样本标识对应的核心用药的药品及花费，计算核心用药花费与其全部药品费用的占比，将该占比进行归一化处理，获得该维度的得分。得分在[0,1]区间，归一化时，核心用药占比为0的归一化至得分为1，核心用药占比100％的归一化至得分为0。以超量用药为例，超量金额与超量最高金额的比值，再进行归一化处理，可以得到超量用药这一维度的得分。

由于部分维度之间存在关联，如果一个维度的理赔数据存在异常情况，相关联维度的理赔数据也可能是异常的，因此，服务器不能直接将各个维度的得分直接相加计算总分。需要通过相关系数矩阵进行计算每个样本标识的汇总分。其中，每个维度可以作为一个随机变量。服务器对每个样本标识分别在多个维度计算相应的得分，利用多个维度的得分，建立相关系数矩阵。

具体的，在计算每个维度的得分之后，服务器按照统计学计算随机变量两两之间的相关系数，相关系数在-1～1之间。例如，样本数量为200，对每个样本标识的各个维度打分，得到200个样本在各个维度之间的得分。服务器根据200个样本在每个维度的得分，计算相应维度的两个随机变量之间的相关系数。服务器利用维度两两之间的相关系数建立相关系数矩阵，该相关系数矩阵可以标记为rho。

步骤204，利用相关系数矩阵与样本数据对多个样本标识进行筛选，筛选出相应的异常样本。

服务器可以利用相关系数矩阵对每个样本标识在各个维度的得分进行加总，得到样本标识在各个维度的汇总分，将汇总分最高的预设数量的样本标识作为异常样本。其中，预设数量可以是多个，也可以是一个。多个是指两个或两个以上。如果两个维度之间正相关，则相关系数为1。这种情况下，会导致样本标识的各个维度的得分会重复计算，因此需要进行修正，即将维度之间的正相关变为负相关。由于相关系数不能直接相加，正相关的系数需要减掉，避免重复汇总，让正相关变为负相关。

在其中一个实施例中，服务器可以利用预设系数对相关系数矩阵进行修正，得到修正后的相关系数矩阵，利用修正后的相关系数矩阵计算每个样本标识的汇总分，根据汇总分进行筛选，得到相应的异常样本。异常样本可以是一个，也可以是多个。

步骤206，对多个样本标识的样本对多份样本数据进行降维处理，得到每个样本标识对应的特征坐标。

步骤208，利用异常样本的特征坐标与其他样本标识的特征坐标，计算异常样本与其他样本标识之间的欧氏距离。

步骤210，当欧氏距离小于阈值时，将相应样本标识对应的样本数据标记为异常数据。

由于无法直接进行高维度的分布统计，需要对每个样本标识的所有维度进行降维处理。为了节省运算量，服务器在降维之前，可以先进行维度过滤，对过滤后的维度，进行降维处理。服务器将每个样本标识的样本数据从多维降至二维，得到每个样本标识对应的特征坐标。降维后得到的特征坐标包括异常样本的特征坐标以及其他样本标识的特征坐标。

由于异常样本对应的样本数据属于异常数据，因此服务器可以通过计算其他样本标识与异常样本之间的欧式距离，以识别其他样本标识的样本数据是否异常。具体的，服务器利用每个其他样本标识的特征坐标与异常样本的特征坐标进行欧式距离计算。当欧氏距离超过阈值时，将相应样本标识的样本数据标记为异常数据。当欧氏距离超过阈值时，将相应样本标识的样本数据标记为正常数据。

进一步的，当异常样本有多个时，该方法还包括对欧氏距离进行修正的步骤，具体包括：获取异常样本对应的权重，权重通过对样本数据在多个维度计算相应的得分进行确定；当存在多个异常样本时，获取每个异常样本与其他样本标识之间的欧式距离；利用每个异常样本对应的权重对其他样本标识之间的欧式距离进行修正；将每个其他样本标识对应的多个修正后的欧氏距离进行综合计算，得到相应的异常距离。

当异常样本有多个时，服务器都可以计算每个异常样本与其他样本标识之间的欧氏距离，通过对多个欧式距离进行修正，可以得到每个其他样本标识相应的异常距离。其中，每个异常样本的得分可以作为异常样本的权重，权重越高表示异常程度越高。服务器利用异常样本的权重对每个样本标识与异常样本之间的距离，进行修正，得到修正后的距离。假设只有3个异常样本，异常样本的得分(即权重)为2、3、4，一个样本标识与3个异常样本之间的距离分别是1、2、2，则修正后距离分别为：1/2、2/3、2/4。对多个修正后的距离计算相应的调和平均值，得到样本标识的异常距离。当异常距离小于阈值时，将相应样本标识的样本数据标记为异常数据。当异常距离超过阈值时，将相应样本标识的样本数据标记为正常数据。

本实施例中，通过多份样本数据建立相关系数矩阵，由此可以利用相关系数矩阵和样本数据在多个样本标识中筛选出相应的异常样本。由于样本数据中包括较多维度，通过对样本数据进行降维处理，可以得到每个样本标识的特征坐标。利用异常样本的特征坐标与其他样本标识的特征坐标，计算异常样本与其他样本标识之间的欧氏距离，欧氏距离越小表示该样本标识的样本数据与异常样本的样本数据越接近。由于异常样本对应的样本数据为异常数据，因此当欧氏距离小于阈值时，可以将对应的样本数据标记为异常数据。由此实现了在海量的理赔数据中快速准确的识别是否存在异常。

在一个实施例中个，利用相关系数矩阵与样本数据对多个样本标识进行筛选包括：利用预设系数对相关系数矩阵进行修正，得到修正后的相关系数矩阵；获取每个样本标识在多个维度的得分，生成相应的得分向量；利用修正后的相关系数矩阵、得分向量计算每个样本标识的汇总分；根据汇总分进行筛选，得到相应的异常样本。

服务器将相关系数矩阵非对角线元素乘以预设系数进行修正，得到修正后的相关系数矩阵。该修正后的相关系数矩阵可以标记为rho2。预设系数可以是负数，如-0.5。多个维度的得分可以形成得分向量，得分向量可以用X表示。服务器利用修正后的相关系数矩阵rho2对每个样本标识的得分向量进行加总，得到该样本标识的各维度汇总分。

具体的，服务器可以通过公式X^T×rho2×X进行计算，得到该样本标识的各维度汇总分。其中，每个样本标识的样本数据中可以包括M个维度，利用M维的得分，生成得分向量X，对得分向量X进行转置后与rho2相乘，再与得分向量X相乘，得到样本标识的汇总分。通过对每位样本标识的各个维度的得分进行加总，得到样本标识在各个维度的汇总分，将汇总分最高的预设数量(如N个)的样本标识作为异常样本。

由于异常样本的汇总分最高，从而可以将异常样本作为异常数据的参考。通过计算其他样本标识与异常样本之间的欧氏距离，欧式距离越近，表示与异常样本越接近，从而可以确定相应的样本数据越可能是异常数据。

在一个实施例中，如图3所示，对多份样本数据进行降维处理的步骤具体包括：

步骤302，通过计算样本数据中每个维度的方差，进行维度过滤。

步骤304，根据方差对过滤后的维度进行分组，得到两个维度组合。

步骤306，对每个维度组合分别进行降维处理，将降维后的两个维度组合进行拼接，生成样本标识对应的特征坐标。

由于高维度的样本数据无法直接进行分布统计，需要对所有样本标识的所有维度进行降维处理。服务器可以通过维度过滤器对样本数据进行维度过滤。其中，样本可以先计算每个维度的方差，若方差过小，集中在一个较小的区间内，可以省略掉。服务器将维度两两之间的相关系数进行比较，若相关系数超过系数阈值的，可以只保留方差过大的维度，将另一个维度丢掉。通过维度之间比对，完成对样本数据的维度过滤。

服务器可以对过滤后的维度进行排序，将排序后的维度分为两组。例如，按照方差从高到低排，可以将排序奇数位的维度分入同一维度组合，将偶数位的分为同一维度组合。举例，过滤后的维度分别为：维度1、维度2、维度3、维度4、维度5、维度6、维度8、维度8，其中将维度1、3、5、7分为一组，将维度2、4、6、8分为一组。服务器也可以将过滤后的维度数量，将过滤后的维度随机划分为两组。服务器对维度进行分组的形式可以不限。

服务器对维度组合分别进行降维处理，将每个维度组合从多维降至一维，然后将两个一维数据进行组合，生成一个特征坐标。其中，可以通过tSNE算法进行降维处理，得到每个组对应的一维数据。

在这个过程中，从多维降至一维，是一种非线性降维，降维得到的一维数据是非线性组合。由于方差大的维度中所包含较多分布的数据，通过分组降维，可以避免方差最大的两个维度在降维过程中进行竞争，由此能够有效避免降维导致的数据丢失，从而确保降维后的数据准确。

进一步的，如果按照过滤后的维度方差进行排序后，将排序奇数位的维度分入同一组，将偶数位的分为同一组，由此可以使得每个维度组合中维度的方差之间有差异，在进行降维处理时，能够进一步避免在降维过程中的维度竞争，从而能够进一步提高降维后数据的准确性。

在一个实施例中，该方法还包括：对当前理赔数据的跟踪监控步骤。如图4所示，该步骤包括：

步骤402，当欧式距离大于阈值时，将样本数据标记为正常数据。

步骤404，获取正常数据中的样本标识，根据样本标识获取当前理赔数据，当前理赔数据中包括诊疗项目。

步骤406，当识别出诊疗项目发生变化时，调用诊疗路径图诊疗路径图利用样本数据对有向图模型训练生成。

步骤408，将诊疗项目进行编码，通过诊疗路径图对编码后的诊疗项目进行运算，识别当前理赔数据是否正常。

对于存在异常的样本标识，服务器生成相应的报警信息。对于正常的样本标识，服务器持续对该其理赔数据进行跟踪监控，以便在后期及时发现可能存在的异常。

服务器可以预先生成各种疾病对应的诊疗路径。其中，服务器可以通过大数据平台获取多个样本标识的历史理赔数据，作为样本数据，在样本数据中筛选与疾病对应的关键项目，根据关键项目统计每个样本标识的诊疗项目转移表。诊疗项目转移表中记录了多种关键项目的转移，诊疗项目转移是指从轻的关键项目转移至重的关键项目，如从药物A转移到药物B。服务器将关键项目作为节点，利用多个样本标识的诊疗项目转移表对有向图模型进行训练，得到疾病的诊疗路径。

具体的，服务器根据诊疗项目对样本进行分类，得到每个诊疗项目对应的样本标识、疾病、诊疗类型。其中，诊疗项目包括药品、手术，药品有多种，每种诊疗项目又包括相应的诊疗类型。如，药品对应的诊疗类型包括ATC分类药品或者其他分类药品。

服务器在每个疾病下筛选个人花费占比高、使用人数比例高、样本标识长期使用的项目作为该疾病的关键项目。具体的，通过对每个样本标识预设时间段内(如一年)的各项诊疗项目的花费进行统计，计算各项目花费与总花费的占比，将占比超过第一阈值的诊疗项目筛选出来，作为个人花费占比高的项目。通过对所有样本标识诊疗项目进行统计，得到每个诊疗项目的使用人数比例。筛选使用人数比例超过第二阈值的诊疗项目，作为使用人数比例高的项目。对每个样本标识使用时间超过预设时间的诊疗项目进行统计，得到长期使用的项目。筛选累积使用时间超过第三阈值的诊疗项目，作为样本标识长期使用的项目。

服务器将多个关键项目作为节点，建立各个节点与周期节点之间的贝叶斯概率。具体的，服务器根据样本数据，可以获得各种诊疗类型，建立一种诊疗类型到任何其他诊疗类型的可能性。贝叶斯概率是从一个节点到另一个节点的概率。节点是疾病的主要诊疗类型，例如(ATC分类)具体诊疗项目用药阿司匹林。建立贝叶斯概率的方式为：先在样本数据提取使用药品A的样本标识，若样本标识更换药品，从药品A换为药品B，统计药品A的用药人数N，以及再换成药品B的人数M。将M除以N，得到相应的贝叶斯概率。计算每个节点与周围节点之间的概率。周围节点还包括，从药品B换到药品C的贝叶斯概率。服务器根据各个节点及对应的贝叶斯概率生成与疾病对应的有向图模型。服务器对每个样本标识的项目转移表进行编码，将编码后的项目转移表作为输入，对有向图模型进行训练，得到节点之间各条有向边对应的条件转移概率，从而得到每种疾病的诊疗路径。

在传统的方式中，治疗路径通常只是设计了慢性病的在每个阶段通常的治疗方式、治疗流程，如糖尿病，有一期、二期、三期、后期并发症等，不同阶段有不同的治疗方式。由于慢性病的治疗时间较长，样本标识在不同时间可能用药不同，而且随着新药的推出，诊疗路径不能及时更新。诊疗路径本身也不是够准确，无法直接用于识别理赔数据是否异常。

本实施例中的诊疗路径是根据大数据平台中多个样本标识的历史理赔数据作为样本数据后，筛选出多个关键项目，然后通过多个样本标识的关键项目对应的诊疗项目转移表进行训练，得到相应的诊疗路径。由此能够使得诊疗路径准确反映样本标识的诊疗过程。当服务器获取到样本标识对应的当前理赔数据时，可以通过诊疗路径图准确识别当前理赔数据是否正常。

在其中一个实施例中，服务器利用当前理赔数据中的诊疗项目，生成关键项目转移组；对关键项目转移组进行编码，将编码后的向量输入疾病诊疗路径，得到对应的项目转移概率；当项目转移概率低于预设概率时，生成报警提示信息。

服务器将当前理赔数据按照关键项目的时间线进行拆分，得到关键项目转移组，以及转移时间组(包括各个项目转移对应的持续时间)。服务器对拆分得到的关键项目转移组进行编码。该类似于One-Hot编码，与One-Hot编码不同的是，每个单元中填写的不是O或1，而是连续值，该连续值即为诊疗项目对应的权重。诊疗项目对应的权重是根据该诊疗项目在所有治疗项目中的费用占比和发生频率计算得到的。其中，费用占比是指某诊疗项目花费除以总花费，取值在0到1之间。发生频率可以用某项目出现的次数除以总得就诊次数，取值在0到1之间。对费用占比与发生频率计算相应的几何平均，得到与该诊疗项目对应的权重。

服务器将编码后的向量输入疾病诊疗路线图(即训练后的有向图模型)，得到样本标识对应的项目转移概率(即从轻的诊疗转到重的诊疗的概率)。如果项目转移概率小于报警阈值，则生成报警提示信息。由此能够利用疾病诊疗路径对每个患者的理赔数据进行准确有效的跟踪监控。

进一步的，由于疾病发展有一定的周期，从轻到重的诊疗过程。诊疗项目时间线能够反映患者在治疗过程中的各个阶段的用药和费用的分布状况。如果模型发现从重的治疗到轻的治疗，则说明治疗存在问题，也就是说患者的当前理赔数据可能存在异常。服务器通过对疾病诊疗路线图中的各个有向边所代表的项目转移时间跨度进行统计，得到各个项目转移的经验时间跨度。服务器根据每个样本标识的当前理赔数据以及历史理赔数据(样本数据)，将转移时间组内的各个项目的持续时间与经验时间跨度进行比较，若存在某一项目的持续时间超过经验时间跨度，则生成报警提示信息。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种异常数据识别处理装置，包括：矩阵建立模块502、筛选模块504、降维模块506、异常识别模块508，其中：

矩阵建立模块502，用于获取多份样本数据，建立相关系数矩阵，样本数据包括样本标识。

筛选模块504，用于利用相关系数矩阵与样本数据对多个样本标识进行筛选，筛选出相应的异常样本。

降维模块506，用于对多份样本数据进行降维处理，得到每个样本标识对应的特征坐标。

异常识别模块508，用于利用异常样本的特征坐标与其他样本标识的特征坐标，计算异常样本与其他样本标识之间的欧氏距离；当欧氏距离小于阈值时，将对应的样本数据标记为异常数据。

在一个实施例中，样本数据包括多个维度；筛选模块还用于利用预设系数对相关系数矩阵进行修正，得到修正后的相关系数矩阵；获取每个样本标识在多个维度的得分，生成相应的得分向量；利用修正后的相关系数矩阵、得分向量计算每个样本标识的汇总分；根据汇总分进行筛选，得到至少一个异常样本。

在一个实施例中，降维模块还用于通过计算样本数据中每个维度的方差，进行维度过滤；根据方差对过滤后的维度进行分组，得到两个维度组合；对每个维度组合分别进行降维处理，将降维后的两个维度组合进行拼接，生成样本标识对应的特征坐标。

在一个实施例中，降维模块还用于对过滤后的维度进行排序，得到过滤后的维度对应的排序；根据排序中奇数位与偶数位，将过滤后的维度分别分入对应的维度组合。

在一个实施例中，该装置还包括：修正模块，用于获取异常样本对应的权重，权重通过对样本数据在多个维度计算相应的得分进行确定；当存在多个异常样本时，获取每个异常样本与其他样本标识之间的欧式距离；利用每个异常样本对应的权重对其他样本标识之间的欧式距离进行修正；将每个其他样本标识对应的多个修正后的欧氏距离进行综合计算，得到相应的异常距离。

在一个实施例中，该装置还包括：跟踪监控模块，用于当欧式距离大于阈值时，将样本数据标记为正常数据；获取正常数据中的样本标识，根据样本标识获取当前理赔数据，当前理赔数据中包括诊疗项目；当识别出诊疗项目发生变化时，调用诊疗路径图；诊疗路径图利用样本数据对有向图模型进行训练生成；将诊疗项目进行编码，通过诊疗路径图对编码后的诊疗项目进行运算，识别当前理赔数据是否正常。

在一个实施例中，跟踪监控模块还用于利用当前理赔数据中的诊疗项目，生成关键项目转移组；对关键项目转移组进行编码，将编码后的向量输入疾病诊疗路径，得到对应的项目转移概率；当项目转移概率低于预设概率时，生成报警提示信息。

关于异常数据识别处理装置的具体限定可以参见上文中对于异常数据识别处理方法的限定，在此不再赘述。上述异常数据识别处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种异常数据识别处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种异常数据识别处理方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述样本数据包括多个维度；所述利用所述相关系数矩阵与所述样本数据对所述多个样本标识进行筛选包括：

根据所述汇总分进行筛选，得到至少一个异常样本。

3.根据权利要求1所述的方法，其特征在于，所述样本数据包括多个维度；所述对所述多份样本数据进行降维处理包括：

通过计算所述样本数据中每个维度的方差，进行维度过滤；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述诊疗项目进行编码，通过所述诊疗路径图对编码后的诊疗项目进行运算，识别所述当前理赔数据是否正常包括：

当所述项目转移概率低于预设概率时，生成报警提示信息。

6.一种异常数据识别处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述筛选模块还用于利用预设系数对所述相关系数矩阵进行修正，得到修正后的相关系数矩阵；获取每个样本标识在多个维度的得分，生成相应的得分向量；利用所述修正后的相关系数矩阵、所述得分向量计算每个样本标识的汇总分；根据所述汇总分进行筛选，得到至少一个异常样本。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。