CN106408141A

CN106408141A - 异常费用自动提取系统及方法

Info

Publication number: CN106408141A
Application number: CN201510448451.6A
Authority: CN
Inventors: 顾彦; 丁睿
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2015-07-28
Filing date: 2015-07-28
Publication date: 2017-02-15

Abstract

一种异常费用自动提取方法，包括步骤：接收各级医疗机构的所有病例数据；从上述病例数据中抽取一个或者多个医疗机构的特定的单一病种的病例数据；对上述抽取的数据进行处理；利用多元回归对经上述处理后的数据建立模型；对所建立的模型进行残差分析，以分析出异常值；及输出上述异常值。本发明还提供一种异常费用自动提取系统。本发明能够对医保费用进行有效地监控，提高工作效率，提升医保费用管控技术水平，实现对单个病种的管控并帮助规范审核流程和管理制度。

Description

异常费用自动提取系统及方法

技术领域

本发明涉及数据监管技术领域，特别是一种对异常医疗费用的自动提取系统及方法。

背景技术

目前，慢性病的医保费用已经占了国家医保开支的一大部分，然而，在利益驱动下，一些地方出现不法分子违规操作套取社保基金的现象，包括利用假发票、假单据骗取医保基金；重复就诊重复开药；冒用他人医保证件就医、购药；使用医保基金支付非医保对象或范围的医药费用、药品、诊疗服务项目；医疗服务机构提高收费标准、擅立收费项目，多记多收医药费用增加医保基金支出；冒名住院骗取医保金等等。以上种种欺诈违法行为严重干扰了医疗保险制度的正常运行，危害医保基金的安全，损害了参保人的利益。

由于参保人员就医总量巨大、医疗服务机构分布广泛、医保结算实时性强、诊断治疗专业性强、医疗违规行为相对隐蔽，各地医保监管及反欺诈工作面临稽核人员不足、技术手段落后、惩戒威慑力度偏弱等困难。在基金总量不断增加、基金流转环节越来越多、基金管理链条也越来越长的情况下，如何做好医疗服务监管与反欺诈工作，保障基金安全显得更加紧迫和重要。

发明内容

鉴于以上内容，有必要提供一种异常费用自动提取系统及方法，其能够对医保费用进行有效地监控。

一种异常费用自动提取系统，包括：接口模块，用于接收各级医疗机构的所有病例数据；数据抽取模块，用于从上述病例数据中抽取一个或者多个医疗机构的特定的单一病种的病例数据；数据处理模块，用于对上述抽取的数据进行处理；模型建立模块，用于利用多元回归对经上述处理后的数据建立模型；数据分析模块，用于对所建立的模型进行残差分析，以分析出异常值；及显示模块，用于输出上述异常值。

一种异常费用自动提取方法，包括：接收各级医疗机构的所有病例数据；从上述病例数据中抽取一个或者多个医疗机构的特定的单一病种的病例数据；对上述抽取的数据进行处理；利用多元回归对经上述处理后的数据建立模型；对所建立的模型进行残差分析，以分析出异常值；及输出上述异常值。

利用本发明所述的异常费用自动提取系统及方法能够对医保费用进行有效地监控，提高工作效率，提升医保费用管控技术水平，实现对单个病种的管控并帮助规范审核流程和管理制度。

附图说明

图1是本发明异常费用自动提取系统较佳实施例的业务框架图。

图2是本发明异常费用自动提取系统较佳实施例的功能模块图。

图3是本发明异常费用自动提取方法较佳实施例的实施流程图。

图4是利用本发明异常费用自动提取方法产生的诊断图的示意图。

具体实施方式

参阅图1所示，是本发明异常费用自动提取系统较佳实施例的业务框架图。本实施例中，所述医疗监管的基本业务流程为：参保人员3的就诊信息通过医疗机构2的结算系统生成病例数据。所述病例数据定期或者实时传送给医疗保险机构1。医疗保险机构1可以将所述医疗结算数据存储于数据库3中，并利用异常费用自动提取系统10对所述病例数据定期地进行分类、处理、建模、分析等操作，从海量的病例数据中迅速筛选出少量的待查异常数据。

所述医疗保险机构1通过网络，如局域网或者因特网与所述医疗机构2通讯连接。

所述医疗保险机构1可以是各地社保局，所述医疗机构2可以是各地的各个级别的医院。

所述医疗保险机构1的异常费用自动提取系统10可以是一个服务器系统。该服务器系统作为一个硬件系统，具有较高的计算能力。该服务器系统的主要硬件构成包含如下几个主要部分：中央处理器、内存、芯片组、I/O总线、I/O设备、电源、机箱和相关软件。

在本发明的其他实施例中，所述医疗保险机构1的异常费用自动提取系统10也可以是一个由程序代码所组成的软件系统，其可以安装并运行于任意的具有较高计算能力的服务器或者任何个人电子产品中，在所述服务器或者电子产品的处理器，如中央处理器(CPU，Central Processing Unit)的执行下，实现某种预设的功能，如对医疗结算数据定期地进行分类、处理、建模、分析等操作，从海量的医疗结算数据迅速筛选出少量的待查异常数据。

参阅图2所述，是本发明异常费用自动提取系统较佳实施例的功能模块图。本发明所述异常费用自动提取系统10自底向上分为接口层、运算层以及界面层。

所述接口层对外提供多样的接口方式，其包括接口模块100。所述接口模块100包括数据接口、服务接口及/或其他访问API等。所述数据接口可以为USB接口、串口、红外线接口和蓝牙接口等，是进行数据传输的接口，如，从医疗机构2接收医疗结算数据。

所述运算层是整个异常费用自动提取系统10的核心，其包括数据抽取模块101、数据处理模块102、模型建立模块103、数据分析模块104，用于对接口模块100接收的医疗结算数据定期地进行分类、处理、建模、分析等操作，从海量的医疗结算数据迅速筛选出少量的待查异常数据。

所述界面层负责界面的展现及人机交互，其包括显示模块105以及规则制定模块106，用于显示上述待查的异常数据以及输入用户设定的数据处理规则等。

以下，结合图3，详细描述上述各模块。

参阅图3所示，是本发明异常费用自动提取方法较佳实施例的实施流程图。

本实施例所述异常费用自动提取方法并不限于流程图中所示步骤，此外流程图中所示步骤中，某些步骤可以省略、步骤之间的顺序可以改变。

步骤S10，接口模块100接收各级医疗机构2的所有病例数据。所述接收方式可以为自动跑批、全量更新。上述接收的病例数据可以存储在与医疗保险机构1连接的数据库3中。

步骤S11，数据抽取模块101从上述病例数据中抽取一个或者多个医疗机构2的特定的单一病种的病例数据。本实施例中，所述抽取的频率可以为每月一次，抽取的时间可设置在每月1号。本实施例中，所述数据抽取模块101抽取的数据可以为三级医院二型糖尿病。

步骤S12，数据处理模块102对上述抽取的数据进行处理。

所述数据处理包括数据检验、数据预处理、衍生字段的生成规则、预测回归法填补问题数据等。

一、所述数据检验是对所抽取的原始数据集进行表整体检验、单记录检验和单变量检验。数据检验方法的其中一个实施例如下：

二、所述数据预处理包括：

1、转换数据类型。

如若源数据存放时的数据类型与定义不符，需对此类字段做数据类型转换处理。上述实施例中，原数据集中下列两个字段需要做字符型到数值型的转换，包括：手术数量；住院总费用。

2、对缺失值进行处理。

数据中的缺失值是数据分析中经常会碰到的情况。有时候数据相当难于获得，同时获得该数据非常昂贵，尤其在样本量较少的情况下，直接删除有缺失值的数据并不是最好的选择。通常情况下，需要对数据根据具体情况和处理经验进行个案处理。本实施例中，针对预设字段的缺失值处理的方法参考下表：

经查看，原始数据集中存在缺失值的字段仅为“住院总费用”，需对其做观测值删除处理：

F1	住院总费用	删除原因
			68	0	空值
105	0	空值
			160	0	空值

3、对偏差数据值进行处理。

有多种原因可能造成原始数据产生偏差从而影响其后所建立的模型的准确度。通常，偏差的数据可能由以下原因造成：人为输入错误、缺省，过时的数据，测量误差，编码前后不一致，记录数据的设备错误，系统错误，默认值错误，初始值错误，包含数据范围错误，格式错误，格式转换错误等。

对于不同原因产生的各种原始数据偏差应该通过人工加系统的方法仔细检查，尽量避免错误。特别地，少数与其他数据偏离非常大的离群点数据有可能导致未来生成的模型更加偏向离群点，也就是说这些离群点对于整体模型相对其他样本点与回归模型在模型建立过程中施加的影响可能比其他数据点对模型的建立时贡献的权重要高很多，尤其在检测异常值的模型建立时，这些特别突出的离群点是否直接剔除需要对比剔除前后的模型的拟合优度进行反复对比，来决定是否剔除离群点或者将哪些离群点剔除。

本实施例中的，数据预处理阶段的偏差数据值处理可以参考下表：

经查看，原始数据集中存在偏差值的字段为“住院总费用”和“住院天数”，编号“52”的观测记录值为“住院总费用”的极值，将其标示为离群点并删除：

F1	住院总费用	删除原因
			52	226527.32	极大异常值

实际数据中，由于“出院日期”录入有误，导致“住院天数”异常，需对此部分数据进行清空处理(“Null”值替换偏差值)，并保证此部分数据不纳入之后的数据处理以及建模工作。特别注意的是，对于异常的观测记录并不是做直接删除处理，而是运用下述的回归预测法预估出“住院天数”估测值填补问题数据，进而用合并后数据一起做数据回归，最大限度保证数据信息不丢失的前提下以提高模型精度。

三、所述衍生字段的生成规则包括建模字段对应规则以及对衍生字段的处理。

所述建模字段对应规则是将原始数据集中的原始字段转换成方便使用的英文或数字变量名以方便模型的建立。

所述对衍生字段的处理包括归一化处理、标准化、哑变量、Lognormal数据转换处理等。

所述归一化处理为了统一各变量的单位量纲，需对“建模字段”中数值型变量

(x1、x2、x4、x5)做线性归一化处理，变换公式如下：

其中：x、y分别为转换前后的值，Max、Min分别为该特征变量样本观测值的最大值和最小值。

所述标准化处理是对经过上一步“归一化”处理的连续数值型变量x4和x5再做标准化处理，以确保数值变量见的相互独立性，标准化公式见下：

其中μ为均值；σ为标准方差。

所述哑变量处理为了更好的查看分类变量“性别”和“入院情况”对模型的影响程度，需要将其拆分成分别表示单一取值的变量，并以独立变量加入模型，具体衍生规则如下：

建模字段	原字段	字段说明	生成说明
				x3_0	x3	入院情况-一般	如x3为0，则x3_0＝1；其他情况时x3_0＝0
x3_1	x3	入院情况-急	如x3为1，则x3_1＝1；其他情况时x3_1＝0
				x3_2	x3	入院情况-危	如x3为2，则x3_2＝1；其他情况时x3_2＝0
x6_M	x6	性别-男	如x6为1,则x6_M＝1；其他情况时x6_M＝0
				x6_F	x6	性别-女	如x6为0,则x6_F＝1；其他情况时x6_F＝0

将“住院总费用”(y)作为因变量时，由于“住院总费用”呈偏态分布，因此将对其进行对数转换。经查看，发现其符合lognormal分布，为保证模型建立的准确性，需要对其做lognormal数据转换。转换公式见下：

Y转换＝(log(y-theta)-zeta)/sigma。

最终用于模型的衍生字段生成规则以及对应关系汇总见下表：

进一步地，根据回归方程，以下二项式交互项添加进模型，提升模型拟合度：

显著变量	建模字段
		交互项	x1_*x4_s
交互项	x2_*x6_M
		交互项	x4_s*x5_s
交互项	x5_s*x6_M

四、上述实施例中，查看实际数据时发现由于“出院日期”录入有误，导致“住院天数”异常的观测记录有24条，此部分问题数据在“偏差数据值处理”部分已使用“Null”做替换。为最大限度保证此部分数据的其他变量数据信息不丢失，需要运用预测回归的方法，将其他已知正确字段作为自变量，“住院天数”(x4_s)作为因变量得到其预测回归方程，进而计算出该24条问题数据“住院天数”(x4_s)的估计值，替补问题数，进而与正确数据集合并，作为建模数据集。所述预测回归法填补问题数据的具体步骤见下：

步骤1：整合预测问题字段，如x4_s(住院天数)的解释变量。

在预测x4_s时，可将“住院总费用”视为自变量之一，并对其衍生变量y_t做归一化处理，生成衍生字段y_t2。预测x4_s的解释变量见下：

解释变量	变量说明
		x1_	其他诊断数量
x2_	手术次数
		x3_0	入院情况-一般
x3_1	入院情况-急
		x3_2	入院情况-危
x5_s	年龄
		x6_F	性别-女
x6_M	性别-男
		y_t2	住院总费用

步骤2：得到预测回归方程。

基于220条观测记录，使用回归预测法得出预测“住院天数”x4_s的回归方程：

x4_s～x1_+x2_+x3_0+x3_1+x3_2+x5_s+x6_F+x6_M+y_t2，

从而得到24条“住院天数”x4_s的估计值。

步骤3：得到问题记录x4_s的估计值。

将24条问题记录的数据带入步骤二得到的x4_s预测回归方程，得到其估计值，填补进220条观测记录中，合并成最终用于建模的数据集，观测记录共244条。

最终用于建模变量的数据集说明总结如下：

为了能更有效的估计单病种住院费用，需要将影响总费用的各类特征属性归为三类：

根据上述特征属性的分类，特征变量的量化过程主要分为两步：

分级靠档法：

对离散数值变量(其他诊断数量、手术数量)、分类变量(入院情况)使用分级靠档方法。

归一化、哑变量处理、标准化：

对经过上一步“分级靠档法”处理的离散数值变量(其他诊断数量、手术数量)直接进行归一化处理；对经过上一步“分级靠档法”处理的分类变量(入院情况)做哑变量处理；最后对连续型数值变量先做归一化再做标准化处理。

标准化公式见下：

其中μ为均值；σ标准方差。

步骤S13，利用多元回归对经上述处理后的数据建立模型。

所述建立多元回归模型的原理为：整个模型由两个部分组成，住院费用预测和异常值筛选。

住院费用预测：通过对两个或两个以上的自变量与一个因变量的相关分析，建立多元回归预测模型进行预测。

异常值筛选：预测的结果与实际样本点之间产生残差因为各个样本点残差的方差不同，所以把残差进行标准化后再做比较，这就是标准化残差。若标准残差超过某一范围，则认为样本点为异常值。

建立多元回归模型模型开发步骤包括：

(1)数据回归。

模型首先是要基于进行过“数据处理”的病例数据，根据多元回归密度函数：

y＝β₀+β₁F₁+β₂F₂+…+β_kF_k+ε

得到相对应维度下的多元回归方程：

其中，y为历史实际值；为估计值；f₁,…,f_k为单个自变量或者自变量多项式组合，文档中统一称为影响因素；β₀,…,β_k为各影响因素的系数；a₀,…,a_k为各影响因素的估计系数；ε为残差。

多元回归方程的确定需要以下两组信息：

影响因素f₁,…,f_k，模型使用“逐步选择”回归方法实现自变量筛选组合；

回归系数a₀,…,a_k，模型使用最小二乘法实现。

(2)影响因素的筛选：

多元回归方程的建立过程中，运用逐步选择回归法来挑选进入方程的影响因素。其基本思想是将变量逐个引入模型，每引入一个解释变量后都要进行显著性F检验，并对已经选入的解释变量也同时逐个进行显著性F检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除，以确保每次引入新的变量之前回归方程中只包含显著变量。

这是一个反复的过程，直到既没有显著的解释变量通过F检验选入回归方程，也没用不显著的解释变量没有通过F检验从回归方程中剔除为止，从而用以保证最后方程中所得到的解释变量集是最优的。

这里需要特别说明的是：为保证多元回归方程的准确性，最大程度的不受各自变量间的相关性以及多重共线性问题的影响，初步设定影响因素最高阶为二阶，即可能形式有X_i，X_i ²，X_iX_j三种。

使用“逐步选择”方法的优点在于其适用情况广泛(包含多元线性或非线性)，进而可以确保未来模型的可拓展性。保证了模型不论基于目前少量经过量化处理的自变量，还是将来增加变量的情况下都可以得到可适用模型。

在实现上述“逐步选择”回归过程时，模型会根据各影响因素的F值与显著性水平α的比较决定该影响因素是否进入模型。同理，当有新的影响因素通过F检验进入模型后，仍要对之前挑选进模型的影响因素再进行一次F检验，确保其是否仍可以继续作为显著影响因素留在模型中。

为保证模型准确性和实用性，建议初步设α＝0.05，即当显著性达到95％时，认为该影响因素显著，可以被挑选进入模型。当然在后期需要对模型进行调整或者优化时，可以设置不同基准的显著性水平α，建立下述F检验机制：

设α＝0.05，若F值>F0.05，则影响因素显著。

(3)多元回归方程确立：

在完成上述“影响因素的筛选”步骤之后，下一步是要运用最小二乘法得到影响因素的估计回归系数a₀,…,a_k。

最小二乘法(又称最小平方法)是一种数学优化技术，可用于曲线拟合。具体是按偏差平方和最小的原则选取拟合曲线，并且采取多项式方程为拟合曲线并计算出系数估计值的方法。其原理是当基于大量数据时，不能要求拟合函数在数据点(x_i,y_i)处的偏差，即严格为零，但为了使近似曲线尽量反应所给数据点的变化趋势，需对偏差有所要求。通常要求偏差平方和最小：

估计系数矩阵推导过程如下：

设拟合多项式为：

y＝a₀+a₁x+...+a_kx^k

各点到这条曲线的距离之和，即偏差平方和如下：

为了求得符合条件的a值，对等式右边求ai偏导数，因而我们得到了：

.......

将等式左边进行化简，可以得到下面的矩阵：

化简后可得到：

也就是说X*A＝Y，那么，A＝(X′X)^-1XY便得到了估计系数矩阵A＝(a₀,…,a_k)。

回归方程确立：

根据以上步骤得到以下两组信息：

回归系数a₀,…,a_k，模型使用最小二乘法实现。

进而确立多元回归方程得到相对应维度下的多元回归方程：

(4)离群点检测(Outlier Test)：

离群点是指那些模型预测效果不佳的观测点。它们通常有很大的、或正或负值的残差。当回归模型基于没有剔除这些离群点的数据集时，模型的拟合度将会受到影响。所以当基于全量数据集拟合出回归方程后，需要对模型进行离群点检测，查看是否存在离群点，如果有则需要将离群点删除后重新拟合回归方程。

使用最大标准化残差绝对值Bonferroni调整后的p值检测出离群点。具体实现方式可以使用R语言中car包的outlierTest()函数，该函数根据单个最大(或正或负)残差值的显著性来判断是否有离群点。

判断规则如下：

若Bonferroni调整后的p值大于显著性水平0.05，则不显著，说明数据集中没有离群点；若小于0.05，则显著，说明必须删除该离群点。

基于删除该离群点观测记录的数据集重新做数据回归，再次检验是否还有其他离群点的存在，直到Bonferroni调整后的p值均大于显著性水平0.05为止。最终使用删除这些离群点后的数据集作为建模数据集重新拟合数据生成最终回归方程。

在其中一个实施例中，使用统计软件SAS9.2，选用时间范围在2009年1月至2009年9月的三级医院非胰岛素依赖型糖尿病的1387(剔除问题观测值)条数据记录作为数据集，构建多元回归模型，“逐步选择”的输出步骤见下：

(剔选影响因素的准则为SAS系统默认，即F值所对应的P值，当P值<0.05,则影响因素显著，通过F检验。)

逐步选择第1步：

变量x4已输入:R方＝0.5428和C(p)＝254.9204

经过对所有影响因素进行显著性F检验，住院天数(X₄)显著性最高，第一个进入模型。

逐步选择第2步：

变量x1已输入:R方＝0.5749和C(p)＝141.9063

经过对所有除X₄以外的影响因素进行显著性F检验，年龄(X₅)显著性最高，第二个进入模型。同时对模型已有因素再次进行显著性F检验，依然显著，不做剔除。

逐步选择第3步：

变量x5已输入:R方＝0.6016和C(p)＝48.1139。

经过对所有除X₄，X₅以外的影响因素进行显著性F检验，其他诊断数量(X₁)显著性最高，第三个进入模型。同时对模型已有因素再次进行显著性F检验，依然显著，不做剔除。

逐步选择第4步：

变量x2已输入:R方＝0.6099和C(p)＝20.4476

经过对所有除X₁，X₄，X₅以外的影响因素进行显著性F检验，手术数量(X₂)显著性最高，第四个进入模型。同时对模型已有因素再次进行显著性F检验，依然显著，不做剔除。

逐步选择第5步：

变量x3_3已输入:R方＝0.6143和C(p)＝6.5886

经过对所有除X₁，X₂，X₄，X₅以外的影响因素进行显著性F检验，入院情况-危(X_3-3)显著性最高，第五个进入模型。同时对模型已有因素再次进行显著性F检验，依然显著，不做剔除。

逐步选择第6步：

留在模型中的所有变量的显著性水平都为0.0500。

没有其他变量满足0.0500显著性水平，无法输入该模型。

经过对所有除X₁，X₂，X₄，X_3-3，X₅以外的影响因素进行显著性F检验，没有其他因素进入模型。同时对模型已有因素再次进行显著性F检验，依然显著，不做剔除。最终得到多元回归方程：

(5)库克距离(Cook’s D)。

库克距离是用来检验某观测对模型的影响程度的统计量，用来衡量如果某一条数据记录被排除在外，那么由此造成的回归系数的变化程度，具体计算公式如下：

ε为残差；p是拟合多元回归方程中影响因素的个数；MSE为均方误差；h_ii为杠杆值，即帽子矩阵H中第i行，第i列的元素；N为样本容量数。

根据默认规则，如果

那么就表明该观测值对回归系数的计算产生了明显的影响，可认为这条数据就是异常可疑点。

为方便“残差分析”部分中实现异常值的打分工作，建议库克距离在做数据回归时同时计算，即每次数据扩充，回归方程更新时，库克距离也同时生成。

步骤S14，对所建立的模型进行残差分析，以分析出异常值，该步骤包括：

1、残差标准化。

通过上一步“多元回归”，得到多元回归方程后，下一步要计算出预测的结果与实际样本点(y)之间产生残差ε，进而进行残差分析。

首先将所有影响因素数据带入回归方程，得到全量估计值其次求残差，并由于各个样本点残差的方差不同，所以需要对残差进行标准化。残差标准化公式见下：

其中，ε_标准为标准化残差；h_ii为杠杆值，即帽子矩阵H中第i行第i列的元素；s为残差的标准差；为残差；N为对于相应维度下单一病种的样本行记录数。

对于通过检验后的模型的残差进行标准化，然后分析残差的分布区间，设定阀值，筛选异常值。

2、残差统计量观测。

对于相应维度单一病种的N例费用观测值进行线性回归后最终得到标准化残差数据。观测标准化残差的分布范围(各重要百分位数据)、平均值和标准差，并据此认为其近似服从标准正态分布。

3、异常值确认。

影响因素较大的异常可疑点：查看残差诊断图，如Rstudent统计值-预测值诊断图(红线范围外即为影响因素较大的异常可疑点)、Cook’s D统计值-观测序号诊断图(红线范围以上外即为影响因素较大的异常可疑点)，如图4所示。

步骤述S15，显示模块105输出上述异常值。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种异常费用自动提取系统，其特征在于，该异常费用自动提取系统包括：

接口模块，用于接收各级医疗机构的所有病例数据；

数据抽取模块，用于从上述病例数据中抽取一个或者多个医疗机构的特定的单一病种的病例数据；

数据处理模块，用于对上述抽取的数据进行处理；

模型建立模块，用于利用多元回归对经上述处理后的数据建立模型；

数据分析模块，用于对所建立的模型进行残差分析，以分析出异常值；及

显示模块，用于输出上述异常值。

2.如权利要求1所述的异常费用自动提取系统，其特征在于，所述数据处理包括数据检验、数据预处理、衍生字段的生成规则以及预测回归法填补问题数据。

3.如权利要求2所述的异常费用自动提取系统，其特征在于，所述数据预处理包括：

对源数据存放时的数据类型与定义不符的数据类型转换处理，对缺失值的处理，及对偏差数据值的处理。

4.如权利要求1所述的异常费用自动提取系统，其特征在于，所述建立模型的步骤包括：

运用逐步选择回归法挑选进入方程的影响因素；

将变量逐个引入模型，每引入一个解释变量后都要进行显著性F检验，并对已经选入的解释变量也同时逐个进行显著性F检验；

运用最小二乘法得到影响因素的估计回归系数；

推导估计系数矩阵；

确立多元回归方程；

检测离群点，所述离群点包括具有很大的、或正或负值的残差的模型预测效果不佳的观测点；及

检验观测对模型的影响程度的统计量，以衡量某一条数据记录被排除在外造成的回归系数的变化程度。

5.如权利要求1所述的异常费用自动提取系统，其特征在于，所述分析出异常值的步骤包括：

残差标准化，分析残差的分布区间，设定阀值，筛选异常值；

分析标准化残差的分布范围、平均值和标准差；及

确定影响因素较大的异常可疑点。

6.一种异常费用自动提取方法，其特征在于，该异常费用自动提取方法包括：

接收各级医疗机构的所有病例数据；

从上述病例数据中抽取一个或者多个医疗机构的特定的单一病种的病例数据；

对上述抽取的数据进行处理；

利用多元回归对经上述处理后的数据建立模型；

对所建立的模型进行残差分析，以分析出异常值；及

输出上述异常值。

7.如权利要求6所述的异常费用自动提取方法，其特征在于，所述数据处理包括数据检验、数据预处理、衍生字段的生成规则以及预测回归法填补问题数据。

8.如权利要求7所述的异常费用自动提取方法，其特征在于，所述数据预处理包括：

9.如权利要求6所述的异常费用自动提取方法，其特征在于，所述建立模型的步骤包括：