CN112183861A

CN112183861A - 基于lasso回归预测治疗费用的方法

Info

Publication number: CN112183861A
Application number: CN202011044746.4A
Authority: CN
Inventors: 佟丽莉; 谷金波; 刘广宣; 金硕巍
Original assignee: Liaoning Cancer Hospital and Institute
Current assignee: Liaoning Cancer Hospital and Institute
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-05
Anticipated expiration: 2040-09-28
Also published as: CN112183861B

Abstract

本发明公开了一种基于lasso回归预测治疗费用的方法，所述方法中，获取电子病历样本，基于样本的变量的离散、线性分布将样本数据转换成数值数据以生成电子病历的数值特征；比较变量的缺失程度，将缺失程度较高的变量删除，然后对缺失程度较低的变量采用聚类方法估算插值，选取k个距离当前变量最近的变量，将距离值设置为权重值，通过加权插值估算缺失值，得到病历数据集；根据数据的正态分布对模型权重进行自适应调整，通过在迭代过程中根据变量分布位置分配正态函数的权重形成模型；数据输入模型进行训练得到预测结果。

Description

基于lasso回归预测治疗费用的方法

技术领域

本发明属于数据预测技术领域，特别是一种基于lasso回归预测治疗费用的方法。

背景技术

目前医疗保障体系存在“一刀切”、报销比例不合理等问题，在这种情况下，医院为盈利或免亏会出现少开药、滥检查和医院不愿收治慢性病等需长期住院治疗的重症患者的现象。精准预测病人治疗费用，能够对按病情报销的医疗改革方向提供重要的数据基础，促进医疗改革的合理性；能够为院方资源配置与规划提供数据支撑，也能够为病人选择治疗方案提供参考；还能为保险公司成立保险项目，提供相关疾病数据基础。

长期以来，我国有不少医疗费用的相关研究，但仍存在定性研究多，用数学方法进行精确研究较少的问题，在应用数学的方法中，又以研究病人发病率居多，研究病人治疗费用较少。目前，针对病人电子病历进行相关预测普遍存在以下问题：(1)病人入院电子病历的文本数据比例偏高，且病历出自医生导致格式和内容不统一，因此如何有效的从病历中提取关键信息便成为了预测的重要前提；(2)由于病历数据来源于某医院，因此数据量整体偏小。在得到预测数据后，需根据数据特性选取合适的模型，目前常用于预测的方法主要有逻辑回归、机器学习、大数据等方法，但是此类方法往往对数据量提出较高要求；(3)回归模型复杂度较低，在数据集量较小数据维度较高时，预测准确率相对较差，因此选择何种优化方法对模型进行优化也成为一个重要的研究课题。

现有方法对数据进行表征的方法研究相对较少，而研究所用数据也多为指标测量结果，对病历中文本数据利用较低，而病历数据往往参差不齐，因此各方法中对病历的利用率相对不高。

在背景技术部分中公开的上述信息仅仅用于增强对本发明背景的理解，因此可能包含不构成在本国中本领域普通技术人员公知的现有技术的信息。

发明内容

针对现有技术中存在的问题，本发明提出一种基于lasso回归预测治疗费用的方法，针对得到的病历数据量较小并且文本数据比例较高的特点，对文本电子病历的数值化和缺失数据处理，具有更高的预测精度。

本发明的目的是通过以下技术方案予以实现，一种基于lasso回归预测治疗费用的方法包括以下步骤：

第一步骤中，获取电子病历样本，基于样本的变量的离散、线性分布将样本数据转换成数值数据生成电子病历的数值特征，作为费用预测的数据集；

第二步骤中，比较变量的缺失程度，将缺失程度较高的变量删除，然后对缺失程度较低的变量采用聚类方法估算插值，选取距离缺失值最近的k个变量，将k个距离值设置为权重值，通过加权插值方法估算缺失的变量值，得到完整的病历数据集；

第三步骤中，基于1范数与2范数的变量筛选公式为

其中，ω_j为模型权重参数，α为回归模型中1范数权重，λ为正则化系数，根据数据的正态分布对模型权重进行自适应调整，调整

其中，x为变量值，ω为模型参数，σ为数据集分布的对称轴，在迭代过程中根据变量分布位置分配正态函数的权重；

第四步骤中，数据输入模型进行训练，之后通过测试集对模型预测精度进行验证。

所述的方法中，第一步骤中，将所述电子病历按照病种进行分类，基于分类后的文本电子病历数值化，生成电子病历的数据集。

所述的方法中，第一步骤中，基于样本的变量的离散定性赋值0或1以转换数值数据，基于样本的线性分布转换数值数据中，赋予其一个基础数值，然后再对其严重程度划分层次，按照层次计分，最后将基础数值与严重程度数值相结合，得到最终的变量值，转换公式为

其中，y是转换后的变量值，a为该病情特征划分程度的层次总数，x为该病人所处的程度层次值。

所述的方法中，第二步骤中，每一条病历样本设置成数组X_i＝[X_i1，X_i2，···，X_i(n+1)]，其中包含了n个特征变量和一个目标变量，每一数组中，比较变量的缺失程度，将缺失值超过20％的变量删除，然后对缺失值低于20％的数据采用聚类方法估算插值，

其中，f(x)为测试点到聚类中心距离，W_i代表权重，D_i代表近邻点i与测试点距离。

所述的方法中，基于1范数与2范数的公式为

其中，ω_j为模型参数，α为回归模型中1范数权重，λ为正则化系数，在迭代过程中根据变量分布位置分配正态函数的权重中，

其中，x为变量值，ω为模型参数，σ为数据集分布的对称轴。

本发明使用回归模型进行费用预测，相比于传统预测模型的优点在于能够在数据量较小时具有较高的预测准确率。提供了一种文本电子病历数值化的评价及其指标建立的方法，相比于传统预测模型只针对数值型数据的处理方法提高了病历数据的利用效率。在回归方法中，根据数据特征分布特点，结合了lasso回归、岭回归的优势，同时加入局部权重效应，能够最大化回归模型系数作用，从而提高模型预测准确率。

上述说明仅是本发明技术方案的概述，为了能够使得本发明的技术手段更加清楚明白，达到本领域技术人员可依照说明书的内容予以实施的程度，并且为了能够让本发明的上述和其它目的、特征和优点能够更明显易懂，下面以本发明的具体实施方式进行举例说明。

附图说明

通过阅读下文优选的具体实施方式中的详细描述，本发明各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。而且在整个附图中，用相同的附图标记表示相同的部件。

在附图中：

图1为本发明步骤流程示意图；

图2为本发明数据结果分布图示意图；

图3为本发明预测结果与实际费用对比分析结果示意图。

以下结合附图和实施例对本发明作进一步的解释。

具体实施方式

下面将参照附图1至附图3更详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

为便于对本发明实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且各个附图并不构成对本发明实施例的限定。

基于lasso回归预测治疗费用的方法，所述方法包括以下步骤：

第一步骤中，获取电子病历样本，基于样本的变量的离散、线性分布将样本数据转换成数值数据以生成电子病历的数值特征；将文本数据转换为数值进行运算，用数学的方法进行文本数据的统计，与传统预测方法相比，能够综合考虑非数值型的数据。

第二步骤中，比较变量的缺失程度，将缺失程度较高的变量删除，然后对缺失程度较低的变量采用聚类方法估算插值，选取k个距离当前变量最近的变量，将距离值设置为权重值，通过加权插值估算缺失值，得到病历数据集；由于医疗数据中部分数据缺失具有随机性，因此聚类方法相较于传统插值方法能够更加准确的进行缺失值估计。

第三步骤中，基于1范数与2范数的变量筛选公式为

根据数据的正态分布对模型权重进行自适应调整，通过在迭代过程中根据变量分布位置分配正态函数的权重形成模型；1范数与2范数结合能够有效的结合具有一定相关性的变量，尽可能保持变量的完整性，在迭代过程中将模型权重根据数据分布特征进行优化能够更加贴合小数量的特点，提高数据较为集中的数据权重，能够提高模型的泛化能力。

第四步骤中，数据输入模型进行训练得到预测结果。该步骤检验了模型预测效果，与传统方法的对比可以看出本发明在数据预处理和模型预测效果的优势。相比于传统预测模型只针对数值型数据的处理方法提高了病历数据的利用效率，本发明基于样本的变量的离散、线性分布将样本数据转换成数值数据以生成电子病历的数值特征，结合了lasso回归、岭回归的优势，同时加入局部权重效应，能够最大化回归模型系数作用，从而提高模型预测准确率。

所述的方法的优选实施方式中，第一步骤中，所述电子病历经由校验后基于病种分类，基于分类后的电子病历生成电子病历的数值特征。

所述的方法的优选实施方式中，第一步骤中，基于样本的变量的离散定性赋值0或1以转换数值数据，基于样本的线性分布转换数值数据中，赋予其一个基础数值，然后再对其严重程度划分层次，按照层次计分，最后将基础数值与严重程度数值进行加权求和，得到最终的变量数值，转换公式为

其中，基础数值是由该变量的影响作用确定的，优选地，该值设置为0.5。

所述的方法的优选实施方式中，第二步骤中，比较变量的缺失程度，将缺失程度较高的变量删除，然后对缺失程度较低的变量采用聚类方法估算插值，选取k个距离当前变量最近的变量，将距离值设置为权重值，通过加权插值估算缺失值，得到病历数据集。

每一条病历设置成数组Xi＝[Xi1，Xi2，···，Xi(n+1)]，其中包含了n个特征变量和一个目标变量，每一数组中，比较变量的缺失程度，将缺失值超过20％的变量删除，然后对缺失值低于20％的数据采用聚类方法估算插值，

所述的方法的优选实施方式中，基于1范数与2范数的公式为

在迭代过程中根据变量分布位置分配正态函数的权重中，

如图1所示，本发明提供了一种基于lasso回归预测治疗费用方法，具有如下步骤：

步骤1：获取病历并校验，建立评价指标，进行数据表征

从医院获取电子病历大样本，对样本整体进行校验，确保样本不存在明显缺陷，且将病历按病种分类。将得到的单一病种电子病历，采用专家评分机制，建立病历特征的评价指标，以该指标为基础将病历中文本数据数值化，如对病历中的数值型数据进行统一数量级，对病历中的文本描述型数据根据专家综合评分确立其转化为数值型数据的标准。

文本描述型变量分为定性描述和程度描述。定性描述即特征的有无，因此用0-1进行表示。程度描述首先根据医生的诊断对病症的程度进行分级，之后对分级进行程度表征。文中采取定性与程度共同作用的方式进行表征。首先赋予其一个基础数值，然后再对其严重程度划分层次，按照层次计分，最后将基础数值与严重程度数值进行加权求和，得到最终的变量数值。该转换函数如下式。

步骤2：knn距离聚类方法进行缺失值插值

研究中针对病历中缺失数据根据缺失占比做出相应的处理。首先检查变量中的严重缺失信息的数据。文中每一条病历设置成一个数组Xi＝[Xi1，Xi2，···，Xi(n+1)]。其中包含了n个特征变量和一个目标变量。每一数组中，可能含有部分值缺失。对于一些病历来说当缺失值超过20％，模型中没有进一步考虑，因为差值过多将导致预测信息不够准确。

然后对缺失值低于20％的数据，文中采用k个最邻近的变量数据，并按照距离进行加权求值的方式对缺失值进行估算。如果采用欧式普通距离取均值的方法估算缺失值，会存在较大的误差，研究根据变量的最近距离的点，并根据距离的远近来分配权重，能够降低预测误差。

其中，f(x)为测试点到聚类中心距离，W_i代表权重，D_i代表近邻i与测试点距离。

步骤3：正则项改进，权重自适应优化

在得到处理好的数据之后，利用lasso回归的目标函数对结果进行预测。该方法是在线性回归的基础上加入正则项，在保证最佳拟合误差的情况下，尽可能简化模型参数，增强模型泛化能力。在传统线性回归中通常采用最小二乘的方法求取目标函数的最小值，这种情况下如果样本数大于数据维度时，解矩阵可逆，可得到封闭解。在文本病历数据中，针对变量数量较多，变量分布较为分散的问题，为了优化选取的变量发明采用了lasso与岭回归相结合的方法。lasso方法正则项为1范数，1范数方法能够将部分低作用变量系数置0，而岭回归2范数尽可能保留变量个数，两种方法结合起来能够根据实际情况优化模型结果。

随机数据往往服从正态分布，因此发明中在优化回归系数过程中，根据数据分布特征，适当调整了系数权重。权重调整方式如下：

步骤4：将数据输入模型进行训练得到预测结果

将原始数据进行数值化转换及缺失值补全处理后，得到训练数据集，输入所述方法建立的模型进行训练与测试，得到模型预测精度，并将之与传统预测模型结果对比。

算例结果分析

本发明中首先对病历数据进行特征的提取及优化，得到高质量的病历数据，下图2为数据集结果分布情况，数据整体呈现正态分布规律。在经过优化的lasso方法处理后，得到模型预测结果并与其他模型预测结果对比如下表。从表中结果可以看出，传统线性回归模型的预测准确率较低，主要是由于数据中无关变量过多导致模型泛化能力较差。因此在标准lasso模型中，将低作用的无关变量系数置0，简化了模型复杂度，模型准确率略有增加。对比lasso回归和岭回归的预测准确率可以看出，lasso模型比岭回归模型预测效果要好，因此为了将lasso回归的优势进一步增强，在文中改进的lasso算法中，进一步提高了重要影响变量的权重，同时将lasso与岭回归正则化项想结合，在一定程度上降低预测误差，最终将模型预测的准确率提高到88.58％，比传统Lasso回归模型的预测准确率提高了22.80％，模型效果显著。

模型	准确率
		线性回归	59.74％
lasso	65.78％
		岭回归	63.45％
改进lasso方法	88.58％

为了进一步分析预测效果，研究对比了测试集中预测结果的数值与实际费用数值进行了对比，结果如图3所示。对比结果显示当费用较高与图2中对称轴差距距离较远时，模型跟随效果较差，而当费用数值相对较低与图2中对称轴距离较近时模型跟随效果好，预测结果更加接近真实值，因此由上述结果可以得出发明中方法具有较高的创新性和可行性。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于lasso回归预测治疗费用的方法，所述方法包括以下步骤：

第二步骤中，比较变量的缺失程度，将缺失程度较高的变量删除，然后对缺失程度较低的变量采用聚类方法估算插值，选取距离缺失值最近的k个变量，将k个距离值设置为权重值，通过加权插值方法估算缺失的变量值，得到病历数据集；

第三步骤中，基于1范数与2范数的变量筛选公式为

2.根据权利要求1所述的方法，其中，优选的，第一步骤中，将所述电子病历按照病种进行分类，基于分类后的文本电子病历数值化，生成电子病历的数据集。

3.根据权利要求1所述的方法，其中，第一步骤中，基于样本的变量的离散定性赋值0或1以转换数值数据，基于样本的线性分布转换数值数据中，赋予其一个基础数值，然后再对其严重程度划分层次，按照层次计分，最后将基础数值与严重程度数值相结合，得到最终的变量值，转换公式为

4.根据权利要求1所述的方法，其中，第二步骤中，每一条病历样本设置成数组X_i＝[X_i1，X_i2，…，X_i(n+1)]，其中包含了n个特征变量和一个目标变量，每一数组中，比较变量的缺失程度，将缺失值超过20％的变量删除，然后对缺失值低于20％的数据采用聚类方法估算插值，

5.根据权利要求1所述的方法，其中，基于1范数与2范数的公式为