CN111815052A - 一种医疗费用数据处理方法及装置 - Google Patents
一种医疗费用数据处理方法及装置 Download PDFInfo
- Publication number
- CN111815052A CN111815052A CN202010651542.0A CN202010651542A CN111815052A CN 111815052 A CN111815052 A CN 111815052A CN 202010651542 A CN202010651542 A CN 202010651542A CN 111815052 A CN111815052 A CN 111815052A
- Authority
- CN
- China
- Prior art keywords
- time period
- medical expense
- person
- social security
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000012216 screening Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 37
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 23
- 201000010099 disease Diseases 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 15
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000003745 diagnosis Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000013075 data extraction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 208000017667 Chronic Disease Diseases 0.000 description 45
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 239000003814 drug Substances 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000001684 chronic effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Technology Law (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本文提供了一种医疗费用数据处理方法及装置,其中,医疗费用数据处理方法包括:对预先采集的多个用户的社保数据进行筛选;根据筛选后社保数据,确定样本集,所述样本集中的每一样本包括:每人第一预定时间段内的基础变量值、衍生变量值及第二预定时间段内的总医疗费用;将每人第一预定时间段内的基础变量值及衍生变量值作为输入变量,每人第二预定时间段内的总医疗费用作为目标变量,在所述样本进行训练,得到医疗费用预测模型;根据获取的用户社保数据,确定医疗费用数据处理的输入变量数据;将输入变量数据输入至所述医疗费用预测模型,得到用户第二预定时间段内的总医疗费用。本文能够精确地预测用户一段时间内的总医疗费用。
Description
技术领域
本文涉及医疗费用预测领域,尤其涉及一种医疗费用数据处理方法及装置。
背景技术
随着老龄化的加剧,慢性病成为中老年人群高发疾病,而慢性病需要长期就医,患者对就医花费并无预期,且由于我国医保制度还不够完善,就诊过程中往往存在过度用药的现象,医院或社会对此也无法监督,给国家和个人造成一定浪费。
因此,急需一种准确地预测用户医疗费用的技术方案,以防止用户过度用药、为监管部门提供监管依据。
发明内容
本文用于解决现有技术中对用户医疗费用预测存在不准确地缺陷,这可能会导致用户过度用药、花费增多、乱收费的问题。
为了解决上述技术问题,本文的第一方面提供一种医疗费用数据处理方法,包括:
对预先采集的多个用户的社保数据进行筛选;
根据筛选后社保数据,确定样本集,所述样本集中的每一样本包括:每人第一预定时间段内的基础变量值、衍生变量值及第二预定时间段内的总医疗费用,其中,所述第二预定时间段相邻于且晚于所述第一预定时间段;
将每人第一预定时间段内的基础变量值及衍生变量值作为输入变量,每人第二预定时间段内的总医疗费用作为目标变量,对所述样本进行训练,得到医疗费用预测模型;
根据获取的用户社保数据,确定医疗费用数据处理的输入变量数据;
将输入变量数据输入至所述医疗费用预测模型,得到用户第二预定时间段内的总医疗费用。
进一步实施例中,根据筛选后社保数据,确定样本集包括:
统计筛选后社保数据中各变量的特性,将特性小于第二预定值的变量作为基础变量,其中,所述特性包括空置率/或方差;
统计每人第一预定时间段内的基础变量值及每人第二预定时间段内的总医疗费用;
根据每人第一预定时间段内的基础变量值,确定每人第一预定时间段内的衍生变量值。
进一步实施例中,根据每人第一预定时间段内的基础变量值,确定每人第一预定时间段内的衍生变量值包括:
对每人第一预定时间段内的基础变量值按统计计划进行统计,将统计值作为每人第一预定时间段内的衍生变量值。
进一步实施例中,对所述样本进行训练,得到医疗费用预测模型包括:
在所述样本上执行随机森林算法,输出医疗费用预测模型、基础变量及衍生变量的重要度;
所述方法还包括:根据所述基础变量及衍生变量的重要度,调整样本集中基础变量值及衍生变量值,并重新对样本进行训练以更新医疗费用预测模型。
进一步实施例中,对多个用户的社保数据进行筛选之前,还包括:
补齐所述用户社保数据中缺少的变量值。
进一步实施例中,医疗费用数据处理方法还包括:
根据筛选后社保数据,统计每人所述第一预定时间段内各类疾病的就诊次数;
将每人第一预定时间段内的基础变量值及衍生变量值作为输入变量进一步为:将每人第一预定时间段内的基础变量值、衍生变量值及各类疾病的就诊次数作为输入变量。
进一步实施例中,医疗费用数据处理方法还包括:将筛选后社保数据中的疾病类型映射为ICD大类,其中,ICD大类包括ICD的类目类型或亚目类型;
根据筛选后社保数据,统计每人第一预定时间段内各类疾病的就诊次数进一步为:根据筛选后社保数据,统计每人第一预定时间段内各ICD大类的就诊次数;
将每人第一预定时间段内的基础变量值、衍生变量值及对各类疾病的就诊次数作为输入变量进一步为:将每人第一预定时间段内的基础变量值、衍生变量值及对各ICD大类的就诊次数作为输入变量。
本文的第二方面,提供一种医疗费用数据处理装置,包括:
筛选模块,用于对预先采集的多个用户的社保数据进行筛选;
分析模块,用于根据筛选后社保数据,确定样本集,所述样本集中的每一样本包括:每人第一预定时间段内的基础变量值、衍生变量值及第二预定时间段内的总医疗费用,其中,所述第二预定时间段相邻于且晚于所述第一预定时间段;
建模模块,用于将每人第一预定时间段内的基础变量值及衍生变量值作为输入变量,每人第二预定时间段内的总医疗费用作为目标变量,对所述样本进行训练,得到医疗费用预测模型;
数据提取模块,用于根据获取的用户社保数据,确定医疗费用数据处理的输入变量数据;
预测模块,用于将输入变量数据输入至所述医疗费用预测模型,得到用户第二预定时间段内的总医疗费用。
本文的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述实施例所述的医疗费用数据处理方法。
本文的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行计算机程序,所述计算机程序被处理器执行时实现前述实施例所述的医疗费用数据处理方法。
本文提供的医疗费用数据处理方法及装置,适用于长期就医人群(特别是慢性病患者),能够准确地预测用户一段时间内的总医疗费用,为用户用药、监管部门监管以及指导保险公司进行投保判断、理赔等提供依据。
为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本文实施例医疗费用数据处理方法的第一流程图;
图2示出了本文实施例社保数据筛选流程图;
图3示出了本文实施例医疗费用数据处理方法的第二流程图;
图4示出了本文实施例医疗费用数据处理方法的第三流程图;
图5示出了本文实施例医疗费用数据处理方法的第四流程图;
图6示出了本文实施例医疗费用数据处理方法的第五流程图;
图7示出了本文实施例医疗费用数据处理装置的结构图;
图8示出了本文具体实施例的医疗费用数据处理方法的流程图;
图9示出了本文实施例的计算机设备的结构图。
附图符号说明:
100、110、120、130、130’、210、220、230、510、520、530、540、550、600、610、620、630、640、650、810、820、830、840、850、860、870、880、890、891步骤;
710、筛选模块;
720、分析模块;
730、建模模块;
740、数据提取模块;
750、预测模块;
902、计算机设备;
904、处理器;
906、存储器;
908、驱动机构;
910、输入/输出模块;
912、输入设备;
914、输出设备;
916、呈现设备;
918、图形用户接口;
920、网络接口;
922、通信链路;
924、通信总线。
具体实施方式
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
如图1所示,图1示出了本文实施例的医疗费用数据处理方法的流程图。本实施例能够解决现有技术中用户医疗费用预测不准确地缺陷,为用户用药、监管部门监管以及指导保险公司进行投保判断、理赔等提供依据。本案适用于长期就医人群(特别是慢性病患者)的总医疗费用的预测,基于该方法未来还可以扩展至住院病例等的分析建模。具体的,医疗费用数据处理方法包括:
步骤110,对预先采集的多个用户的社保数据进行筛选。
实施时,为了保证社保数据的有效性,仅保留就诊次数大于第一预定值的疾病类型的社保数据。
详细的说,社保数据可从社保局获取,包括多条记录,一条记录代表就诊一次,每条记录包括但不限于:参保人(即用户)社保编号、性别、出生年月、疾病ICD、历史就诊医疗费用、历史就诊统筹基金支付金额、还可以包括:参保年月、参保状态、医院等级、入院(门诊)时间、出院时间等等。
本文所述疾病通常指慢性病,即不构成传染、具有长期积累形成疾病形态损害的疾病的总称,需要长期就医来控制指标,如下实施例均以慢性病为例进行说明。
保留就诊次数大于第一预定值的疾病类型的社保数据包括:对于每一用户的社保数据,判断该用户因各类疾病就诊的次数,若某一类疾病的就诊次数大于第一预定值,则保留用户因该类疾病就诊的社保数据。
本步骤能够保证建模用的数据能够提供较多信息,剔除那些对建模参考用途少的信息。第一预定值的取值可根据建模精度或慢性病患者平均就诊周期确定,本文对其具体取值不做限定。
步骤120,根据筛选后社保数据,确定样本集,所述样本集中的每一样本包括:每人第一预定时间段内的基础变量值、衍生变量值及第二预定时间段内的总医疗费用,其中,所述第二预定时间段相邻于且晚于所述第一预定时间段。第一预定时间段例如为两年,第二预定时间段例如为该两年的下一年。本文对第一预定时间段及第二预定时间段的长度不做限定。只要满足第一预定时间段相邻且晚于第二预定时间段的时间关系即可。
具体实施时,如图2所示,步骤120包括:
步骤210,统计筛选后社保数据中各变量的特性,将特性小于第二预定值的变量作为基础变量,其中,所述特性包括空置率/或方差。
空置率可通过如下公式计算得到:
VRi=Ei÷N;
其中,VRi为变量i的空置率,Ei为变量i中为空的个数,N为社保数据条数,即变量i的总个数。
方差通过如下公式计算得到:
其中,σi为方差,Xij为变量Xi的第j个值,μi为变量的平均值,N为社保数据条数。
为了保证基础变量的精度,实施时,可通过人工定义的方式从基础变量中剔除意义不大的变量。一具体实施例中,选出的基础变量包括但不限于性别、年龄、参保时长、入院(门诊)年龄、医院等级等等,本文对基础变量不做具体限定。
步骤220,统计每人第一预定时间段内的基础变量值及每人第二预定时间段内的总医疗费用。
详细的说,若用户于第二预定时间段内没有就诊记录,则将该用户第二预定时间段内的总医疗费用设定为0元。若基础变量为变化值,例如年龄、参保时长等等,且在第一预定时间段内基础变量值发生了变化,则将第一预定时间段内的基础变量值平均处理,将计算得到的平均值作为第一预定时间段内基础变量值。例如,第一预定时间段为两年,年龄变量的值分别为85、86,则通过平均值计算得到年龄变量值为85.5。若基础变量为固定值,则通过赋值的方式对基础变量进行数值化,例如性别,设定1为男性,2为女性。
步骤230,根据每人第一预定时间段内的基础变量值,确定每人第一预定时间段内的衍生变量值。具体实施时,本步骤包括:对每人第一预定时间段内的基础变量值按统计计划进行统计,将统计值作为每人第一预定时间段内的衍生变量值。其中,统计计划中定义有衍生变量的定义,例如衍生变量为N年住院总花费、N年总就诊次数、N年次均住院费用、N年内最高一次住院花费、N年次均住院天数、N年内就诊的总医院个数、N年内最高医院等级、N年内单次住院是否有高额花费、N年内日均住院费用、N年内最高(低)一次花费日均住院费用、最近一段时间(例如一年)的总住院花费、最近一段时间的总就诊次数、最近一段时间的次均花费、最近一段时间就诊花费等等。
本步骤能够将那些不具有实际意义的变量,转换为有实际意义的衍生变量,实施时,衍生变量可根据社保数据质量、地区、人群的不同进行取舍,本文对衍生变量不做具体限定。
步骤130,将每人第一预定时间段内的基础变量值及衍生变量值作为输入变量,每人第二预定时间段内的总医疗费用作为目标变量,对所述样本进行训练,得到医疗费用预测模型。
具体实施时,可采用分类器算法对样本进行训练,还可将样本划分训练集及测试集,训练集用于利用分类器算法进行建模,根据测试集调整医疗费用预测模型的参数,得到最终的医疗费用预测模型。
分类器算法例如可以选用梯度提升迭代决策树(Gradient Boosting DecisionTree,GBDT)、极端梯度提升(eXtreme Gradient Boosting,XGBOOST)、支持向量机(SupportVector Machine,SVM)等算法。
一具体实施例中,如图3所示,上述步骤130进一步为:
步骤130’,在所述样本上执行随机森林算法,输出医疗费用预测模型、基础变量及衍生变量的重要度,根据所述基础变量及衍生变量的重要度,返回步骤120重新确定基础变量及衍生变量及其之后的步骤。
本文结合随机森林算法的如下优势,能够提高医疗费用预测模型的预测精度:(1)可以用于分类和回归,随机森林既可以用于分类模型,也可以用于回归模型,且不需要考虑入模变量是否都是离散的,本文中所用到的基础变量及衍生变量既有离散变量,如性别、医院等级,也有连续变量,如平均费用,在建模过程中并不需要将它们处理成统一的类型,直接参与建模即可;(2)可以自动处理缺省值;(3)不容易过拟合,由于选用了随机有放回抽样,随机森林得以保留了一部分数据(袋外数据)作为验证数据集,因此不容易出现过拟合的现象,同时由于采用投票的方式决定输出结果,因此,输出结果的准确性也较好;(4)可以有效运行在大数据集上,能够处理高维度特征的数据,不需要对数据进行降维;(5)可以评价各个特征的重要度,因为随机森林算法除了输出预测结果外,还可以输出模型的重要程度,它以数值的形式表达每个特征的重要度,从而可以根据结果确定只保留一些特征重新建模或者采用其他的机器学习算法;(6)不需要考虑特征之间的相关性,随机森林算法会自动计算出模型的重要度,方便后续对模型进行优化。
根据所述基础变量及衍生变量的重要度重新确定样本集,包括:在样本集中剔除重要程度小于预定阈值的基础变量及衍生变量完成样本集更新。对于更新后样本采用随机森林算法或其它机器学习算法重新建模。
步骤140,获取慢性病用户社保数据。一些实施方式中,可通过查询社保网站数据库的方式获取用户社保数据,本文对社保数据获取方式不做具体限定。
步骤150,根据慢性病用户社保数据,确定医疗费用数据处理的输入变量数据。
步骤160,将输入变量数据输入至医疗费用预测模型,得到用户第二预定时间段内的总医疗费用。
详细的说,上述步骤110至步骤130,即建立医疗费用预测模型的步骤不必每次执行医疗费用数据处理方法时均执行,一旦医疗费用预测模型建立之后可直接执行步骤140至步骤160的步骤。
本实施例能够借助计算得到的医疗费用预测模型,精确预测出用于第二预定时间段内将要花费的总医疗费用,为用户用药、监管部门监管以及指导保险公司进行投保判断、理赔等提供依据。
本文一实施例中,因为慢性病作为一种慢性疾病,每位用户可能在几年内都有医院的就诊记录,但是也存在好转或者未在医院留下就诊记录的情况,为了保证用户疾病历程的完整性,如图4所示,在执行上述步骤110对多个慢性病用户的社保数据进行筛选之前,还包括:
步骤100,根据预定补齐规则,补齐所述慢性病用户社保数据中缺少的变量值。
具体的,预定补齐规则例如为:若缺少的变量为固定变量,则根据用户身份对社保数据中固定变量(例如性别、年龄)进行自动填充,若缺少的变量为变化变量(例如就诊时间、就诊医院、住院天数、就诊ICD、总花费等),则将变化变量自动设置为0。具体实施时,还可设置其它补齐规则,本文对此不作具体限定。
本文一实施例中,如图5所示,医疗费用数据处理方法包括:
步骤500,根据预定补齐规则,补齐所述慢性病用户的社保数据。
步骤510,对预先采集的多个慢性病用户的社保数据进行筛选,保留慢性病就诊次数大于第一预定值的慢性病类型的社保数据。
步骤520,根据筛选后社保数据,统计每人所述第一预定时间段内各类慢性病的就诊次数。
步骤530,根据筛选后社保数据,确定样本集,所述样本集中的每一样本包括:每人第一预定时间段内的基础变量值、衍生变量值及第二预定时间段内的总医疗费用,其中,所述第二预定时间段相邻于且晚于所述第一预定时间段。
步骤540,将每人第一预定时间段内的基础变量值、衍生变量值及各类慢性病的就诊次数作为输入变量,每人第二预定时间段内的总医疗费用作为目标变量,在所述样本上执行分类器算法,生成医疗费用预测模型。
步骤550,获取慢性病用户社保数据。一些实施方式中,可通过查询社保网站数据库的方式获取用户社保数据,本文对社保数据获取方式不做具体限定。
步骤560,根据慢性病用户社保数据,确定医疗费用数据处理的输入变量数据。
步骤570,将输入变量数据输入至医疗费用预测模型,得到用户第二预定时间段内的总医疗费用。
本实施例考虑到一些慢性病存在并发关系,通过将各类慢性病的就诊次数作为输入变量,可以得出慢性病用户的某些慢性病与医疗费用的关系、某些慢性病组合与医疗费用的关系等等,以便为保险公司预估投保人的慢性病风险和偿付金额。
本文一实施例中,考虑到使用完整慢性病类型进行建模会增加建模维度,不利于建模运算及精度,如图6所示,医疗费用数据处理方法包括:
步骤600,根据预定补齐规则,补齐所述慢性病用户的社保数据。
步骤610,对多个慢性病用户的社保数据进行筛选,保留慢性病就诊次数大于第一预定值的慢性病类型的社保数据。
步骤620,将筛选后社保数据中的慢性病类型映射为ICD(国际疾病分类)大类,其中,ICD大类包括ICD的类目类型或亚目类型。
具体的,ICD可以选用卫生部颁布的ICD-10标准,具体实施时,还可选用其它标准。ICD类目类型指的是3位数编码,包括1个字母和2位数字,ICD亚目类型指的是4位数编码,包括1个字母和3位数字和一个小数点。
ICD大类具体类型选择根据数据量确定,若数据量较大,则选择ICD类目类型,若数据量较小,则选择ICD亚目类型。
步骤630,根据筛选后社保数据,统计每人第一预定时间段内各ICD大类的就诊次数。例如ICD大类包括4个ICD亚目类型,则根据筛选后社保数据,统计这4个亚目类型的就诊记录个数,将统计得到的个数作为该ICD大类的就诊次数。
步骤640,根据筛选后社保数据,确定样本集,所述样本集中的每一样本包括:每人第一预定时间段内的基础变量值、衍生变量值及第二预定时间段内的总医疗费用,其中,所述第二预定时间段相邻于且晚于所述第一预定时间段。
步骤650,将每人第一预定时间段内的基础变量值、衍生变量值及对各ICD大类的就诊次数作为输入变量,每人第二预定时间段内的总医疗费用作为目标变量,在所述样本上执行分类器算法,生成医疗费用预测模型。
步骤660,获取慢性病用户社保数据。一些实施方式中,可通过查询社保网站数据库的方式获取用户社保数据,本文对社保数据获取方式不做具体限定。
步骤670,根据慢性病用户社保数据,确定医疗费用数据处理的输入变量数据。
步骤680,将输入变量数据输入至医疗费用预测模型,得到用户第二预定时间段内的总医疗费用。
基于同一发明构思,本文还提供一种医疗费用数据处理装置,如下面的实施例所述。由于该装置解决问题的原理与医疗费用数据处理方法相似,因此该装置的实施可以参见医疗费用数据处理方法的实施,重复之处不再赘述。具体的,如图7所示,医疗费用数据处理装置包括:
筛选模块710,用于对多个慢性病用户的社保数据进行筛选,保留慢性病就诊次数大于第一预定值的慢性病类型的社保数据。
分析模块720,用于根据筛选后社保数据,确定样本集,所述样本集中的每一样本包括:每人第一预定时间段内的基础变量值、衍生变量值及第二预定时间段内的总医疗费用,其中,所述第二预定时间段相邻于且晚于所述第一预定时间段。
建模模块730,用于将每人第一预定时间段内的基础变量值及衍生变量值作为输入变量,每人第二预定时间段内的总医疗费用作为目标变量,在所述样本上执行分类器算法,生成医疗费用预测模型。
数据提取模块740,用于根据慢性病用户社保数据,确定医疗费用数据处理的输入变量数据。
预测模块750,用于将输入变量数据输入至所述医疗费用预测模型,得到用户第二预定时间段内的总医疗费用。
为了更清楚说明本文技术方案,下面以一具体实施例详细说明,如图8所示,医疗费用数据处理方法包括:
步骤810,预先采集多个慢性病患者近三年的社保数据,如表1所示,表1中仅示出了部分社保数据。
表1
步骤820,补齐所述慢性病用户社保数据中缺少的变量值。
步骤830,对多个慢性病用户的社保数据进行筛选,保留慢性病就诊次数大于第一预定值的慢性病类型的社保数据。
步骤840,根据筛选后社保数据,统计每人前两年内各类慢性病的就诊次数。
步骤850,根据筛选后社保数据,确定样本集,如表2所示,其中,表2中仅示出了部分样本。
样本集中的每一样本包括:每人第一预定时间段内的基础变量值、衍生变量值及下一年(即第三年)内的总医疗费用。
表2
步骤860,将每人第一预定时间段内的基础变量值、衍生变量值及各类慢性病的就诊次数作为输入变量,每人下一年内的总医疗费用作为目标变量,在样本上执行随机森林算法,得到医疗费用预测模型、基础变量及衍生变量的重要度。
步骤870,在样本集中提出重要度小于预定值的基础变量及衍生变量,返回步骤1060重新确定医疗费用预测模型。
步骤880,确定医疗费用预测模型之后,实时获取慢性病患者A的社保数据。
步骤890,根据步骤880获取的慢性病患者A的社保数据,确定医疗费用数据处理的输入变量数据。
步骤891,将输入变量数据输入至医疗费用预测模型,得到慢性病患者A第二预定时间段内的总医疗费用。
本实施例能够精确地预测慢性病患者下一年内的总医疗费用,为用户用药、监管部门监管以及指导保险公司进行投保判断、理赔等提供依据。
本文一实施例中,还提供一种计算机设备,如图9所示,计算机设备902可以包括一个或多个处理器904,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算机设备902还可以包括任何存储器906,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储器906可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留,存储器906上并可在处理器上运行的计算机程序,处理器904执行所述计算机程序时实现前述任一实施例所述的医疗费用数据处理方法。进一步地,任何存储器可以表示计算机设备902的固定或可移除部件。在一种情况下,当处理器904执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备902可以执行相关联指令的任一操作。计算机设备902还包括用于与任何存储器交互的一个或多个驱动机构908,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备902还可以包括输入/输出模块910(I/O),其用于接收各种输入(经由输入设备912)和用于提供各种输出(经由输出设备914))。一个具体输出机构可以包括呈现设备916和相关联的图形用户接口(GUI)918。在其他实施例中,还可以不包括输入/输出模块910(I/O)、输入设备912以及输出设备914,仅作为网络中的一台计算机设备。计算机设备902还可以包括一个或多个网络接口920,其用于经由一个或多个通信链路922与其他设备交换数据。一个或多个通信总线924将上文所描述的部件耦合在一起。
通信链路922可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路922可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本文实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述医疗费用数据处理方法。
本文实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行上述医疗费用数据处理方法。
应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。
Claims (10)
1.一种医疗费用数据处理方法,其特征在于,包括:
对预先采集的多个用户的社保数据进行筛选;
根据筛选后社保数据,确定样本集,所述样本集中的每一样本包括:每人第一预定时间段内的基础变量值、衍生变量值及第二预定时间段内的总医疗费用,其中,所述第二预定时间段相邻于且晚于所述第一预定时间段;
将每人第一预定时间段内的基础变量值及衍生变量值作为输入变量,每人第二预定时间段内的总医疗费用作为目标变量,对所述样本进行训练,得到医疗费用预测模型;
根据获取的用户社保数据,确定医疗费用数据处理的输入变量数据;
将输入变量数据输入至所述医疗费用预测模型,得到用户第二预定时间段内的总医疗费用。
2.如权利要求1所述的方法,其特征在于,根据筛选后社保数据,确定样本集包括:
统计筛选后社保数据中各变量的特性,将特性小于第二预定值的变量作为基础变量,其中,所述特性包括空置率/或方差;
统计每人第一预定时间段内的基础变量值及每人第二预定时间段内的总医疗费用;
根据每人第一预定时间段内的基础变量值,确定每人第一预定时间段内的衍生变量值。
3.如权利要求2所述的方法,其特征在于,根据每人第一预定时间段内的基础变量值,确定每人第一预定时间段内的衍生变量值包括:
对每人第一预定时间段内的基础变量值按统计计划进行统计,将统计值作为每人第一预定时间段内的衍生变量值。
4.如权利要求1所述的方法,其特征在于,对所述样本进行训练,得到医疗费用预测模型包括:
在所述样本上执行随机森林算法,输出医疗费用预测模型、基础变量及衍生变量的重要度;
所述方法还包括:根据所述基础变量及衍生变量的重要度,调整样本集中基础变量值及衍生变量值,并重新对样本进行训练以更新医疗费用预测模型。
5.如权利要求1所述的方法,其特征在于,对多个用户的社保数据进行筛选之前,还包括:
补齐所述用户社保数据中缺少的变量值。
6.如权利要求1所述的方法,其特征在于,还包括:
根据筛选后社保数据,统计每人所述第一预定时间段内各类疾病的就诊次数;
将每人第一预定时间段内的基础变量值及衍生变量值作为输入变量进一步为:将每人第一预定时间段内的基础变量值、衍生变量值及各类疾病的就诊次数作为输入变量。
7.如权利要求6所述的方法,其特征在于,还包括:
将筛选后社保数据中的疾病类型映射为ICD大类,其中,ICD大类包括ICD的类目类型或亚目类型;
根据筛选后社保数据,统计每人第一预定时间段内各类疾病的就诊次数进一步为:根据筛选后社保数据,统计每人第一预定时间段内各ICD大类的就诊次数;
将每人第一预定时间段内的基础变量值、衍生变量值及对各类疾病的就诊次数作为输入变量进一步为:将每人第一预定时间段内的基础变量值、衍生变量值及对各ICD大类的就诊次数作为输入变量。
8.一种医疗费用数据处理装置,其特征在于,包括:
筛选模块,用于对预先采集的多个用户的社保数据进行筛选;
分析模块,用于根据筛选后社保数据,确定样本集,所述样本集中的每一样本包括:每人第一预定时间段内的基础变量值、衍生变量值及第二预定时间段内的总医疗费用,其中,所述第二预定时间段相邻于且晚于所述第一预定时间段;
建模模块,用于将每人第一预定时间段内的基础变量值及衍生变量值作为输入变量,每人第二预定时间段内的总医疗费用作为目标变量,对所述样本进行训练,得到医疗费用预测模型;
数据提取模块,用于根据获取的用户社保数据,确定医疗费用数据处理的输入变量数据;
预测模块,用于将输入变量数据输入至所述医疗费用预测模型,得到用户第二预定时间段内的总医疗费用。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现前述权利要求1至7中任一项所述的医疗费用数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行计算机程序,所述计算机程序被处理器执行时实现前述权利要求1至7中任一项所述的医疗费用数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010651542.0A CN111815052B (zh) | 2020-07-08 | 2020-07-08 | 一种医疗费用数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010651542.0A CN111815052B (zh) | 2020-07-08 | 2020-07-08 | 一种医疗费用数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111815052A true CN111815052A (zh) | 2020-10-23 |
CN111815052B CN111815052B (zh) | 2023-12-22 |
Family
ID=72842908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010651542.0A Active CN111815052B (zh) | 2020-07-08 | 2020-07-08 | 一种医疗费用数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111815052B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112734585A (zh) * | 2021-01-25 | 2021-04-30 | 联仁健康医疗大数据科技股份有限公司 | 医保基金支出的预测方法、装置、设备及存储介质 |
CN113705930A (zh) * | 2021-09-16 | 2021-11-26 | 平安医疗健康管理股份有限公司 | 基于模型的费用预测方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170140114A1 (en) * | 2015-11-13 | 2017-05-18 | Cerner Innovation, Inc. | Machine learning clinical decision support system for risk categorization |
CN109492803A (zh) * | 2018-10-30 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于人工智能的慢性病住院费用异常检测方法及相关装置 |
CN110738573A (zh) * | 2019-09-06 | 2020-01-31 | 平安医疗健康管理股份有限公司 | 基于分类器的数据处理方法、设备、存储介质及装置 |
-
2020
- 2020-07-08 CN CN202010651542.0A patent/CN111815052B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170140114A1 (en) * | 2015-11-13 | 2017-05-18 | Cerner Innovation, Inc. | Machine learning clinical decision support system for risk categorization |
CN109492803A (zh) * | 2018-10-30 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于人工智能的慢性病住院费用异常检测方法及相关装置 |
CN110738573A (zh) * | 2019-09-06 | 2020-01-31 | 平安医疗健康管理股份有限公司 | 基于分类器的数据处理方法、设备、存储介质及装置 |
Non-Patent Citations (1)
Title |
---|
周亚楠: "糖尿病患者诊断相关分组及其住院费用预测研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, no. 03, pages 1 - 77 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112734585A (zh) * | 2021-01-25 | 2021-04-30 | 联仁健康医疗大数据科技股份有限公司 | 医保基金支出的预测方法、装置、设备及存储介质 |
CN112734585B (zh) * | 2021-01-25 | 2024-05-31 | 联仁健康医疗大数据科技股份有限公司 | 医保基金支出的预测方法、装置、设备及存储介质 |
CN113705930A (zh) * | 2021-09-16 | 2021-11-26 | 平安医疗健康管理股份有限公司 | 基于模型的费用预测方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111815052B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109545317B (zh) | 基于住院预测模型判定住院行为的方法及相关产品 | |
Hillerman et al. | Applying clustering and AHP methods for evaluating suspect healthcare claims | |
CN108630322B (zh) | 药物相互作用建模与风险评估方法、终端设备及存储介质 | |
JP6066826B2 (ja) | 分析システム及び保健事業支援方法 | |
US20140006044A1 (en) | System and method for preparing healthcare service bundles | |
CN109698016A (zh) | 疾病自动编码方法及装置 | |
CN110490750B (zh) | 数据识别的方法、系统、电子设备及计算机存储介质 | |
CN111815052A (zh) | 一种医疗费用数据处理方法及装置 | |
CN109598302B (zh) | 就诊费用预测方法、装置、设备及计算机可读存储介质 | |
CN111898797A (zh) | 医疗费用预测方法、装置、电子设备及存储介质 | |
CN114783580B (zh) | 一种医疗数据质量评估方法及系统 | |
CN114416967A (zh) | 智能推荐医生的方法、装置、设备及存储介质 | |
CN113436725A (zh) | 数据处理方法、系统、计算机设备及计算机可读存储介质 | |
CN112447270A (zh) | 一种用药推荐方法、装置、设备及存储介质 | |
CN110752027B (zh) | 电子病历数据推送方法、装置、计算机设备和存储介质 | |
CN113223677A (zh) | 针对患者的医生匹配方法及装置 | |
CN109584086B (zh) | 基于预测模型预测住院合理性的方法及相关产品 | |
CN112967789A (zh) | 一种口腔类专科病种的资源消耗计算测定方法 | |
US20200349652A1 (en) | System to simulate outcomes of a new contract with a financier of care | |
CN115910387A (zh) | 基于时间序列的数据处理方法、装置、设备及存储介质 | |
JP6895912B2 (ja) | 保険設計支援システム及び保険設計支援方法 | |
EP2798545A1 (en) | System and method for extracting and monitoring multidimensional attributes regarding personal health status and evolution | |
CN111309870A (zh) | 数据快速搜索方法、装置及计算机设备 | |
CN110223770A (zh) | 消化内科电子数据分析方法 | |
Sahoo et al. | A multistage framework for respiratory disease detection and assessing severity in chest X-ray images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |