CN112132624A - 医疗理赔数据预测系统 - Google Patents
医疗理赔数据预测系统 Download PDFInfo
- Publication number
- CN112132624A CN112132624A CN202011033070.9A CN202011033070A CN112132624A CN 112132624 A CN112132624 A CN 112132624A CN 202011033070 A CN202011033070 A CN 202011033070A CN 112132624 A CN112132624 A CN 112132624A
- Authority
- CN
- China
- Prior art keywords
- module
- target
- treatment
- data
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 89
- 201000010099 disease Diseases 0.000 claims abstract description 88
- 238000009826 distribution Methods 0.000 claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 115
- 238000003745 diagnosis Methods 0.000 claims description 30
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012954 risk control Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 206010020772 Hypertension Diseases 0.000 description 3
- 239000003814 drug Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Abstract
本申请涉及大数据处理,提供了一种医疗理赔数据预测系统,所述系统包括:目标聚类簇数确定模块,用于根据训练后的主题生成模型,确定各类疾病的目标聚类簇数N;概率分布计算模块,用于根据每类疾病对应的全部治疗方案属性数据得到N个聚类,计算每类疾病的类别标签的概率分布;目标治疗方案标签确定模块,用于根据每类疾病的类别标签的概率分布确定对应疾病的目标治疗方案标签;预测理赔数据生成模块,用于根据目标治疗方案标签进行理赔费用预估,生成预测理赔数据。本申请还涉及区块链技术,预测理赔数据可存储于区块链中。采用本系统能够提供更精准的目标治疗方案标签以及理赔费用,提升医疗案件理赔的风控效果。
Description
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种医疗理赔数据预测系统。
背景技术
随着大数据处理技术的飞速发展,以及数据信息化的普及,与人们日常工作、生活相关联的数据,包括医疗健康数据等日益剧增。随之而来的,对医疗健康领域的医疗健康等的保险理赔业务,也相应有所增加。因此,需要对不同疾病的保险理赔业务对应的疾病可能治疗方案以及相应方案的理赔费用,进行预先估算。
对于在医疗健康保险的理赔过程中,需要对于案件合理费用进行预估的情况,传统上多采用基于理赔数据以诊断编码作为疾病组进行测算,得到该疾病组的治疗费用。
然而,在医保结算等特定场景下,在进行理赔费用估算时,并没有对患者治疗过程中各项明细数据进行充分利用,得到的预测治疗方案有所偏差,相应预测得到的治疗费用或理赔费用的准确度较低,进而导致针对医疗保险理赔的风险管控效果较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升针对医疗保险理赔的风险管控效果的医疗理赔数据预测系统。
一种医疗理赔数据预测系统,所述系统包括:
目标聚类簇数确定模块,用于基于根据训练数据集训练得到的主题生成模型,确定各类所述疾病的目标聚类簇数N;所述目标聚类簇数N为常数;
概率分布计算模块,用于将每类疾病对应的全部治疗方案属性数据确定为N个聚类,并获取针对每类疾病预设的类别标签,基于所述N个聚类计算每类疾病的类别标签的概率分布;
目标治疗方案标签确定模块,用于根据所述每类疾病的类别标签的概率分布,确定出对应疾病的目标治疗方案标签;
预测理赔数据生成模块,用于基于所确定的目标治疗方案标签进行理赔费用预估,生成对应的预测理赔数据。
在其中一个实施例中,所述系统还包括训练数据集生成模块,包括:
诊疗数据模块,用于从医保数据中获取每类疾病对应的不同患者的诊疗记录;
治疗方案属性数据获取模块,用于从所述诊疗记录中提取针对每类疾病且不同患者的治疗方案属性数据;所述治疗方案属性数据包括治疗过程的明细数据;
治疗方案属性数据预处理模块,用于对所述治疗方案属性数据进行预处理,生成训练数据集;所述训练数据集存储于区块链中;所述预处理包括去重处理、异常值处理以及缺失值处理。
在其中一个实施例中,所述系统还包括主题生成模型训练模块,包括:
预设主题个数取值区间获取模块,用于获取预设主题个数取值区间;
候选主题个数确定模块,用于遍历所述预设主题个数取值区间内每一个取值对应的主题个数,确定出多个候选主题个数;
初始主题数确定模块,用于将各所述候选主题个数确定为原始主题生成模型对应的初始主题数;
候选主题生成模型生成模块,用于根据所述训练数据集对携带不同候选主题个数的原始主题生成模型,进行训练,生成候选主题生成模型;
类别标签设置模块,用于基于所述候选主题生成模型,对所述训练数据集中各条数据进行分类,并针对不同分类下的训练数据集分别设置对应的类别标签;
比值计算模块,用于基于已设置所述类别标签的所述训练数据集,计算各所述候选主题生成模型在所述训练数据集上的类间距和类内距的比值;
目标主题生成模型确定模块,用于提取出所述比值最大的候选主题生成模型,确定为训练后的目标主题生成模型。
在其中一个实施例中,所述目标聚类簇数确定模块,包括:
主题数获取模块,用于获取训练后的各所述目标主题生成模型的主题数;
疾病获取模块,用于获取具有与所述主题数相同的类别标签数量对应的疾病,将所述主题数确定为该疾病对应的目标聚类簇数。
在其中一个实施例中,所述概率分布计算模块,包括:
聚类模块,用于根据所述类别标签,将每类疾病对应的全部治疗方案属性数据进行聚类,得到N个聚类;
占比计算模块,用于基于得到的所述N个聚类,计算各疾病的不同类别标签在全部治疗方案属性数据中的占比;
概率分布确定模块,用于根据所述占比的取值,确定各所述类别标签在全部治疗方案属性数据中的概率分布。
在其中一个实施例中,所述目标治疗方案标签确定模块,包括:
类别标签确定模块,用于从每类疾病的类别标签在对应的治疗方案属性数据中的概率分布中,确定出占比最大的类别标签;
目标指令方案标签生成模块,用于将所述占比最大的类别标签确定为对应疾病的目标治疗方案标签。
在其中一个实施例中,所述预测理赔数据生成模块,包括:
预估治疗费用计算模块,用于基于所述目标治疗方案标签进行治疗费用预估,计算对应的预估治疗费用;
合理医疗费用预测模型获取模块,用于获取根据历史治疗方案标签对应的历史治疗费用训练得到的合理医疗费用预测模型;
预测理赔数据确定模块,用于基于所述合理医疗费用预测模型,根据所述预估治疗费用,确定与所述目标治疗方案标签对应的预测理赔数据;所述预测理赔数据可存储于区块链中。
在其中一个实施例中,所述系统还包括理赔风控模块,包括:
合理费用区间确定模块,用于根据所述预测理赔数据,确定各待理赔案件的合理费用区间;
高风险理赔案件识别模块,用于根据所述合理费用区间,对高风险理赔案件进行识别;
高风险理赔案件滤除模块,用于滤除所述高风险理赔案件,实现理赔风控。
在其中一个实施例中,所述主题生成模型训练模块,还包括:
数据属性信息获取模块,用于获取所述训练数据集的数据属性信息;
全量训练数据集获取模块,用于当根据所述数据属性信息确定所述训练数据集为抽样数据集时,从所述医保数据中获取全量训练数据集;
目标主题生成模型更新模块,用于根据所述全量训练数据集和所述目标主题生成模型对应的主题数,对所述目标主题生成模型重新进行训练,生成更新后的目标主题生成模型。
在其中一个实施例中,所述训练数据集生成模块,还包括:
记录日志信息获取模块,用于获取所述诊疗记录对应的记录日志信息;
诊疗记录类别确定模块,用于根据所述记录日志信息确定所述诊疗记录的类别;所述诊疗记录类别包括门诊记录和住院记录;
训练数据集构建模块,用于基于所述诊疗记录的不同类别分别构建对应的训练数据集;所述数据集包括门诊训练数据集以及住院训练数据集。
上述医疗理赔数据预测系统中,通过目标聚类簇数确定模块,实现基于根据训练数据集训练得到的主题生成模型,确定各类疾病的目标聚类簇数N。根据概率分布计算模块,实现将每类疾病对应的全部治疗方案属性数据确定为N个聚类,并获取针对每类疾病预设的类别标签,基于N个聚类计算每类疾病的类别标签的概率分布。利用目标治疗方案预测模块,实现根据每类疾病的类别标签的概率分布,确定出对应疾病的目标标签,并将目标标签确定为对应疾病的目标治疗方案。根据预测理赔数据生成模块,可实现基于所确定的目标治疗方案进行理赔费用预估,生成对应的预测理赔数据。通过考虑不同疾病的所有治疗方案,并利用类别标签对同一疾病的不同治疗方案进行区分,提供准确度更高的预测治疗方案标签,从而根据预测方案标签确定出精准度更高的理赔费用,避免出现患者实际治疗费用和预测得到理赔费用差距较大,或遗漏高风险理赔案件的情况,进而可提升针对医疗案件理赔的风险管控效果。
附图说明
图1为一个实施例中医疗理赔数据预测系统的结构框图;
图2为另一个实施例中医疗理赔数据预测系统的结构框图;
图3为再一个实施例中医疗理赔数据预测系统的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种医疗理赔数据预测系统的结构框图,参照图1所示,本实施例中的医疗理赔数据预测系统具体包括以下模块:目标聚类簇数确定模块102、概率分布计算模块104、目标治疗方案标签确定模块106以及预测理赔数据生成模块108,其中:
目标聚类簇数确定模块102,用于基于根据训练数据集训练得到的主题生成模型,确定各类疾病的目标聚类簇数N,其中,目标聚类簇数N为常数。
具体地,目标聚类簇数确定模块102通过获取训练后的各目标主题生成模型的主题数,并获取具有与主题数相同的类别标签数量对应的疾病,进而将所确定的目标主题生成模型的主题数,确定为该疾病对应的目标聚类簇数。
其中,主题生成模型即LDA文本主题生成模型,包含词、主题和文档三层结构,可以用来识别大规模文档集或语料库中的主题信息。通过将每个文本数据确定为相对应的词向量,实现将文本信息转化成数字信息。其中,多条文本数据可表示不同主题所构成的概率分布,而每一个主题可代表多个词单元所构成的概率分布。
概率分布计算模块104,用于将每类疾病对应的全部治疗方案属性数据确定为N个聚类,并获取针对每类疾病预设的类别标签,基于N个聚类计算每类疾病的类别标签的概率分布。
具体地,概率分布计算模块104通过获取类别标签,并根据类别标签将每类疾病对应的全部治疗方案属性数据进行聚类,得到N个聚类。进而基于得到的N个聚类,计算各疾病的不同类别标签在全部治疗方案属性数据中的占比,从而根据占比的取值,确定各类别标签在全部治疗方案属性数据中的概率分布。
其中,由于每类疾病对于不同患者均存储有相应的诊疗记录,并可根据诊疗记录获取相应的治疗方案。其中,每个治疗方案包括多个项目,比如药品、检查、化验以及手术等项目,每个项目对应为一个治疗向量,根据每种疾病的各治疗向量,对每种疾病的对应的全部治疗方案属性数据进行聚类,聚类簇数为根据训练后的主题生成模型确定对应疾病的目标聚类簇数N。
进一步地,针对每类疾病预设有类别标签,类别标签即表示对每种疾病的不同治疗方案设置的分组,每个分组的治疗方案相同,该类别标签的数量可根据实际进行调整。其中,类别标签的数量或者分组数量与目标主题生成模型的主题数对应。进而根据设置的类别标签,对每种疾病对应的所有治疗方案属性数据进行聚类,并基于得到的N个聚类,可计算得到各类疾病不同的分组在所有治疗方案属性数据中的占比,根据对应的占比大小确定分组对应的类别标签在全部治疗方案属性数据中的概率分布。
在一个实施例中,比如针对高血压这类疾病,根据目标主题生成模型的主题数确定的类别标签有10种,即表示存在10种不同的治疗方案,根据10个类别标签对应的全部治疗方案属性数据进行聚类,得到10个聚类,基于所生成的10个聚类,计算每个类别标签在全部治疗方案属性数据中的占比,进而根据每个类别标签的占比大小,确定每个类别标签在全部治疗方案属性数据中的概率分布。
目标治疗方案标签确定模块106,用于根据每类疾病的类别标签的概率分布,确定出对应疾病的目标治疗方案标签。
具体地,目标治疗方案标签确定模块106通过从每类疾病的类别标签在对应的治疗方案属性数据中的概率分布中,确定出占比最大的类别标签,并将占比最大的类别标签确定为对应疾病的目标治疗方案标签。
进一步地,以其中一类疾病为高血压为例,根据目标主题生成模型的主题数确定的类别标签有10种,即存在10种不同的治疗方案,从该疾病的10个类别标签在对应的治疗方案属性数据中的概率分布中,确定出其中一个类别标签的占比最大,则将该类别标签确定为10个类别标签中与高血压疾病对应的目标治疗方案标签。
预测理赔数据生成模块108,用于基于所确定的目标治疗方案标签进行理赔费用预估,生成对应的预测理赔数据,预测理赔数据可存储于区块链中。
具体地,预测理赔数据生成模块108通过基于目标治疗方案标签进行治疗费用预估,计算得到对应的预估治疗费用,并获取根据历史治疗方案标签对应的历史治疗费用训练得到的合理医疗费用预测模型。进而基于合理医疗费用预测模型,根据预估治疗费用,确定与目标治疗方案标签对应的预测理赔数据。
其中,合理医疗费用预测模型是基于已有的历史治疗方案标签对应的历史治疗费用训练得到,根据针对不同疾病的已有历史治疗方案标签对应的历史治疗费用,对初始预测模型进行训练。具体来说,是通过将不同疾病的历史治疗费用作为初始预测模型的输入,对初始预测模型的模型参数进行训练和优化,确定出最优模型参数,进而得到训练后的合理医疗费用预测模型。
需要强调的是,为进一步保证上述预测理赔数据的私密和安全性,上述预测理赔数据还可以存储于一区块链的节点中。
上述医疗理赔数据预测系统中,通过目标聚类簇数确定模块,实现基于根据训练数据集训练得到的主题生成模型,确定各类疾病的目标聚类簇数N。根据概率分布计算模块,实现将每类疾病对应的全部治疗方案属性数据确定为N个聚类,并获取针对每类疾病预设的类别标签,基于N个聚类计算每类疾病的类别标签的概率分布。利用目标治疗方案预测模块,实现根据每类疾病的类别标签的概率分布,确定出对应疾病的目标标签,并将目标标签确定为对应疾病的目标治疗方案。根据预测理赔数据生成模块,可实现基于所确定的目标治疗方案进行理赔费用预估,生成对应的预测理赔数据。通过考虑不同疾病的所有治疗方案,并利用类别标签对同一疾病的不同治疗方案进行区分,提供准确度更高的预测治疗方案,从而根据预测方案确定出精准度更高的理赔费用,避免出现患者实际治疗费用和预测得到理赔费用差距较大,或遗漏高风险理赔案件的情况,进而可提升针对医疗案件理赔的风险管控效果。
在一个实施例中,如图2所示,提供了另一种医疗理赔数据预测系统的结构框图,参照图2所示,本实施例中的医疗理赔数据预测系统,具体包括以下模块:训练数据集生成模块202、主题生成模型训练模块204、目标聚类簇数确定模块206、概率分布计算模块208、目标治疗方案标签确定模块210、预测理赔数据生成模块212以及理赔风控模块214,其中:
训练数据集生成模块202,包括:
诊疗数据模块,用于从医保数据中获取每类疾病对应的不同患者的诊疗记录;
治疗方案属性数据获取模块,用于从诊疗记录中提取针对每类疾病且不同患者的治疗方案属性数据;治疗方案属性数据包括治疗过程的明细数据;
治疗方案属性数据预处理模块,用于对治疗方案属性数据进行预处理,生成训练数据集;训练数据集存储于区块链中;预处理包括去重处理、异常值处理以及缺失值处理。
具体地,训练数据集生成模块202通过从医保数据中,获取每类疾病对应的不同患者的诊疗记录,进而从诊疗记录中提取针对每类疾病且不同患者的治疗方案属性数据。其中,治疗方案属性数据包括药品、检查检验、手术等明细数据,并对所获取的治疗方案属性数据进行预处理,包括去重处理、异常值处理以及缺失值处理等,生成训练数据集,其中,训练数据集可存储于区块链中。
在一个实施例中,训练数据集生成模块202,还包括:记录日志信息获取模块,用于获取诊疗记录对应的记录日志信息;
诊疗记录类别确定模块,用于根据记录日志信息确定诊疗记录的类别;诊疗记录类别包括门诊记录和住院记录;
训练数据集构建模块,用于基于诊疗记录的不同类别分别构建对应的训练数据集;数据集包括门诊训练数据集以及住院训练数据集。
具体地,针对训练数据集的构建,由于相同疾病在门诊和住院过程中病情严重程度不一致,采用治疗方案差异较大,则需要针对门诊记录和住院记录分别构建对应的训练数据集,包括门诊训练数据集的构建,以及住院训练数据集的构建,分别得到门诊训练数据集和住院训练数据集。
在一个实施例中,如图3所示,主题生成模型训练模块204,包括:预设主题个数取值区间获取模块302、候选主题个数确定模块304、初始主题数确定模块306、候选主题生成模型生成模块308、类别标签设置模块310、比值计算模块312以及目标主题生成模型确定模块314,其中:
预设主题个数取值区间获取模块302,用于获取预设主题个数取值区间;
候选主题个数确定模块304,用于遍历预设主题个数取值区间内每一个取值对应的主题个数,确定出多个候选主题个数;
初始主题数确定模块306,用于将各候选主题个数确定为原始主题生成模型对应的初始主题数;
候选主题生成模型生成模块308,用于根据训练数据集对携带不同候选主题个数的原始主题生成模型,进行训练,生成候选主题生成模型;
类别标签设置模块310,用于基于候选主题生成模型,对训练数据集中各条数据进行分类,并针对不同分类下的训练数据集分别设置对应的类别标签;
比值计算模块312,用于基于已设置类别标签的训练数据集,计算各候选主题生成模型在训练数据集上的类间距和类内距的比值;
目标主题生成模型确定模块314,用于提取出比值最大的候选主题生成模型,确定为训练后的目标主题生成模型。
具体地,主题生成模型训练模块204,通过获取预设主题个数取值区间,并获取该取值区间中每一个取值对应的主题数,通过遍历主题个数取值区间内每一个取值对应的主题个数,确定出多个候选主题个数,并将各候选主题个数确定为原始主题生成模型对应的初始主题数。
其中,根据门诊训练数据集和住院训练数据集,分别对不同主题数的原始主题生成模型进行训练,可得到和门诊训练数据集以及住院训练数据集对应的候选主题生成模型。
进一步地,聚类模型在数据集上的类间距和类内距的比值,即Calinski HarabazScore(简称C-H Score),用于评价该聚类模型的聚类效果。其中,通过对聚类个数加入惩罚项,当C-H Score的值越大,意味着该聚类模型用相对较少的聚类个数获得较大的类间距和较小的类内距,即聚类模型效果较好。
其中,每一个候选主题生成模型的主题数,都有一个对应的C-H Score,通过选择C-H Score值最大的候选主题生成模型对应的主题个数,作为训练后的目标主题生成模型最优的主题个数,即将C-H Score值最大的候选主题生成模型,确定为训练后的目标主题生成模型。
理赔风控模块214,包括:
合理费用区间确定模块,用于根据预测理赔数据,确定各待理赔案件的合理费用区间;
高风险理赔案件识别模块,用于根据合理费用区间,对高风险理赔案件进行识别;
高风险理赔案件滤除模块,用于滤除高风险理赔案件,实现理赔风控。
进一步地,通过将识别出的高风险理赔案件进行滤除,即已理赔的高风险案件应进行标注,并将同类型的待理赔案件进行滤除,同样地,针对待理赔案件中的高风险理赔案件也许进行滤除操作,以避免出现预测得到的治疗费用和相应理赔费用差距较大的问题,实现理赔风险管控。
上述医疗理赔数据预测系统中,通过训练数据集生成模块,从不同患者的诊疗记录中提取针对每类疾病且不同患者的治疗方案属性数据,并对治疗方案属性数据进行预处理,生成训练数据集。根据主题生成模型训练模块,遍历预设主题个数取值区间内每一个取值对应的主题个数,确定出多个候选主题个数,并根据训练数据集对携带不同候选主题个数的原始主题生成模型进行训练,生成候选主题生成模型。进而针对不同分类下的训练数据集分别设置对应的类别标签,基于已设置类别标签的训练数据集,计算各候选主题生成模型在训练数据集上的类间距和类内距的比值,并提取出比值最大的候选主题生成模型,确定为训练后的目标主题生成模型。利用理赔风控模块实现根据预测理赔数据,确定各待理赔案件的合理费用区间,根据合理费用区间,对高风险理赔案件进行识别并滤除,实现理赔风控。该系统基于训练后的目标主题生成模型,进行理赔数据预测,并对高风险理赔案件进行识别和滤除,可避免出现预测得到的治疗费用和相应理赔费用差距较大的问题,进而提升针对医疗案件理赔的风险管控效果。
在一个实施例中,主题生成模型训练模块,还包括:
数据属性信息获取模块,用于获取训练数据集的数据属性信息;
全量训练数据集获取模块,用于当根据数据属性信息确定训练数据集为抽样数据集时,从医保数据中获取全量训练数据集;
目标主题生成模型更新模块,用于根据全量训练数据集和目标主题生成模型对应的主题数,对目标主题生成模型重新进行训练,生成更新后的目标主题生成模型。
具体地,当选择抽样数据进行原始主题生成模型进行训练时,还需从医保数据中获取全量训练数据集,并根据全量训练数据集和目标主题生成模型对应的主题数,也可理解为最优主题个数,重新对目标主题生成模型进行训练,实现目标主题生成模型的更新。
进一步地,本实施例中,需要考虑训练数据集所有的数据,同时结合根据抽样数据进行训练确定得到的最优主题数,再次对目标主题生成模型进行训练,实现目标主题生成模型的更新,以保证原始主题生成模型训练数据的全面性,进而提升得到的目标主题生成模型的精准度。
上述主题生成模型训练模块中,根据数据属性信息获取模块,获取训练数据集的数据属性信息,根据全量训练数据集获取模块,实现当根据数据属性信息确定训练数据集为抽样数据集时,从医保数据中获取全量训练数据集。根据目标主题生成模型更新模块,实现根据全量训练数据集和目标主题生成模型对应的主题数,对目标主题生成模型重新进行训练,生成更新后的目标主题生成模型。实现了目标主题生成模型的更新,以保证原始主题生成模型训练数据的全面性,进而提升得到的目标主题生成模型的精准度。
可以理解的是,上述医疗理赔数据预测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗理赔数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗理赔数据预测系统的各模块可实现的步骤。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例的系统中各模块可实现的步骤,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述实施例的系统中各模块可实现的步骤。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种医疗理赔数据预测系统,所述系统包括:
目标聚类簇数确定模块,用于基于根据训练数据集训练得到的主题生成模型,确定各类所述疾病的目标聚类簇数N;所述目标聚类簇数N为常数;
概率分布计算模块,用于将每类疾病对应的全部治疗方案属性数据确定为N个聚类,并获取针对每类疾病预设的类别标签,基于所述N个聚类计算每类疾病的类别标签的概率分布;
目标治疗方案标签确定模块,用于根据所述每类疾病的类别标签的概率分布,确定出对应疾病的目标治疗方案标签;
预测理赔数据生成模块,用于基于所确定的目标治疗方案标签进行理赔费用预估,生成对应的预测理赔数据。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括训练数据集生成模块,包括:
诊疗数据模块,用于从医保数据中获取每类疾病对应的不同患者的诊疗记录;
治疗方案属性数据获取模块,用于从所述诊疗记录中提取针对每类疾病且不同患者的治疗方案属性数据;所述治疗方案属性数据包括治疗过程的明细数据;
治疗方案属性数据预处理模块,用于对所述治疗方案属性数据进行预处理,生成训练数据集;所述训练数据集存储于区块链中;所述预处理包括去重处理、异常值处理以及缺失值处理。
3.根据权利要求2所述的系统,其特征在于,所述系统还包括主题生成模型训练模块,包括:
预设主题个数取值区间获取模块,用于获取预设主题个数取值区间;
候选主题个数确定模块,用于遍历所述预设主题个数取值区间内每一个取值对应的主题个数,确定出多个候选主题个数;
初始主题数确定模块,用于将各所述候选主题个数确定为原始主题生成模型对应的初始主题数;
候选主题生成模型生成模块,用于根据所述训练数据集对携带不同候选主题个数的原始主题生成模型,进行训练,生成候选主题生成模型;
类别标签设置模块,用于基于所述候选主题生成模型,对所述训练数据集中各条数据进行分类,并针对不同分类下的训练数据集分别设置对应的类别标签;
比值计算模块,用于基于已设置所述类别标签的所述训练数据集,计算各所述候选主题生成模型在所述训练数据集上的类间距和类内距的比值;
目标主题生成模型确定模块,用于提取出所述比值最大的候选主题生成模型,确定为训练后的目标主题生成模型。
4.根据权利要求3所述的系统,其特征在于,所述目标聚类簇数确定模块,包括:
主题数获取模块,用于获取训练后的各所述目标主题生成模型的主题数;
疾病获取模块,用于获取具有与所述主题数相同的类别标签数量对应的疾病,将所述主题数确定为该疾病对应的目标聚类簇数。
5.根据权利要求4所述的系统,其特征在于,所述概率分布计算模块,包括:
聚类模块,用于根据所述类别标签,将每类疾病对应的全部治疗方案属性数据进行聚类,得到N个聚类;
占比计算模块,用于基于得到的所述N个聚类,计算各疾病的不同类别标签在全部治疗方案属性数据中的占比;
概率分布确定模块,用于根据所述占比的取值,确定各所述类别标签在全部治疗方案属性数据中的概率分布。
6.根据权利要求5所述的系统,其特征在于,所述目标治疗方案标签确定模块,包括:
类别标签确定模块,用于从每类疾病的类别标签在对应的治疗方案属性数据中的概率分布中,确定出占比最大的类别标签;
目标指令方案标签生成模块,用于将所述占比最大的类别标签确定为对应疾病的目标治疗方案标签。
7.根据权利要求1所述的系统,其特征在于,所述预测理赔数据生成模块,包括:
预估治疗费用计算模块,用于基于所述目标治疗方案标签进行治疗费用预估,计算对应的预估治疗费用;
合理医疗费用预测模型获取模块,用于获取根据历史治疗方案标签对应的历史治疗费用训练得到的合理医疗费用预测模型;
预测理赔数据确定模块,用于基于所述合理医疗费用预测模型,根据所述预估治疗费用,确定与所述目标治疗方案标签对应的预测理赔数据;所述预测理赔数据可存储于区块链中。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括理赔风控模块,包括:
合理费用区间确定模块,用于根据所述预测理赔数据,确定各待理赔案件的合理费用区间;
高风险理赔案件识别模块,用于根据所述合理费用区间,对高风险理赔案件进行识别;
高风险理赔案件滤除模块,用于滤除所述高风险理赔案件,实现理赔风控。
9.根据权利要求3所述的系统,其特征在于,所述主题生成模型训练模块,还包括:
数据属性信息获取模块,用于获取所述训练数据集的数据属性信息;
全量训练数据集获取模块,用于当根据所述数据属性信息确定所述训练数据集为抽样数据集时,从所述医保数据中获取全量训练数据集;
目标主题生成模型更新模块,用于根据所述全量训练数据集和所述目标主题生成模型对应的主题数,对所述目标主题生成模型重新进行训练,生成更新后的目标主题生成模型。
10.根据权利要求2所述的系统,其特征在于,所述训练数据集生成模块,还包括:记录日志信息获取模块,用于获取所述诊疗记录对应的记录日志信息;
诊疗记录类别确定模块,用于根据所述记录日志信息确定所述诊疗记录的类别;所述诊疗记录类别包括门诊记录和住院记录;
训练数据集构建模块,用于基于所述诊疗记录的不同类别分别构建对应的训练数据集;所述数据集包括门诊训练数据集以及住院训练数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011033070.9A CN112132624A (zh) | 2020-09-27 | 2020-09-27 | 医疗理赔数据预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011033070.9A CN112132624A (zh) | 2020-09-27 | 2020-09-27 | 医疗理赔数据预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112132624A true CN112132624A (zh) | 2020-12-25 |
Family
ID=73840797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011033070.9A Pending CN112132624A (zh) | 2020-09-27 | 2020-09-27 | 医疗理赔数据预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132624A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992377A (zh) * | 2021-03-03 | 2021-06-18 | 深圳市儿童医院 | 药物治疗结果预测模型生成方法、装置、终端及存储介质 |
CN113450922A (zh) * | 2021-06-29 | 2021-09-28 | 平安养老保险股份有限公司 | 基于账单获取疾病类型的方法、装置、计算机设备及存储介质 |
CN113643776A (zh) * | 2021-08-31 | 2021-11-12 | 平安医疗健康管理股份有限公司 | 基于分层计算的患者标记方法、装置、设备及存储介质 |
CN113705930A (zh) * | 2021-09-16 | 2021-11-26 | 平安医疗健康管理股份有限公司 | 基于模型的费用预测方法、装置、计算机设备及存储介质 |
CN113724095A (zh) * | 2021-08-31 | 2021-11-30 | 平安养老保险股份有限公司 | 图片信息预测方法、装置、计算机设备及存储介质 |
CN116259396A (zh) * | 2022-05-11 | 2023-06-13 | 四川大学华西医院 | 基于机器学习的治疗费用预测方法、系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818334A (zh) * | 2017-09-29 | 2018-03-20 | 北京邮电大学 | 一种移动互联网用户访问模式表征和聚类方法 |
CN108876636A (zh) * | 2018-06-19 | 2018-11-23 | 平安健康保险股份有限公司 | 理赔智能风控方法、系统、计算机设备及存储介质 |
CN108898316A (zh) * | 2018-07-02 | 2018-11-27 | 平安健康保险股份有限公司 | 理赔费用预警方法及系统 |
CN109726394A (zh) * | 2018-12-18 | 2019-05-07 | 电子科技大学 | 基于融合btm模型的短文本主题聚类方法 |
CN110364264A (zh) * | 2019-06-24 | 2019-10-22 | 南京理工大学 | 基于子空间学习的医疗数据集特征降维方法 |
-
2020
- 2020-09-27 CN CN202011033070.9A patent/CN112132624A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818334A (zh) * | 2017-09-29 | 2018-03-20 | 北京邮电大学 | 一种移动互联网用户访问模式表征和聚类方法 |
CN108876636A (zh) * | 2018-06-19 | 2018-11-23 | 平安健康保险股份有限公司 | 理赔智能风控方法、系统、计算机设备及存储介质 |
CN108898316A (zh) * | 2018-07-02 | 2018-11-27 | 平安健康保险股份有限公司 | 理赔费用预警方法及系统 |
CN109726394A (zh) * | 2018-12-18 | 2019-05-07 | 电子科技大学 | 基于融合btm模型的短文本主题聚类方法 |
CN110364264A (zh) * | 2019-06-24 | 2019-10-22 | 南京理工大学 | 基于子空间学习的医疗数据集特征降维方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992377A (zh) * | 2021-03-03 | 2021-06-18 | 深圳市儿童医院 | 药物治疗结果预测模型生成方法、装置、终端及存储介质 |
CN113450922A (zh) * | 2021-06-29 | 2021-09-28 | 平安养老保险股份有限公司 | 基于账单获取疾病类型的方法、装置、计算机设备及存储介质 |
CN113450922B (zh) * | 2021-06-29 | 2024-04-12 | 平安养老保险股份有限公司 | 基于账单获取疾病类型的方法、装置、计算机设备及存储介质 |
CN113643776A (zh) * | 2021-08-31 | 2021-11-12 | 平安医疗健康管理股份有限公司 | 基于分层计算的患者标记方法、装置、设备及存储介质 |
CN113724095A (zh) * | 2021-08-31 | 2021-11-30 | 平安养老保险股份有限公司 | 图片信息预测方法、装置、计算机设备及存储介质 |
CN113724095B (zh) * | 2021-08-31 | 2023-09-05 | 平安养老保险股份有限公司 | 图片信息预测方法、装置、计算机设备及存储介质 |
CN113705930A (zh) * | 2021-09-16 | 2021-11-26 | 平安医疗健康管理股份有限公司 | 基于模型的费用预测方法、装置、计算机设备及存储介质 |
CN116259396A (zh) * | 2022-05-11 | 2023-06-13 | 四川大学华西医院 | 基于机器学习的治疗费用预测方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132624A (zh) | 医疗理赔数据预测系统 | |
US11615288B2 (en) | Secure broker-mediated data analysis and prediction | |
WO2021180242A1 (zh) | 诊断数据异常检测方法、装置、计算机设备及存储介质 | |
CN111339126A (zh) | 医疗数据筛选方法、装置、计算机设备和存储介质 | |
US20120109683A1 (en) | Method and system for outcome based referral using healthcare data of patient and physician populations | |
CN112017789B (zh) | 分诊数据处理方法、装置、设备及介质 | |
CN109036545B (zh) | 医疗信息处理方法、装置、计算机设备和存储介质 | |
US11915127B2 (en) | Prediction of healthcare outcomes and recommendation of interventions using deep learning | |
CN111145910A (zh) | 基于人工智能的异常案例识别方法、装置、计算机设备 | |
CN109887562B (zh) | 电子病历的相似度确定方法、装置、设备和存储介质 | |
CN111767707A (zh) | 雷同病例检测方法、装置、设备及存储介质 | |
CN112016318B (zh) | 基于解释模型的分诊信息推荐方法、装置、设备及介质 | |
CN110875093A (zh) | 治疗方案的处理方法、装置、设备及存储介质 | |
CN112216361A (zh) | 基于人工智能的随访计划单生成方法、装置、终端及介质 | |
CN112151141A (zh) | 医疗数据处理方法、装置、计算机设备和存储介质 | |
Duggal et al. | Impact of selected pre-processing techniques on prediction of risk of early readmission for diabetic patients in India | |
WO2021190661A1 (zh) | 一种数据处理系统、方法、装置及存储介质 | |
WO2017017554A1 (en) | Reliability measurement in data analysis of altered data sets | |
CN112017745A (zh) | 决策信息推荐、药物信息推荐方法、装置、设备及介质 | |
CN115794958B (zh) | 一种基于区块链的医疗数据共享方法、装置以及系统 | |
CN110752027B (zh) | 电子病历数据推送方法、装置、计算机设备和存储介质 | |
CN110808095B (zh) | 诊断结果识别、模型训练的方法、计算机设备及存储介质 | |
CN112447270A (zh) | 一种用药推荐方法、装置、设备及存储介质 | |
CN108122005B (zh) | 一种临床药物层次分类的方法 | |
CN111429289B (zh) | 单病种识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220520 Address after: 518048 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201225 |