CN112132625A - 基于健康风险的医疗支出费用预测系统 - Google Patents
基于健康风险的医疗支出费用预测系统 Download PDFInfo
- Publication number
- CN112132625A CN112132625A CN202011035028.0A CN202011035028A CN112132625A CN 112132625 A CN112132625 A CN 112132625A CN 202011035028 A CN202011035028 A CN 202011035028A CN 112132625 A CN112132625 A CN 112132625A
- Authority
- CN
- China
- Prior art keywords
- word
- module
- training
- attribute information
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000036541 health Effects 0.000 title claims abstract description 90
- 239000013598 vector Substances 0.000 claims abstract description 140
- 201000010099 disease Diseases 0.000 claims abstract description 107
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 107
- 238000012549 training Methods 0.000 claims abstract description 97
- 238000013058 risk prediction model Methods 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims description 39
- 238000010276 construction Methods 0.000 claims description 14
- 238000000611 regression analysis Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000000366 juvenile effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及大数据处理,提供了一种基于健康风险的医疗支出费用预测系统,所述系统包括:信息离散模块,用于对个人属性信息和疾病信息进行离散化得到词单元。词向量生成模块,用于根据训练文本训练得到各词单元的词向量。个人健康风险预测模型构建模块,用于基于个人属性信息词向量和疾病信息词向量构建个人健康风险预测模型。医疗费用支出预测模型训练模块,用于根据个人健康风险预测模型的输出结果和实际医疗费用,训练得到医疗费用支出预测模型。医疗费用支出预测模块,用于根据医疗费用支出预测模型输出医疗支出预测费用。本申请还涉及区块链技术,本系统通过关联个人健康风险和预测支出费用,提高对医疗支出费用的预测准确度,降低理赔风险。
Description
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种基于健康风险的医疗支出费用预测系统。
背景技术
随着大数据处理技术的日益发展,以及人们生活水平的提高,越来越多人注重健康管理,包括定时进行个人健康检查以及购买相应健康保险等,而个人健康数据和健康保险数据也日益增多。对于医疗保险机构而言,同样需要对医疗保险客户的个人健康状况进行关注,并对与个人健康风险密切关联的医疗费用支出进行预测和估算,实现事前健康风险管理以及特定风险人群的筛选,以降低与医疗保险客户的实际医疗支出对应的理赔费用。
传统上,常使用one-hot对分类变量进行编码,其中,one-hot编码又称“独热编码”,是利用N位状态寄存器编码N个状态,每个状态都有独立的寄存器位。但由于这些寄存器位中在任意时候只有一位有效,即表示仅有一个状态,则包含的信息量较少,得到的向量是二进制的、稀疏的且维度较高的向量,无法表述相关词背后的语意,进而也无法体现个人健康风险和医疗支出费用间的关联关系,导致对医疗支出费用的预测结果准确度较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升医疗支出费用预测结果的准确度的基于健康风险的医疗费用支出预测系统。
一种基于健康风险的医疗支出费用预测系统,其特征在于,所述系统包括:
信息离散模块,用于获取用户的个人属性信息和预设周期内的疾病信息,并将所述个人属性信息和所述疾病信息分别进行离散化,得到对应的词单元;
词向量生成模块,用于根据预设获取时间段内的用户历史属性信息构建得到训练文本,并根据所述训练文本训练得到各词单元的词向量;所述词向量包括个人属性信息词向量和疾病信息词向量;
个人健康风险预测模型构建模块,用于基于个人属性信息词向量和疾病信息词向量,构建得到个人健康风险预测模型;
医疗费用支出预测模型训练模块,用于获取预设周期内的实际医疗费用和所述个人健康风险预测模型的输出结果,并根据所述个人健康风险预测模型的输出结果以及所述预设周期内的实际医疗费用,训练得到医疗费用支出预测模型;
医疗费用支出预测模块,用于根据所述医疗费用支出预测模型,输出得到对应的医疗支出预测费用。
在其中一个实施例中,所述词向量生成模块,包括:
用户历史属性信息获取模块,用于获取预设获取时间段内的用户历史属性信息;所述用户历史属性信息可存储于区块链中;
文本数据生成模块,用于将所述用户历史属性信息进行离散化,生成对应的文本数据;
训练文本生成模块,用于将所述文本数据确定为各所述词单元的训练文本;
训练模块,用于根据全局词向量模型对所述训练文本进行训练,生成与各所述词单元对应的词向量。
在其中一个实施例中,所述词向量生成模块,还包括:
词单元遍历模块,用于将所述训练文本作为基准,遍历根据离散化得到的个人属性信息词单元和疾病信息词单元;
公共关系检测模块,用于当检测到与所述训练文本存在具有公共性关系的关联词单元时,将各所述关联词单元确定为关联词组;
词向量训练模块,用于基于所述全局词向量模型,训练得到所述关联词组对应的词向量。
在其中一个实施例中,所述个人健康风险预测模型构建模块,包括:
个人健康向量生成模块,用于将所述个人属性信息词向量以及预设周期内的疾病信息词向量进行叠加,得到个人健康词向量;所述个人健康词向量用于预测得到该用户在下一预设周期内的疾病信息;
个人健康风险预测模型生成模块,用于将所述个人健康词向量作为输入,将下一预设周期内用户的疾病信息作为输出,对第一原始回归分析模型进行训练,构建得到个人健康风险预测模型。
在其中一个实施例中,所述医疗费用支出预测模型训练模块,包括:
患病概率确定模块,用于根据所述个人健康风险预测模型的输出结果,确定用户在下一预设周期内在每个疾病分组中的患病概率;所述疾病分组根据预设的分组器进行划分;
医疗费用支出预测模型生成模块,用于将下一预设周期内用户在每个疾病分组中的患病概率作为输入,将下一预设周期内用户的实际医疗支出费用作为输出,对第二原始回归模型进行训练,训练得到医疗费用支出预测模型。
在其中一个实施例中,所述词向量生成模块,还包括:
共同出现次数统计模块,用于统计所述关联词组内各所述关联词单元的共同出现次数;
共现矩阵构建模块,用于根据所述关联词单元的共同出现次数,构建得到共现矩阵;
词向量确定模块,用于根据所述共现矩阵确定共同出现的各所述关联词单元的相近程度,并将所述共现矩阵的行向量或列向量,确定为与各所述关联词单元对应的词向量。
在其中一个实施例中,所述信息离散模块,包括:
个人属性信息获取模块,用于获取用户的个人属性信息;所述个人属性信息包括性别、年龄组以及参保类型;
个人属性信息词单元生成模块,用于将所述个人属性信息离散化,生成个人属性信息词单元;
疾病信息获取模块,用于获取预设周期内用户的疾病信息;所述疾病信息包括疾病分类;
疾病信息词单元生成模块,用于将所述疾病信息离散化,生成疾病信息词单元;
其中,所述个人属性信息和所述预设周期内的用户的疾病信息可存储于区块链中。
在其中一个实施例中,所述词向量生成模块还包括:
空白矩阵构建模块,用于构建空白矩阵;
获取模块,用于获取预设的滑动窗口的大小和滑动步长;
滑动窗口滑动模块,用于从所述关联词单元中任意确定出初始词单元,按照所述滑动步长滑动所述滑动窗口;
预设中心词出现次数统计模块,用于统计所述滑动窗口内上下文环境中预设中心词的出现次数;所述预设中心词根据所述关联词单元确定得到,所述上下文环境包括处于所述滑动窗口中且分布在所述预设中心词两边的词单元;
共现矩阵构建模块,用于根据所述预设中心词的共同出现次数以及所述空白矩阵,构建得到共现矩阵。
在其中一个实施例中,所述词向量生成模块还包括:
词向量维数设置模块,用于根据预设维数要求设置词向量维数阈值;所述词向量维数,用于从多个维度对所述关联词单元对应的公共性关系进行表征;
窗口长度设置模块,用于获取训练文本单行长度,并根据所述训练文本单行长度设置所述滑动窗口的窗口长度;所述窗口长度大于所述训练文本单行长度;
词单元过滤模块,用于获取预设词频阈值,并根据所述预设词频阈值,滤除词频低于所述预设词频阈值的词单元。
在其中一个实施例中,所述医疗费用支出预测模型训练模块,还包括:
医疗通胀数据获取模块,用于在预设训练周期内实时获取医疗通胀数据;
实际医疗费用更新模块,用于根据所述医疗通胀数据对所述实际医疗费用进行更新。
上述基于健康风险的医疗支出费用预测系统中,根据信息离散模块获取用户的个人属性信息和预设周期内的疾病信息,并将个人属性信息和疾病信息分别进行离散化,得到对应的词单元。根据词向量生成模块实现根据预设获取时间段内的用户历史属性信息构建得到训练文本,并根据训练文本训练得到各词单元的词向量。根据个人健康风险预测模型构建模块实现基于个人属性信息词向量和疾病信息词向量,构建得到个人健康风险预测模型。根据医疗费用支出预测模型训练模块获取预设周期内的实际医疗费用和个人健康风险预测模型的输出结果,并根据个人健康风险预测模型的输出结果以及预设周期内的实际医疗费用,训练得到医疗费用支出预测模型。根据医疗费用支出预测模块实现根据医疗费用支出预测模型,输出得到对应的医疗支出预测费用。通过将费用预测相关的个人属性信息、疾病信息进行高维表示,进一步体现个人属性信息、疾病信息以及预测支出费用的关联关系,使得可事先健康关联风险控制。而根据个人疾病信息对特定风险人群进行筛选,提高对医疗支出费用的预测结果的准确度,并减少实际理赔支出,降低理赔风险。
附图说明
图1为一个实施例中基于健康风险的医疗支出费用预测系统的结构框图;
图2为另一个实施例中基于健康风险的医疗支出费用预测系统的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于健康风险的医疗支出费用预测系统的结构框图,参照图1所示,本实施例中的基于健康风险的医疗支出费用预测系统,具体包括以下模块:信息离散模块102、词向量生成模块104、个人健康风险预测模型构建模块106、医疗费用支出预测模型训练模块108以及医疗费用支出预测模块110,其中:
信息离散模块102,用于获取用户的个人属性信息和预设周期内的疾病信息,并将个人属性信息和疾病信息分别进行离散化,得到对应的词单元。
具体地,离散信息模块102,包括:
个人属性信息获取模块,用于获取用户的个人属性信息,个人属性信息包括性别、年龄组以及参保类型。
个人属性信息词单元生成模块,用于将个人属性信息离散化,生成个人属性信息词单元。
疾病信息获取模块,用于获取预设周期内用户的疾病信息;疾病信息包括疾病分类。
疾病信息词单元生成模块,用于将疾病信息离散化,生成疾病信息词单元;其中,个人属性信息和预设周期内的用户的疾病信息可存储于区块链中。
其中,预设时间段可根据实际应用场景或实际预测需求进行调整和修改,在本实施例中,预设时间段为3年,即需要获取用户在3年内的疾病信息。
词向量生成模块104,用于根据预设获取时间段内的用户历史属性信息构建得到训练文本,并根据训练文本训练得到各词单元的词向量;词向量包括个人属性信息词向量和疾病信息词向量。
具体地,词向量生成模块104,包括:
用户历史属性信息获取模块,用于获取预设获取时间段内的用户历史属性信息,用户历史属性信息可存储于区块链中。
文本数据生成模块,用于将用户历史属性信息进行离散化,生成对应的文本数据。
训练文本生成模块,用于将文本数据确定为各词单元的训练文本。
训练模块,用于根据全局词向量模型对训练文本进行训练,生成与各词单元对应的词向量。
进一步地,利用全局词向量模型即glove算法,对训练文本进行训练,可生成与个人属性信息词单元对应的个人属性信息词向量,以及与疾病信息词单元对应的疾病信息词向量。
其中,预设获取时间段可根据实际应用场景进行设置,用户历史属性信息即表示在预设获取时间段内用户的个人属性信息,包括历史年龄组和历史参保类型。其中,可照预设时间长度对用户年龄进行分组,得到不同的年龄组,可以包括少年组、青年组以及老年组等,预设时间长度可根据具体应用场景进行设置和调整。参保类型可包括医疗保险、养老保险、生育保险、工伤保险以及失业保险等。
个人健康风险预测模型构建模块106,用于基于个人属性信息词向量和疾病信息词向量,构建得到个人健康风险预测模型。
具体地,个人健康风险预测模型构建模块106,包括:
个人健康向量生成模块,用于将个人属性信息词向量以及预设周期内的疾病信息词向量进行叠加,得到个人健康词向量;个人健康词向量用于预测得到该用户在下一预设周期内的疾病信息。
个人健康风险预测模型生成模块,用于将个人健康词向量作为输入,将下一预设周期内用户的疾病信息作为输出,对第一原始回归分析模型进行训练,构建得到个人健康风险预测模型。
进一步地,个人健康词向量用于预测得到该用户在下一预设周期内的疾病信息。通过将个人健康词向量作为输入,将下一预设周期内用户的疾病信息,即用户第二年是否患有某个疾病分组中的疾病作为输出,对第一原始回归分析模型进行训练,生成个人健康风险预测模型。其中,第一原始回归模型为logistic模型,通过对原始回归分析模型进行训练,得到的个人健康风险预测模型,可根据个人健康词向量预测该用户未来一年患每个疾病分组中的疾病的概率。
其中,logistic模型即logistic回归分析模型,设置有“是”、“否”两个因变量,而自变量可以有多种,在本实施例中,自变量为根据个人属性信息词向量和疾病信息词向量叠加得到的个人健康词向量,通过将个人健康词向量作为原始回归分析模型的输入,进而可预测在不同的自变量情况下,即不同个人健康词向量情况下,发生某类疾病的概率大小。进而将用户第二年是否患有某个疾病分组中的疾病作为输出,对logistic回归分析模型进行训练,可得到训练后的个人健康风险预测模型。
医疗费用支出预测模型训练模块108,用于获取预设周期内的实际医疗费用和个人健康风险预测模型的输出结果,并根据个人健康风险预测模型的输出结果以及预设周期内的实际医疗费用,训练得到医疗费用支出预测模型。
具体地,医疗费用支出预测模型训练模块108,包括:
患病概率确定模块,用于根据个人健康风险预测模型的输出结果,确定用户在下一预设周期内在每个疾病分组中的患病概率。其中,疾病分组根据预设的分组器进行划分。
医疗费用支出预测模型生成模块,用于将下一预设周期内用户在每个疾病分组中的患病概率作为输入,将下一预设周期内用户的实际医疗支出费用作为输出,对第二原始回归模型进行训练,训练得到医疗费用支出预测模型。
进一步地,第二原始回归模型为lasso回归模型,lasso回归模型是以缩小变量集或者降阶的方式压缩估计方法,通过构造一个惩罚函数,强制系数绝对值之和小于某个固定值,同时设定一些回归系数为零,可以实现将变量的系数进行压缩并使某些回归系数变为0,进而达到变量选择的目的。在本实施例中,通过将下一预设周期内用户在每个疾病分组中的患病概率作为输入,同时下一预设周期内用户的实际医疗支出费用作为输出,对lasso回归模型进行训练,可得到训练后的医疗费用支出预测模型。
医疗费用支出预测模块110,用于根据医疗费用支出预测模型,输出得到对应的医疗支出预测费用。
具体地,通过获取医疗费用支出预测模型的输出结果,得到与个人属性信息以及疾病信息对应的医疗支出预测费用。
其中,基于数据质量较高、历史年份较长的医保数据训练得到个人属性信息、疾病信息词单元相应的词向量,该过程不需要反复训练,而基于已经训练好的词向量、个人属性信息以及预设获取时间段内的疾病信息,可得到个人健康词向量。
进一步地,医疗费用支出预测模型训练模块,还包括:
医疗通胀数据获取模块,用于在预设训练周期内实时获取医疗通胀数据。
实际医疗费用更新模块,用于根据医疗通胀数据对实际医疗费用进行更新。
其中,基于个人健康词向量与logistic回归模型可得到用户未来一年罹患疾病组各类疾病的概率,而基于个人健康词向量与未来一年内的患病概率,训练得到训练后的logistic回归模型较为稳定,未存在变化幅度大的变量,该logistic回归模型的过程不需要反复训练。而由于存在医疗通胀等因素,基于个人未来一年每个疾病分组上的患病概率分布与未来一年实际的医疗费用支出对lasso回归模型进行训练时,该过程需要在预设训练周期内反复训练,其中,主要将医疗通胀等因素集成到模型中,实现模型的更新。
需要强调的是,为进一步保证上述个人属性信息以及疾病信息的私密和安全性,上述个人属性信息以及疾病信息还可以存储于一区块链的节点中。
上述基于健康风险的医疗支出费用预测系统中,根据信息离散模块获取用户的个人属性信息和预设周期内的疾病信息,并将个人属性信息和疾病信息分别进行离散化,得到对应的词单元。根据词向量生成模块实现根据预设获取时间段内的用户历史属性信息构建得到训练文本,并根据训练文本训练得到各词单元的词向量。根据个人健康风险预测模型构建模块实现基于个人属性信息词向量和疾病信息词向量,构建得到个人健康风险预测模型。根据医疗费用支出预测模型训练模块获取预设周期内的实际医疗费用和个人健康风险预测模型的输出结果,并根据个人健康风险预测模型的输出结果以及预设周期内的实际医疗费用,训练得到医疗费用支出预测模型。根据医疗费用支出预测模块实现根据医疗费用支出预测模型,输出得到对应的医疗支出预测费用。通过将费用预测相关的个人属性信息、疾病信息进行高维表示,进一步体现个人属性信息、疾病信息以及预测支出费用的关联关系,使得可事先健康关联风险控制。而根据个人疾病信息对特定风险人群进行筛选,提高对医疗支出费用的预测结果的准确度,并减少实际理赔支出,降低理赔风险。
在一个实施例中,词向量生成模块还包括:
词单元遍历模块,用于将训练文本作为基准,遍历根据离散化得到的个人属性信息词单元和疾病信息词单元。
公共关系检测模块,用于当检测到与训练文本存在具有公共性关系的关联词单元时,将各关联词单元确定为关联词组。
词向量训练模块,用于基于全局词向量模型,训练得到关联词组对应的词向量。
具体地,通过将训练文本作为基准,遍历根据个人属性信息和疾病信息离散化得到的一系列词单元,包括个人属性信息词单元以及疾病信息词单元,当确定存在具有公共性关系的关联词单元时,根据各关联词单元生成对应的关联词组,并将各关联词单元确定为相近的词向量。其中,通过统计相应词单元的共同出现次数,并根据词单元的共同出现次数,可确定共同出现的词单元的相近程度。
进一步地,利用全局词向量模型即glove算法,对训练样本对应的各关联词单元进行训练,生成与各关联词单元对应的词向量。本实施例中,根据词单元遍历模块,通过将训练文本作为基准,遍历根据离散化得到的个人属性信息词单元和疾病信息词单元。根据公共关系检测模块,实现当检测到与训练文本存在具有公共性关系的关联词单元时,将各关联词单元确定为关联词组。根据词向量训练模块,实现基于全局词向量模型,训练得到关联词组对应的词向量。实现了基于全局词向量模型,对于训练文本存在具有公共性关系的关联词单元,进行训练,生成相应的词向量,后续以用于个人健康风险预测模型的构建,体现个人属性信息、疾病信息以及预测支出费用的关联关系,使得可事先对健康关联风险进行控制,进而提升风险理赔管控效果。
在一个实施例中,词向量生成模块,还包括:
共同出现次数统计模块,用于统计关联词组内各关联词单元的共同出现次数。
其中,与训练文本存在具有公共性关系的词单元,为关联词单元,根据关联词单元可组成相应的关联词组。
共现矩阵构建模块,用于根据关联词单元的共同出现次数,构建得到共现矩阵。
具体地,如图2所示,提供了另一种基于健康风险的医疗支出费用预测系统的结构框图,参照图2,共现矩阵构建模块包括:
空白矩阵构建模块202,用于构建空白矩阵。
获取模块204,用于获取预设的滑动窗口的大小和滑动步长。
词向量维数设置模块206,用于根据预设维数要求设置词向量维数阈值;词向量维数,用于从多个维度对关联词单元对应的公共性关系进行表征。
窗口长度设置模块208,用于获取训练文本单行长度,并根据训练文本单行长度设置滑动窗口的窗口长度,其中,窗口长度大于训练文本单行长度。
滑动窗口滑动模块210,用于从关联词单元中任意确定出初始词单元,按照滑动步长滑动对应滑动窗口。
词单元过滤模块212,用于获取预设词频阈值,并根据预设词频阈值,滤除词频低于预设词频阈值的词单元。
预设中心词出现次数统计模块214,用于统计滑动窗口内上下文环境中预设中心词的出现次数;预设中心词根据关联词单元确定得到,上下文环境包括处于滑动窗口中且分布在预设中心词两边的词单元;
共现矩阵构建模块216,用于根据预设中心词的共同出现次数以及空白矩阵,构建得到共现矩阵。
具体地,首先需构建一个空矩阵,大小为V×V,V×V,即词汇表×词汇表,值全为0。矩阵中的元素坐标记为(i,j)(i,j)。其次,确定一个滑动窗口的大小,例如取半径为m,并从所确定的一系列的词单元中的第一个词单元,即初始词单元开始,以1的步长滑动该窗口。上下文环境是指在滑动窗口中并在中心单词(ii)两边的单词,其中,若窗口左右无单词,则不需要统计。进一步地,在窗口内,统计上下文环境中单词(jj)出现的次数,并将该值累计到(i,j)(i,j)位置上,从而通过不断滑动窗口进行统计即可得到共现矩阵。
其中,词向量的维数设置为100D,用以从多个维度对各词单元的公共关系进行确定和表述,窗口长度设置为500,其中,滑动窗口需足够大,大于训练文本一行的长度。还需过滤词频低于20的词单元,由于词频太低,则共现次数同样较少,对训练过程无法产生影响。
词向量确定模块,用于根据共现矩阵确定共同出现的各关联词单元的相近程度,并将共现矩阵的行向量或列向量,确定为与各关联词单元对应的词向量。
具体地,共现矩阵用于发现主题,解决词向量相近关系的表示,则可根据共现矩阵确定共同出现的各关联词单元的相近程度,并将共现矩阵的行或列作为词向量,得到相应行向量或列向量,并将确定出的行向量或列向量,确定为与各关联词单元对应的词向量。
举例来说,当个人属性信息中的年龄组,包括老年组,以及疾病信息中的疾病分类,包括高血压,共同出现次数较多,则表示老年组和高血压为相近的词向量。
本实施例中,根据共同出现次数统计模块,统计关联词组内各关联词单元的共同出现次数。利用共现矩阵构建模块,实现根据关联词单元的共同出现次数,构建得到共现矩阵。利用词向量确定模块,实现根据共现矩阵确定共同出现的各关联词单元的相近程度,并将共现矩阵的行向量或列向量,确定为与各关联词单元对应的词向量。实现了根据共现矩阵,确定出与训练文本存在具有公共性关系的关联词单元对应的词向量,后续以用于个人健康风险预测模型的构建,体现个人属性信息、疾病信息以及预测支出费用的关联关系,使得可事先对健康关联风险进行控制,进而提升风险理赔管控效果。
上述基于健康风险的医疗支出费用预测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储个人属性信息和疾病信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于健康风险的医疗支出费用预测系统的各模块可实现的步骤。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例的系统中各模块可实现的步骤,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的系统中各模块可实现的步骤。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于健康风险的医疗支出费用预测系统,其特征在于,所述系统包括:
信息离散模块,用于获取用户的个人属性信息和预设周期内的疾病信息,并将所述个人属性信息和所述疾病信息分别进行离散化,得到对应的词单元;
词向量生成模块,用于根据预设获取时间段内的用户历史属性信息构建得到训练文本,并根据所述训练文本训练得到各词单元的词向量;所述词向量包括个人属性信息词向量和疾病信息词向量;
个人健康风险预测模型构建模块,用于基于个人属性信息词向量和疾病信息词向量,构建得到个人健康风险预测模型;
医疗费用支出预测模型训练模块,用于获取预设周期内的实际医疗费用和所述个人健康风险预测模型的输出结果,并根据所述个人健康风险预测模型的输出结果以及所述预设周期内的实际医疗费用,训练得到医疗费用支出预测模型;
医疗费用支出预测模块,用于根据所述医疗费用支出预测模型,输出得到对应的医疗支出预测费用。
2.根据权利要求1所述的系统,其特征在于,所述词向量生成模块,包括:
用户历史属性信息获取模块,用于获取预设获取时间段内的用户历史属性信息;所述用户历史属性信息可存储于区块链中;
文本数据生成模块,用于将所述用户历史属性信息进行离散化,生成对应的文本数据;
训练文本生成模块,用于将所述文本数据确定为各所述词单元的训练文本;
训练模块,用于根据全局词向量模型对所述训练文本进行训练,生成与各所述词单元对应的词向量。
3.根据权利要求2所述的系统,其特征在于,所述词向量生成模块,还包括:
词单元遍历模块,用于将所述训练文本作为基准,遍历根据离散化得到的个人属性信息词单元和疾病信息词单元;
公共关系检测模块,用于当检测到与所述训练文本存在具有公共性关系的关联词单元时,将各所述关联词单元确定为关联词组;
词向量训练模块,用于基于所述全局词向量模型,训练得到所述关联词组对应的词向量。
4.根据权利要求1所述的系统,其特征在于,所述个人健康风险预测模型构建模块,包括:
个人健康向量生成模块,用于将所述个人属性信息词向量以及预设周期内的疾病信息词向量进行叠加,得到个人健康词向量;所述个人健康词向量用于预测得到该用户在下一预设周期内的疾病信息;
个人健康风险预测模型生成模块,用于将所述个人健康词向量作为输入,将下一预设周期内用户的疾病信息作为输出,对第一原始回归分析模型进行训练,构建得到个人健康风险预测模型。
5.根据权利要求1所述的系统,其特征在于,所述医疗费用支出预测模型训练模块,包括:
患病概率确定模块,用于根据所述个人健康风险预测模型的输出结果,确定用户在下一预设周期内在每个疾病分组中的患病概率;所述疾病分组根据预设的分组器进行划分;
医疗费用支出预测模型生成模块,用于将下一预设周期内用户在每个疾病分组中的患病概率作为输入,将下一预设周期内用户的实际医疗支出费用作为输出,对第二原始回归模型进行训练,训练得到医疗费用支出预测模型。
6.根据权利要求3所述的系统,其特征在于,所述词向量生成模块,还包括:
共同出现次数统计模块,用于统计所述关联词组内各所述关联词单元的共同出现次数;
共现矩阵构建模块,用于根据所述关联词单元的共同出现次数,构建得到共现矩阵;
词向量确定模块,用于根据所述共现矩阵确定共同出现的各所述关联词单元的相近程度,并将所述共现矩阵的行向量或列向量,确定为与各所述关联词单元对应的词向量。
7.根据权利要求1所述的系统,其特征在于,所述信息离散模块,包括:
个人属性信息获取模块,用于获取用户的个人属性信息;所述个人属性信息包括性别、年龄组以及参保类型;
个人属性信息词单元生成模块,用于将所述个人属性信息离散化,生成个人属性信息词单元;
疾病信息获取模块,用于获取预设周期内用户的疾病信息;所述疾病信息包括疾病分类;
疾病信息词单元生成模块,用于将所述疾病信息离散化,生成疾病信息词单元;
其中,所述个人属性信息和所述预设周期内的用户的疾病信息可存储于区块链中。
8.根据权利要求6所述的系统,其特征在于,所述词向量生成模块还包括:
空白矩阵构建模块,用于构建空白矩阵;
获取模块,用于获取预设的滑动窗口的大小和滑动步长;
滑动窗口滑动模块,用于从所述关联词单元中任意确定出初始词单元,按照所述滑动步长滑动所述滑动窗口;
预设中心词出现次数统计模块,用于统计所述滑动窗口内上下文环境中预设中心词的出现次数;所述预设中心词根据所述关联词单元确定得到,所述上下文环境包括处于所述滑动窗口中且分布在所述预设中心词两边的词单元;
共现矩阵构建模块,用于根据所述预设中心词的共同出现次数以及所述空白矩阵,构建得到共现矩阵。
9.根据权利要求8所述的系统,其特征在于,所述词向量生成模块还包括:
词向量维数设置模块,用于根据预设维数要求设置词向量维数阈值;所述词向量维数,用于从多个维度对所述关联词单元对应的公共性关系进行表征;
窗口长度设置模块,用于获取训练文本单行长度,并根据所述训练文本单行长度设置所述滑动窗口的窗口长度;所述窗口长度大于所述训练文本单行长度;
词单元过滤模块,用于获取预设词频阈值,并根据所述预设词频阈值,滤除词频低于所述预设词频阈值的词单元。
10.根据权利要求5所述的系统,其特征在于,所述医疗费用支出预测模型训练模块,还包括:
医疗通胀数据获取模块,用于在预设训练周期内实时获取医疗通胀数据;
实际医疗费用更新模块,用于根据所述医疗通胀数据对所述实际医疗费用进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035028.0A CN112132625A (zh) | 2020-09-27 | 2020-09-27 | 基于健康风险的医疗支出费用预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035028.0A CN112132625A (zh) | 2020-09-27 | 2020-09-27 | 基于健康风险的医疗支出费用预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112132625A true CN112132625A (zh) | 2020-12-25 |
Family
ID=73840856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011035028.0A Pending CN112132625A (zh) | 2020-09-27 | 2020-09-27 | 基于健康风险的医疗支出费用预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132625A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170004279A1 (en) * | 2015-07-02 | 2017-01-05 | DZee Solutions, Inc. | Long-term healthcare cost predictions using future trajectories & machine learning |
CN109523067A (zh) * | 2018-10-30 | 2019-03-26 | 平安医疗健康管理股份有限公司 | 基于预测模型的费用预测方法、装置、服务器及存储介质 |
CN109598302A (zh) * | 2018-11-30 | 2019-04-09 | 平安医疗健康管理股份有限公司 | 就诊费用预测方法、装置、设备及计算机可读存储介质 |
CN109935330A (zh) * | 2019-04-01 | 2019-06-25 | 太平洋医疗健康管理有限公司 | 个人健康风险评分预测方法及系统 |
CN110211690A (zh) * | 2019-04-19 | 2019-09-06 | 平安科技(深圳)有限公司 | 疾病风险预测方法、装置、计算机设备及计算机存储介质 |
-
2020
- 2020-09-27 CN CN202011035028.0A patent/CN112132625A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170004279A1 (en) * | 2015-07-02 | 2017-01-05 | DZee Solutions, Inc. | Long-term healthcare cost predictions using future trajectories & machine learning |
CN109523067A (zh) * | 2018-10-30 | 2019-03-26 | 平安医疗健康管理股份有限公司 | 基于预测模型的费用预测方法、装置、服务器及存储介质 |
CN109598302A (zh) * | 2018-11-30 | 2019-04-09 | 平安医疗健康管理股份有限公司 | 就诊费用预测方法、装置、设备及计算机可读存储介质 |
CN109935330A (zh) * | 2019-04-01 | 2019-06-25 | 太平洋医疗健康管理有限公司 | 个人健康风险评分预测方法及系统 |
CN110211690A (zh) * | 2019-04-19 | 2019-09-06 | 平安科技(深圳)有限公司 | 疾病风险预测方法、装置、计算机设备及计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
徐驰,陈丽蓉: "基于TextRank和GloVe的自动文本摘要算法", 《中国新通信》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kocaguneli et al. | Software effort models should be assessed via leave-one-out validation | |
Xu et al. | A Bayesian nonparametric approach for estimating individualized treatment-response curves | |
CN112329865B (zh) | 基于自编码器的数据异常识别方法、装置和计算机设备 | |
Green et al. | Modeling heterogeneous treatment effects in large-scale experiments using bayesian additive regression trees | |
US11804302B2 (en) | Supervised machine learning-based modeling of sensitivities to potential disruptions | |
CN115659177A (zh) | 数据推荐模型的生成方法、装置和计算机设备 | |
CN112132624A (zh) | 医疗理赔数据预测系统 | |
CN112016318A (zh) | 基于解释模型的分诊信息推荐方法、装置、设备及介质 | |
CN112734195B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112288279A (zh) | 基于自然语言处理和线性回归的业务风险评估方法和装置 | |
Florez-Lopez et al. | Modelling credit risk with scarce default data: on the suitability of cooperative bootstrapped strategies for small low-default portfolios | |
CN111210356B (zh) | 医保数据分析方法、装置、计算机设备和存储介质 | |
Henckaerts et al. | When stakes are high: Balancing accuracy and transparency with Model-Agnostic Interpretable Data-driven suRRogates | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN113345564B (zh) | 一种基于图神经网络的患者住院时长早期预测方法及装置 | |
CN117893027A (zh) | 保险业务风险评估方法及装置 | |
Fonseca et al. | Setting the right expectations: Algorithmic recourse over time | |
CN113468421A (zh) | 基于向量匹配技术的产品推荐方法、装置、设备及介质 | |
KR20190036254A (ko) | 변수별 영향도에 기반한 개인별 행동패턴을 설명가능한 머신러닝 예측 모형 제공 장치 및 방법 | |
CN112132625A (zh) | 基于健康风险的医疗支出费用预测系统 | |
CN113656692B (zh) | 基于知识迁移算法的产品推荐方法、装置、设备及介质 | |
CN114792007A (zh) | 代码检测方法、装置、设备、存储介质和计算机程序产品 | |
Guegan et al. | Prediction in chaotic time series: methods and comparisons with an application to financial intra-day data | |
CN111274231B (zh) | 异常医保数据排查方法、装置、计算机设备和存储介质 | |
Bello et al. | Hierarchical Bayesian modeling of heterogeneous cluster‐and subject‐level associations between continuous and binary outcomes in dairy production |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220520 Address after: 518048 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201225 |