CN107967948A - 医疗大数据分析方法与装置 - Google Patents
医疗大数据分析方法与装置 Download PDFInfo
- Publication number
- CN107967948A CN107967948A CN201711287373.1A CN201711287373A CN107967948A CN 107967948 A CN107967948 A CN 107967948A CN 201711287373 A CN201711287373 A CN 201711287373A CN 107967948 A CN107967948 A CN 107967948A
- Authority
- CN
- China
- Prior art keywords
- icd
- code sets
- medical
- big data
- data analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开提供一种医疗大数据分析方法,医疗大数据分析方法包括:使用多名患者的就诊数据训练LASSO模型以生成第一ICD编码集合;将所述第一ICD编码集合与预设ICD编码集合的并集作为第二ICD编码集合;使用所述第二ICD编码集合以及所述就诊数据训练回归模型以产生参数集;根据所述第二ICD编码集合以及所述参数集生成分析模型。本公开提供的医疗大数据分析方法可以建立精准的医疗数据分析模型。
Description
技术领域
本公开涉及机器学习技术领域,具体而言,涉及一种建立医疗数据分析模型的医疗大数据分析方法。
背景技术
健康管理是20世纪50年代末最先在美国提出的概念(Managed Care),其核心内容医疗保险机构通过对其医疗保险客户(包括疾病患者或高危人群)开展系统的健康管理,有效控制疾病的发生或发展,显著降低出险概率和实际医疗支出。
对于医疗保险机构而言,相关的健康管理方法往往是通过循证医学筛选影响单病种患病概率的入模变量,结合循证医学取样范围内的医疗数据建立对于单病种的患病概率分析模型,从而分析被保险人的健康状况。然而,循证医学结论往往具有较弱的时效性和地域性,无法提供对某一地区最近一段时间的精准分析,所以,为了提高疾病患病概率预测的精确度和时效性、地域性,需要建立更精确的分析模型。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于利用大数据手段改进原有依靠医学经验筛选入模变量建立数据分析模型的方法,依靠大数据下LASSO和循证医学相结合的变量筛选方式,建立精准的医疗数据分析模型。
根据本公开的第一方面,提供一种医疗大数据分析方法,包括:
使用多名患者的就诊数据训练LASSO模型以生成第一ICD编码集合;
将所述第一ICD编码集合与预设ICD编码集合的并集作为第二ICD编码集合;
使用所述第二ICD编码集合以及所述就诊数据训练回归模型以产生参数集;
根据所述第二ICD编码集合以及所述参数集生成分析模型。
可选的,所述使用多名患者的就诊数据训练LASSO模型包括:
将连续n年参加社会医保的患者的就诊数据与第n+1年首次患有预设疾病的患者的信息按照ICD编码做二进制处理;
根据患者的身份信息、二进制处理后的所述患者的就诊数据以及所述患者首次患所述预设疾病的信息生成的包括多名患者就诊数据的宽表;
将所述宽表输入所述LASSO模型,训练所述LASSO模型输出所述就诊数据中的每个ICD编码与所述预设疾病的关联参数。
可选的,所述生成第一ICD编码集合包括:
根据所述LASSO模型的训练结果获取所述就诊数据中的多个ICD编码的回归系数;
根据回归系数大于阈值的ICD编码生成所述第一ICD编码集合。
可选的,所述预设ICD编码包括根据循证医学选取的影响预设疾病患病概率的ICD编码。
可选的,所述产生参数集包括:
根据所述回归模型的训练结果获取所述第二ICD编码集合内的ICD编码的回归系数;
根据大于预设值的回归系数与其对应的ICD编码生成所述参数集。
可选的,所述产生参数集还包括:
根据所述回归模型的训练结果获取所述就诊数据内其他特征的回归系数,所述其他特征至少包括患者年龄、性别;
将所述其他特征与其对应的回归系数加入所述参数集。
可选的,所述分析模型包括:
所述第二ICD编码集合内的每个ICD编码与所述参数集中所述ICD编码对应的参数的乘积之和。
根据本公开的第二方面,提供一种医疗大数据分析装置,包括:
入模变量筛选模块,设置为使用多名患者的就诊数据训练LASSO模型以生成第一ICD编码集合;
入模变量确定模块,设置为将所述第一ICD编码集合与预设ICD编码集合的并集作为第二ICD编码集合;
模型参数确定模块,设置为使用所述第二ICD编码集合以及所述就诊数据训练回归模型以产生参数集;
模型建立模块,设置为根据所述第二ICD编码集合以及所述参数集生成分析模型。
根据本公开实施例的第三方面,提供一种存储有计算机程序的存储介质,所述计算机程序在由计算机的处理器运行时,使所述计算机执行如上所述的医疗大数据分析方法实施例的步骤。
根据本公开实施例的第四方面,提供一种计算设备,包括:
处理器;
存储器,存储有可由所述处理器执行的指令;
其中所述处理器被配置为执行如上所述的基于地理位置的服务信息提供方法实施例的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开通过使用LASSO模型对地区近期诊疗数据进行筛选,结合循证医学的理论基础确定入模变量,提高了医疗数据分析模型的分析结果准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开示例性实施例中医疗大数据分析方法的流程图。
图2示出本公开示例性实施例中医疗大数据分析方法的子流程图。
图3示出本公开示例性实施例中医疗大数据分析方法的子流程图。
图4示出本公开示例性实施例中医疗大数据分析方法的子流程图。
图5示出本公开一个示例性实施例中一种医疗大数据分析装置的方框图。
图6示出本公开一个示例性实施例中一种医疗大数据分析设备的方框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
下面结合附图对本公开示例实施方式进行详细说明。
图1示意性示出本公开示例性实施例中医疗大数据分析方法的流程图。
参考图1,参考图1,医疗大数据分析方法100可以包括:
步骤S102,使用多名患者的就诊数据训练LASSO模型以生成第一ICD编码集合;
步骤S104,将所述第一ICD编码集合与预设ICD编码集合的并集作为第二ICD编码集合;
步骤S106,使用所述第二ICD编码集合以及所述就诊数据训练回归模型以产生参数集;
步骤S108,根据所述第二ICD编码集合以及所述参数集生成分析模型。
本公开的医疗大数据分析方法通过对地区近期大数据进行分析,并通过LASSO筛选结合循证医学确定分析模型的入模变量,有效提高了分析模型的时效性和地域性,提高了分析模型预测结果的准确度。
下面,对医疗大数据分析方法100的各步骤进行详细说明。
在步骤S102,使用多名患者的就诊数据训练LASSO模型以生成第一ICD编码集合。
本公开提供的方法可以用于建立分析特定对象患有预设疾病的概率的模型,例如,建立分析参保人群患冠心病的概率的模型。
图2是本公开一个实施例中步骤S102的一个子流程图。
参考图2,使用多名患者的就诊数据训练LASSO模型包括:
将连续n年参加社会医保的患者的就诊数据与第n+1年首次患有预设疾病的患者的信息按照ICD编码做二进制处理;
步骤S204,根据患者的身份信息、二进制处理后的所述患者的就诊数据以及所述患者首次患所述预设疾病的信息生成的包括多名患者就诊数据的宽表;
步骤S206,将所述宽表输入所述LASSO模型,训练所述LASSO模型输出所述就诊数据中的每个ICD编码与所述预设疾病的关联参数。
本公开实施例涉及的就诊数据至少可以包括某一时间段内的参保公民脱敏医疗数据,例如连续n年参加社会医保的患者的就诊数据以及第n+1年首次患有预设疾病的患者的首次患病信息。
示例性而言,当预测模型的预测目标为冠心病患病概率时,可以获取2013-2015年3年期间A地区的社会医保参保人员的脱敏就诊数据,以及2016年首次得冠心病的参保人员的脱敏身份ID。获取就诊数据的方式例如可以包括通过与社会保险数据库联网获取,本公开对此不作特殊限定。
使用某地区最近时间段的就诊数据对模型进行训练可以提高模型对这一地区医疗大数据的分析能力,使模型具有更高的针对性和时效性,从而提高数据分析结果的准确度。
示例性而言,每条就诊数据至少包括患者姓名、年龄、性别等基础信息以及患者所患疾病,更进一步的说,所述就诊数据是脱敏的就诊数据。其中,可以首先将患者所患疾病用ICD编码进行标记。ICD(international Classification of diseases,国际疾病分类)编码是依据疾病的特征按照规则将疾病分门别类,并用编码的方法来表示的系统。使用ICD编码对医疗大数据进行处理有助于对就诊数据进行量化。
在步骤S202,将就诊数据按照ICD编码做二进制处理,例如,如果一名患者有一个ICD编码对应的疾病的就诊数据,就将该患者名下该ICD对应的特征值设为1;如果该名患者没有该ICD编码对应的疾病的就诊数据,就将该患者名下该ICD对应的特征值设为0。再例如,患者在第n+1年首次患有预设疾病,则将该项特征的特征值设为1,否则设为0。此外,基于患者数据的脱敏性,在必要的时候,可以用数字ID标示患者身份;为便于进一步数字化,患者性别也可以二进制处理,例如性别为男则标识位1,性别为女则标识为0等。更进一步地,为统计方便,也可以对年龄进行划段,如20~30岁为一个二进制标识的段位10等,从而节省计算资源。
当然,上述数值设置仅为示例性,本领域技术人员可以根据实际情况自行设置。
经过以上处理后,在步骤S204,可以生成多名患者的就诊数据宽表。
可以将n年内所有参保人的就诊数据按照ICD编码做0/1化处理,加上年龄和性别信息,汇总成一人一条的数据宽表。这个千级宽度的宽表用于提供数据筛选字段。
表1是就诊数据宽表的示意。
表1
ID | Gender | Age | ICD1 | ICD2 | …… | ICDx | Y |
0001 | 1 | 64 | 1 | 0 | …… | 1 | 0 |
0002 | 0 | 33 | 0 | 1 | …… | 0 | 1 |
表1中,第一列为人员ID,第二列为人员性别,第三列为人员年龄,第四列开始为该人员在n年间的以ICD为列的就诊数据,最后一列是目标变量第n+1年首次得预设疾病的标记。
通过对就诊数据进行整理,可以将一名患者在连续n年内的就诊数据量化,从而利于大数据分析。
由于ICD编码数量较多,上述宽表的宽度有可能达到千级或更高。对于预设疾病而言,并非所有ICD编码对应的疾病均对其患病概率有重要影响,因此,需要对ICD编码的重要程度进行排序,筛选出对预设疾病影响最大的疾病的ICD,从而更精确地选取预测模型的入模变量。
在步骤S206,选取LASSO模型对入模变量进行选取。示例性而言,即将上述经过整理的宽表数据输入LASSO模型,对LASSO模型进行训练,从而通过LASSO模型确定与预设疾病关联程度最大的ICD。
根据人员的基本信息包括年龄、性别和患病历史信息(连续3年在该ICD上的二值化)的宽表,设置目标变量Y代表2016年首次患冠心病(I25.101)的标识位,运用LASSO的变量筛选方法和SAS数据分析工具可以对LASSO模型进行训练。
伪代码示例如下:
model
Y=(gender、age、ICD1、...、ICD10、...、ICD26)
/selection=lasso;
run;
图3是本公开一个实施例中步骤S102的另一个子流程图。
参考图3,所述生成第一ICD编码集合包括:
步骤S302,根据所述LASSO模型的训练结果获取所述就诊数据中的多个ICD编码的回归系数;
步骤S304,根据回归系数大于阈值的ICD编码生成所述第一ICD编码集合。
将就诊数据输入LASSO模型后,LASSO模型会根据预设的约束条件对就诊数据中的每个特征对预设疾病的患病概率的影响进行计算,从而调整每个特征的回归系数。在此过程中,LASSO模型使一些特征的回归系数等于或约等于0,此时剩余特征的回归系数则具有显著的统计学意义。可以根据项目需要对筛选阈值进行设置,从而将回归系数大于阈值的ICD编码作为第一ICD编码集合的成员。
例如,运行上述训练模型可以得到LASSO模型筛选出的影响冠心病首次发病的17种ICD代码(I10、I20、J67、J40、I63、H10、M25......),可以把这17种由LASSO模型选出的ICD作为第一ICD编码集合的成员。
通过使用LASSO模型对ICD编码进行选取,能够精简分析模型的入模变量,提高分析准确度。
步骤S104,将所述第一ICD编码集合与预设ICD编码集合的并集作为第二ICD编码集合。
在一个实施例中,所述预设ICD编码包括根据循证医学选取的影响预设疾病患病概率的ICD编码。
例如,根据国际上针对单病种-冠心病的研究,从医学角度已知一些影响冠心病(I25.101)发生的相关疾病指标(E10.900、E10.901、E11.900、E14.900、E14.901、E14.909、E78.000、E78.001、E78.002、G81.901、G81.999、I10 02、I10 03、I10 04、I10 05、I10 06、I10 08、I10 10、I10 11、I10.x00、I10.x03、I10.x04、I10.x05、I11.000、I11.900、I11.901、I20.101、I21.903、I21.905、I21.906、I24.000、I24.801、I24.802、I25.101、I25.103、I25.104、I25.105、I25.106、I25.803、I25.901、Q24.501)。这些指标的ICD编码与步骤S102筛选出的ICD编码可能有一定程度的重合,因此,可以将两个ICD编码集合的并集作为最终确定的入模变量集合,以实现建立更精确的预测模型的目的。
之所以选取两个ICD编码结合的并集作为ICD的变量,是因为在对比了各ICD集合或集合的组合代入回归模型得到的C统计量后,可以得出:
第一IDC编码集合A代入回归模型中得到的C统计量为0.811;
预设ICD编码集合B代入回归模型中得到的C统计量为0.838;
A*B代入回归模型中得到的C统计量为0.8;
AUB代入回归模型中得到的C统计量为0.847。
因此,选取两个ICD编码的并集作为入模变量具有较高的分析准确度。
确定入模变量后,还需要获取每个入模变量的参数,从而建立预测模型。在本公开的一种示例性实施方式中,选择逻辑回归模型来确定入模变量的参数集,该参数集包括就诊数据中的每个入模变量对应的参数。
在步骤S106,使用所述第二ICD编码集合以及所述就诊数据训练回归模型以产生参数集。
图4是本公开一个实施例中步骤S106的一个子流程图。
参考图4,在本公开的一种示例性实施例中,产生参数集包括:
步骤S402,根据所述回归模型的训练结果获取所述第二ICD编码集合内的ICD编码的回归系数;
步骤S404,根据大于预设值的回归系数与其对应的ICD编码生成所述参数集。
在本公开的一种示例性实施例中,所述产生参数集还包括:
步骤S406,根据所述回归模型的训练结果获取所述就诊数据内其他特征的回归系数,所述其他特征至少包括患者年龄、性别。
步骤S408,将所述其他特征与其对应的回归系数加入所述参数集。
在本公开实施例中,入模变量不仅包括上述确定的ICD编码集合,还至少包括患者的基本特征,例如性别、年龄等。因此,确定特征的参数不但要确定每个入模ICD编码的参数,还需要确定基本信息入模特征的参数。
示例性而言,在步骤S402中,首先可以根据选取的入模ICD编码对就诊数据进行精简,只保留就诊数据中入模ICD编码对应的就诊数据。然后,将精简后的就诊数据输入回归模型,通过回归模型的计算确定每个特征(基本信息、入模ICD编码)对应的参数,从而生成包含这些参数的参数集。
上述回归模型可以是逻辑回归模型,例如利用SAS的Logistic回归建立的模型。在本公开,利用SAS的Logistic回归建立数据模型,并比较C统计量以及最高风险分段下的患病概率。
将在步骤S104中生成的第二ICD编码集合加上客户的基本信息维度输入SAS的Logistics模块进行训练,可以获取每个特征的参数。
伪代码示例如下:
其中,“slentry”和“slentry”代表入模阈值,其具体值可以由本领域技术人员根据实际情况自行调整。
在步骤S108,根据所述第二ICD编码集合以及所述参数集生成分析模型。
在本公开的一种示例性实施方式中,分析模型可以包括所述第二ICD编码集合内的每个ICD编码与所述参数集中所述ICD编码对应的参数的乘积之和。
例如,分析模型公式可以为:
P=1/(1+EXP(-Beta_Sum))
其中,P为患者患有预设疾病的概率,Beta_Sum为患者的多个特征值与对应参数的乘积之和。
分析模型还可以包括其他表达形式,本公开对此不作特殊限定。
此外,上述模型生成过程以冠心病为例,在实际应用中,预设疾病的种类可以有多种,在一些实施例中,预设疾病也可以同时包括多种疾病,例如心脑血管类疾病中的多种疾病等,本领域技术人员可以在本公开的构思基础上修改模型。
综上所述,本公开提供的方法通过利用大数据手段,改进原有依靠医学经验筛选入模变量建立的数据预测模型方法,依靠大数据下LASSO和循证医学相结合的变量筛选方式,精准锁定预设疾病的高发人群,以便后续进行健康管理与干预,从来降低未来医疗保险赔付。
本公开通过将原有基于循证医学确定入模变量来预测高病发概率人群的模型方法进行了改进,用大数据训练LASSO模型方法对全量诊疗数据进行筛查,并结合循证医学的理论基础,确定入模变量,用Logistic方法建模,使预测结果的精准度得到了大幅提升。同样取10%的高风险分群,新方法在识别能力上提高了十几个百分点,C统计量也由原来的0.811提高到现在的0.847。
如果某年参保人数是77万人,年初保险公司计划对其中冠心病得病风险最高的10%的参保人做冠心病预防和相关健康管理系列举措,以便给投保人提供一个健康提示预警,帮助其改善自身身体指标状况。根据原模型筛选最高风险的第10组人群,里面识别出了3071位2016年将会病发冠心病的参保人,占2016实际病发8476位冠心病人群的36%。根据现改进的模型方案,里面识别出了4143位2016年将会病发冠心病的参保人,占2016实际病发8476位冠心病人群的49%。由此可见,分析模型的分析能力得到了显著提升,使健康干预更加精准。
对应于上述方法实施例,本公开还提供一种医疗大数据分析装置,可以用于执行上述方法实施例。
图5示意性示出本公开一个示例性实施例中一种医疗大数据分析装置的方框图。
参考图5,医疗大数据分析装置500至少包括:
入模变量筛选模块502,设置为使用多名患者的就诊数据训练LASSO模型以生成第一ICD编码集合;
入模变量确定模块504,设置为将所述第一ICD编码集合与预设ICD编码集合的并集作为第二ICD编码集合;
模型参数确定模块506,设置为使用所述第二ICD编码集合以及所述就诊数据训练回归模型以产生参数集;
模型建立模块508,设置为根据所述第二ICD编码集合以及所述参数集生成分析模型。
由于装置500的各功能已在其对应的方法实施例中予以详细说明,本公开于此不再赘述。
根据本公开的一个方面,提供一种医疗大数据分析设备,包括:
存储器;以及
耦合到所属存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上述任意一项所述的方法。
该实施例中的装置的处理器执行操作的具体方式已经在有关该医疗大数据分析方法的实施例中执行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种装置600的框图。装置600可以是智能手机、平板电脑等移动终端。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,传感器组件614以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及记录操作相关联的操作等。处理组件602可以包括一个或多个处理器618来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储器604中还存储有一个或多个模块,该一个或多个模块被配置成由该一个或多个处理器618执行,以完成上述任一所示方法中的全部或者部分步骤。
电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到装置600的打开/关闭状态,组件的相对定位,传感器组件614还可以检测装置600或装置600一个组件的位置改变以及装置600的温度变化。在一些实施例中,该传感器组件614还可以包括磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在本公开的一种示例性实施例中,还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上述任意一项所述的医疗大数据分析方法。该计算机可读存储介质例如可以为包括指令的临时性和非临时性计算机可读存储介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和构思由权利要求指出。
Claims (10)
1.一种医疗大数据分析方法,其特征在于,包括:
使用多名患者的就诊数据训练LASSO模型以生成第一ICD编码集合;
将所述第一ICD编码集合与预设ICD编码集合的并集作为第二ICD编码集合;
使用所述第二ICD编码集合以及所述就诊数据训练回归模型以产生参数集;
根据所述第二ICD编码集合以及所述参数集生成分析模型。
2.如权利要求1所述的医疗大数据分析方法,其特征在于,所述使用多名患者的就诊数据训练LASSO模型包括:
将连续n年参加社会医保的患者的就诊数据与第n+1年首次患有预设疾病的患者的信息按照ICD编码做二进制处理;
根据患者的身份信息、二进制处理后的所述患者的就诊数据以及所述患者首次患所述预设疾病的信息生成的包括多名患者就诊数据的宽表;
将所述宽表输入所述LASSO模型,训练所述LASSO模型输出所述就诊数据中的每个ICD编码与所述预设疾病的关联参数。
3.如权利要求1所述的医疗大数据分析方法,其特征在于,所述生成第一ICD编码集合包括:
根据所述LASSO模型的训练结果获取所述就诊数据中的多个ICD编码的回归系数;
根据回归系数大于阈值的ICD编码生成所述第一ICD编码集合。
4.如权利要求1所述的医疗大数据分析方法,其特征在于,所述预设ICD编码包括根据循证医学选取的影响预设疾病患病概率的ICD编码。
5.如权利要求1所述的医疗大数据分析方法,其特征在于,所述产生参数集包括:
根据所述回归模型的训练结果获取所述第二ICD编码集合内的ICD编码的回归系数;
根据大于预设值的回归系数与其对应的ICD编码生成所述参数集。
6.如权利要求5所述的医疗大数据分析方法,其特征在于,所述产生参数集还包括:
根据所述回归模型的训练结果获取所述就诊数据内其他特征的回归系数,所述其他特征至少包括患者年龄、性别;
将所述其他特征与其对应的回归系数加入所述参数集。
7.如权利要求5或6任一项所述的医疗大数据分析方法,其特征在于,所述分析模型包括:
所述第二ICD编码集合内的每个ICD编码与所述参数集中所述ICD编码对应的参数的乘积之和。
8.一种医疗大数据分析装置,其特征在于,包括:
入模变量筛选模块,设置为使用多名患者的就诊数据训练LASSO模型以生成第一ICD编码集合;
入模变量确定模块,设置为将所述第一ICD编码集合与预设ICD编码集合的并集作为第二ICD编码集合;
模型参数确定模块,设置为使用所述第二ICD编码集合以及所述就诊数据训练回归模型以产生参数集;
模型建立模块,设置为根据所述第二ICD编码集合以及所述参数集生成分析模型。
9.一种医疗大数据分析装置,其特征在于,包括:
存储器;以及
耦合到所属存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-7任一项所述的医疗大数据分析方法。
10.一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如权利要求1-7任一项所述的医疗大数据分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711287373.1A CN107967948B (zh) | 2017-12-07 | 2017-12-07 | 医疗大数据分析方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711287373.1A CN107967948B (zh) | 2017-12-07 | 2017-12-07 | 医疗大数据分析方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107967948A true CN107967948A (zh) | 2018-04-27 |
CN107967948B CN107967948B (zh) | 2021-10-08 |
Family
ID=61999371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711287373.1A Active CN107967948B (zh) | 2017-12-07 | 2017-12-07 | 医疗大数据分析方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967948B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108766582A (zh) * | 2018-05-29 | 2018-11-06 | 袁勇 | 一种按病种分值付费的临床标准化诊断自动匹配信息系统 |
CN109035034A (zh) * | 2018-06-12 | 2018-12-18 | 昆明理工大学 | 一种基于支付数据的健康保险精算系统与方法 |
CN109325869A (zh) * | 2018-09-10 | 2019-02-12 | 平安科技(深圳)有限公司 | 用户投保风险评估方法、装置、计算机设备和存储介质 |
CN109509549A (zh) * | 2018-05-28 | 2019-03-22 | 平安医疗健康管理股份有限公司 | 诊疗服务提供方评价方法、装置、计算机设备和存储介质 |
CN110047592A (zh) * | 2019-04-24 | 2019-07-23 | 河北省中医院 | 一种医学检验危急值警报系统及方法 |
CN111383768A (zh) * | 2018-12-28 | 2020-07-07 | 医渡云(北京)技术有限公司 | 医疗数据回归分析方法、装置、电子设备及可读介质 |
CN112542220A (zh) * | 2020-12-16 | 2021-03-23 | 四川省肿瘤医院 | 基于住院病案首页的肿瘤登记随访数据处理方法及系统 |
CN112651814A (zh) * | 2019-09-25 | 2021-04-13 | 上海曦井信息技术有限公司 | 一种差旅费控管理系统及方法 |
CN113627525A (zh) * | 2021-08-10 | 2021-11-09 | 工银科技有限公司 | 特征提取模型的训练方法、医保风险识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951894A (zh) * | 2015-06-25 | 2015-09-30 | 成都厚立信息技术有限公司 | 医院疾病管理智能分析和评估系统 |
CN104992058A (zh) * | 2015-06-25 | 2015-10-21 | 成都厚立信息技术有限公司 | 疾病风险调整模型建立方法 |
CN105046406A (zh) * | 2015-06-25 | 2015-11-11 | 成都厚立信息技术有限公司 | 住院病人医疗管理质量评估方法 |
CN105825044A (zh) * | 2016-03-10 | 2016-08-03 | 深圳市前海安测信息技术有限公司 | 基于网页浏览的医疗大数据分析及处理系统及方法 |
CN106874693A (zh) * | 2017-03-15 | 2017-06-20 | 国信优易数据有限公司 | 一种医疗大数据分析处理系统及方法 |
-
2017
- 2017-12-07 CN CN201711287373.1A patent/CN107967948B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951894A (zh) * | 2015-06-25 | 2015-09-30 | 成都厚立信息技术有限公司 | 医院疾病管理智能分析和评估系统 |
CN104992058A (zh) * | 2015-06-25 | 2015-10-21 | 成都厚立信息技术有限公司 | 疾病风险调整模型建立方法 |
CN105046406A (zh) * | 2015-06-25 | 2015-11-11 | 成都厚立信息技术有限公司 | 住院病人医疗管理质量评估方法 |
CN105825044A (zh) * | 2016-03-10 | 2016-08-03 | 深圳市前海安测信息技术有限公司 | 基于网页浏览的医疗大数据分析及处理系统及方法 |
CN106874693A (zh) * | 2017-03-15 | 2017-06-20 | 国信优易数据有限公司 | 一种医疗大数据分析处理系统及方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509549A (zh) * | 2018-05-28 | 2019-03-22 | 平安医疗健康管理股份有限公司 | 诊疗服务提供方评价方法、装置、计算机设备和存储介质 |
CN109509549B (zh) * | 2018-05-28 | 2024-05-14 | 深圳平安医疗健康科技服务有限公司 | 诊疗服务提供方评价方法、装置、计算机设备和存储介质 |
CN108766582A (zh) * | 2018-05-29 | 2018-11-06 | 袁勇 | 一种按病种分值付费的临床标准化诊断自动匹配信息系统 |
CN109035034A (zh) * | 2018-06-12 | 2018-12-18 | 昆明理工大学 | 一种基于支付数据的健康保险精算系统与方法 |
CN109325869A (zh) * | 2018-09-10 | 2019-02-12 | 平安科技(深圳)有限公司 | 用户投保风险评估方法、装置、计算机设备和存储介质 |
CN111383768A (zh) * | 2018-12-28 | 2020-07-07 | 医渡云(北京)技术有限公司 | 医疗数据回归分析方法、装置、电子设备及可读介质 |
CN111383768B (zh) * | 2018-12-28 | 2023-11-03 | 医渡云(北京)技术有限公司 | 医疗数据回归分析方法、装置、电子设备及计算机可读介质 |
CN110047592A (zh) * | 2019-04-24 | 2019-07-23 | 河北省中医院 | 一种医学检验危急值警报系统及方法 |
CN112651814A (zh) * | 2019-09-25 | 2021-04-13 | 上海曦井信息技术有限公司 | 一种差旅费控管理系统及方法 |
CN112542220A (zh) * | 2020-12-16 | 2021-03-23 | 四川省肿瘤医院 | 基于住院病案首页的肿瘤登记随访数据处理方法及系统 |
CN113627525A (zh) * | 2021-08-10 | 2021-11-09 | 工银科技有限公司 | 特征提取模型的训练方法、医保风险识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107967948B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967948A (zh) | 医疗大数据分析方法与装置 | |
CN104951894B (zh) | 医院疾病管理智能分析和评估系统 | |
Sasubilli et al. | Machine learning implementation on medical domain to identify disease insights using TMS | |
CN109830303A (zh) | 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法 | |
US10552576B2 (en) | System and method for machine based medical diagnostic code identification, accumulation, analysis and automatic claim process adjudication | |
US20160110502A1 (en) | Human and Machine Assisted Data Curation for Producing High Quality Data Sets from Medical Records | |
Tutun et al. | An AI-based decision support system for predicting mental health disorders | |
CN111813399B (zh) | 基于机器学习的审核规则处理方法、装置及计算机设备 | |
WO2021151327A1 (zh) | 分诊数据处理方法、装置、设备及介质 | |
KR101937434B1 (ko) | 빅데이터 및 인공지능 기반 공공 주치의 서비스 제공 방법 | |
Teow et al. | Intelligent analysis of acute bed overflow in a tertiary hospital in Singapore | |
CN106408141A (zh) | 异常费用自动提取系统及方法 | |
Atayero et al. | Citation analytics: Data exploration and comparative analyses of CiteScores of Open Access and Subscription-Based publications indexed in Scopus (2014–2016) | |
CN108549973B (zh) | 识别模型构建及评估的方法、装置、存储介质及终端 | |
Khalid et al. | Machine learning for feature selection and cluster analysis in drug utilisation research | |
Li et al. | A novel EEG-based major depressive disorder detection framework with two-stage feature selection | |
CN115907026A (zh) | 用于联邦学习的隐私保护数据策管 | |
Mielczarek | Estimating future demand for hospital emergency services at the regional level | |
A'mar et al. | Incorporating breast cancer recurrence events into population-based cancer registries using medical claims: cohort study | |
KR20180002229A (ko) | 치매 정보 데이터베이스 구축을 위한 에이전트 장치 및 그 운영방법 | |
CN113656692B (zh) | 基于知识迁移算法的产品推荐方法、装置、设备及介质 | |
CN109635112A (zh) | 异常透析数据筛选方法、装置、设备及存储介质 | |
Sinha et al. | Automated detection of coronary artery disease using machine learning algorithm | |
Maheshwari et al. | A machine learning based medical data analytics and visualization research platform | |
KR102160447B1 (ko) | 새플리 값을 이용한 실손보험금 자동지급심사 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |