CN107871536A - 糖尿病分析方法及应用服务器 - Google Patents

糖尿病分析方法及应用服务器 Download PDF

Info

Publication number
CN107871536A
CN107871536A CN201710916176.5A CN201710916176A CN107871536A CN 107871536 A CN107871536 A CN 107871536A CN 201710916176 A CN201710916176 A CN 201710916176A CN 107871536 A CN107871536 A CN 107871536A
Authority
CN
China
Prior art keywords
diabetes
complication
data
diabetic
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710916176.5A
Other languages
English (en)
Inventor
金晓辉
李菲菲
肖京
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710916176.5A priority Critical patent/CN107871536A/zh
Publication of CN107871536A publication Critical patent/CN107871536A/zh
Priority to PCT/CN2018/089429 priority patent/WO2019062186A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种糖尿病分析方法,该方法包括:设置样本范围,包括用户范围和数据维度;根据所设置的样本范围,获取相应的样本数据;对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析,其中,将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集;输出关联分析结果。本发明还提供一种应用服务器及计算机可读存储介质。本发明提供的糖尿病分析方法、应用服务器及计算机可读存储介质能够利用大数据进行关联分析,得到各类不同用户患糖尿病的几率、糖尿病患者产生其他并发症的几率、以及糖尿病与其他影响因素之间的关系,帮助潜在糖尿病及其并发症患者提早预防。

Description

糖尿病分析方法及应用服务器
技术领域
本发明涉及数据分析技术领域,尤其涉及一种糖尿病分析方法及应用服务器。
背景技术
糖尿病是一组由多病因引起的以慢性高血糖为特征的终身性代谢性疾病。长期血糖增高,大血管、微血管受损并危及心、脑、肾、周围神经、眼睛、足等,据世界卫生组织统计,糖尿病并发症高达100多种,是目前已知并发症最多的一种疾病。糖尿病死亡者有一半以上是心脑血管所致,10%是肾病变所致。因糖尿病截肢的患者是非糖尿病的10~20倍。临床数据显示,糖尿病发病后10年左右,将有30%~40%的患者至少会发生一种并发症,且并发症一旦产生,药物治疗很难逆转,因此强调尽早预防糖尿病并发症。
糖尿病的发病存在三方面因素:遗传、环境因素和生理性老化引起胰岛素抵抗和胰岛素作用不足。根据糖尿病并发症发病的急缓以及病理上的差异,可将其分为急性和慢性两大类。传统医学上,由于并发症的多样化导致并发症的确诊较为复杂,时间开销很大,很容易耽误治疗及预防时间。
发明内容
有鉴于此,本发明提出一种糖尿病分析方法及应用服务器,以解决如何有效预防糖尿病及其他并发症的问题。
首先,为实现上述目的,本发明提出一种糖尿病分析方法,该方法包括步骤:
设置样本范围,包括用户范围和数据维度;
根据所设置的样本范围,获取相应的样本数据;
对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析,其中,将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集;及
输出关联分析结果。
可选地,该方法在之前还包括步骤:
对所述样本数据进行预处理,包括缺失值处理和连续变量的离散化。
可选地,所述用户范围包括数据来源及采集时间、城市、年龄、性别;所述数据维度包括人口属性、用户是否患有糖尿病及并发症、健康以及非健康因子。
可选地,所述对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析的步骤具体包括:
从样本数据中获取各用户患病情况,包括糖尿病及其并发症;
将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析;
从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。
可选地,所述对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析的步骤还包括:
按关联分析中找到的左项集因子对用户进行分类;
对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率;
比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。
可选地,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度。
可选地,所述缺失值处理包括:
默认将有缺失的数据进行丢弃,若要保留包含缺失的数据,则先对缺失值进行填充;所述缺失值的填充方式包括:
人口属性和体检指标中涉及到的连续变量用均值填充;
金融消费属性中涉及到的连续变量用0填充;
各类疾病涉及到的缺失值用0填充;
其他离散维度用-1填充。
可选地,所述连续变量的离散化包括:对连续变量进行等频或等宽分箱。
此外,为实现上述目的,本发明还提供一种应用服务器,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的糖尿病分析系统,所述糖尿病分析系统被所述处理器执行时实现如上述的糖尿病分析方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有糖尿病分析系统,所述糖尿病分析系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的糖尿病分析方法的步骤。
相较于现有技术,本发明所提出的糖尿病分析方法、应用服务器及计算机可读存储介质,可以利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息。通过关联分析的方法,研究各类不同的人群的各类患病之间的潜在关系。进而通过用户的患病情况得到各类不同用户患糖尿病的几率、糖尿病患者产生其他并发症的几率、以及糖尿病与其他影响因素之间的关系。最终帮助潜在糖尿病患者提早预防,并帮助糖尿病患者预防其他并发症的产生。
附图说明
图1是本发明应用服务器一可选的硬件架构的示意图;
图2是本发明糖尿病分析系统第一实施例的程序模块示意图;
图3是本发明糖尿病分析系统第二实施例的程序模块示意图;
图4是本发明糖尿病分析方法第一实施例的流程示意图;
图5是本发明糖尿病分析方法第二实施例的流程示意图;
附图标记:
应用服务器 2
存储器 11
处理器 12
网络接口 13
糖尿病分析系统 200
设置模块 201
获取模块 202
分析模块 203
输出模块 204
预处理模块 205
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明应用服务器2一可选的硬件架构的示意图。
本实施例中,所述应用服务器2可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图2仅示出了具有组件11-13的应用服务器2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述应用服务器2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该应用服务器2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述应用服务器2的内部存储单元,例如该应用服务器2的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述应用服务器2的外部存储设备,例如该应用服务器2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器11还可以既包括所述应用服务器2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述应用服务器2的操作系统和各类应用软件,例如糖尿病分析系统200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述应用服务器2的总体操作。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的糖尿病分析系统200等。
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述应用服务器2与其他电子设备之间建立通信连接。
至此,己经详细介绍了本发明相关设备的硬件结构和功能。下面,将基于上述介绍提出本发明的各个实施例。
首先,本发明提出一种糖尿病分析系统200。
参阅图2所示,是本发明糖尿病分析系统200第一实施例的程序模块图。
本实施例中,所述糖尿病分析系统200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的糖尿病分析操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,糖尿病分析系统200可以被划分为一个或多个模块。例如,在图3中,所述糖尿病分析系统200可以被分割成设置模块201、获取模块202、分析模块203、输出模块204。其中:
所述设置模块201,用于设置样本范围,包括用户范围和数据维度。
具体地,本实施例需要利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息,从而分析出各类不同的人群的各类患病之间的潜在关系。
首先,需要设置所采集的样本的范围,所述样本范围包括用户范围和数据维度。其中,所述用户范围包括数据来源及采集时间、城市、年龄、性别等。例如,可以设置从医院和保险公司的数据库中采集2010年至2015年深圳市18岁以上的所有男性及女性用户的数据。所述数据维度包括人口属性(性别、年龄、婚姻、学历等)、用户是否患有糖尿病及并发症、健康以及非健康因子等多个维度。例如,健康因子包括体检、用药等相关因子;非健康因子包括职业、金融消费等相关因子。
所述获取模块202,用于根据所设置的样本范围,获取相应的样本数据。
具体地,根据所述用户范围,从所述数据来源中获取所述采集时间内所设置的城市的符合所述年龄和性别等特征的用户对应的所有所述数据维度的数据。
所述分析模块203,用于对样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析。
具体地,从样本数据中获取各用户患病情况,包括糖尿病及其并发症。将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析。从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。按关联分析中找到的左项集因子对用户进行分类,其中包括健康因子、非健康因子、人口属性等。对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率。比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。
所述输出模块204,用于输出关联分析结果。
具体地,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度,用于发现各个因素与糖尿病或并发症之间的关联关系,从而找到糖尿病或并发症潜在的患病因子、以及不同人群的各类患病因子对糖尿病或并发症的影响的强弱关系。
关联因子相应的支持度、置信度、提升度说明了该关联因子所属类别的患者与是否患有糖尿病或并发症的关联关系。例如,因子i的支持度是a%,表示包含因子i的人群在总人群中的占比;置信度是b%,表示包含因子i的人群中患有糖尿病的人群的所占比例为b%;提升度是c,表示上述人群占比相比于总人群中糖尿病患者占比的倍数提升了c倍。说明了因子i作为糖尿病的患病因子的强弱程度。
本实施例利用了大量的用户样本,使用关联分析的方法挖掘糖尿病(并发症)与其他维度特征之间的关系,而不是简单的依照病理关系来确定糖尿病(并发症)的患病因子。这样能更全面的挖掘出更多潜在的患病信息,并能得到每项因子对患病产生的影响程度的数值化结果,能更加直观的比较不同因子的重要性。
参阅图3所示,是本发明糖尿病分析系统200第二实施例的程序模块图。本实施例中,所述的糖尿病分析系统200除了包括第一实施例中的所述设置模块201、获取模块202、分析模块203、输出模块204之外,还包括预处理模块205。
所述预处理模块205用于在所述获取模块202获取样本数据后,对所述样本数据进行预处理。
具体地,所述预处理包括缺失值处理和连续变量的离散化。
在本实施例中,默认将有缺失的数据进行丢弃。如果想保留包含缺失的数据,需要先对缺失值进行填充。本实施例中的样本缺失值主要通过如下方法填充:
a)人口属性和体检指标中涉及到的连续变量用均值填充;
b)金融消费属性中涉及到的连续变量用0填充;
c)各类疾病涉及到的缺失值用0填充,即缺失表示未患病;
d)其他离散维度用-1填充,单独表示缺失类。
该关联规则不能处理连续变量,因此对连续变量进行等频或等宽分箱。例如,本实施例中对年龄进行了等宽分箱,后期又将数据量较小的几个箱进行了合并。其余数据由于数据分布不均匀,左偏现象严重,因此采用等频分箱。
此外,本发明还提出一种糖尿病分析方法。
参阅图4所示,是本发明糖尿病分析方法第一实施例的流程示意图。在本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S400,设置样本范围,包括用户范围和数据维度。
具体地,本实施例需要利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息,从而分析出各类不同的人群的各类患病之间的潜在关系。
首先,需要设置所采集的样本的范围,所述样本范围包括用户范围和数据维度。其中,所述用户范围包括数据来源及采集时间、城市、年龄、性别等。例如,可以设置从医院和保险公司的数据库中采集2010年至2015年深圳市18岁以上的所有男性及女性用户的数据。所述数据维度包括人口属性(性别、年龄、婚姻、学历等)、用户是否患有糖尿病及并发症、健康以及非健康因子等多个维度。例如,健康因子包括体检、用药等相关因子;非健康因子包括职业、金融消费等相关因子。
步骤S402,根据所设置的样本范围,获取相应的样本数据。
具体地,根据所述用户范围,从所述数据来源中获取所述采集时间内所设置的城市的符合所述年龄和性别等特征的用户对应的所有所述数据维度的数据。
步骤S404,对样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析。
具体地,从样本数据中获取各用户患病情况,包括糖尿病及其并发症。将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析。从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。按关联分析中找到的左项集因子对用户进行分类,其中包括健康因子、非健康因子、人口属性等。对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率。比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。
步骤S406,输出关联分析结果。
具体地,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度,用于发现各个因素与糖尿病或并发症之间的关联关系,从而找到糖尿病或并发症潜在的患病因子、以及不同人群的各类患病因子对糖尿病或并发症的影响的强弱关系。
关联因子相应的支持度、置信度、提升度说明了该关联因子所属类别的患者与是否患有糖尿病或并发症的关联关系。例如,因子i的支持度是a%,表示包含因子i的人群在总人群中的占比;置信度是b%,表示包含因子i的人群中患有糖尿病的人群的所占比例为b%;提升度是c,表示上述人群占比相比于总人群中糖尿病患者占比的倍数提升了c倍。说明了因子i作为糖尿病的患病因子的强弱程度。
本实施例所提出的糖尿病分析方法,利用了大量的用户样本,使用关联分析的方法挖掘糖尿病(并发症)与其他维度特征之间的关系,而不是简单的依照病理关系来确定糖尿病(并发症)的患病因子。这样能更全面的挖掘出更多潜在的患病信息,并能得到每项因子对患病产生的影响程度的数值化结果,能更加直观的比较不同因子的重要性。
如图5所示,是本发明糖尿病分析方法的第二实施例的流程示意图。本实施例中,所述糖尿病分析方法的步骤S500-S502及S506-S508与第一实施例的步骤S400-S406相类似,区别在于该方法还包括步骤S504。
该方法包括以下步骤:
步骤S500,设置样本范围,包括用户范围和数据维度。
具体地,本实施例需要利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息,从而分析出各类不同的人群的各类患病之间的潜在关系。
首先,需要设置所采集的样本的范围,所述样本范围包括用户范围和数据维度。其中,所述用户范围包括数据来源及采集时间、城市、年龄、性别等。例如,可以设置从医院和保险公司的数据库中采集2010年至2015年深圳市18岁以上的所有男性及女性用户的数据。所述数据维度包括人口属性(性别、年龄、婚姻、学历等)、用户是否患有糖尿病及并发症、健康以及非健康因子等多个维度。例如,健康因子包括体检、用药等相关因子;非健康因子包括职业、金融消费等相关因子。
步骤S502,根据所设置的样本范围,获取相应的样本数据。
具体地,根据所述用户范围,从所述数据来源中获取所述采集时间内所设置的城市的符合所述年龄和性别等特征的用户对应的所有所述数据维度的数据。
步骤S504,对所述样本数据进行预处理。
具体地,所述预处理包括缺失值处理和连续变量的离散化。
在本实施例中,默认将有缺失的数据进行丢弃。如果想保留包含缺失的数据,需要先对缺失值进行填充。本实施例中的样本缺失值主要通过如下方法填充:
a)人口属性和体检指标中涉及到的连续变量用均值填充;
b)金融消费属性中涉及到的连续变量用0填充;
c)各类疾病涉及到的缺失值用0填充,即缺失表示未患病;
d)其他离散维度用-1填充,单独表示缺失类。
该关联规则不能处理连续变量,因此对连续变量进行等频或等宽分箱。例如,本实施例中对年龄进行了等宽分箱,后期又将数据量较小的几个箱进行了合并。其余数据由于数据分布不均匀,左偏现象严重,因此采用等频分箱。
步骤S506,对样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析。
具体地,从样本数据中获取各用户患病情况,包括糖尿病及其并发症。将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析。从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。按关联分析中找到的左项集因子对用户进行分类,其中包括健康因子、非健康因子、人口属性等。对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率。比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。
步骤S508,输出关联分析结果。
具体地,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度,用于发现各个因素与糖尿病或并发症之间的关联关系,从而找到糖尿病或并发症潜在的患病因子、以及不同人群的各类患病因子对糖尿病或并发症的影响的强弱关系。
关联因子相应的支持度、置信度、提升度说明了该关联因子所属类别的患者与是否患有糖尿病或并发症的关联关系。例如,因子i的支持度是a%,表示包含因子i的人群在总人群中的占比;置信度是b%,表示包含因子i的人群中患有糖尿病的人群的所占比例为b%;提升度是c,表示上述人群占比相比于总人群中糖尿病患者占比的倍数提升了c倍。说明了因子i作为糖尿病的患病因子的强弱程度。
本实施例所提出的糖尿病分析方法,可以利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息。在获取到样本数据后,先对所述样本数据进行预处理,以便于后续通过关联分析的方法,研究各类不同的人群的各类患病之间的潜在关系。进而通过用户的患病情况得到各类不同用户患糖尿病的几率、糖尿病患者产生其他并发症的几率、以及糖尿病与其他影响因素之间的关系。最终帮助潜在糖尿病患者提早预防,并帮助糖尿病患者预防其他并发症的产生。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种糖尿病分析方法,应用于应用服务器,其特征在于,所述方法包括步骤:
设置样本范围,包括用户范围和数据维度;
根据所设置的样本范围,获取相应的样本数据;
对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析,其中,将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集;及
输出关联分析结果。
2.如权利要求1所述的糖尿病分析方法,其特征在于,该方法在进行所述关联分析之前还包括步骤:
对所述样本数据进行预处理,包括缺失值处理和连续变量的离散化。
3.如权利要求2所述的糖尿病分析方法,其特征在于,所述用户范围包括数据来源及采集时间、城市、年龄、性别;所述数据维度包括人口属性、用户是否患有糖尿病及并发症、健康以及非健康因子。
4.如权利要求2所述的糖尿病分析方法,其特征在于,所述对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析的步骤具体包括:
从样本数据中获取各用户患病情况,包括糖尿病及其并发症;
将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析;
从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。
5.如权利要求4所述的糖尿病分析方法,其特征在于,所述对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析的步骤还包括:
按关联分析中找到的左项集因子对用户进行分类;
对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率;
比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。
6.如权利要求2所述的糖尿病分析方法,其特征在于,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度。
7.如权利要求2所述的糖尿病分析方法,其特征在于,所述缺失值处理包括:
默认将有缺失的数据进行丢弃,若要保留包含缺失的数据,则先对缺失值进行填充;所述缺失值的填充方式包括:
人口属性和体检指标中涉及到的连续变量用均值填充;
金融消费属性中涉及到的连续变量用0填充;
各类疾病涉及到的缺失值用0填充;
其他离散维度用-1填充。
8.如权利要求2所述的糖尿病分析方法,其特征在于,所述连续变量的离散化包括:对连续变量进行等频或等宽分箱。
9.一种应用服务器,其特征在于,所述应用服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的糖尿病分析系统,所述糖尿病分析系统被所述处理器执行时实现如权利要求1-8中任一项所述的糖尿病分析方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有糖尿病分析系统,所述企业推荐程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-8中任一项所述的糖尿病分析方法的步骤。
CN201710916176.5A 2017-09-30 2017-09-30 糖尿病分析方法及应用服务器 Pending CN107871536A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710916176.5A CN107871536A (zh) 2017-09-30 2017-09-30 糖尿病分析方法及应用服务器
PCT/CN2018/089429 WO2019062186A1 (zh) 2017-09-30 2018-06-01 糖尿病分析方法、应用服务器和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710916176.5A CN107871536A (zh) 2017-09-30 2017-09-30 糖尿病分析方法及应用服务器

Publications (1)

Publication Number Publication Date
CN107871536A true CN107871536A (zh) 2018-04-03

Family

ID=61752970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710916176.5A Pending CN107871536A (zh) 2017-09-30 2017-09-30 糖尿病分析方法及应用服务器

Country Status (2)

Country Link
CN (1) CN107871536A (zh)
WO (1) WO2019062186A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019062186A1 (zh) * 2017-09-30 2019-04-04 平安科技(深圳)有限公司 糖尿病分析方法、应用服务器和计算机可读存储介质
CN109872783A (zh) * 2018-12-28 2019-06-11 金力 一种基于大数据的糖尿病文献信息标准数据库集分析方法
CN111091566A (zh) * 2020-02-04 2020-05-01 浙江省人民医院 一种糖尿病并发症视网膜病变数据检测方法
WO2021227511A1 (zh) * 2020-05-15 2021-11-18 深圳先进技术研究院 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102483818A (zh) * 2009-04-22 2012-05-30 领头马科技股份有限公司 人工智能辅助的医疗参考系统和方法
CN104715013A (zh) * 2015-01-26 2015-06-17 南京邮电大学 一种基于Hadoop的用户健康数据分析方法和系统
CN104809118A (zh) * 2014-01-24 2015-07-29 中国移动通信集团公司 一种健康相关数据处理方法、装置及系统
CN105335804A (zh) * 2014-08-06 2016-02-17 北京计算机技术及应用研究所 一种社区卫生服务系统
CN105938516A (zh) * 2016-04-12 2016-09-14 宁波大红鹰学院 关联规则算法在血液变与中风关系中的应用方法及装置
CN106383920A (zh) * 2016-11-28 2017-02-08 东南大学 一种基于关联规则的重特大交通事故致因识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050147987A1 (en) * 2000-09-08 2005-07-07 Applera Corporation (Ny) Polymorphisms in known genes associated with type II diabetes and obesity, methods of detection and uses thereof
US8766803B2 (en) * 2011-05-13 2014-07-01 Roche Diagnostics Operations, Inc. Dynamic data collection
EP2963422A1 (en) * 2014-07-01 2016-01-06 Bio-Rad Innovations Early prediction markers of diabetic nephropathy
CN107871536A (zh) * 2017-09-30 2018-04-03 平安科技(深圳)有限公司 糖尿病分析方法及应用服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102483818A (zh) * 2009-04-22 2012-05-30 领头马科技股份有限公司 人工智能辅助的医疗参考系统和方法
CN104809118A (zh) * 2014-01-24 2015-07-29 中国移动通信集团公司 一种健康相关数据处理方法、装置及系统
CN105335804A (zh) * 2014-08-06 2016-02-17 北京计算机技术及应用研究所 一种社区卫生服务系统
CN104715013A (zh) * 2015-01-26 2015-06-17 南京邮电大学 一种基于Hadoop的用户健康数据分析方法和系统
CN105938516A (zh) * 2016-04-12 2016-09-14 宁波大红鹰学院 关联规则算法在血液变与中风关系中的应用方法及装置
CN106383920A (zh) * 2016-11-28 2017-02-08 东南大学 一种基于关联规则的重特大交通事故致因识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘伟业,何永红: "Apriori算法在糖尿病电子病历挖掘分析中的应用", 《电子技术与软件工程》 *
刘元静: "面向数据挖掘的慢性病干预支撑系统的研究", 《万方数据》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019062186A1 (zh) * 2017-09-30 2019-04-04 平安科技(深圳)有限公司 糖尿病分析方法、应用服务器和计算机可读存储介质
CN109872783A (zh) * 2018-12-28 2019-06-11 金力 一种基于大数据的糖尿病文献信息标准数据库集分析方法
CN109872783B (zh) * 2018-12-28 2022-11-29 金力 一种基于大数据的糖尿病文献信息标准数据库集分析方法
CN111091566A (zh) * 2020-02-04 2020-05-01 浙江省人民医院 一种糖尿病并发症视网膜病变数据检测方法
WO2021227511A1 (zh) * 2020-05-15 2021-11-18 深圳先进技术研究院 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质

Also Published As

Publication number Publication date
WO2019062186A1 (zh) 2019-04-04

Similar Documents

Publication Publication Date Title
CN107871536A (zh) 糖尿病分析方法及应用服务器
CN112365987B (zh) 诊断数据异常检测方法、装置、计算机设备及存储介质
WO2020048051A1 (zh) 理财产品推荐方法、服务器及计算机可读存储介质
WO2019080662A1 (zh) 信息推荐方法及装置、设备
US10373712B2 (en) Aggregation, partitioning, and management of healthcare data for efficient storage and processing
TW201843622A (zh) 基於資料源的業務客製裝置、方法及電腦可讀儲存介質
WO2021017290A1 (zh) 基于知识图谱的实体识别数据增强方法及系统
CN110503566B (zh) 风控模型建立方法、装置、计算机设备及存储介质
CN110265153A (zh) 慢性病随访方法及电子装置
CN112148995A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN110458594A (zh) 一种基于用户权重的网络调查问卷生成方法和装置
CN113706442A (zh) 基于人工智能的医疗图像处理方法、装置及电子设备
CN109767830A (zh) 基于数据分析的医院评价方法及相关产品
CN110752027B (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
CN112447270A (zh) 一种用药推荐方法、装置、设备及存储介质
CN107256344A (zh) 数据处理方法、装置以及放疗管理系统
CN109299238A (zh) 一种数据查询方法和装置
CN109460942A (zh) 基于数据分析评价医院的方法及相关产品
CN110600093B (zh) 一种健康管理方法、系统、终端设备及存储介质
CN110020597B (zh) 一种用于头晕/眩晕辅诊的眼部视频处理方法及系统
CN116246749A (zh) 集成电子病历的内分泌病人个性化健康管理系统
CN114782452B (zh) 一种荧光素眼底血管造影图像的处理系统及装置
CN109671503A (zh) 健康方案评估方法及装置
CN114822798A (zh) 用户匹配方法、装置、电子设备及存储介质
CN113436725A (zh) 数据处理方法、系统、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180403