CN115831306A

CN115831306A - 一种数据分析装置、方法及计算机存储介质

Info

Publication number: CN115831306A
Application number: CN202310153790.6A
Authority: CN
Inventors: 唐熠达; 邵春丽; 尉晨; 田间; 郑济林; 王旭梁
Original assignee: Beijing Kangbo Zhonglian Electronic Technology Co ltd
Current assignee: Beijing Kangbo Zhonglian Electronic Technology Co ltd
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-03-21

Abstract

本申请涉及用于数据分析、训练其模型的装置、方法和存储介质。数据分析的方法包括：获取患者的年龄数据和病史数据，病史数据至少包括表示患者曾患有的一个或多个疾病的数据，疾病包括高血压、高脂血症、糖尿病和脑梗死中的至少一种；根据病史数据确定各个疾病的患病系数，患病系数表示患者是否患有对应的疾病，患病系数包括高血压患病系数、高脂血症患病系数、脑梗死患病系数、糖尿病患病系数；基于年龄数据和病史数据，通过使用迭代重加权最小二乘方法预先训练好的逻辑回归模型，计算患者的冠心病患病参数，以及基于冠心病患病参数计算患者患冠心病的概率。本申请技术方案采用机器学习和大数据分析，能够根据患者的病史判断患者患冠心病的风险。

Description

一种数据分析装置、方法及计算机存储介质

技术领域

本申请涉及数据分析领域。具体地，本申请涉及一种数据分析装置、方法及计算机存储介质。

背景技术

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析，以求最大化地开发数据资料的功能，发挥其数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析可帮助人们作出判断，以便采取适当行动。

数据分析有目的的进行收集、整理、加工和分析数据，提炼有价信息的一个过程。其过程概括起来包括明确分析目的与框架，数据收集，数据处理，数据分析，数据展现和撰写报告，也包括对比分析法，分组分析，交叉分析，平均分析法等。

随着人类基因组测序技术的革新、生物医学分析技术的进步以及大数据分析工具的出现，精准医疗的时代已经到来。精准医疗是一种定制医疗模式，它以人体基因组信息为基础，结合蛋白质组、代谢组等相关内环境信息，为患者量身制定出最佳治疗方案，以期达到治疗效果最大化和副作用最小化。

冠心病的诊断主要依赖典型的临床症状，再结合辅助检查以发现心肌缺血或冠脉阻塞的证据，以及检测心肌损伤标志物来判定是否有心肌坏死情况。发现心肌缺血最常用的检查方法包括常规心电图和心电图负荷试验、核素心肌显像，有创性检查包括冠状动脉造影和血管内超声等。然而，只有当患者实际已经患有冠心病时，才能确诊冠心病。

目前，尚无能够快速且准确地预测冠心病的有效方式。

发明内容

本申请实施例提供了一种数据分析装置、方法及计算机存储介质，以解决现有技术不能快速且准确地预测冠心病的问题。

根据本申请实施例的一个方面，提供了用于数据分析的装置，包括：数据获取模块，被配置为获取患者的年龄数据和病史数据，年龄数据表示患者的年龄，病史数据至少包括表示患者曾患有的一个或多个疾病的数据，疾病至少包括高血压和/或高脂血症和/或糖尿病和/或脑梗死中等；患病系数确定模块，被配置为根据病史数据确定各个疾病的患病系数，患病系数表示患者是否患有对应的疾病，患病系数至少包括高血压患病系数和/或高脂血症患病系数和/或脑梗死患病系数和/或糖尿病患病系数等；冠心病患病参数计算模块，被配置为基于年龄数据和病史数据，通过使用迭代重加权最小二乘方法预先训练好的逻辑回归模型，计算患者的冠心病患病参数，冠心病患病参数与患者患冠心病的概率相关联；以及冠心病患病概率计算模块，被配置为基于冠心病患病参数计算患者患冠心病的概率。

以这样的方式，通过机器学习和大数据分析，根据患者是否患有高血压、高脂血症、糖尿病和脑梗死中的至少一种疾病，能够预测患者将患有冠心病的概率。

根据本申请的示例性实施例，预先训练好的逻辑回归模型为y=e^(0.0777*年龄数据+1.4288*高血压患病系数+1.1626*高脂血症患病系数+0.6090*脑梗死患病系数+0.4482*糖尿病患病系数-4.3910)，其中，y表示冠心病患病参数。

以这样的方式，应用预先训练好的逻辑回归模型以确定冠心病患病参数。

根据本申请的示例性实施例，冠心病患病概率计算模块基于冠心病患病参数计算患者患冠心病的概率包括：通过以下公式计算患者患冠心病的概率：p=y/(1+y)，其中，p表示患者患冠心病的概率。

以这样的方式，准确计算患者患冠心病的概率。

根据本申请实施例的另一方面，还提供了用于数据分析的方法，包括：获取患者的年龄数据和病史数据，年龄数据表示患者的年龄，病史数据至少包括表示患者曾患有的一个或多个疾病的数据，疾病包括高血压、高脂血症、糖尿病和脑梗死中的至少一种；根据病史数据确定各个疾病的患病系数，患病系数表示患者是否患有对应的疾病，患病系数包括高血压患病系数、高脂血症患病系数、脑梗死患病系数、糖尿病患病系数；基于年龄数据和病史数据，通过使用迭代重加权最小二乘方法预先训练好的逻辑回归模型，计算患者的冠心病患病参数，冠心病患病参数与患者患冠心病的概率相关联；以及基于冠心病患病参数计算患者患冠心病的概率。

根据本申请的示例性实施例，基于冠心病患病参数计算患者患冠心病的概率包括：通过以下公式计算患者患冠心病的概率：p=y/(1+y)，其中，p表示患者患冠心病的概率。

以这样的方式，准确计算患者患冠心病的概率。

根据本申请实施例的另一方面，还提供了一种数据分析的装置，数据分析的装置包括一个或多个处理器和计算机存储介质，计算机存储介质包括计算机可读指令，当计算机可读指令被一个或多个处理器运行时执行上述任一项的方法。

根据本申请实施例的另一方面，还提供了一种计算机存储介质，包括计算机可读指令，当计算机可读指令被一个或多个处理器运行时执行上述任一项的方法。

根据本申请实施例的另一方面，还提供了用于训练数据分析的模型的方法，包括：获取多个用户的个人身份数据；获取多个用户中的每个用户的起始疾病诊断统计数据，起始疾病诊断统计数据包括每个用户在起始时间点的起始年龄、表示起始时间点的起始时间点数据以及在起始时间点已患有的一个或多个起始疾病的数据，起始疾病包括高血压、高脂血症、糖尿病和脑梗死中的至少一种；获取多个用户中的每个用户的结局疾病诊断统计数据，结局疾病诊断统计数据包括每个用户在结局时间点的结局年龄、表示结局时间点的结局时间点数据以及在结局时间点已患有的一个或多个结局疾病的数据，结局疾病包括冠心病，其中，起始时间点早于结局时间点；以及使用迭代重加权最小二乘法训练逻辑回归模型以得到经训练的模型，其中，将起始疾病诊断统计数据作为变量数据、将结局疾病诊断统计数据作为目标数据用于训练逻辑回归模型。

以这样的方式，获取用于训练模型的数据并且训练模型，模型可以用于预测患者将患有冠心病的概率。

根据本申请的示例性实施例，方法还包括：获取多个用户中的每个用户的中途疾病诊断统计数据，中途疾病诊断统计数据包括每个用户在中途时间点的中途年龄、表示中途时间点的中途时间点数据以及在中途时间点已患有的一个或多个中途疾病的数据，中途疾病包括高血压、高脂血症、糖尿病和脑梗死中的至少一种，其中，中途时间点在起始时间点和结局时间点之间；并且使用迭代重加权最小二乘法训练逻辑回归模型还包括将中途疾病诊断统计数据作为变量数据用于训练逻辑回归模型。

以这样的方式，继续获取用于训练模型的数据并且训练模型，提高训练模型的数据量以提升模型的准确率。

根据本申请的示例性实施例，逻辑回归模型是使用误差分布为二项分布、连接函数为logit的广义线性模型进行建模的。

以这样的方式，建立能够准确进行数据分析和预测的模型。

根据本申请的示例性实施例，方法还包括：使用t统计量对回归系数进行统计检验，其中，如果检验双侧P<0.05，则确定统计有效。

以这样的方式对模型进行统计检验。

根据本申请的示例性实施例，方法还包括：采用ROC曲线下面积AUC对模型进行评估。

以这样的方式对模型进行评估。

根据本申请实施例的另一方面，还提供了一种训练数据分析的模型的装置，训练数据分析的模型的装置包括一个或多个处理器和计算机存储介质，计算机存储介质包括计算机可读指令，当计算机可读指令被一个或多个处理器运行时执行上述任一项的方法。

在本申请实施例中，提供了引入对大数据进行分析的机器学习实现的数据分析的技术方案，训练模型以及应用训练模型从而预测冠心病，以至少解决如何快速且准确地预测冠心病的技术问题，实现了对冠心病提前预测、不必采用医疗器械进行有创性检查的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的用于数据分析的装置的框图；

图2是根据本申请实施例的用于数据分析的方法的流程图；

图3是根据本申请实施例的用于训练数据分析的模型的方法的流程图；

图4是根据本申请示例性实施例的用于训练数据分析的模型的方法的流程图；

图5是采用ROC曲线下面积AUC对模型进行评估的ROC曲线图。

附图文字说明：

10：用于数据分析的装置；

101：数据获取模块；

103：患病系数确定模块；

105：冠心病患病参数计算模块；

107：冠心病患病概率计算模块；

S201、S203、S205、S207、S301、S303、S305、S306、S307：步骤。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块或单元。

根据本申请实施例，提供了一种数据分析的装置。图1是根据本申请实施例的用于数据分析的装置的框图。如图1所示，用于数据分析的装置10包括：数据获取模块101、患病系数确定模块103、冠心病患病参数计算模块105和冠心病患病概率计算模块107。

数据获取模块101被配置为获取患者的年龄数据和病史数据，年龄数据表示患者的年龄，病史数据至少包括表示患者曾患有的一个或多个疾病的数据，疾病包括高血压、高脂血症、糖尿病和脑梗死中的至少一种。

具体的，患者的年龄数据可以基于患者的个人识别信息获取，例如，从患者的病历系统的数据库获取，或者从患者的其他的注册有个人信息的系统中获取。年龄数据可以是根据患者的出生日期计算得出的，可以精确到年、月或日。患者的病史数据可以是从病历系统的数据库获取的，也可以是在医生对患者进行诊断后得到的，例如包括患者是否患有高血压、高脂血症、糖尿病和脑梗死中的至少一种。

患病系数确定模块103被配置为根据病史数据确定各个疾病的患病系数，患病系数表示患者是否患有对应的疾病，患病系数包括高血压患病系数、高脂血症患病系数、脑梗死患病系数、糖尿病患病系数。例如，可以用“1”表示患者患有疾病，“0”表示患者未患有疾病。对于患有高血压、高脂血症、糖尿病和脑梗死的患者，高血压患病系数、高脂血症患病系数、脑梗死患病系数、糖尿病患病系数均为1。对于对于患有高血压、高脂血症、糖尿病而未患有脑梗死的患者，高血压患病系数、高脂血症患病系数、糖尿病患病系数均为1，而脑梗死患病系数为0。以上仅为各个疾病的患病系数的示例。根据患者患有不同疾病的情况，各个疾病的患病系数不同。

冠心病患病参数计算模块105被配置为基于年龄数据和病史数据，通过使用迭代重加权最小二乘方法预先训练好的逻辑回归模型，计算患者的冠心病患病参数，冠心病患病参数与患者患冠心病的概率相关联。具体地，冠心病患病参数是通过经训练的模型得出的，模型的训练将在后文描述。

冠心病患病概率计算模块107被配置为基于冠心病患病参数计算患者患冠心病的概率。

该逻辑回归模型是通过后文将描述的训练方式基于训练数据得出的。根据不同的训练数据，可能得到不同的逻辑回归模型。应理解，该逻辑回归模型已经能够准确预测冠心病的患病概率，因为其基于大量且置信率高的数据进行训练得出。这将在后文关于对模型的训练方式中描述。

以这样的方式，准确计算患者患冠心病的概率。

根据本申请实施例的另一方面，还提供了用于数据分析的方法。图2是根据本申请实施例的用于数据分析的方法的流程图。如图2所示，用于数据分析的方法包括步骤S201、S203、S205和S207。

在步骤S201获取患者的年龄数据和病史数据，年龄数据表示患者的年龄，病史数据至少包括表示患者曾患有的一个或多个疾病的数据，疾病包括高血压、高脂血症、糖尿病和脑梗死中的至少一种。

在步骤S203根据病史数据确定各个疾病的患病系数，患病系数表示患者是否患有对应的疾病，患病系数包括高血压患病系数、高脂血症患病系数、脑梗死患病系数、糖尿病患病系数。

在步骤S205基于年龄数据和病史数据，通过使用迭代重加权最小二乘方法预先训练好的逻辑回归模型，计算患者的冠心病患病参数，冠心病患病参数与患者患冠心病的概率相关联。

在步骤S207基于冠心病患病参数计算患者患冠心病的概率。

以这样的方式，准确计算患者患冠心病的概率。

上述用于数据分析的装置和方法可以应用于模型的应用过程中。以下将描述用于训练数据分析的模型的方法。

根据本申请实施例的另一方面，还提供了用于训练数据分析的模型的方法。图3是根据本申请实施例的用于训练数据分析的模型的方法的流程图。如图3所示，用于训练数据分析的模型的方法包括：步骤S301、步骤S303、步骤S305和步骤S307。

用于训练数据分析的模型的方法将包括获取用户的数据的步骤。应理解，获取用户的数据的方式将不限于后文描述的示例，只要能够从数据库获取需要的数据即可。

在本申请实施方式中，将描述从NICER数据库（基于中国医疗保险数据库的罕见病流行病学研究，National Insurance Claims for Epidemiological Research Study）中获取数据的方式。该数据库中包括大量统计信息，其中包括用户的个人身份数据、医疗和疾病诊断相关的统计信息，例如用户患有的疾病、诊断结果等。数据的统计维度跨越4年时间，包括300万条数据，因此为训练机器模型提供了可靠的训练依据。

在步骤S301获取多个用户的个人身份数据。个人身份数据包括但不限于用户的姓名、性别，还可以包括用户的人种、少数民族、生活习惯（例如是否吸烟、饮酒）、家族病史等。

在步骤S303获取多个用户中的每个用户的起始疾病诊断统计数据，起始疾病诊断统计数据包括每个用户在起始时间点的起始年龄、表示起始时间点的起始时间点数据以及在起始时间点已患有的一个或多个起始疾病的数据，起始疾病包括高血压、高脂血症、糖尿病和脑梗死中的至少一种。

本文中，“起始疾病诊断统计数据”是针对每个用户所获取的最早的疾病诊断统计数据，包括该用户在最早时间点的年龄（精确到月或日，可以通过出生年日期来确定），以及在该最早时间点所患有的疾病的数据。疾病诊断统计数据中的疾病可以通过疾病的名称、ICD-10编码来识别。国际疾病分类（international Classification of diseases，ICD）是依据疾病的某些特征、按照规则将疾病分门别类、并用编码的方法来表示的系统。ICD-10为第10次修订本。应理解，以上仅为本申请实施例提供的示例性实施方式。在其他实施方式中，也可以使用其他方式识别疾病，只要能够从统计数据中识别用户是否患有疾病即可。

在示例性实施方式中，对疾病的识别将涉及5种目标疾病，包括高血压、高脂血症、糖尿病、脑梗死和冠心病。根据5种目标疾病从全部统计数据中筛选抽样，从而得到训练模型所需的数据。

示例性的抽样条件如表1所示：

表1

注：%表示任意长度的通配符，_表示一个字符长度的通配符。

在训练模型的过程中，仅包括高血压、高脂血症、糖尿病、脑梗死的统计数据将作为有效数据用于训练模型。即，纳入训练的数据将包括年龄、高血压、高脂血症、糖尿病、脑梗死的统计数据。因此，在模型的应用阶段，可以基于新获得的用户的年龄、高血压、高脂血症、糖尿病、脑梗死的统计数据作为输入，得到对应的输出结果。

在步骤S305获取多个用户中的每个用户的结局疾病诊断统计数据，结局疾病诊断统计数据包括每个用户在结局时间点的结局年龄、表示结局时间点的结局时间点数据以及在结局时间点已患有的一个或多个结局疾病的数据，结局疾病包括冠心病，其中，起始时间点早于结局时间点。

本文中，“结局疾病诊断统计数据”是针对每个用户所获取的最晚的疾病诊断统计数据，包括该用户在最晚时间点的年龄（精确到月或日，可以通过出生年日期来确定），以及在该最晚时间点所患有的疾病的数据。其中，如果该用户的疾病诊断统计数据中包括了该用户患有冠心病的数据，则记录该疾病诊断统计数据的时间点即为最晚时间点。换言之，疾病诊断统计数据的获取将从患者患有高血压、高脂血症、糖尿病、脑梗死中的至少一种开始，到患者患有冠心病为止。在一个用户的所有疾病诊断统计数据中，如果存在多个包括用户患有冠心病的疾病诊断统计数据，可以将这些疾病诊断统计数据中的最早的一份数据用作结局疾病诊断统计数据。

在步骤S307使用迭代重加权最小二乘法训练逻辑回归模型以得到经训练的模型，其中，将起始疾病诊断统计数据作为变量数据、将结局疾病诊断统计数据作为目标数据用于训练逻辑回归模型。

在示例性实施方式中，符合糖尿病、高脂血症、高血压、脑梗死的纳排条件的数据被标记为风险因素中的有效事件，其余则为无效事件。符合冠心病纳排条件的数据被标记为结局事件中的有效事件，其余结局事件为无效事件。即，训练模型的数据将涉及变量为用户是否患有糖尿病、高脂血症、高血压、脑梗死的统计数据与最终该用户患有冠心病之间的联系；也就是说，根据患者是否患有糖尿病、高脂血症、高血压、脑梗死等统计数据，通过该训练模型可以知道该患者未来患有冠心病的概率有多大。

在示例性实施方式中，在所有的疾病诊断统计数据中，数据完整度大于99%的被保留，数据完整度大于99%的被剔除，从而进一步提升用于训练模型的数据的可靠性，进一步保证了该模型的鲁棒性。

在示例性实施方式中，首次风险因素的诊断时间与结局事件时间跨度需大于6个月，从而体现用户从患有糖尿病、高脂血症、高血压、脑梗死中的至少一种开始从而引发冠心病的时间跨度。即，在示例性实施方式中，结局时间点将比起始时间点晚6个月。

以这样的方式，获取用于训练模型的数据并且训练模型，模型可以用于预测患者将患有冠心病的概率，为患者的身体状况做出评估，并给出参考数据。

图4是根据本申请示例性实施例的用于训练数据分析的模型的方法的流程图。如图4所示，根据本申请的示例性实施例，方法还包括在步骤306获取多个用户中的每个用户的中途疾病诊断统计数据，中途疾病诊断统计数据包括每个用户在中途时间点的中途年龄、表示中途时间点的中途时间点数据以及在中途时间点已患有的一个或多个中途疾病的数据，中途疾病包括高血压、高脂血症、糖尿病和脑梗死中的至少一种，其中，中途时间点在起始时间点和结局时间点之间，并且使用迭代重加权最小二乘法训练逻辑回归模型还包括将中途疾病诊断统计数据作为变量数据用于训练逻辑回归模型。

在示例性实施方式中，获取起始疾病诊断统计数据、结局疾病诊断统计数据和中途疾病诊断统计数据的时间先后顺序不必按照顺序执行，而是可以按照任意顺序执行或者同时执行。

换言之，除了包括用户最初的患有高血压、高脂血症、糖尿病和脑梗死中的至少一种的起始疾病诊断统计数据和最晚的、作为“结局事件”的包括用户患有冠心病的结局疾病诊断统计数据之外，可以通过将两者时间点之间的疾病诊断统计数据用于模型的训练，以这样的方式，继续获取用于训练模型的数据并且训练模型，提高训练模型的数据量以提升模型的准确率。

在本申请示例性实施方式中，最终被筛选出的数据为95万条用于训练模型进行数据分析。

根据本申请的示例性实施例，逻辑回归模型是使用误差分布为二项分布、连接函数为logit的广义线性模型进行建模的。以这样的方式，建立能够准确进行数据分析和预测的模型。

在示例性实施方式中，经训练得到最终的模型，该模型的参数参见如下的表2：

表2

最终得到的模型为：

y=e^(0.0777*年龄数据+1.4288*高血压患病系数+1.1626*高脂血症患病系数+0.6090*脑梗死患病系数+0.4482*糖尿病患病系数-4.3910)，其中，y表示所述冠心病患病参数，

p=y/(1+y)，其中，p表示所述患者患冠心病的概率。

根据本申请的示例性实施例，方法还包括：使用t统计量对回归系数进行统计检验，其中，如果检验双侧P<0.05，则确定统计有效。以这样的方式对模型进行统计检验。

根据本申请的示例性实施例，方法还包括：采用ROC曲线下面积AUC对模型进行评估。AUC（Area Under Curve）被定义为ROC曲线下与坐标轴围成的面积。ROC曲线为受试者工作特征曲线（receiver operating characteristic curve），它是根据一系列不同的二分类方式（分界值或决定阈），以真阳性率（敏感性）为纵坐标，假阳性率（1-特异性）为横坐标绘制的曲线。图5是采用ROC曲线下面积AUC对模型进行评估的ROC曲线图。根据本申请实施例，采用随机采样（random sample）用于对模型评估，数据源为从300万条NICER数据库中根据如上实施例筛选出的95万条数据。由于数据源样本量大，因此已经能够足够地反映真实世界中自然人群的实际情况。如图5所示，AUC为0.804，这说明预测模型的预测性能较好。

根据本申请技术方案采用对大数据训练模型，并且将训练的模型应用到冠心病的预测，使得能够提前预测用户患有冠心病的概率，使用户能够提前预防。并且对冠心病的诊断无需采用传统的有创性检查，降低了对身体的伤害。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元或模块可以是或者也可以不是物理上分开的，作为单元或模块显示的部件可以是或者也可以不是物理单元或模块，即可以位于一个地方，或者也可以分布到多个网络单元或模块上。可以根据实际的需要选择其中的部分或者全部单元或模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元或模块可以集成在一个处理单元或模块中，也可以是各个单元或模块单独物理存在，也可以两个或两个以上单元或模块集成在一个单元或模块中。上述集成的单元或模块既可以采用硬件的形式实现，也可以采用软件功能单元或模块的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.用于数据分析的装置（10），其特征在于，包括：

数据获取模块（101），被配置为获取患者的年龄数据和病史数据，所述年龄数据表示所述患者的年龄，所述病史数据至少包括表示所述患者曾患有的一个或多个疾病的数据，所述疾病至少包括高血压和/或高脂血症和/或糖尿病和/或脑梗死；

患病系数确定模块（103），被配置为根据所述病史数据确定各个所述疾病的患病系数，所述患病系数表示所述患者是否患有对应的所述疾病，所述患病系数包括高血压患病系数和/或高脂血症患病系数和/或脑梗死患病系数和/或糖尿病患病系数；

冠心病患病参数计算模块（105），被配置为基于所述年龄数据和所述病史数据，通过使用迭代重加权最小二乘方法预先训练好的逻辑回归模型，计算所述患者的冠心病患病参数，所述冠心病患病参数与所述患者患冠心病的概率相关联；以及

冠心病患病概率计算模块（107），被配置为基于所述冠心病患病参数计算所述患者患冠心病的概率。

2.根据权利要求1所述的装置（10），其特征在于：

所述预先训练好的逻辑回归模型为y=e^(0.0777*年龄数据+1.4288*高血压患病系数+1.1626*高脂血症患病系数+0.6090*脑梗死患病系数+0.4482*糖尿病患病系数-4.3910)，其中，y表示所述冠心病患病参数。

3.根据权利要求2所述的装置（10），其特征在于，冠心病患病概率计算模块（107）基于所述冠心病患病参数计算所述患者患冠心病的概率包括：

通过以下公式计算所述患者患冠心病的概率：

p=y/(1+y)，其中，p表示所述患者患冠心病的概率。

4.用于数据分析的方法，其特征在于，包括：

获取患者的年龄数据和病史数据，所述年龄数据表示所述患者的年龄，所述病史数据至少包括表示所述患者曾患有的一个或多个疾病的数据，所述疾病至少包括高血压和/或高脂血症和/或糖尿病和/或脑梗死中；

根据所述病史数据确定各个所述疾病的患病系数，所述患病系数表示所述患者是否患有对应的所述疾病，所述患病系数包括高血压患病系数和/或高脂血症患病系数和/或脑梗死患病系数和/或糖尿病患病系数；

基于所述年龄数据和所述病史数据，通过使用预先训练好的逻辑回归模型，计算所述患者的冠心病患病参数，所述冠心病患病参数与所述患者患冠心病的概率相关联；以及

基于所述冠心病患病参数计算所述患者患冠心病的概率。

5.根据权利要求4所述的方法，其特征在于：

6.根据权利要求5所述的方法，其特征在于，基于所述冠心病患病参数计算所述患者患冠心病的概率包括：

通过以下公式计算所述患者患冠心病的概率：

p=y/(1+y)，其中，p表示所述患者患冠心病的概率。

7.用于训练数据分析的模型的方法，其特征在于，包括：

获取多个用户的个人身份数据；

获取多个用户中的每个所述用户的起始疾病诊断统计数据，所述起始疾病诊断统计数据包括每个所述用户在起始时间点的起始年龄、表示所述起始时间点的起始时间点数据以及在所述起始时间点已患有的一个或多个起始疾病的数据，所述起始疾病包括至少高血压和/或高脂血症和/或糖尿病和/或脑梗死中；

获取多个用户中的每个所述用户的结局疾病诊断统计数据，所述结局疾病诊断统计数据包括每个所述用户在结局时间点的结局年龄、表示所述结局时间点的结局时间点数据以及在所述结局时间点已患有的一个或多个结局疾病的数据，所述结局疾病至少包括冠心病，其中，所述起始时间点早于所述结局时间点；以及

使用逻辑回归模型以得到经训练的模型，其中，将所述起始疾病诊断统计数据作为变量数据、将所述结局疾病诊断统计数据作为目标数据用于训练逻辑回归模型。

8.根据权利要求7所述的方法，其特征在于，还包括：

获取多个用户中的每个所述用户的中途疾病诊断统计数据，所述中途疾病诊断统计数据包括每个所述用户在中途时间点的中途年龄、表示所述中途时间点的中途时间点数据以及在所述中途时间点已患有的一个或多个中途疾病的数据，所述中途疾病包括高血压、高脂血症、糖尿病和脑梗死中的至少一种，其中，所述中途时间点在所述起始时间点和所述结局时间点之间；并且

使用迭代重加权最小二乘法训练逻辑回归模型还包括将所述中途疾病诊断统计数据作为变量数据用于训练所述逻辑回归模型。

9.根据权利要求7或8所述的方法，其特征在于：

所述逻辑回归模型是使用误差分布为二项分布、连接函数为logit的广义线性模型进行建模的。

10.根据权利要求7或8所述的方法，其特征在于，还包括：

使用t统计量对回归系数进行统计检验，其中，

如果检验双侧P<0.05，则确定统计有效。

11.根据权利要求7或8所述的方法，其特征在于，还包括：

采用ROC曲线下面积AUC对模型进行评估。

12.一种数据分析的装置，其特征在于，所述数据分析的装置包括一个或多个处理器和计算机存储介质，所述计算机存储介质包括计算机可读指令，当所述计算机可读指令被所述一个或多个处理器运行时执行上述权利要求4-6中任一项所述的方法。

13.一种计算机存储介质，其特征在于，包括计算机可读指令，当所述计算机可读指令被一个或多个处理器运行时执行上述权利要求4-6中任一项所述的方法。

14.一种训练数据分析的模型的装置，其特征在于，所述训练数据分析的模型的装置包括一个或多个处理器和计算机存储介质，所述计算机存储介质包括计算机可读指令，当所述计算机可读指令被所述一个或多个处理器运行时执行上述权利要求7-10中任一项所述的方法。

15.一种计算机存储介质，其特征在于，包括计算机可读指令，当所述计算机可读指令被一个或多个处理器运行时执行上述权利要求7-10中任一项所述的方法。