CN105160087A

CN105160087A - 一种关联规则最优曲线模型的构建方法

Info

Publication number: CN105160087A
Application number: CN201510531444.2A
Authority: CN
Inventors: 李非; 伯晓晨; 徐文剑; 于耀东
Original assignee: Institute of Radiation Medicine of CAMMS
Current assignee: Institute of Radiation Medicine of CAMMS
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2015-12-16
Anticipated expiration: 2035-08-26
Also published as: CN105160087B

Abstract

本发明涉及一种关联规则最优曲线模型的构建方法，包括以下步骤：确定疾病的危险因素，获得参与人群的二分类型统计数据；对危险因素进行组合获得n种危险因素组合，计算其在二分类型统计数据中的支持度和置信度；将危险因素组合按其置信度自高到低的顺序排列后，合并前i种危险因素组合形成n种危险因素复合组合；计算危险因素复合组合支持度和置信度；在支持度-置信度直角坐标系中作出与其相对应的点，用平滑曲线连接，该平滑曲线即为在支持度一定的情况下置信度最优的关联规则最优曲线。本发明操作简单、可同时有效地比较具有不同置信度、支持度的关联规则优劣，因此以广泛应用于关联规则最优曲线模型的构建中。

Description

一种关联规则最优曲线模型的构建方法

技术领域

本发明涉及一种曲线模型的构建方法，特别是关于一种关联规则最优曲线模型的构建方法。

背景技术

对易发病人群的共性指标进行定期监测和风险预测是非流行性疾病防控的通用策略。这类疾病的事实发病风险通常与人口统计学特征、生活习惯等多个风险指标相关。为了准确预测发病风险，根据同一个临床统计连续型数据，套用不同策略可以统计、归纳拟合得到多个风险预测模型，多个风险预测模型相互之间的优劣性一般是通过调整模型参数，得到预测准确度和特异性构成的曲线下面积大小来度量。但是风险预测指标的常见数据形式通常是二分类型数据，如是否吸烟，是否喝酒，一旦根据此类数据构建出预测模型，无参数可调整，因而不适用准确度和特异性曲线下面积的度量方法，优劣性比较非常困难。

发明内容

针对上述问题，本发明的目的是提供一种操作简单、可同时有效地比较具有不同置信度、支持度的关联规则优劣的关联规则最优曲线模型的构建方法。

为实现上述目的，本发明采取以下技术方案：一种关联规则最优曲线模型的构建方法，包括以下步骤：

1)确定一种疾病的若干个危险因素，获得参与人群含有的危险因素及患有该疾病的二分类型统计数据，其中，二分类型统计数据中每个危险因素的数据内容根据参与人群是否含有该危险因素确定为“是”或者“否”；

2)对该疾病的若干个危险因素进行任意组合获得n种危险因素组合，其中，n为正整数；将每个危险因素组合作为关联规则中的先导X，将该疾病作为关联规则中的后继Y，计算每个危险因素组合在获得的二分类型统计数据中的支持度和置信度；

3)将危险因素组合按照其置信度自高到低的顺序排列后，依次合并前i种危险因素组合形成n种危险因素复合组合，其中i为正整数，取值范围从1到n；

4)计算每种危险因素复合组合在二分类型统计数据中的支持度和置信度；

5)以支持度为横坐标，置信度为纵坐标建立支持度-置信度直角坐标系，在支持度-置信度直角坐标系中作出与危险因素复合组合的置信度和支持度相对应的点，并采用平滑曲线连接，该平滑曲线即为在支持度一定的情况下置信度最优的关联规则最优曲线。

所述步骤2)中，每个危险因素组合在二分类型统计数据中的支持度为既包含危险因素组合又包含疾病的数据在二分类型统计数据中的概率；置信度为二分类型统计数据中既包含危险因素组合又包含疾病的数据在包含危险因素组合的数据中的概率。

本发明由于采取以上技术方案，其具有以下优点：本发明由于采用根据疾病的二分类型统计数据计算得到关联规则中每种危险因素组合的支持度和置信度，将危险因素组合按照其置信度conf(Y|X)自高到低的顺序排列后，依次合并前i种危险因素组合形成n种危险因素复合组合R_i，然后根据危险因素复合组合R_i的支持度和置信度构建关联规则的最优曲线模型，得到在支持度一定的情况下的最优的置信度，有助于我们比较具有不同置信度、支持度的规则的优劣。综上所述，本发明可以广泛应用于关联规则最优曲线模型的构建中。

附图说明

图1是本发明的关联规则最优曲线模型的构建方法流程示意图

图2是本发明的关联规则的最优曲线示意图

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明提供一种关联规则最优曲线模型的构建方法，包括以下步骤：

1)确定一种疾病的若干个危险因素，获得参与人群含有的危险因素及患有该疾病的二分类型统计数据，其中，二分类型统计数据中每个危险因素的数据内容根据参与人群是否含有该危险因素确定为“是”或者“否”。

2)对该疾病的若干个危险因素进行任意组合获得n种危险因素组合，其中，n为正整数。将每个危险因素组合作为关联规则中的先导X，将该疾病作为关联规则中的后继Y，计算每个危险因素组合在获得的二分类型统计数据中的支持度supp(XY)和置信度conf(Y|X)。

其中，每个危险因素组合在二分类型统计数据中的支持度supp(XY)为既包含危险因素组合又包含疾病的数据在二分类型统计数据中的概率；置信度conf(Y|X)为二分类型统计数据中既包含危险因素组合又包含疾病的数据在包含危险因素组合的数据中的概率。

3)将危险因素组合按照其置信度conf(Y|X)自高到低的顺序排列后，依次合并前i种危险因素组合形成n种危险因素复合组合R_i，其中i为正整数，取值范围从1到n。

4)计算每种危险因素复合组合R_i在二分类型统计数据中的支持度supp(XY)和置信度conf(Y|X)。

5)以支持度supp(XY)为横坐标，置信度conf(Y|X)为纵坐标建立支持度-置信度直角坐标系，如图2所示，在支持度-置信度直角坐标系中作出与危险因素复合组合R_i的置信度conf(Y|X)和支持度supp(XY)相对应的点，并采用平滑曲线连接，即为在支持度一定的情况下置信度最优的关联规则最优曲线。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种关联规则最优曲线模型的构建方法，包括以下步骤：

2.如权利要求1所述的一种关联规则最优曲线模型的构建方法，其特征在于：所述步骤2)中，每个危险因素组合在二分类型统计数据中的支持度为既包含危险因素组合又包含疾病的数据在二分类型统计数据中的概率；置信度为二分类型统计数据中既包含危险因素组合又包含疾病的数据在包含危险因素组合的数据中的概率。