CN105160087A - 一种关联规则最优曲线模型的构建方法 - Google Patents
一种关联规则最优曲线模型的构建方法 Download PDFInfo
- Publication number
- CN105160087A CN105160087A CN201510531444.2A CN201510531444A CN105160087A CN 105160087 A CN105160087 A CN 105160087A CN 201510531444 A CN201510531444 A CN 201510531444A CN 105160087 A CN105160087 A CN 105160087A
- Authority
- CN
- China
- Prior art keywords
- hazards
- degree
- confidence
- support
- statisticss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种关联规则最优曲线模型的构建方法,包括以下步骤:确定疾病的危险因素,获得参与人群的二分类型统计数据;对危险因素进行组合获得n种危险因素组合,计算其在二分类型统计数据中的支持度和置信度;将危险因素组合按其置信度自高到低的顺序排列后,合并前i种危险因素组合形成n种危险因素复合组合;计算危险因素复合组合支持度和置信度;在支持度-置信度直角坐标系中作出与其相对应的点,用平滑曲线连接,该平滑曲线即为在支持度一定的情况下置信度最优的关联规则最优曲线。本发明操作简单、可同时有效地比较具有不同置信度、支持度的关联规则优劣,因此以广泛应用于关联规则最优曲线模型的构建中。
Description
技术领域
本发明涉及一种曲线模型的构建方法,特别是关于一种关联规则最优曲线模型的构建方法。
背景技术
对易发病人群的共性指标进行定期监测和风险预测是非流行性疾病防控的通用策略。这类疾病的事实发病风险通常与人口统计学特征、生活习惯等多个风险指标相关。为了准确预测发病风险,根据同一个临床统计连续型数据,套用不同策略可以统计、归纳拟合得到多个风险预测模型,多个风险预测模型相互之间的优劣性一般是通过调整模型参数,得到预测准确度和特异性构成的曲线下面积大小来度量。但是风险预测指标的常见数据形式通常是二分类型数据,如是否吸烟,是否喝酒,一旦根据此类数据构建出预测模型,无参数可调整,因而不适用准确度和特异性曲线下面积的度量方法,优劣性比较非常困难。
发明内容
针对上述问题,本发明的目的是提供一种操作简单、可同时有效地比较具有不同置信度、支持度的关联规则优劣的关联规则最优曲线模型的构建方法。
为实现上述目的,本发明采取以下技术方案:一种关联规则最优曲线模型的构建方法,包括以下步骤:
1)确定一种疾病的若干个危险因素,获得参与人群含有的危险因素及患有该疾病的二分类型统计数据,其中,二分类型统计数据中每个危险因素的数据内容根据参与人群是否含有该危险因素确定为“是”或者“否”;
2)对该疾病的若干个危险因素进行任意组合获得n种危险因素组合,其中,n为正整数;将每个危险因素组合作为关联规则中的先导X,将该疾病作为关联规则中的后继Y,计算每个危险因素组合在获得的二分类型统计数据中的支持度和置信度;
3)将危险因素组合按照其置信度自高到低的顺序排列后,依次合并前i种危险因素组合形成n种危险因素复合组合,其中i为正整数,取值范围从1到n;
4)计算每种危险因素复合组合在二分类型统计数据中的支持度和置信度;
5)以支持度为横坐标,置信度为纵坐标建立支持度-置信度直角坐标系,在支持度-置信度直角坐标系中作出与危险因素复合组合的置信度和支持度相对应的点,并采用平滑曲线连接,该平滑曲线即为在支持度一定的情况下置信度最优的关联规则最优曲线。
所述步骤2)中,每个危险因素组合在二分类型统计数据中的支持度为既包含危险因素组合又包含疾病的数据在二分类型统计数据中的概率;置信度为二分类型统计数据中既包含危险因素组合又包含疾病的数据在包含危险因素组合的数据中的概率。
本发明由于采取以上技术方案,其具有以下优点:本发明由于采用根据疾病的二分类型统计数据计算得到关联规则中每种危险因素组合的支持度和置信度,将危险因素组合按照其置信度conf(Y|X)自高到低的顺序排列后,依次合并前i种危险因素组合形成n种危险因素复合组合Ri,然后根据危险因素复合组合Ri的支持度和置信度构建关联规则的最优曲线模型,得到在支持度一定的情况下的最优的置信度,有助于我们比较具有不同置信度、支持度的规则的优劣。综上所述,本发明可以广泛应用于关联规则最优曲线模型的构建中。
附图说明
图1是本发明的关联规则最优曲线模型的构建方法流程示意图
图2是本发明的关联规则的最优曲线示意图
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1所示,本发明提供一种关联规则最优曲线模型的构建方法,包括以下步骤:
1)确定一种疾病的若干个危险因素,获得参与人群含有的危险因素及患有该疾病的二分类型统计数据,其中,二分类型统计数据中每个危险因素的数据内容根据参与人群是否含有该危险因素确定为“是”或者“否”。
2)对该疾病的若干个危险因素进行任意组合获得n种危险因素组合,其中,n为正整数。将每个危险因素组合作为关联规则中的先导X,将该疾病作为关联规则中的后继Y,计算每个危险因素组合在获得的二分类型统计数据中的支持度supp(XY)和置信度conf(Y|X)。
其中,每个危险因素组合在二分类型统计数据中的支持度supp(XY)为既包含危险因素组合又包含疾病的数据在二分类型统计数据中的概率;置信度conf(Y|X)为二分类型统计数据中既包含危险因素组合又包含疾病的数据在包含危险因素组合的数据中的概率。
3)将危险因素组合按照其置信度conf(Y|X)自高到低的顺序排列后,依次合并前i种危险因素组合形成n种危险因素复合组合Ri,其中i为正整数,取值范围从1到n。
4)计算每种危险因素复合组合Ri在二分类型统计数据中的支持度supp(XY)和置信度conf(Y|X)。
5)以支持度supp(XY)为横坐标,置信度conf(Y|X)为纵坐标建立支持度-置信度直角坐标系,如图2所示,在支持度-置信度直角坐标系中作出与危险因素复合组合Ri的置信度conf(Y|X)和支持度supp(XY)相对应的点,并采用平滑曲线连接,即为在支持度一定的情况下置信度最优的关联规则最优曲线。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。
Claims (2)
1.一种关联规则最优曲线模型的构建方法,包括以下步骤:
1)确定一种疾病的若干个危险因素,获得参与人群含有的危险因素及患有该疾病的二分类型统计数据,其中,二分类型统计数据中每个危险因素的数据内容根据参与人群是否含有该危险因素确定为“是”或者“否”;
2)对该疾病的若干个危险因素进行任意组合获得n种危险因素组合,其中,n为正整数;将每个危险因素组合作为关联规则中的先导X,将该疾病作为关联规则中的后继Y,计算每个危险因素组合在获得的二分类型统计数据中的支持度和置信度;
3)将危险因素组合按照其置信度自高到低的顺序排列后,依次合并前i种危险因素组合形成n种危险因素复合组合,其中i为正整数,取值范围从1到n;
4)计算每种危险因素复合组合在二分类型统计数据中的支持度和置信度;
5)以支持度为横坐标,置信度为纵坐标建立支持度-置信度直角坐标系,在支持度-置信度直角坐标系中作出与危险因素复合组合的置信度和支持度相对应的点,并采用平滑曲线连接,该平滑曲线即为在支持度一定的情况下置信度最优的关联规则最优曲线。
2.如权利要求1所述的一种关联规则最优曲线模型的构建方法,其特征在于:所述步骤2)中,每个危险因素组合在二分类型统计数据中的支持度为既包含危险因素组合又包含疾病的数据在二分类型统计数据中的概率;置信度为二分类型统计数据中既包含危险因素组合又包含疾病的数据在包含危险因素组合的数据中的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510531444.2A CN105160087B (zh) | 2015-08-26 | 2015-08-26 | 一种关联规则最优曲线模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510531444.2A CN105160087B (zh) | 2015-08-26 | 2015-08-26 | 一种关联规则最优曲线模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105160087A true CN105160087A (zh) | 2015-12-16 |
CN105160087B CN105160087B (zh) | 2018-03-13 |
Family
ID=54800943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510531444.2A Expired - Fee Related CN105160087B (zh) | 2015-08-26 | 2015-08-26 | 一种关联规则最优曲线模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105160087B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056137A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 一种基于数据挖掘多分类算法的电信集团业务推荐方法 |
CN111723941A (zh) * | 2020-06-02 | 2020-09-29 | 中国人民解放军军事科学院战争研究院 | 规则生成方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080120267A1 (en) * | 2001-06-15 | 2008-05-22 | Medical Scientists, Inc. | Systems and methods for analyzing data to predict medical outcomes |
US20110307228A1 (en) * | 2008-10-15 | 2011-12-15 | Nikola Kirilov Kasabov | Data analysis and predictive systems and related methodologies |
CN102473247A (zh) * | 2009-06-30 | 2012-05-23 | 陶氏益农公司 | 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 |
CN103020454A (zh) * | 2012-12-15 | 2013-04-03 | 中国科学院深圳先进技术研究院 | 发病关键因素提取与疾病预警方法及系统 |
-
2015
- 2015-08-26 CN CN201510531444.2A patent/CN105160087B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080120267A1 (en) * | 2001-06-15 | 2008-05-22 | Medical Scientists, Inc. | Systems and methods for analyzing data to predict medical outcomes |
US20110307228A1 (en) * | 2008-10-15 | 2011-12-15 | Nikola Kirilov Kasabov | Data analysis and predictive systems and related methodologies |
CN102473247A (zh) * | 2009-06-30 | 2012-05-23 | 陶氏益农公司 | 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 |
CN103020454A (zh) * | 2012-12-15 | 2013-04-03 | 中国科学院深圳先进技术研究院 | 发病关键因素提取与疾病预警方法及系统 |
Non-Patent Citations (2)
Title |
---|
孙云飞: "关联规则挖掘算法研究和应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
廖海波: "关联规则挖掘在病案数据分析中的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056137A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 一种基于数据挖掘多分类算法的电信集团业务推荐方法 |
CN106056137B (zh) * | 2016-05-25 | 2019-06-04 | 南京大学 | 一种基于数据挖掘多分类算法的电信集团业务推荐方法 |
CN111723941A (zh) * | 2020-06-02 | 2020-09-29 | 中国人民解放军军事科学院战争研究院 | 规则生成方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105160087B (zh) | 2018-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11070453B2 (en) | Providing network traffic endpoint recommendation based on network traffic data analysis | |
CN105225149B (zh) | 一种征信评分确定方法及装置 | |
WO2013021254A3 (en) | System and method of tracking rate of change of social network activity associated with a digital object | |
CN103326904B (zh) | 一种基于多参数认知的快速网络拓扑推断方法 | |
CN105843829B (zh) | 一种基于分层模型的大数据可信性度量方法 | |
CN108399189A (zh) | 基于社团发现的好友推荐系统及其方法 | |
CN103500228A (zh) | 一种协同过滤推荐算法中改进的相似性度量方法 | |
Pan et al. | Countries’ emission allowances towards the low-carbon world: A consistent study | |
CN104159297A (zh) | 一种基于聚类分析的无线传感器网络多边定位算法 | |
US20130031093A1 (en) | Information processing system, information processing method, program, and non-transitory information storage medium | |
CN109145344A (zh) | 一种基于探空数据的经验ztd模型改进方法 | |
CN107708202A (zh) | 一种基于DV‑Hop的无线传感器网络节点定位方法 | |
CN103810702B (zh) | 一种基于分块噪声方差估计的图像累积信噪比计算方法 | |
CN105160087A (zh) | 一种关联规则最优曲线模型的构建方法 | |
US20130342401A1 (en) | Correcting device error radius estimates in positioning systems | |
Fragiadakis et al. | A multi–country econometric estimation of the constant elasticity of substitution | |
CN104123321B (zh) | 一种确定推荐图片的方法及装置 | |
CN103167510B (zh) | 一种覆盖评估方法、装置及系统 | |
Fan et al. | Evaluation of environmental quality based on remote sensing data in the coastal lands of eastern China | |
Munandar et al. | Analysis of Regional Development Disparity with Clustering Technique Based Perspective. | |
CN102521362B (zh) | Web服务推荐方法及装置 | |
Guo et al. | Ibeacon indoor positioning method combined with real-time anomaly rate to determine weight matrix | |
Ke et al. | Distributed power allocation for wireless sensor network localization: A potential game approach | |
CN110069705A (zh) | 一种基于变异系数法的油田云应用组件推荐方法 | |
CN106055665B (zh) | 基于异常值剔除的情境感知Web服务推荐方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180313 Termination date: 20210826 |