CN113139064A - 关联规则挖掘方法、装置、计算机设备及存储介质 - Google Patents
关联规则挖掘方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113139064A CN113139064A CN202110053413.6A CN202110053413A CN113139064A CN 113139064 A CN113139064 A CN 113139064A CN 202110053413 A CN202110053413 A CN 202110053413A CN 113139064 A CN113139064 A CN 113139064A
- Authority
- CN
- China
- Prior art keywords
- data
- correlation
- association rule
- degree
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005065 mining Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000007613 environmental effect Effects 0.000 claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 38
- 238000004590 computer program Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 abstract description 16
- 239000007789 gas Substances 0.000 description 11
- 238000003915 air pollution Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000010438 heat treatment Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000002440 industrial waste Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Abstract
本申请提供了一种关联规则挖掘方法、装置、计算机设备及存储介质,该方法包括:获取源数据集,源数据集包括第一数据和第二数据,第一数据为表征空气质量的气象数据,第二数据为与空气质量相关的环境数据;根据第一数据和第二数据确定目标集合,目标集合表征第一数据和第二数据之间的相关程度;采用预设算法对目标集合进行关联规则挖掘,确定气象数据与环境数据之间的关联规则。该方法通过先对第一数据和第二数据的相关程度进行分析得到目标集合,再对目标集合进行后续的关联规则挖掘,可减少挖掘过程的复杂度,且因考虑了各数据之间的相关程度,可提高挖掘结果的精确度,进而提高了在对大气污染因素进行关联规则挖掘的实效性。
Description
技术领域
本申请属于计算机技术领域,尤其涉及一种关联规则挖掘方法、装置、计算机设备及存储介质。
背景技术
随着经济的快速发展以及工业化城镇化进程的加快,空气污染成为难以避免的问题。空气污染的原因复杂多样,既有自然因素(如气象因素等)又有人为因素(如尾气排放、工厂污染、城市绿化率等),采用合适的方法对造成空气污染的自然因素及人为因素进行综合关联性分析,是相关部门对空气污染进行精细化治理的依据,对区域环境、经济的协调发展也具有重要意义。
传统的关联规则挖掘方法一般采用单一的Apriori算法、FP-growth算法或其改进算法,该类算法可在一定程度上揭示海量数据集下各属性之间的关联关系,但在对造成空气污染的自然因素及人为因素进行分析时,因各因素之间具有一定的相关关系,使用传统的关联规则挖掘方法实现复杂度较高、实效性不强。
发明内容
本申请实施例提供了一种关联规则挖掘方法、装置、计算机设备及存储介质,可以解决传统技术中关联规则挖掘方法实现复杂度较高、实效性不强的问题。
第一方面,本申请实施例提供了一种关联规则挖掘方法,包括:
获取源数据集,所述源数据集包括第一数据和第二数据,所述第一数据为表征空气质量的气象数据,所述第二数据为与空气质量相关的环境数据;
根据所述第一数据和所述第二数据确定目标集合,所述目标集合表征所述第一数据和所述第二数据之间的相关程度;
采用预设算法对所述目标集合进行关联规则挖掘,确定气象数据与环境数据之间的关联规则。
上述关联规则挖掘方法,首先根据源数据集中的第一数据和第二数据确定目标集合,该目标集合表征第一数据和第二数据之间的相关程度,然后采用预设算法对目标集合进行关联规则挖掘,确定气象数据与环境数据之间的关联规则。本实施例中,通过先对第一数据和第二数据的相关程度进行分析得到目标集合,再对目标集合进行后续的关联规则挖掘,可减少挖掘过程的复杂度,且因考虑了各数据之间的相关程度,可提高挖掘结果的精确度,进而提高了本实施例在对大气污染因素进行关联规则挖掘的实效性。
在第一方面的一种可能的实现方式中,根据所述第一数据和所述第二数据确定目标集合,包括:
计算所述第一数据与所述第二数据之间的相关度;
根据所述相关度和预设的相关度阈值,确定所述目标集合。
在第一方面的一种可能的实现方式中,第一数据包括多个气象指标下的气象数据,所述第二数据包括多个环境指标下的环境数据,所述计算所述第一数据与所述第二数据之间的相关度,包括:
对于每个气象数据,分别计算所述气象数据与各环境数据之间的相关度。
在第一方面的一种可能的实现方式中,相关度阈值包括第一阈值和第二阈值,所述根据所述相关度和预设的相关度阈值,确定所述目标集合,包括:
若所述相关度小于所述第一阈值,将所述第一数据与所述第二数据确定为不相关集合;
若所述相关度大于或者等于所述第一阈值、且小于所述第二阈值,将所述第一数据与所述第二数据确定为弱相关集合;
若所述相关度大于或者等于所述第二阈值,将所述第一数据与所述第二数据确定为相关集合。
在第一方面的一种可能的实现方式中,采用预设算法对所述目标集合进行关联规则挖掘,确定气象数据与环境数据之间的关联规则,包括:
根据预设的最小置信度和最小支持度,采用预设算法对所述目标集合进行关联规则挖掘得到候选项集,将所述候选项集作为所述气象数据与环境数据之间的关联规则。
在第一方面的一种可能的实现方式中,将所述候选项集作为所述气象数据与环境数据之间的关联规则,包括:
获取所述候选项集的支持度和置信度;
根据所述候选项集的支持度和置信度确定所述候选项集的相干度;
若所述候选项集的相干度大于相干度指数,将所述候选项集作为所述气象数据与环境数据之间的关联规则。
在第一方面的一种可能的实现方式中,所述方法还包括:
将所述关联规则加入关联规则图谱,并输出所述关联规则图谱。
在第一方面的一种可能的实现方式中,在所述获取源数据集之后,所述方法还包括:
采用预设的插值算法对所述源数据集中的空值数据进行插值处理,得到处理后的源数据集。
第二方面,本申请实施例提供了一种关联规则挖掘装置,包括:
获取模块,用于获取源数据集,所述源数据集包括第一数据和第二数据,所述第一数据为表征空气质量的气象数据,第二数据为与空气质量相关的环境数据;
确定模块,用于根据所述第一数据和所述第二数据确定目标集合,所述目标集合表征所述第一数据和所述第二数据之间的相关程度;
挖掘模块,用于采用预设算法对所述目标集合进行关联规则挖掘,确定气象数据与环境数据之间的关联规则。
第三方面,本申请实施例提供了一种计算机设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的关联规则挖掘方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的关联规则挖掘方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备执行上述第一方面中任一项所述的关联规则挖掘方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的计算机设备的结构示意图;
图2是本申请一实施例提供的关联规则挖掘方法的流程示意图;
图3是本申请一实施例提供的部分关联规则挖掘结果的示意图;
图4是本申请另一实施例提供的关联规则挖掘方法的流程示意图;
图5是本申请又一实施例提供的关联规则挖掘方法的流程示意图;
图6是本申请一实施例提供的关联规则图谱的示意图;
图7是本申请又一实施例提供的关联规则挖掘方法的流程示意图;
图8是本申请实施例提供的关联规则挖掘装置的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例提供的关联规则挖掘方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、服务器等计算机设备上,本申请实施例对计算机设备的具体类型不作任何限制。
图1为本申请一实施例提供的计算机设备的结构示意图。如图1所示,该实施例的计算机设备1包括:至少一个处理器10(图1中仅示出一个)处理器、存储器11以及存储在所述存储器11中并可在所述至少一个处理器10上运行的计算机程序12,所述处理器10执行所述计算机程序12时实现上述任意各个视频关键帧提取方法实施例中的步骤。
所述计算机设备1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该计算机设备1可包括,但不仅限于,处理器10、存储器11。本领域技术人员可以理解,图1仅仅是计算机设备1的举例,并不构成对计算机设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器10可以是中央处理单元(central processing unit,CPU),该处理器10还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器11在一些实施例中可以是所述计算机设备1的内部存储单元,例如计算机设备1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述计算机设备1的外部存储设备,例如所述计算机设备1上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,所述存储器11还可以既包括所述计算机设备1的内部存储单元也包括外部存储设备。所述存储器11用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
当前,空气污染问题越来越严重,其已在一定程度上影响了人们的生活,相关部门也开始对空气污染进行精细化治理,那么就需要了解造成环境污染的因素以及各因素之间的关联关系。例如,气温、风速、风向、湿度、云层高度、能见度、露点温度、区域绿化率、区域尾气排放量、工业废气排放量、区域供暖指数等因素都可能对空气污染有一定的影响,进而造成PM2.5、PM10、NO、CO、SO2、O3等指数的升高,因此,需要研究PM2.5、PM10、NO、CO、SO2、O3等指数与气温、风速、风向、湿度、云层高度、能见度、露点温度、区域绿化率、区域尾气排放量、工业废气排放量、区域供暖指数之间的相关关系。传统技术通常采用Apriori算法、FP-growth算法或其改进算法对上述因素之间的关系进行挖掘,但其一般只能揭示各因素之间的关联关系,比如PM2.5与区域尾气排放量、工业废气排放量、区域供暖指数有关联,并不能揭示各因素之间的相关关系,比如区域尾气排放量、工业废气排放量、区域供暖指数分别为多少时,PM2.5指数可能达到多少等。因此,传统技术的方法在对解决空气污染关联规则挖掘的问题上实效性不强,本申请实施例提供的关联规则挖掘方法、装置、计算机设备及存储介质,旨在解决上述技术问题。
图2示出了本申请提供的关联规则挖掘方法的示意性流程图,作为示例而非限定,该方法可以应用于上述计算机设备1中,该方法包括:
S101,获取源数据集,所述源数据集包括第一数据和第二数据,所述第一数据为表征空气质量的气象数据,第二数据为与空气质量相关的环境数据。
其中,为研究某区域的空气质量,会在该区域设置一些气象站点,用于采集该区域不同时间点的空气质量数据,为提高本申请关联规则挖掘结果的准确性,本实施例采用世界范围内1800个站点在某一年的空气质量及相关属性的源数据集。该源数据集中的第一数据为表征空气质量的气象数据,如PM2.5、PM10、NO、CO、SO2、O3等指数的值,第二数据为与空气质量相关的环境数据,如气温、风速、风向、湿度、云层高度、能见度、露点温度、区域绿化率、区域尾气排放量、工业废气排放量、区域供暖指数的值。
可选地,计算机设备在得到源数据集后,还可以对该源数据集进行去噪处理,以去除异常数据值,如负值或明显错误的数据。其中,可以采用k-means聚类算法对源数据集进行去噪处理。
S102,根据所述第一数据和所述第二数据确定目标集合,所述目标集合表征所述第一数据和所述第二数据之间的相关程度。
具体地,在获取第一数据和第二数据之后,计算机设备可以对第一数据中各指数的值的变化趋势与第二数据中各属性的值的变化趋势进行对比,将变化趋势相对应的第一数据和第二数据确定为相关程度较大的目标集合,例如区域尾气排放量越多、工业废气排放量越多,PM2.5的值越大,则(区域尾气排放量,工业废气排放量,PM2.5)为相关程度较大的目标集合;将变化趋势不对应的第一数据和第二数据确定为相关程度较小的目标集合,例如PM2.5的变化与气温的变化关系不大,则(气温,PM2.5)为相关程度较小的目标集合,因此所确定的目标集合可以有多个。本实施例通过先对第一数据和第二数据的相关程度进行分析得到目标集合,再对目标集合进行后续的关联规则挖掘,可减少挖掘过程的复杂度,且因考虑了各数据之间的相关程度,可提高挖掘结果的精确度,进而提高了本实施例关联规则挖掘的实效性。
S103,采用预设算法对所述目标集合进行关联规则挖掘,确定气象数据与环境数据之间的关联规则。
具体地,计算机设备可以采用预设算法对上述目标集合进行关联规则挖掘,该算法包括但不限于Apriori算法、FP-growth算法等;可选地,针对不同的目标集合可以设定不同的最小支持度和最小置信度,然后在最小支持度和最小置信度下对对应的目标集合进行关联规则挖掘,以确定气象数据与环境数据之间的关联规则。
作为示例而非限定的,假设设置的最小置信度为0.5,最小支持度为0.06,计算机设备采用FP-growth算法分别对各目标集合进行遍历挖掘,得到的部分关联规则挖掘结果可以参见图3所示;其中,Ls表示规则项,Rs表示结果项,Ls=>Rs表示一个关联规则。
上述关联规则挖掘方法,计算机设备首先根据源数据集中的第一数据和第二数据确定目标集合,该目标集合表征第一数据和第二数据之间的相关程度,然后采用预设算法对目标集合进行关联规则挖掘,确定气象数据与环境数据之间的关联规则。本实施例中,通过先对第一数据和第二数据的相关程度进行分析得到目标集合,再对目标集合进行后续的关联规则挖掘,可减少挖掘过程的复杂度,且因考虑了各数据之间的相关程度,可提高挖掘结果的精确度,进而提高了本实施例在对大气污染因素进行关联规则挖掘的实效性。
在一种可能的实现方式中,如图4所示,上述S102中根据第一数据和第二数据确定目标集合的过程可以包括:
S201,计算所述第一数据与所述第二数据之间的相关度。
具体地,相关度用于表征第一数据与第二数据的相关程度,计算机设备可以采用包含H(X)-H(X|Y)的关系式计算第一数据与第二数据的相关度,其中,P(xi)为第一数据为xi的概率,P(y)为第二数据为y的概率,P(y,x)为第一数据x和第二数据y同时出现的概率。示例性的,假设第一数据中PM2.5值为200,第二数据中工业废气排放量为1000m3,则通过上述关系式可以计算PM2.5为200与工业废气排放量为1000m3的相关度。
可选地,第一数据可以包括多个气象指标下的气象数据,即上述的PM2.5、PM10、NO、CO、SO2、O3等,且在不同站点不同时刻气象数据的值不同,第二数据可以包括多个环境指标下的环境数据,即上述的气温、风速、风向、湿度、云层高度、能见度、露点温度、区域绿化率、区域尾气排放量、工业废气排放量、区域供暖指数等,且在不同站点不同时刻环境数据的值也不同;那么对于每个气象数据,都要计算该气象数据与每个环境数据之间的相关度,例如,某个站点在某个时刻采集了一组气象数据和环境数据,则对于采集的PM2.5值,计算机设备需计算该PM2.5值与每个环境数据之间的相关度,对于采集的PM10值,需计算该PM10值与每个环境数据之间的相关度,以此类推。
S202,根据所述相关度和预设的相关度阈值,确定所述目标集合。
其中,可以预先设置一个相关度阈值,如0.1,若上述得到的相关度大于或者等于该阈值,则可以将该相关度对应的气象数据和环境数据组成为目标集合。作为示例而非限定性的,若PM2.5值为20与风速为2m/s的相关度大于0.1,PM2.5值为20与绿化率为0.9的相关度也大于0.1,则可以将(PM2.5=20,风速=2m/s,绿化率=0.9)作为一个目标集合。
可选地,上述相关度阈值还可以包括第一阈值和第二阈值,如第一阈值为0.1,第二阈值为0.3,若得到的相关度小于第一阈值,将第一数据与第二数据确定为不相关集合;若相关度大于或者等于第一阈值、且小于第二阈值,将第一数据与第二数据确定为弱相关集合;若相关度大于或者等于第二阈值,将第一数据与第二数据确定为相关集合。由此可按照相关度将第一数据和第二数据划分为不同等级的目标集合,该目标集合可表征集合内数据的相关程度。
上述关联规则挖掘方法,计算机设备分别计算第一数据与第二数据之间的相关度,进而根据相关度和相关度阈值将第一数据和第二数据划分为不同等级的目标集合,为后续的关联规则挖掘提供数据基础,可提高对大气污染因素进行关联规则挖掘时的针对性和可推广性,并节省了后续关联规则挖掘的计算代价。
在一种可能的实现方式中,如图5所示,上述S103中采用预设算法对目标集合进行关联规则挖掘,确定气象数据与环境数据之间的关联规则的过程可以包括:
S301,根据预设的最小置信度和最小支持度,采用预设算法对所述目标集合进行关联规则挖掘得到候选项集,将所述候选项集作为所述气象数据与环境数据之间的关联规则。
具体地,计算机设备可以根据最小置信度和最小支持度,采用上述实施例的算法对得到的目标集合进行关联规则挖掘,得到候选项集Fs,c,其中,s为最小支持度,c为最小置信度,然后将候选项集作为气象数据与环境数据之间的关联规则。
其中,对于上述实施例中的不相关集合Ni、弱相关集合Wi与相关集合Pi,可以对不同集合设置不同的最小支持度和最小置信度,本实施例中对不同集合设置的最小支持度和最小置信度的参考取值范围可参见表1所示,但并不限于表1中的取值范围。
表1不同集合关联规则挖掘参数取值表
最小支持度 | 最小置信度 | |
不相关集合N<sub>i</sub> | 0.06~0.12 | 0.5~0.7 |
弱相关集合W<sub>i</sub> | 0.12~0.18 | 0.6~0.8 |
相关集合P<sub>i</sub> | 0.18~0.24 | 0.7~0.9 |
下面以不相关集合Ni为例介绍关联规则的挖掘过程:计算机设备采用FP-growth算法分别挖掘最小置信度为0.5、0.6、0.7(共m个)时,最小支持度分别为0.06、0.07、0.08、0.09、0.1、0.11、0.12(共n个)的候选项集Fs=i,c=j,i=0.06、0.07、0.08、0.09、0.1、0.11、0.12,j=0.5、0.6、0.7;也就是说,挖掘当最小置信度为0.5时,最小支持度分别为0.06、0.07、0.08、0.09、0.1、0.11、0.12的候选项集;最小置信度为0.6时,最小支持度分别为0.06、0.07、0.08、0.09、0.1、0.11、0.12的候选项集;最小置信度为0.7时,最小支持度分别为0.06、0.07、0.08、0.09、0.1、0.11、0.12的候选项集;并记录每个候选项集的支持度Sup和置信度Con。关于弱相关集合Wi和相关集合Pi的关联规则挖掘过程与不相关集合Ni的过程类似,在此不再赘述。
可选地,为提高得到的候选项集与实际需求的匹配度,本实施例还可引入相干度概念,其中,计算机设备可以根据候选项集的支持度和置信度确定候选项集的相干度,可选地,可以根据包含Sup×Con的关系式计算每个候选项集的相干度。另外,同时设置一个相干度指数Di,其中,若候选项集的相干度大于或者等于该相干度指数,则认为该候选项集为符合实际需求的关联规则,将其作为上述气象数据与环境数据之间的关联规则;若候选项集的相干度小于该相干度指数,则认为该候选项集为不符合实际需求的关联规则,可以将其剔除。
可选地,在得到上述关联规则后,计算机设备还可以将该关联规则加入关联规则图谱,并输出关联规则图谱,其中,输出的关联规则图谱的示意图可以参见图6所示。
上述关联规则挖掘方法,计算机设备根据最小置信度和最小支持度对目标集合进行关联规则挖掘得到候选项集,以及根据候选项集的相干度确定最终的气象数据与环境数据之间的关联规则,可提高得到的关联规则与实际需求的匹配度,进一步提高对大气污染因素进行关联规则挖掘时的实效性。
在一种可能的实现方式中,上述S101所获取的源数据集中可能存在空值数据,计算机设备还可以采用预设的插值算法对该源数据集中的空值数据进行插值处理,得到处理后源数据集。可选地,可以采用拉格朗日插值法、牛顿插值法、KNN插值及其改进方法等算法对源数据集中的空值数据进行插值处理。优选地,采用重心拉格朗日插值法,其插值函数为:其中,n表示源数据集中的数据个数,x表示空值的位置,xi、xj表示自变量的值(或位置),ωi表示重心权重,yi表示自变量(或位置)为xi时的取值。通过对空值数据进行插值处理,可提高源数据集的全面性,有助于提高关联规则挖掘结果的精确度。
为更方便理解上述关联规则挖掘方法的整个过程,下面再以一个实施例对该方法进行介绍,如图7所示,该方法包括:
S401,获取源数据集,源数据集包括第一数据和第二数据。
S402,采用预设的插值算法对源数据集中的空值数据进行插值处理,得到处理后的源数据集。
S403,对于每个第一数据,分别计算第一数据与各第二数据之间的相关度。
S404,若相关度小于第一阈值,将第一数据与第二数据确定为不相关集合;若相关度大于或者等于第一阈值、且小于第二阈值,将第一数据与第二数据确定为弱相关集合;若相关度大于或者等于第二阈值,将第一数据与第二数据确定为相关集合。
S405,根据预设的最小置信度和最小支持度,采用预设算法对目标集合进行关联规则挖掘得到候选项集。
S406,根据候选项集的支持度和置信度确定候选项集的相干度。
S407,若候选项集的相干度大于相干度指数,将候选项集作为气象数据与环境数据之间的关联规则。
S408,将得到的关联规则加入关联规则图谱,并输出所述关联规则图谱。
关于本实施例各步骤的实现过程,可以参见上述实施例的描述,其实现原理和技术效果类似,在此不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的关联规则挖掘方法,图8示出了本申请实施例提供的关联规则挖掘装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图8,该装置包括:获取模块21、确定模块22和挖掘模块23。
具体地,获取模块21,用于获取源数据集,所述源数据集包括第一数据和第二数据,所述第一数据为表征空气质量的气象数据,第二数据为与空气质量相关的环境数据。
确定模块22,用于根据所述第一数据和所述第二数据确定目标集合,所述目标集合表征所述第一数据和所述第二数据之间的相关程度。
挖掘模块23,用于采用预设算法对所述目标集合进行关联规则挖掘,确定气象数据与环境数据之间的关联规则。
在一个实施例中,确定模块22,具体用于计算所述第一数据与所述第二数据之间的相关度;根据所述相关度和预设的相关度阈值,确定所述目标集合。
在一个实施例中,第一数据包括多个气象指标下的气象数据,所述第二数据包括多个环境指标下的环境数据,确定模块22,具体用于对于每个气象数据,分别计算所述气象数据与各环境数据之间的相关度。
在一个实施例中,相关度阈值包括第一阈值和第二阈值,确定模块22,具体用于在所述相关度小于所述第一阈值的情况下,将所述第一数据与所述第二数据确定为不相关集合;在所述相关度大于或者等于所述第一阈值、且小于所述第二阈值的情况下,将所述第一数据与所述第二数据确定为弱相关集合;在所述相关度大于或者等于所述第二阈值的情况下,将所述第一数据与所述第二数据确定为相关集合。
在一个实施例中,挖掘模块23,具体用于根据预设的最小置信度和最小支持度,采用预设算法对所述目标集合进行关联规则挖掘得到候选项集,将所述候选项集作为所述气象数据与环境数据之间的关联规则。
在一个实施例中,挖掘模块23,具体用于获取所述候选项集的支持度和置信度;根据所述候选项集的支持度和置信度确定所述候选项集的相干度;在所述候选项集的相干度大于相干度指数的情况下,将所述候选项集作为所述气象数据与环境数据之间的关联规则。
在一个实施例中,上述装置还包括输出模块,用于将所述关联规则加入关联规则图谱,并输出所述关联规则图谱。
在一个实施例中,上述装置还包括处理模块,用于采用预设的插值算法对所述源数据集中的空值数据进行插值处理,得到处理后的源数据集。
需要说明的是,上述装置/模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到关联规则挖掘装置/计算机设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种关联规则挖掘方法,其特征在于,包括:
获取源数据集,所述源数据集包括第一数据和第二数据,所述第一数据为表征空气质量的气象数据,所述第二数据为与空气质量相关的环境数据;
根据所述第一数据和所述第二数据确定目标集合,所述目标集合表征所述第一数据和所述第二数据之间的相关程度;
采用预设算法对所述目标集合进行关联规则挖掘,确定气象数据与环境数据之间的关联规则。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一数据和所述第二数据确定目标集合,包括:
计算所述第一数据与所述第二数据之间的相关度;
根据所述相关度和预设的相关度阈值,确定所述目标集合。
3.如权利要求2所述的方法,其特征在于,所述第一数据包括多个气象指标下的气象数据,所述第二数据包括多个环境指标下的环境数据,所述计算所述第一数据与所述第二数据之间的相关度,包括:
对于每个气象数据,分别计算所述气象数据与各环境数据之间的相关度。
4.如权利要求2或3所述的方法,其特征在于,所述相关度阈值包括第一阈值和第二阈值,所述根据所述相关度和预设的相关度阈值,确定所述目标集合,包括:
若所述相关度小于所述第一阈值,将所述第一数据与所述第二数据确定为不相关集合;
若所述相关度大于或者等于所述第一阈值、且小于所述第二阈值,将所述第一数据与所述第二数据确定为弱相关集合;
若所述相关度大于或者等于所述第二阈值,将所述第一数据与所述第二数据确定为相关集合。
5.如权利要求1所述的方法,其特征在于,所述采用预设算法对所述目标集合进行关联规则挖掘,确定气象数据与环境数据之间的关联规则,包括:
根据预设的最小置信度和最小支持度,采用预设算法对所述目标集合进行关联规则挖掘得到候选项集,将所述候选项集作为所述气象数据与环境数据之间的关联规则。
6.如权利要求5所述的方法,其特征在于,所述将所述候选项集作为所述气象数据与环境数据之间的关联规则,包括:
获取所述候选项集的支持度和置信度;
根据所述候选项集的支持度和置信度确定所述候选项集的相干度;
若所述候选项集的相干度大于相干度指数,将所述候选项集作为所述气象数据与环境数据之间的关联规则。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:
将所述关联规则加入关联规则图谱,并输出所述关联规则图谱。
8.如权利要求1所述的方法,其特征在于,在所述获取源数据集之后,所述方法还包括:
采用预设的插值算法对所述源数据集中的空值数据进行插值处理,得到处理后的源数据集。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110053413.6A CN113139064A (zh) | 2021-01-15 | 2021-01-15 | 关联规则挖掘方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110053413.6A CN113139064A (zh) | 2021-01-15 | 2021-01-15 | 关联规则挖掘方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113139064A true CN113139064A (zh) | 2021-07-20 |
Family
ID=76810576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110053413.6A Pending CN113139064A (zh) | 2021-01-15 | 2021-01-15 | 关联规则挖掘方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139064A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
CN105868887A (zh) * | 2016-03-23 | 2016-08-17 | 上海电力学院 | 一种基于分项计量的楼宇综合能效分析方法 |
CN108492057A (zh) * | 2018-04-28 | 2018-09-04 | 国网新疆电力公司电力科学研究院 | 基于FP-growth的跳闸明细数据与气象数据关联分析及预警方法 |
CN111353051A (zh) * | 2019-12-04 | 2020-06-30 | 江苏蓝河智能科技有限公司 | 一种基于K-means和Apriori的算法海事大数据关联分析的方法 |
-
2021
- 2021-01-15 CN CN202110053413.6A patent/CN113139064A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
CN105868887A (zh) * | 2016-03-23 | 2016-08-17 | 上海电力学院 | 一种基于分项计量的楼宇综合能效分析方法 |
CN108492057A (zh) * | 2018-04-28 | 2018-09-04 | 国网新疆电力公司电力科学研究院 | 基于FP-growth的跳闸明细数据与气象数据关联分析及预警方法 |
CN111353051A (zh) * | 2019-12-04 | 2020-06-30 | 江苏蓝河智能科技有限公司 | 一种基于K-means和Apriori的算法海事大数据关联分析的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021184727A1 (zh) | 数据异常检测方法、装置、电子设备及存储介质 | |
EP3385919B1 (en) | Method of processing passage record and device | |
CN112148987B (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
CN112488297B (zh) | 一种神经网络剪枝方法、模型生成方法及装置 | |
CN111522838A (zh) | 地址相似度计算方法及相关装置 | |
CN110427574B (zh) | 路线相似度确定方法、装置、设备和介质 | |
CN108268503B (zh) | 一种数据库的存储、查询方法及装置 | |
CN114328785A (zh) | 提取道路信息的方法和装置 | |
CN106874332B (zh) | 数据库访问方法和装置 | |
CN109871419B (zh) | 一种地图显示方法及装置 | |
WO2016037346A1 (en) | Measuring and diagnosing noise in urban environment | |
CN109344643B (zh) | 一种面向图中三角形数据发布的隐私保护方法及系统 | |
CN107729944B (zh) | 一种低俗图片的识别方法、装置、服务器及存储介质 | |
CN112699142A (zh) | 冷热数据处理方法、装置、电子设备及存储介质 | |
CN113139064A (zh) | 关联规则挖掘方法、装置、计算机设备及存储介质 | |
CN115563522B (zh) | 交通数据的聚类方法、装置、设备及介质 | |
CN116244356A (zh) | 异常轨迹检测方法、装置、电子设备及存储介质 | |
CN110675470A (zh) | 等值线绘制方法、装置、计算设备及可读取存储介质 | |
CN110705816B (zh) | 基于大数据的任务分配方法和装置 | |
CN111199345B (zh) | 海绵城市的设计降雨量的测算方法及终端设备 | |
CN114169247A (zh) | 仿真交通流的生成方法、装置、设备和计算机可读存储介质 | |
CA3144051A1 (en) | Data sorting method, device, and system | |
CN110991838A (zh) | 通信运营商的竞争力指数的确定方法及装置 | |
CN113157538B (zh) | Spark运行参数的确定方法、装置、设备和存储介质 | |
CN114998560B (zh) | 一种基于正断层断面三维属性的相关褶皱处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210720 |
|
RJ01 | Rejection of invention patent application after publication |