CN111400377B - 一种目标数据集的确定方法及装置 - Google Patents

一种目标数据集的确定方法及装置 Download PDF

Info

Publication number
CN111400377B
CN111400377B CN202010341940.2A CN202010341940A CN111400377B CN 111400377 B CN111400377 B CN 111400377B CN 202010341940 A CN202010341940 A CN 202010341940A CN 111400377 B CN111400377 B CN 111400377B
Authority
CN
China
Prior art keywords
data
sub
determining
data set
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010341940.2A
Other languages
English (en)
Other versions
CN111400377A (zh
Inventor
李合敏
张燧
金成浩
代景龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinao Xinzhi Technology Co ltd
Original Assignee
Xinao Xinzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinao Xinzhi Technology Co ltd filed Critical Xinao Xinzhi Technology Co ltd
Priority to CN202010341940.2A priority Critical patent/CN111400377B/zh
Publication of CN111400377A publication Critical patent/CN111400377A/zh
Application granted granted Critical
Publication of CN111400377B publication Critical patent/CN111400377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种目标数据集的确定方法及装置,包括:根据运行数据集,确定至少两个第一子数据集,各所述第一子数据集中包括所述运行数据中的至少一个数据项;确定任意两个所述第一子数据集之间的关联指数;当所述关联指数满足预设条件,则根据所述两个第一子数据集,确定第一运行数据组合;根据所述第一运行数据组合,确定所述目标数据集;通过计算第一子数据集之间的关联性,筛选出关联性强的数据项建立第一运行数据组合,再根据第一运行数据组合确定目标数据集;使得目标数据集中包括了多种适合进行设备画像的数据项组合;根据需要从目标数据集中选择一项或多项第一运行数据组合进行“画像”,即确保了“画像”的准确性。

Description

一种目标数据集的确定方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种目标数据集的确定方法及装置。
背景技术
在大型的能源系统中,往往会涉及到各种各样的能源设备。如蒸汽锅炉、燃气锅炉、发电机等。而结合能源设备的各项运行数据对其进行“画像”,可以便捷的挖掘设备特征,展示运行特点,工况条件等重要信息。对能源系统运行有很大价值。
能源设备有关的运行数据种类繁多,而具体选择哪几项运行数据来进行“画像”,会直接的影响到“画像”的准确性。现有技术中,通常是结合技术人员的经验,人工的选择若干项运行数据来进行“画像”。但显然经验判断有其局限性,人工选择的运行数据未必是最优组合。
发明内容
本发明提供一种目标数据集的确定方法及装置,通过计算确定目标数据集,目标数据集中包括了多种具有强关联性的运行数据组合,后续即可根据需求从目标数据中选择运行数据组合对能源设备进行画像。
第一方面,本发明提供了一种目标数据集的确定方法,包括:
根据运行数据集,确定至少两个第一子数据集,各所述第一子数据集中包括所述运行数据中的至少一个数据项;
确定任意两个所述第一子数据集之间的关联指数;
当所述关联指数满足预设条件,则根据所述两个第一子数据集,确定第一运行数据组合;
根据所述第一运行数据组合,确定所述目标数据集。
优选地,所述确定任意两个所述第一子数据集之间的关联指数包括:
计算确定各所述第一子数据集的支持度指数;
根据任意两个所述第一子数据集的支持度指数,确定两个所述第一子数据集之间的关联指数。
优选地,所述根据任意两个所述第一子数据集的支持度指数,确定两个所述第一子数据集之间的关联指数包括:
将支持度指数大于预设的支持度阈值的所述第一子数据集,确定为第二子数据集;
根据任意两个所述第二子数据集的支持度指数,确定两个所述第二子数据集之间的关联指数。
优选地,所述关联指数满足预设条件包括:
根据两个所述第一子数据集,确定两个所述第一子数据集之间的置信度指数;
当所述关联指数大于预设的关联指数阈值;且所述置信度指数大于预设的置信度阈值,则所述关联指数满足预设条件。
优选地,所述根据所述两个第一子数据集,确定第一运行数据组合包括:
根据两个所述第一子数据集中包括的数据项,确定所述第一运行数据组合。
优选地,还包括:
根据所述第一运行数据组合,确定至少两个第三子数据集,各所述第三子数据集中包括所述运行数据中的至少一个数据项;
确定任意两个所述第三子数据集之间的关联指数;
当所述关联指数满足预设条件,则根据所述两个第三子数据集,确定第三运行数据组合。
优选地,所述根据所述第一运行数据组合,确定所述目标数据集包括:
根据所述第一运行数据组合和所述第三运行数据组合,确定所述目标数据集。
第二方面,本发明提供了一种目标数据集的确定装置,包括:
子数据集确定模块,用于根据运行数据集,确定至少两个第一子数据集,各所述第一子数据集中包括所述运行数据中的至少一个数据项;
关联指数确定模块,用于确定任意两个所述第一子数据集之间的关联指数;
运行数据组合确定模块,用于在所述关联指数满足预设条件时,根据所述两个第一子数据集,确定第一运行数据组合;
目标数据集确定模块,用于根据所述第一运行数据组合,确定所述目标数据集。
第三方面,本发明提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的目标数据集的确定方法。
第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的目标数据集的确定方法。
本发明提供了一种目标数据集的确定方法及装置,通过计算第一子数据集之间的关联性,筛选出关联性强的数据项建立第一运行数据组合,再根据第一运行数据组合确定目标数据集;使得目标数据集中包括了多种适合进行设备画像的数据项组合;根据需要从目标数据集中选择一项或多项第一运行数据组合进行“画像”,即确保了“画像”的准确性。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种目标数据集的确定方法的流程示意图;
图2为本发明一实施例提供的另一种目标数据集的确定方法的流程示意图;
图3为本发明一实施例提供的一种目标数据集的确定装置的结构示意图;
图4为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合能源设备的各项运行数据可以对其进行“画像”。所谓“画像”即是为能源设备确定一个概括性的标签,以便于直观的反应其在某些方面的概况。通过“画像”可以便捷的挖掘设备特征,展示运行特点,工况条件等重要信息。对能源系统运行有很大价值。如下表所示,即举例体现了利用若干项运行数据,对序号为01和02的两个能源设备的“画像”。
能源设备有关的运行数据种类繁多,而具体选择哪几项运行数据来进行“画像”,会直接的影响到“画像”的准确性。如上表中,即选择了发电效率、功率因数等5种运行数据,针对能源设备的能耗情况进行画像。现有技术中,通常是结合技术人员的经验,人工的选择若干项运行数据来进行“画像”。但显然经验判断有其局限性,人工选择的运行数据未必是最优组合。
本发明种,将通过计算确定目标数据集,目标数据集中包括了多种具有强关联性的运行数据组合,后续即可根据需求从目标数据中选择运行数据组合对能源设备进行画像。
参见图1所示,为本发明提供的目标数据集的确定方法的具体实施例。本实施例中,所述方法具体包括以下步骤:
步骤101、根据运行数据集,确定至少两个第一子数据集,各所述第一子数据集中包括所述运行数据中的至少一个数据项。
运行数据集中,包括了能源设备有关的各种运行数据的类型;或者说,包括本实施例中所有待进行分析的数据项。运行数据集可以以C=[C0,C1,C2,...,CN]的形式来表示。其中C即代表运行数据集,C0~CN代表其中包括的共N+1个数据项。
第一子数据集,是运行数据集的子集。其中包括所述运行数据中的至少一个数据项。第一子数据集的数量至少为两个。本实施例中,假设有两个第一子数据集,即数据集X和数据集Y。其中,数据集X中包括C0~CN中特定的i+1个数据项,即X=[X0,X1,X2,...,Xi];数据集Y中包括C0~CN中特定的j+1个数据项,即Y=[Y0,Y1,Y2,...,Yj]。
步骤102、确定任意两个所述第一子数据集之间的关联指数。
关联指数代表两个第一子数据中各数据项的关联性。关联性越强,意味着这些数据项之间有明显的依赖性,能够相结合以共同体现能源设备在特定方面的状况。也就是说,如果二者的关联性越强,即说明其中的各个数据项越适合作为“组合”来对能源设备进行“画像”。所以本实施例中,将通过特定算法对第一子数据集之间的关联性进行量化。
本实施例中,对计算关联指数的算法不做限定,任何能够实现相同或类似功能的计算过程,均可以结合在本实施例整体技术方案当中。本实施例中,将结合各第一子数据集与能源设备建立训练集A,并利用该训练集A进行关联指数的计算。具体的,训练集A中包括至少一项训练数据,即A=[a0,a1,a2,...,al]。基于一个第一子数据集中的数据项,对一个能源设备进行一次数据采集,得到的一组数据即是训练集A中的一个项训练数据。以上文所示的表格为例,序号01对应的5项运行数据,便组成了一项训练数据;同理序号为02对应的5项运行数据,亦组成了一项训练数据。也就是说,基于各个第一子数据集中包括的数据项,对一个或多个能源设备,分别进行一次或多次的数据采集,得到的所有训练数据形成的集合,即是训练集A。训练集A中训练数据的项数为l+1。
在此基础上,本实施例示例性的公开如下一种计算关联指数的方式:具体的,可以计算确定各所述第一子数据集的支持度指数;根据任意两个所述第一子数据集的支持度指数,确定两个所述第一子数据集之间的关联指数。
在本实施例中,数据集X的支持度指数计算公式如下:
其中,SUP(X)代表数据集X的支持度指数,aq代表训练集A中任意的训练数据,l+1为训练集A中训练数据的项数。
同理,数据集Y的支持度指数计算公式如下:
其中,SUP(Y)代表数据集Y的支持度指数,aq代表训练集A中任意的训练数据,l+1为训练集A中训练数据的项数。
根据支持度指数确定两个第一子数据集之间的关联指数的公式如下:
其中,V(X=>Y)代表数据集X相对于数据集Y的关联指数;SUP(X∪Y)代表数据集X和数据集Y的并集的支持度指数,其计算过程同上述的支持度指数计算同理,可参考如下公式:
另外,本实施例中优选的还可以将支持度指数大于预设的支持度阈值的所述第一子数据集,确定为第二子数据集;根据任意两个所述第二子数据集的支持度指数,确定两个所述第二子数据集之间的关联指数。也就是说,可以认为如果第一子数据集的支持度较低,则认为其中的数据项不适合作为用于“画像”的数据项。所以为了减少计算量,可仅对于支持度指数高于特定阈值的第一子数据集(也就是第二子数据集)进行后续计算。第二子数据集,也可成为频繁数据集。本实施例中,支持度阈值可根据实际需求进行设定。
步骤103、当所述关联指数满足预设条件,则根据所述两个第一子数据集,确定第一运行数据组合。
在本实施例中,可以根据需要预设关联指数阈值V’,当所述关联指数大于所述关联指数阈值,即V(X=>Y)>V′时,则可以认为所述关联指数满足预设条件。
另外优选的,还可以根据两个所述第一子数据集,确定两个所述第一子数据集之间的置信度指数。置信度指数的计算公式如下:
其中,conf(X=>Y)代表数据集X相对于数据集Y的置信度阈值。
进一步的可根据需求预设置信度阈值conf'。并且当所述关联指数大于预设的关联指数阈值(V(X=>Y)>V′);同时所述置信度指数大于预设的置信度阈值(conf(X=>Y)>conf′)时,认为所述关联指数满足预设条件。
本实施例中在关联指数满足预设条件的前提下,根据两个所述第一子数据集中包括的数据项,确定所述第一运行数据组合。也就是认为,此时数据集X中的数据项与数据集Y中的数据项具有较强的关联性,能够相结合以共同体现能源设备在特定方面的状况,适合作为“组合”来对能源设备进行“画像”。因此,可将数据集X中的数据项与数据集Y中的数据项共同作为“一组数据项”,即所述第一运行数据组合。
例如,当数据集X中包括运行数据集中的数据项C0,C1,数据集Y中包括运行数据集中的数据项C2,C3,则此时对应的第一运行数据组合DK中包括C0,C1,C2,C3共四个数据项,即DK=[C0,C1,C2,C3]。在另一些情况下,数据集X和数据集Y中可能有重复的数据项,则此时重复的数据项仅需要在第一运行数据集中保留一次即可。例如,当数据集X中包括运行数据集中的数据项C0,C1,数据集Y中包括运行数据集中的数据项C1,C2,则此时对应的第一运行数据组合DK中包括C0,C1,C2共三个数据项,即DK=[C0,C1,C2]。
另外还需说明的是,在本实施例示出的示例性方法中,数据集X相对于数据集Y的关联指数即V(X=>Y),与数据集Y相对于数据集X的关联指数即V(Y=>X),其计算方式同理,但二者并非同一参量,而是两个不同的参量。结合上述的举例说明来说,假设根据数据集X相对于数据集Y的关联指数即V(X=>Y)计算得到第一运行数据组合DK=[C0,C1,C2,C3]。那么相反的,结合数据集Y相对于数据集X的关联指数即V(Y=>X),同理计算得到的第一运行数据组合DP=[C2,C3,C0,C1]。即第一运行数据组合中数据项的顺序将有所区别,而数据项的顺序可能代表数据项的重要程度。
步骤104、根据所述第一运行数据组合,确定所述目标数据集。
在所述第一子数据集存在多个的情况下,可以任意两两进行上述计算,确定多个对应的第一运行数据组合。将所有第一运行数据组合组成对应的数据集,即确定目标数据集。目标数据集可表示为D=[D0,D1,D2,...,DM]。其中D0-DM代表M+1个第一运行数据组合,上述的DK为其中某一项第一运行数据组合。
后续当需要针对特定的能源设备进行“画像”时,即可根据需要从目标数据集中选择一项或多项第一运行数据组合。结合第一运行数据组合中包括的数据项进行“画像”,即确保数据项之间有强关联性,使“画像”具有足够的准确性。
通过以上技术方案可知,本实施例存在的有益效果是:通过计算第一子数据集之间的关联性,筛选出关联性强的数据项建立第一运行数据组合,再根据第一运行数据组合确定目标数据集;使得目标数据集中包括了多种适合进行设备画像的数据项组合;根据需要从目标数据集中选择一项或多项第一运行数据组合进行“画像”,即确保了“画像”的准确性。
图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
如图2所示,为本发明所述目标数据集的确定方法的另一个具体实施例。本实施例在前述实施例的基础上,进一步公开了迭代计算的优选过程。
需要说明的是,在迭代计算过程中,通常初次计算所确定的第一子数据集为单项数据集。即假设有三个第一子数据集,Z0=[C0],Z1=[C1],Z2=[C2]。按照图1所示实施例中的计算过程,确定数据集Z0与数据集Z1有强关联性,数据集Z0与数据集Z2有强关联性,则得到的第一运行数据组合D0=[C0,C1],D1=[C0,C2]。目标数据集D=[D0,D1]。
在此基础上,本实施例中方法还包括以下步骤:
步骤201、根据所述第一运行数据组合,确定至少两个第三子数据集,各所述第三子数据集中包括所述运行数据中的至少一个数据项。
也就是说,在确定第一运行数据组合之后,可以根据第一运行数据组合中的数据项建立第三子数据集,以进行后续计算。本实施例中,对应第一运行数据组合D0和D1,可包括两个第三子数据集,分别是W0=[C0,C1],W1=[C0,C2]。
步骤202、确定任意两个所述第三子数据集之间的关联指数。
本实施例中,计算第三子数据集W0和W1之间的关联指数的过程,可同理与上述步骤102中计算数据集X和数据集Y的关联指数的过程,在此不重复叙述。
步骤203、当所述关联指数满足预设条件,则根据所述两个第三子数据集,确定第三运行数据组合。
同样的,确定第三子数据集W0和W1之间的关联指数满足预设条件的过程,同理于上述步骤103,亦不需重复叙述。在满足预设条件的情况下,可将第三子数据集W0和W1中的数据项共同作为“一组数据项”,即所述第三运行数据组合。显然,本实施例中,第三运行数据组合D2=[C0,C1,C2]。
然后,可根据所述第一运行数据组合和所述第三运行数据组合,确定所述目标数据集。即将本次计算得到的第三运行数据组合D2加入到目标数据集D中。此时,D=[D0,D1,D2]。
同理的,还可将上述步骤101~103视为前次的迭代过程,将本实施例中步骤201~步骤203视为本次迭代过程,由此进行多次重复的迭代计算,不断扩充目标数据集中的运行数据组合,使得运行数据组合中包括不同数量的数据项。重复迭代的次数可根据需求设进行设定。
如图3所示,为本发明所述目标数据集的确定装置的一个具体实施例。本实施例所述装置,即用于执行图1~2所述方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括:
子数据集确定模块301,用于根据运行数据集,确定至少两个第一子数据集,各所述第一子数据集中包括所述运行数据中的至少一个数据项。
关联指数确定模块302,用于确定任意两个所述第一子数据集之间的关联指数。
运行数据组合确定模块303,用于在所述关联指数满足预设条件时,根据所述两个第一子数据集,确定第一运行数据组合。
目标数据集确定模块304,用于根据所述第一运行数据组合,确定所述目标数据集。
图4是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成目标数据集的确定装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的目标数据集的确定方法。
上述如本发明图3所示实施例提供的目标数据集的确定装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本发明任一实施例中提供的目标数据集的确定方法,并具体用于执行如图1或图2所示的方法。
前述各个实施例中所述的电子设备可以为计算机。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (9)

1.一种目标数据集的确定方法,其特征在于,包括:
根据运行数据集,确定至少两个第一子数据集,各所述第一子数据集中包括所述运行数据中的至少一个数据项;
确定任意两个所述第一子数据集之间的关联指数,所述关联指数代表两个第一子数据集中各数据项的关联性;
当所述关联指数满足预设条件,则根据所述两个第一子数据集,确定第一运行数据组合;
根据所述第一运行数据组合,确定所述目标数据集;
所述确定任意两个所述第一子数据集之间的关联指数包括:
基于各个所述第一子数据集中包括的数据项,对一个或多个能源设备,分别进行一次或多次的数据采集,得到的所有训练数据形成训练集A,训练集A中训练数据的项数为l+1;
计算确定各所述第一子数据集的支持度指数;
根据任意两个所述第一子数据集的支持度指数,确定两个所述第一子数据集之间的关联指数;
其中,对于任意两个所述第一子数据集X、Y的支持度指数计算公式如下:
则所述第一子数据集X、Y之间的关联指数的公式如下:
其中,SUP(X)代表第一子数据集X的支持度指数,SUP(Y)代表第一子数据集Y的支持度指数,aq代表训练集A中任意的训练数据,V(X=>Y)代表第一子数据集X相对于第一子数据集Y的关联指数;SUP(X∪Y)代表第一子数据集X和第一子数据集Y的并集的支持度指数。
2.根据权利要求1所述方法,其特征在于,所述根据任意两个所述第一子数据集的支持度指数,确定两个所述第一子数据集之间的关联指数包括:
将支持度指数大于预设的支持度阈值的所述第一子数据集,确定为第二子数据集;
根据任意两个所述第二子数据集的支持度指数,确定两个所述第二子数据集之间的关联指数。
3.根据权利要求1所述方法,其特征在于,所述关联指数满足预设条件包括:
根据两个所述第一子数据集,确定两个所述第一子数据集之间的置信度指数;
当所述关联指数大于预设的关联指数阈值;且所述置信度指数大于预设的置信度阈值,则所述关联指数满足预设条件。
4.根据权利要求1所述方法,其特征在于,所述根据所述两个第一子数据集,确定第一运行数据组合包括:
根据两个所述第一子数据集中包括的数据项,确定所述第一运行数据组合。
5.根据权利要求1~4任意一项所述方法,其特征在于,还包括:
根据所述第一运行数据组合,确定至少两个第三子数据集,各所述第三子数据集中包括所述运行数据中的至少一个数据项;
确定任意两个所述第三子数据集之间的关联指数;
当所述关联指数满足预设条件,则根据所述两个第三子数据集,确定第三运行数据组合。
6.根据权利要求5所述方法,其特征在于,所述根据所述第一运行数据组合,确定所述目标数据集包括:
根据所述第一运行数据组合和所述第三运行数据组合,确定所述目标数据集。
7.一种目标数据集的确定装置,其特征在于,包括:
子数据集确定模块,用于根据运行数据集,确定至少两个第一子数据集,各所述第一子数据集中包括所述运行数据中的至少一个数据项;
关联指数确定模块,用于确定任意两个所述第一子数据集之间的关联指数,所述关联指数代表两个第一子数据集中各数据项的关联性;
运行数据组合确定模块,用于在所述关联指数满足预设条件时,根据所述两个第一子数据集,确定第一运行数据组合;
目标数据集确定模块,用于根据所述第一运行数据组合,确定所述目标数据集;
所述关联指数确定模块,具体用于:
基于各个所述第一子数据集中包括的数据项,对一个或多个能源设备,分别进行一次或多次的数据采集,得到的所有训练数据形成训练集A,训练集A中训练数据的项数为l+1;
计算确定各所述第一子数据集的支持度指数;
根据任意两个所述第一子数据集的支持度指数,确定两个所述第一子数据集之间的关联指数;
其中,对于任意两个所述第一子数据集X、Y的支持度指数计算公式如下:
则所述第一子数据集X、Y之间的关联指数的公式如下:
其中,SUP(X)代表第一子数据集X的支持度指数,SUP(Y)代表第一子数据集Y的支持度指数,aq代表训练集A中任意的训练数据,V(X=>Y)代表第一子数据集X相对于第一子数据集Y的关联指数;SUP(X∪Y)代表第一子数据集X和第一子数据集Y的并集的支持度指数。
8.一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如权利要求1至6中任一权项所述的目标数据集的确定方法。
9.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至6中任一权项所述的目标数据集的确定方法。
CN202010341940.2A 2020-04-27 2020-04-27 一种目标数据集的确定方法及装置 Active CN111400377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010341940.2A CN111400377B (zh) 2020-04-27 2020-04-27 一种目标数据集的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010341940.2A CN111400377B (zh) 2020-04-27 2020-04-27 一种目标数据集的确定方法及装置

Publications (2)

Publication Number Publication Date
CN111400377A CN111400377A (zh) 2020-07-10
CN111400377B true CN111400377B (zh) 2023-09-08

Family

ID=71431709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010341940.2A Active CN111400377B (zh) 2020-04-27 2020-04-27 一种目标数据集的确定方法及装置

Country Status (1)

Country Link
CN (1) CN111400377B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962483B1 (en) * 2002-12-20 2011-06-14 Oracle International Corporation Association rule module for data mining
CN102098175A (zh) * 2011-01-26 2011-06-15 浪潮通信信息系统有限公司 一种移动互联网告警关联规则获取方法
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN107392645A (zh) * 2017-06-20 2017-11-24 小草数语(北京)科技有限公司 用户挖掘方法、装置及其设备
CN108197131A (zh) * 2017-10-09 2018-06-22 国网陕西省电力公司 一种电力资产画像的构建方法及装置
CN110244184A (zh) * 2019-07-04 2019-09-17 国网江苏省电力有限公司 一种频繁项集的配网线路故障规律挖掘方法、系统及介质
CN110414624A (zh) * 2019-08-06 2019-11-05 广东工业大学 基于多任务学习的分类模型构建方法及装置
CN110765185A (zh) * 2019-11-15 2020-02-07 王靖淏 一种基于智能配电网的故障诊断方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150012563A1 (en) * 2013-07-04 2015-01-08 Speedtrack, Inc. Data mining using associative matrices

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962483B1 (en) * 2002-12-20 2011-06-14 Oracle International Corporation Association rule module for data mining
CN102098175A (zh) * 2011-01-26 2011-06-15 浪潮通信信息系统有限公司 一种移动互联网告警关联规则获取方法
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN107392645A (zh) * 2017-06-20 2017-11-24 小草数语(北京)科技有限公司 用户挖掘方法、装置及其设备
CN108197131A (zh) * 2017-10-09 2018-06-22 国网陕西省电力公司 一种电力资产画像的构建方法及装置
CN110244184A (zh) * 2019-07-04 2019-09-17 国网江苏省电力有限公司 一种频繁项集的配网线路故障规律挖掘方法、系统及介质
CN110414624A (zh) * 2019-08-06 2019-11-05 广东工业大学 基于多任务学习的分类模型构建方法及装置
CN110765185A (zh) * 2019-11-15 2020-02-07 王靖淏 一种基于智能配电网的故障诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于数据挖掘技术的变电站巡检机器人故障分析与自主特巡系统;王者;《中国知网硕士电子期刊工程科技Ⅱ辑》(第2期);全文 *

Also Published As

Publication number Publication date
CN111400377A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN113994350A (zh) 为神经网络生成并行计算方案
EP2457151A1 (en) Ranking search results based on word weight
WO2020238039A1 (zh) 神经网络搜索方法及装置
CN109815267A (zh) 数据建模中特征的分箱优化方法及系统、存储介质及终端
CN102298570A (zh) 一种点数可变的混合基 fft/ifft实现装置及其方法
CN114138231B (zh) 执行矩阵乘法运算的方法、电路及soc
CN107944931A (zh) 种子用户拓展方法、电子设备及计算机可读存储介质
CN103870563B (zh) 确定给定文本的主题分布的方法和装置
CN114048816B (zh) 一种图神经网络数据采样方法、装置、设备及存储介质
WO2021000244A1 (en) Hyperparameter recommendation for machine learning method
CN109844774B (zh) 一种并行反卷积计算方法、单引擎计算方法及相关产品
CN111400377B (zh) 一种目标数据集的确定方法及装置
CN112163612B (zh) 基于fpga的大模板卷积图像匹配方法、装置及系统
CN113094899A (zh) 一种随机潮流计算方法、装置、电子设备及存储介质
CN110532528B (zh) 基于随机游走的书籍相似度计算方法及电子设备
CN116976432A (zh) 一种支持任务并行处理的芯片模拟方法、装置和芯片模拟器
CN111027688A (zh) 一种基于fpga的神经网络计算器生成方法及装置
CN114706557B (zh) 一种asic芯片及蒙哥马利模乘的实现方法和装置
CN116204396A (zh) 一种针对分析型数据库性能的测试方法和装置
CN115544438A (zh) 数字通信系统中的旋转因子生成方法、装置和计算机设备
CN111324443B (zh) 数据处理方法、装置、电子设备及存储介质
CN109816110B (zh) Scrypt算法工作量证明方法及装置
CN109783052B (zh) 数据排序方法、装置、服务器及计算机可读存储介质
CN110750249B (zh) 一种快速傅里叶变换代码的生成方法及装置
US7650579B2 (en) Model correspondence method and device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230731

Address after: 065001 China (Hebei) Pilot Free Trade Zone Daxing Airport Area Langfang Airport Economic Zone Hangyidao Free Trade Zone Science and Technology Innovation Base 2101, Langfang City, Hebei Province

Applicant after: Xinao Xinzhi Technology Co.,Ltd.

Address before: 100102 10th floor, 1 Wangjing East Road, Chaoyang District, Beijing

Applicant before: ENNEW DIGITAL TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant