CN109785915A - 数据征集方法,装置,存储介质及电子设备 - Google Patents

数据征集方法,装置,存储介质及电子设备 Download PDF

Info

Publication number
CN109785915A
CN109785915A CN201811584272.5A CN201811584272A CN109785915A CN 109785915 A CN109785915 A CN 109785915A CN 201811584272 A CN201811584272 A CN 201811584272A CN 109785915 A CN109785915 A CN 109785915A
Authority
CN
China
Prior art keywords
collection
data
collection point
characteristic value
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811584272.5A
Other languages
English (en)
Other versions
CN109785915B (zh
Inventor
王希
平安
何光宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811584272.5A priority Critical patent/CN109785915B/zh
Publication of CN109785915A publication Critical patent/CN109785915A/zh
Application granted granted Critical
Publication of CN109785915B publication Critical patent/CN109785915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据征集方法,装置,存储介质及电子设备,用以解决相关技术中完成数据征集任务的效益较低的问题。该方法包括:获取每一征集点的与数据征集任务相关的多维特征值;根据所述多维特征值构造数据样本矩阵;通过聚类算法对所述数据样本矩阵进行分类,得到多个征集点分组;分别确定每一所述征集点分组中的所有征集点的平均综合效益值;若所述数据样本矩阵中包括正相关因素的特征值以及负相关因素正化调整后的特征值,则从所述平均综合效益值最大的征集点分组中,根据每一征集点的综合效益值的大小选择目标征集点,并向所述目标征集点征集数据,以完成所述数据征集任务。

Description

数据征集方法,装置,存储介质及电子设备
技术领域
本公开涉及数据征集领域,具体地,涉及一种数据征集方法,装置,存储介质及电子设备。
背景技术
数据征集是指征集平台通过发布招募任务的方式,将征集任务分派给多个征集点,要求各个征集点提供数据的方式。例如,医疗影像平台的建设过程中,不可避免的会产生任务征集类的工作任务,例如医疗影像数据的征集,要求符合实验要求的数据源共同参与完成。
现有的任务征集方式,并没有考虑征集过程中的效益因素,对于有偿的数据征集任务,征集得到的数据产生的效益和付出的代价无法做到最优。
发明内容
本公开的目的是提供一种数据征集方法,装置,存储介质及电子设备,用以解决相关技术中完成数据征集任务的效益较低的问题。
为了实现上述目的,本公开实施例提供一种数据征集方法,所述方法包括:
获取每一征集点的与数据征集任务相关的多维特征值;
根据所述多维特征值构造数据样本矩阵;
通过聚类算法对所述数据样本矩阵进行分类,得到多个征集点分组;
分别确定每一所述征集点分组中的所有征集点的平均综合效益值;
若所述数据样本矩阵中包括正相关因素的特征值以及负相关因素正化调整后的特征值,则从所述平均综合效益值最大的征集点分组中,根据每一征集点的综合效益值的大小选择目标征集点,并向所述目标征集点征集数据,以完成所述数据征集任务。
可选地,所述方法还包括:
若所述数据样本矩阵中包括正相关因素的特征值且不包括负相关因素的特征值,则从所述平均综合效益值最大的征集点分组中,根据每一征集点的负相关因素的特征值选择目标征集点,并向所述目标征集点征集数据,以完成所述数据征集任务。
可选地,所述通过所述聚类算法对所述数据样本矩阵进行分类,得到所述多个征集点分组,包括:
根据每一维度的预设权值,对所述数据样本矩阵进行扩大化处理;
通过所述聚类算法对所述扩大化处理后的数据样本矩阵进行分类,得到所述多个征集点分组。
可选地,所述获取每一征集点的与数据征集任务相关的多维特征值,包括:
确定所述征集点与所述数据征集任务的负相关因素的属性值以及正相关因素的属性值;
将所述负相关因素的属性值与所述正相关因素的属性值进行预处理,得到所述征集点的多维特征值。
可选地,所述根据所述多维特征值构造数据样本矩阵包括:将每一所述征集点的表征所述正相关因素的多维特征值组合为所述数据样本矩阵;
或者,对表征所述负相关因素的多维特征值进行正化调整处理,并将正化调整后的所述负相关因素的多维特征值与表征所述正相关因素的多维特征值组合为所述数据样本矩阵。
可选地,所述数据征集任务为征集医疗影像数据的任务,与该任务负相关的属性包括征集点收取的费用,与该任务正相关的属性包括:征集点提供的医疗影像的质量,征集点使用的设备质量,对征集点的能力评价值中的一者或多者。
本公开实施例还提供一种数据征集装置,包括:
特征获取模块,用于获取每一征集点的与数据征集任务相关的多维特征值;
矩阵构造模块,用于根据所述多维特征值构造数据样本矩阵;
征集点分类模块,用于通过聚类算法对所述数据样本矩阵进行分类,得到多个征集点分组;
组效益值确定模块,用于分别确定每一所述征集点分组中的所有征集点的平均综合效益值;
第一征集点选择模块,用于在所述数据样本矩阵中包括正相关因素的特征值以及负相关因素正化调整后的特征值时,从所述平均综合效益值最大的征集点分组中,根据每一征集点的综合效益值的大小选择目标征集点;
征集模块,用于向所述目标征集点征集数据,以完成所述数据征集任务。
可选地,所述装置还包括:
第二征集点选择模块,用于在所述数据样本矩阵中包括正相关因素的特征值且不包括负相关因素的特征值时,从所述平均综合效益值最大的征集点分组中,根据每一征集点的负相关因素的特征值选择目标征集点。
可选地,所述装置还包括:
矩阵扩大化处理模块,用于根据每一维度的预设权值,对所述数据样本矩阵进行扩大化处理;
所述征集点分类模块用于,通过所述聚类算法对所述扩大化处理后的数据样本矩阵进行分类,得到所述多个征集点分组。
可选地,所述特征获取模块包括:
确定子模块,用于确定所述征集点与所述数据征集任务的负相关因素的属性值以及正相关因素的属性值;
特征获取子模块,用于将所述负相关因素的属性值与所述正相关因素的属性值进行预处理,得到所述征集点的多维特征值。
可选地,所述矩阵构造模块包括:
第一构造子模块,用于将每一所述征集点的表征所述正相关因素的多维特征值组合为所述数据样本矩阵;或者,
第二构造子模块,用于对表征所述负相关因素的多维特征值进行正化调整处理,并将正化调整后的所述负相关因素的多维特征值与表征所述正相关因素的多维特征值组合为所述数据样本矩阵。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一数据征集方法的步骤。
本公开实施例还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述任一数据征集方法的步骤。
采用上述技术方案,至少能够达到如下技术效果:
获取每一征集点的与数据征集任务相关的多维特征值,并根据所述多维特征值构造数据样本矩阵,该数据样本矩阵可以包括正相关因素的特征值以及负相关因素正化调整后的特征值,其中基于正负相关因素的特征值可以衡量每一征集点的综合效益。这样,通过聚类算法对所述数据样本矩阵进行分类,得到所述多个征集点分组,并从平均综合效益值最大的征集点分组中,根据各征集点的综合效益值的大小选择目标征集点进行数据征集,可以有效提升数据征集任务的效益。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开实施例提供的一种数据征集方法的流程示意图;
图2是本公开实施例提供的另一种数据征集方法的流程示意图;
图3是本公开实施例提供的一种数据征集装置的结构示意图;
图4是本公开实施例提供的另一种数据征集装置的结构示意图;
图5是本公开实施例提供的又一种数据征集装置的结构示意图;
图6是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本公开实施例提供一种数据征集方法,该方法应用于数据征集平台,用于向征集点发布数据征集任务,征集点是能够完成平台发布的征集任务的用户设备或者机构等,例如数据征集平台可以是医疗影像数据征集平台,各个征集点例如可以是各医疗机构,如图1所示,该方法包括:
S101、获取每一征集点的与数据征集任务相关的多维特征值。
具体地,每一征集点的多维特征值,可以是在向各征集点发布数据征集任务后,根据各征集点主动提交给数据征集平台的属性信息生成的,也可以是根据各个征集点在注册到数据征集平台时填写的属性信息生成的。
此外,该多维特征值可以采用向量进行表示,例如,某一与数据征集任务相关的属性依次包括生产数据使用的设备类型,完成任务的时间,提供者自身的经验三个维度的属性,并且,对应设备类型维度的特征值为0.2,对应完成任务的时间维度的特征值为0.5,提供者自身的经验维度的特征值为0.3,则该征集点的多维特征值采用向量表示即可以为[0.2,0.5,0.3]。
上述只是举例说明,在具体实施时,数据征集平台在收集到各征集点提交的属性信息后,可以对数据进行标准化与归一化的预处理,以得到针对各个征集点进行统一评价衡量的多维度特征值。示例地,可以根据最大值最小值归一化原则对数据进行处理,即针对所有征集点在同一属性的数据,选取一最大值以及一最小值,再针对每一征集点,计算该征集点在该属性的数据与该最小值之间差值除以该最大值与该最小值之间的差值,即可得到该征集点在该属性的归一化数据。例如,共七个征集点,七个征集点在能够提供给数据征集平台的数据的质量属性上的属性值分别为:60,20,40,45,80,50,120,其中,最大值为120,最小值为20,因此,针对第一个征集点的属性值60,归一化处理即为(60-20)/(120-20)=0.4,同理,可得到各个征集点在对应数据质量属性的维度上的特征值分别:0.4,0,0.2,0.25,0.6,0.3,1。
S102、根据所述多维特征值构造数据样本矩阵。
其中,该数据样本矩阵可以只包括每一征集点的多维特征值中与数据征集任务正相关的特征值,也可以同时包括对每一征集点的多维特征值中与数据征集任务负相关的特征值进行正化调整后的特征值,以及与数据征集任务正相关的特征值。使得每一征集点在数据样本矩阵中的特征值与该征集点的综合效益值之间属于正相关关系,即每一征集点在数据样本矩阵中的特征值越大,该征集点综合效益值越大,其中,征集点的综合效益值可以使用征集点在数据样本矩阵中的特征值的和表示。
S103、通过聚类算法对所述数据样本矩阵进行分类,得到多个征集点分组。
聚类算法用于将样本按照相似性分成多个分组,处于同一分组内的样本之间的相似性大于处于不同分组的样本之间的相似性。本公开实施例针对数据样本矩阵中包括的各个征集点的特征向量(向量方式表示的多维特征值),通过聚类算法,可以将相似的特征向量聚类为一组,从而得到多个征集点分组,即每一征集点分组中的各个征集点的特征向量具有某一种相似性。例如,本公开实施例通过聚类算法就可以将在数据样本矩阵中在同一维度特征值较高的征集点聚成一个分组,方便数据征集者初步筛选。
S104、分别确定每一所述征集点分组中的所有征集点的平均综合效益值。
其中,征集点的综合效益值与该征集点在数据样本矩阵中特征值的大小正相关,因此,在一种可能的实现方式中,本公开实施例具体可以采用征集点在数据样本矩阵中的所有特征值之和表示该征集点的综合效益值。每一征集点分组的平均综合效益值即为该分组中所有征集点的综合效益值的平均值。
S105、若所述数据样本矩阵中包括正相关因素的特征值以及负相关因素正化调整后的特征值,则从所述平均综合效益值最大的征集点分组中,根据每一征集点的综合效益值的大小选择目标征集点,并向所述目标征集点征集数据,以完成所述数据征集任务。
参照上述对步骤S102的说明,在构造数据样本矩阵时,可以对每一征集点的多维特征值中与数据征集任务负相关的特征值进行正化调整后,与数据征集任务正相关的特征值一起构造数据样本矩阵,在此种情况下,数据样本矩阵中同时考虑到了正负相关因素,聚类分组更加准确。并且,基于每一征集点在数据样本矩阵中的特征值计算得到的每一征集点的综合效益值也是综合考虑了该征集点与数据征集任务相关的正负相关因素。因此,在选定平均综合效益值最大的征集点分组后,在该分组中按照各征集点综合效益值的大小选择目标征集点,例如数据征集任务要求选择十个目标征集点,则可以在该分组中根据综合效益值从大到小选择十个目标征集点。
采用上述方法,获取每一征集点的与数据征集任务相关的多维特征值,并根据所述多维特征值构造数据样本矩阵,该数据样本矩阵可以包括正相关因素的特征值以及负相关因素正化调整后的特征值,其中基于正负相关因素的特征值可以衡量每一征集点的综合效益。这样,通过聚类算法对所述数据样本矩阵进行分类,得到所述多个征集点分组,并从平均综合效益值最大的征集点分组中,根据各征集点的综合效益值的大小选择目标征集点进行数据征集,可以有效提升数据征集任务的效益。
在另一种可能的实现方式中,若所述数据样本矩阵中包括正相关因素的特征值且不包括负相关因素的特征值,则从所述平均综合效益值最大的征集点分组中,根据每一征集点的负相关因素的特征值选择目标征集点,并向所述目标征集点征集数据,以完成所述数据征集任务。
也就是说,步骤S102在构造数据样本矩阵时,仅将每一征集点的多维特征值中的与数据征集任务正相关的特征值组合成数据样本矩阵,未考虑负相关因素的特征。在此种情况下,每一征集点的综合效益值就只是考虑了正相关因素的特征值,因此,在得到征集点分组后,针对正相关因素的平均综合效益值最大的分组,可以考虑该分组中每一征集点的负相关因素的特征值,从该分组中选取目标征集点,例如,该负相关因素为征集点完成数据征集任务收取的费用,因此,可以根据费用大小从该分组中选择目标征集点,以降低完成数据征集任务的代价。
为了使本领域技术人员更加了解本公开实施例提供的技术方案,下面对本公开实施例提供的数据征集方法进行详细说明。
首先值得说明的是,征集点自身具有的与要完成数据征集任务相关的因素中通常既包括与数据征集者利益正相关的因素,又包括负相关的因素,例如,对于有偿的数据征集任务,征集点要求的报酬越高,数据征集者付出的代价值就越高,因此,征集点的费用因素即为负相关因素。又例如,该征集点采用的设备越精良,产生的数据质量就越高,因此,征集点的设备因素即为正相关因素。
因此,步骤S101获取每一征集点的与数据征集任务相关的多维特征值可以包括:确定所述征集点与所述数据征集任务的负相关因素的属性值以及正相关因素的属性值;将所述负相关因素的属性值与所述正相关因素的属性值进行预处理,得到所述征集点的多维特征值。进一步地,步骤S102构造数据样本矩阵可以包括:将每一所述征集点的表征所述正相关因素的多维特征值组合为所述数据样本矩阵;或者,对表征所述负相关因素的多维特征值进行正化调整处理,并将正化调整后的所述负相关因素的多维特征值与表征所述正相关因素的多维特征值组合为所述数据样本矩阵。
值得说明的是,通过正化调整处理,可以使得负相关因素的属性值越大(表示数据征集任务的代价值越大),对应该负相关因素的维度的特征值就越小,征集点的综合效益值就越小,从而使得维度的特征值与征集点的综合效益值之间呈正相关的关系,从而可以基于负相关因素对应的特征值与正相关因素对应的特征值统一计算征集点的综合效益值,并通过综合效益值的大小选取目标征集点,而无需将效益值和代价值分开计算。具体地,将负相关因素特征值正相关化的方法有倒数法,1减法等。本公开在具体实施时例如可以使用1减法,即假设征集点期望获得报酬因素对应的特征值为p(报酬越高,对应的特征值越大),则可以通过1-p将负相关因素的特征值正相关化。
若在聚类分组之前,将负相关因素正相关化并构造数据样本矩阵,就可以同时考虑到正相关因素和负相关因素进行分组,这样,在得到征集点分组之后,可以直接从平均综合效益值最大的征集点分组中,根据各所述征集点自身的综合效益值的大小选择所述目标征集点,无需将效益值和代价值分开考虑。
若在聚类分组前,仅使用正相关因素的特征值构造数据样本矩阵,则在得到多个征集点分组后,可以进一步基于负相关因素的特征值,从平均综合效益值(与正相关因素特征值正相关)最大的征集点分组中选择所述目标征集点,达到综合考虑正负相关因素,提升数据征集任务的效益的效果。
图2是本公开实施例提供的另一种数据征集方法的流程图,如图所示,包括:
S201、获取每一征集点的与数据征集任务相关的多维特征值。
S202、根据所述多维特征值构造数据样本矩阵。
S203、根据每一维度的预设权值,对所述数据样本矩阵进行扩大化处理。
其中,每一维度的权值是根据征集者对该维度的重视程度设置的。
每一维度的权值表示征集数据的发起者对该维度的重视程度,可以由发起者预先进行设置,例如,医疗影像数据的征集任务中,任务发起者更希望得到有经验的医师提供的数据,那么可以将医师执业年限这一维度的权值提高。
另外,对该数据样本矩阵进行扩大化处理可以是指,将每一维度的元素值乘以该维度的权值,得到扩大后的值,例如,五个征集点在第一维度的数值分别是[0.2,0.3,0.6,0.8,0.7],该维度对应的权值大小为0.4,则扩大化处理后,该五个征集点在第一维度的数值分别是[0.08,0.12,0.24,0.32,0.28]。
基于征集点的多维特征值以及每一维度的权值即可得到该征集点的综合效益值,例如,某一征集点的特征向量为[0.2,0.3,0.8,0.6],各维度的权值分别为[0.3,0.4,0.2,0.1],则该征集点的综合效益值即为:0.2*0.3+0.3*0.4+0.8*0.2+0.6*0.1=0.4。
S204、通过聚类算法对所述扩大化处理后的数据样本矩阵进行分类,得到多个征集点分组。
针对数据征集者看重的因素,可以将该因素对应维度的权值设定较高,通过聚类算法就可以将在这一因素上权值较高的征集点聚成一个分组,方便数据征集者筛选。
例如,注册到数据征集平台的征集点的身份可能分为个人和企业两种,若某一数据征集任务更需要企业征集点完成,则征集者可以将征集点身份因素的权值设定的较高,这样,在聚类时,身份为个人的征集点和身份为企业的征集点就能被划分到不同的征集点分组。
在本公开实施例的一种可能的实现方式中,该聚类算法可以采用蚁群聚类算法,蚁群聚类算法本质上是一种模拟进化的算法,在搜索过程中不容易陷入局部最优,即在所定义的目标函数是不连续的、非规划的情况下,也能以较大的概率发现局部最优解。基于蚁群聚类的群组构造算法和最优群组的选取方法,具有较好的解决问题能力和良好的可扩展性。
S205、分别确定每一所述征集点分组中的所有征集点的平均综合效益值。
其中,每一所述征集点的综合效益值是指该征集点各个维度上的特征值的加权和。
示例地,若某一征集点的多维特征值为[0.2,0.3,0.6,0.8,0.7],并且,各个维度的权值分别为[0.2,0.3,0.1,0.3,0.1],则该征集点的综合效益值为0.2*0.2+0.3*0.3+0.6*0.1+0.8*0.3+0.7*0.1=0.5。同理,在得到征集点分组中每一征集点的综合效益值后进行平均,即可得到该征集点分组的平均综合效益值。
S206、若所述数据样本矩阵中包括正相关因素的特征值以及负相关因素正化调整后的特征值,则从所述平均综合效益值最大的征集点分组中,根据每一征集点的综合效益值的大小选择目标征集点,并向所述目标征集点征集数据,以完成所述数据征集任务。
在一种可能的实现方式中,若该数据征集任务只需要n个征集点,则可以在该平均综合效益值最大的征集点分组中,针对每个征集点,按照综合效益值从大到小进行排序,并选取前n个征集点作为所述目标征集点。
在具体实施时,数据征集任务除了对选取的征集点数量有要求,还可能对选取出来的征集点有其他要求,因此可以根据实际需求预先设定目标函数用于约束征集点的选择。也就是说,选择满足所述目标函数的征集点作为所述目标征集点。例如,如下所示的公式1,2,3组成的目标函数:
X=(x1,x2,…,xn) (1)
其中,xi是一个0或1的变量,即xi∈[0,1],并且当xi=1时,代表选择了第i个征集点,当xi=0时,代表没有选择该第i个征集点。例如,共七个征集点,若X=(0,1,1,0,1,0,1),则表示选择第2,第3,第5以及第7个征集点,不选择第1,第4和第6个征集点。
ci是征集点xi的综合效益值。例如,七个征集点的综合效益值分别为:0.4,0.3,0.5,0.4,0.6,0.8,0.7,若X=(0,1,1,0,1,0,1),则此种选择情况下,综合效益值总和即为0.3+0.5+0.6+0.7=2.1。由此可知,选择不同的征集点,综合效益值总和不同,公式2是指在多种选择下,需选取综合效益值总和最大的目标征集点,例如选择上述七个征集点中的第3,第5,第7和第8个征集点作为目标征集点。
公式3是指数据征集任务对征集点的数量有要求,例如要求征集点数量小于m个。
通过求解目标函数选择得到的目标征集点,是在满足数据征集任务要求的条件下,效益值最高的征集点组合。
上述只是举例说明,在具体实施时,根据实际需求可以设定其他目标函数,例如要求身份为个人的征集点和身份为企业的征集点数量各一半等,本公开对此不做限定。
S207、若所述数据样本矩阵中包括正相关因素的特征值且不包括负相关因素的特征值,则从所述平均综合效益值最大的征集点分组中,根据每一征集点的负相关因素的特征值选择目标征集点,并向所述目标征集点征集数据,以完成所述数据征集任务。
采用此种实现方式,也就是说,在计算征集点分组时,只考虑正相关因素对应的特征值,因此无需对负相关因素做正化调整处理,而是在得到平均综合效益值最大的征集点分组后,再考虑该分组中各个征集点的负相关因素对应的特征值,从该平均综合效益值最大的征集点分组中选择所述目标征集点。
示例地,通常最重要的负相关因素就是征集点完成任务的期望收益,一般情况下征集点自身的能力值越高,那么其期望的收益也会相对较高。而负相关的值越大,越不利于节点的选取。因此,用pi表示第i个用户在期望收益上的特征值,则可以得到如下公式4用于约束征集点的选取:
这样,针对由公式(1)(2)(3)(4)组成的目标函数,例如采用贪心算法,凭借每一步做出的局部最优选择策略,可以逐步逼近全局的最优解,即最终选择的目标征集点是综合考虑效益值和代价值最优的选择,也就是说,是在花费较少的基础上,尽可能达到最好的选点结果。
值得说明的是,贪心算法可以简单描述为:对一组数据进行排序,找出最小值,进行处理,再找出最小值,再处理。也就是说贪心算法是一种在每一步选择中都采取在当前状态下最好或最优的选择,从而希望得到结果是最好或最优的算法。
上述只是举例说明,根据实际需求利用负相关因素设定其他目标函数限定征集点的选择,例如,征集点完成的任务所需时间不大于24小时等,本公开对此不做限定。
下面以医疗影像数据征集任务进行举例说明。其中,与医疗影像数据征集任务负相关的因素可以包括征集点收取的费用因素,正相关因素可以包括征集点提供的医疗影像的质量,征集点使用的设备质量,对征集点的能力评价值(该征集点能力评价值可以与医师的从业年限正相关)中的一者或多者。
本公开实施例还提供一种数据征集装置,用于实施上述方法实施例提供的数据征集方法,如图3所示,该数据征集装置30包括:
特征获取模块301,用于获取每一征集点的与数据征集任务相关的多维特征值;
矩阵构造模块302,用于根据所述多维特征值构造数据样本矩阵;
征集点分类模块303,用于通过聚类算法对所述数据样本矩阵进行分类,得到多个征集点分组;
组效益值确定模块304,用于分别确定每一所述征集点分组中的所有征集点的平均综合效益值;
第一征集点选择模块305,用于在所述数据样本矩阵中包括正相关因素的特征值以及负相关因素正化调整后的特征值时,从所述平均综合效益值最大的征集点分组中,根据每一征集点的综合效益值的大小选择目标征集点;
征集模块306,用于向所述目标征集点征集数据,以完成所述数据征集任务。
采用上述装置,根据每一征集点的多维特征值构造的数据样本矩阵可以包括正相关因素的特征值以及负相关因素正化调整后的特征值,其中基于正负相关因素的特征值可以衡量每一征集点的综合效益。这样,通过聚类算法对所述数据样本矩阵进行分类,得到所述多个征集点分组,并从平均综合效益值最大的征集点分组中,根据各征集点的综合效益值的大小选择目标征集点进行数据征集,可以有效提升数据征集任务的效益。
可选地,如图4所示,所述装置30还可以包括:
第二征集点选择模块307,用于在所述数据样本矩阵中包括正相关因素的特征值且不包括负相关因素的特征值时,从所述平均综合效益值最大的征集点分组中,根据每一征集点的负相关因素的特征值选择目标征集点。
采用第二征集点选择模块307选择征集点的情况下,该装置仅将每一征集点的多维特征值中的与数据征集任务正相关的特征值组合成数据样本矩阵,未考虑负相关因素的特征。因此每一征集点的综合效益值就只是考虑了正相关因素的特征值,这样,在得到征集点分组后,针对正相关因素的平均综合效益值最大的分组,可以考虑该分组中每一征集点的负相关因素的特征值,从该分组中选取目标征集点,例如,该负相关因素为征集点完成数据征集任务收取的费用,因此,可以根据费用大小从该分组中选择目标征集点,以降低完成数据征集任务的代价。
可选地,如图5所示,所述装置30还可以包括:
矩阵扩大化处理模块308,用于根据每一维度的预设权值,对所述数据样本矩阵进行扩大化处理;
所述征集点分类模块303用于,通过所述聚类算法对所述扩大化处理后的数据样本矩阵进行分类,得到所述多个征集点分组。
可选地,如图5所示,所述特征获取模块301包括:
确定子模块3011,用于确定所述征集点与所述数据征集任务的负相关因素的属性值以及正相关因素的属性值;
特征获取子模块3012,用于将所述负相关因素的属性值与所述正相关因素的属性值进行预处理,得到所述征集点的多维特征值;
可选地,如图5所示,所述矩阵构造模块302包括:
第一构造子模块3021,用于将每一所述征集点的表征所述正相关因素的多维特征值组合为所述数据样本矩阵;或者,
第二构造子模块3022,用于对表征所述负相关因素的多维特征值进行正化调整处理,并将正化调整后的所述负相关因素的多维特征值与表征所述正相关因素的多维特征值组合为所述数据样本矩阵。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法实施例提供的数据征集方法的步骤。
本公开实施例还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述方法实施例提供的数据征集方法的步骤。
图6是根据一示例性实施例示出的所述电子设备的一种框图。例如,电子设备60可以被提供为一服务器。参照图6,电子设备60包括处理器601,其数量可以为一个或多个,以及存储器602,用于存储可由处理器601执行的计算机程序。存储器602中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器601可以被配置为执行该计算机程序,以执行上述数据征集方法。
另外,电子设备60还可以包括电源组件603和通信组件604,该电源组件603可以被配置为执行电子设备60的电源管理,该通信组件604可以被配置为实现电子设备60的通信,例如,有线或无线通信。此外,该电子设备60还可以包括输入/输出(I/O)接口605。电子设备60可以操作基于存储在存储器602的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
此外,本公开实施例提供的计算机可读存储介质可以为上述包括程序指令的存储器602,上述程序指令可由电子设备60的处理器601执行以完成上述数据征集方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种数据征集方法,其特征在于,所述方法包括:
获取每一征集点的与数据征集任务相关的多维特征值;
根据所述多维特征值构造数据样本矩阵;
通过聚类算法对所述数据样本矩阵进行分类,得到多个征集点分组;
分别确定每一所述征集点分组中的所有征集点的平均综合效益值;
若所述数据样本矩阵中包括正相关因素的特征值以及负相关因素正化调整后的特征值,则从所述平均综合效益值最大的征集点分组中,根据每一征集点的综合效益值的大小选择目标征集点,并向所述目标征集点征集数据,以完成所述数据征集任务。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述数据样本矩阵中包括正相关因素的特征值且不包括负相关因素的特征值,则从所述平均综合效益值最大的征集点分组中,根据每一征集点的负相关因素的特征值选择目标征集点,并向所述目标征集点征集数据,以完成所述数据征集任务。
3.根据权利要求1或2所述的方法,其特征在于,所述通过所述聚类算法对所述数据样本矩阵进行分类,得到所述多个征集点分组,包括:
根据每一维度的预设权值,对所述数据样本矩阵进行扩大化处理;
通过所述聚类算法对所述扩大化处理后的数据样本矩阵进行分类,得到所述多个征集点分组。
4.根据权利要求1或2所述的方法,其特征在于,所述获取每一征集点的与数据征集任务相关的多维特征值,包括:
确定所述征集点与所述数据征集任务的负相关因素的属性值以及正相关因素的属性值;
将所述负相关因素的属性值与所述正相关因素的属性值进行预处理,得到所述征集点的多维特征值。
5.根据权利要求1或2所述的方法,其特征在于,所述根据所述多维特征值构造数据样本矩阵包括:
将每一所述征集点的表征所述正相关因素的多维特征值组合为所述数据样本矩阵;
或者,对表征所述负相关因素的多维特征值进行正化调整处理,并将正化调整后的所述负相关因素的多维特征值与表征所述正相关因素的多维特征值组合为所述数据样本矩阵。
6.一种数据征集装置,其特征在于,包括:
特征获取模块,用于获取每一征集点的与数据征集任务相关的多维特征值;
矩阵构造模块,用于根据所述多维特征值构造数据样本矩阵;
征集点分类模块,用于通过聚类算法对所述数据样本矩阵进行分类,得到多个征集点分组;
组效益值确定模块,用于分别确定每一所述征集点分组中的所有征集点的平均综合效益值;
第一征集点选择模块,用于在所述数据样本矩阵中包括正相关因素的特征值以及负相关因素正化调整后的特征值时,从所述平均综合效益值最大的征集点分组中,根据每一征集点的综合效益值的大小选择目标征集点;
征集模块,用于向所述目标征集点征集数据,以完成所述数据征集任务。
7.根据权利要求6所述的装置,其特征在于,还包括:
第二征集点选择模块,用于在所述数据样本矩阵中包括正相关因素的特征值且不包括负相关因素的特征值时,从所述平均综合效益值最大的征集点分组中,根据每一征集点的负相关因素的特征值选择目标征集点。
8.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:
矩阵扩大化处理模块,用于根据每一维度的预设权值,对所述数据样本矩阵进行扩大化处理;
所述征集点分类模块用于,通过所述聚类算法对所述扩大化处理后的数据样本矩阵进行分类,得到所述多个征集点分组。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至5中任一项所述方法的步骤。
CN201811584272.5A 2018-12-24 2018-12-24 数据征集方法,装置,存储介质及电子设备 Active CN109785915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811584272.5A CN109785915B (zh) 2018-12-24 2018-12-24 数据征集方法,装置,存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811584272.5A CN109785915B (zh) 2018-12-24 2018-12-24 数据征集方法,装置,存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN109785915A true CN109785915A (zh) 2019-05-21
CN109785915B CN109785915B (zh) 2021-03-19

Family

ID=66497618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811584272.5A Active CN109785915B (zh) 2018-12-24 2018-12-24 数据征集方法,装置,存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109785915B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110118130A1 (en) * 2009-08-23 2011-05-19 Jeanne F. Loring Compositions and methods for defining cells
US20130073490A1 (en) * 2011-09-16 2013-03-21 International Business Machines Corporation Choosing pattern recognition algorithms and data features
CN104679655A (zh) * 2015-03-06 2015-06-03 国网四川省电力公司电力科学研究院 基于参数相关性的软件系统状态评估方法
CN105321047A (zh) * 2015-11-10 2016-02-10 中国电力科学研究院 一种调度计划类数据多维度校验方法
CN106202347A (zh) * 2016-07-04 2016-12-07 吴本刚 一种用于数据质量管理与有用数据挖掘的装置
CN106815743A (zh) * 2016-12-09 2017-06-09 上海交通大学 基于熵的数据价值衡量与定价方法
CN107709576A (zh) * 2015-04-13 2018-02-16 优比欧迈公司 用于神经系统健康问题的微生物组来源的诊断和治疗的方法及系统
CN107967343A (zh) * 2017-12-11 2018-04-27 西南交通大学 一种多视图构建方法
CN108021664A (zh) * 2017-12-04 2018-05-11 北京工商大学 一种基于维度投影的多维数据相关性可视分析方法及系统
CN108416373A (zh) * 2018-02-11 2018-08-17 华东理工大学 一种基于正则化Fisher阈值选择策略的不平衡数据分类系统
CN109034222A (zh) * 2018-07-13 2018-12-18 杭州安恒信息技术股份有限公司 一种硬件资产分类方法、系统、装置及可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110118130A1 (en) * 2009-08-23 2011-05-19 Jeanne F. Loring Compositions and methods for defining cells
US20130073490A1 (en) * 2011-09-16 2013-03-21 International Business Machines Corporation Choosing pattern recognition algorithms and data features
CN104679655A (zh) * 2015-03-06 2015-06-03 国网四川省电力公司电力科学研究院 基于参数相关性的软件系统状态评估方法
CN107709576A (zh) * 2015-04-13 2018-02-16 优比欧迈公司 用于神经系统健康问题的微生物组来源的诊断和治疗的方法及系统
CN105321047A (zh) * 2015-11-10 2016-02-10 中国电力科学研究院 一种调度计划类数据多维度校验方法
CN106202347A (zh) * 2016-07-04 2016-12-07 吴本刚 一种用于数据质量管理与有用数据挖掘的装置
CN106815743A (zh) * 2016-12-09 2017-06-09 上海交通大学 基于熵的数据价值衡量与定价方法
CN108021664A (zh) * 2017-12-04 2018-05-11 北京工商大学 一种基于维度投影的多维数据相关性可视分析方法及系统
CN107967343A (zh) * 2017-12-11 2018-04-27 西南交通大学 一种多视图构建方法
CN108416373A (zh) * 2018-02-11 2018-08-17 华东理工大学 一种基于正则化Fisher阈值选择策略的不平衡数据分类系统
CN109034222A (zh) * 2018-07-13 2018-12-18 杭州安恒信息技术股份有限公司 一种硬件资产分类方法、系统、装置及可读存储介质

Also Published As

Publication number Publication date
CN109785915B (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
Meng et al. Comparing expert elicitation and model-based probabilistic technology cost forecasts for the energy transition
Gharehchopogh et al. Slime mould algorithm: A comprehensive survey of its variants and applications
Deng et al. Simulation-based evaluation of defuzzification-based approaches to fuzzy multiattribute decision making
Papapostolou et al. Analysis of policy scenarios for achieving renewable energy sources targets: A fuzzy TOPSIS approach
CN106897566A (zh) 一种风险预估模型的构建方法及装置
CN106845777A (zh) 案件工作量评价方法、法官业绩评价方法、建模方法、计算装置和计算机可读存储介质
Ardil Scholar Index for Research Performance Evaluation Using Multiple Criteria Decision Making Analysis
CN115238167A (zh) 兼顾负荷与社会信息的电力用户精细化画像与管理方法
CN109146553A (zh) 基于多密度聚类与多核svm的实时电价预测系统及其方法
CN114139940A (zh) 一种基于组合赋权-云模型的广义需求侧资源网荷互动水平评估方法
Guo et al. Harris hawks optimization algorithm based on elite fractional mutation for data clustering
Fachin et al. Self-adaptive differential evolution applied to combustion engine calibration
Anjum et al. Parallel operated hybrid Arithmetic-Salp swarm optimizer for optimal allocation of multiple distributed generation units in distribution networks
Wichapa et al. A Relative Closeness Coefficient Model Based on the Distance of Virtual DMUs Cross-Efficiency Method for Ranking Thai Economic Development.
CN109785915A (zh) 数据征集方法,装置,存储介质及电子设备
Roszkowska The extention rank ordering criteria weighting methods in fuzzy enviroment
CN117150893A (zh) 节点机房选址方法、装置、设备及介质
CN116502939A (zh) 一种负荷调节评估方法、装置、设备及介质
Zuo et al. Stochastic fractal based multiobjective fruit fly optimization
Gajawada et al. Vinayaka: a semi-supervised projected clustering method using differential evolution
Singh et al. Comparative analysis of sequential community detection algorithms based on internal and external quality measure
Özarslan et al. Interactive Approaches to Multiple Criteria Sorting Problems: Entropy-Based Question Selection Methods
RU80604U1 (ru) Автоматизированная система распределения ресурсов для оптимального решения целевых задач
CN114611621A (zh) 一种基于注意力超图神经网络的协同聚类方法
Jearsiripongkul et al. A Novel Hybrid Metaheuristic Approach to Parameter Estimation of Photovoltaic Solar Cells and Modules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant