CN117829689B - 一种基于云计算的经营数据筛选方法和系统 - Google Patents
一种基于云计算的经营数据筛选方法和系统 Download PDFInfo
- Publication number
- CN117829689B CN117829689B CN202410250008.7A CN202410250008A CN117829689B CN 117829689 B CN117829689 B CN 117829689B CN 202410250008 A CN202410250008 A CN 202410250008A CN 117829689 B CN117829689 B CN 117829689B
- Authority
- CN
- China
- Prior art keywords
- data
- screening
- data set
- scheme
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012216 screening Methods 0.000 title claims abstract description 220
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000009826 distribution Methods 0.000 claims abstract description 65
- 230000002159 abnormal effect Effects 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000003860 storage Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 5
- 238000006467 substitution reaction Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于云计算的经营数据筛选方法和系统,涉及数据处理技术领域,依据经营数据集合内数据的接收状态构建分布均匀度,若分布均匀度超过分布状态阈值,以生成的替代值对异常值进行替换,完成数据组的优化;根据数据状态系数与解密难度的对应性,对数据组进行加密;从预先构建的数据筛选知识图谱内匹配出对应的数据筛选方案,依据数据筛选方案,使用训练后数据筛选模型对各个数据组内的数据进行筛选;以分布集中度对筛选方案及对应的筛选后数据集合做出选择,并将所选择的筛选后数据集合输出。在接收数据分布不均匀不稳定的情况下,通过选择出较佳的数据筛选方案来提高数据筛选时的可靠性。
Description
技术领域
本发明涉及数据处理技术领域,具体为一种基于云计算的经营数据筛选方法和系统。
背景技术
云计算是并行计算、分布式计算和网格计算的发展,或者说是这些计算机科学概念的商业实现。它旨在通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的完美系统,并借助 、/> 、/> 、/>等先进的商业模式把这强大的计算能力分布到终端用户手中。在企业规模较大,所输出经营数据规模较大时,就需要借助云计算进行处理。
在申请公布号为CN114662610A的中国发明专利中,公开了一种智能数据筛选方法,包括如下步骤:建立数据集,录入数据,根据数据产生时间标记数据。建立数据库;计算均值,根据现有数据计算均值,确定数据中心值;计算方差及标准差,以现有数据为基础,计算出方差,确定数据离散程度;录入新数据,建立临时数据标识;新数据与均值求差,获得并记录数据变动距离值,通过数据变动距离值与标准差进行比较,得到对比结果;根据对比结果判断新数据,进行分类,并将新数据录入数据集中,形成新数据集。本发明计算数据集均值、方差及标准差,得出数据离散程度,并对新产生的数据进行筛选,丰富数据处理的手段,提高数据治理效率。
在结合以上申请及现有技术后,若是经营数据的接收量分布非常不均匀,则在对数据进行筛选时,于每个时间节点上投入的筛选时间会差别较大,由于数据量存在较大的差别,如果是定期地对数据进行筛选,可能需不断地重新匹配不同的筛选方案,这就导致数据筛选的效率相对较低,而如果只以固定的数据筛选方案来对数据进行筛选,则筛选结果的可靠性风险较大,筛选结果和实际使用场景适应性不足。
为此,本发明提供了一种基于云计算的经营数据筛选方法和系统。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于云计算的经营数据筛选方法和系统,通过依据经营数据集合内数据的接收状态构建分布均匀度,若分布均匀度超过分布状态阈值,以生成的替代值对异常值进行替换,完成数据组的优化;根据数据状态系数与解密难度的对应性,对数据组进行加密;从预先构建的数据筛选知识图谱内匹配出对应的数据筛选方案,依据数据筛选方案,使用训练后数据筛选模型对各个数据组内的数据进行筛选;以分布集中度对筛选方案及对应的筛选后数据集合做出选择,并将所选择的筛选后数据集合输出。在接收数据分布不均匀不稳定的情况下,通过选择出较佳的数据筛选方案来提高数据筛选时的可靠性,从而解决了背景技术中提出的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于云计算的经营数据筛选方法,包括,在接收周期内接收经营数据后,对经营数据归类并构建经营数据集合,依据经营数据集合内数据的接收状态构建分布均匀度,若分布均匀度/>超过分布状态阈值,向外部发出预警指令;其中,分布均匀度/>的构建方式如下:获取各个接收节点处的数据接收量/>,对数据接收量/>做无量纲处理后,其中:/>其中, ,/>为接收节点的个数,权重系数:/>且/>;/>为第/>个接收节点处的数据接收量,/>为数据接收量的均值;
对经营数据集合内的数据组做清洗后,在清洗后的数据组内筛选出异常值,以生成的替代值对异常值进行替换,完成数据组的优化;
依据数据组内的数据状态构建数据状态集合,由数据状态集合构成数据状态系数,依据数据状态系数/>与解密难度的对应性,从加密方案库内为数据组匹配对应的加密方案,对数据组进行加密;
识别获取各个数据组的数据特征,依据数据组的数据特征与筛选方案间的对应性,从预先构建的数据筛选知识图谱内匹配出对应的数据筛选方案,依据数据筛选方案,使用训练后数据筛选模型对各个数据组内的数据进行筛选;
对筛选前后的数据组做相似度分析,并在获取相似距离的基础上获取分布集中度/>,以分布集中度/>对筛选方案及对应的筛选后数据集合做出选择,并将所选择的筛选后数据集合输出。
进一步的,对经营数据进行接收时设置数据的接收周期,在每个接收周期内设置若干个等间隔的接收节点,于接收节点处接收各类别的经营数据,以对应时间点对接收的数据进行标记;并对接收到的经营数据进行归类处理,汇总后构建经营数据集合。
进一步的,接收到预警指令后,依据对经营数据集合内的数据做归类后,获取若干个对应的数据组,依据数据接收节点将数据组内的数据沿着时间轴的延伸方向做排列,对排序后的数据组内的数据进行清洗,获取清洗后数据组;为各个数据组内的数据做归一化处理,构建常规阈值,若低质量数据组内的数据值不在常规阈值之内时,将其确定为异常值;
分别为数据组内的数据设置上限阈值及下限阈值/>,将异常值/>的位置在数据组内标记,使用替代值/>对异常值/>进行替换,完成对数据组的优化,依照如下方式生成替代值/>;/>其中,为数据组内数据的最大值,/>为数据组内的最小值。
进一步的,对各个数据组内的数据状态进行统计,获取数据组内数据的读取次数及储存时长,在汇总后构建数据状态集合;由数据状态集合构成数据状态系数;
预先收集若干个数据加密方案,汇总构建若干个加密方案库,依据数据状态系数与解密难度的对应性,为数据组匹配对应的加密方案;以匹配出的加密方案对数据组进行加密,并将加密后的数据组上传到所选择的云平台。
进一步的,数据状态系数的获取方式如下:对读取次数/>及储存时长/>做线性归一化处理,将相应的数据值映射至区间/>内,依照如下方式:
其中,/>为数据组内读取次数的预设标准值,/>为数据组内储存时长的预设标准值,,/>为数据组的个数,/>为第i个数据组内数据的读取次数;/>为第i个数据组内数据的储存时长;权重系数:/>,且/>。
进一步的,获取对应的解密密钥,于云平台上接收加密数据组后对其进行解密;对解密后的数据组进行特征识别,获取对应的数据特征;以经营数据筛选及其相关词作为目标词,构建数据筛选知识图谱的,依据数据组的数据特征与筛选方案间的对应性,从预先构建的数据筛选知识图谱内为各个数据组匹配出对应的数据筛选方案。
进一步的,以数据筛选方案作为输入,使用数据筛选模型对各个数据组内的数据进行筛选,获取筛选后的数据组,将其标记为筛选后数据组;对同一个筛选方案筛选后数据组进行归类汇总构建筛选后数据集合,并以筛选方案对筛选后数据集合进行标记。
进一步的,对筛选后数据集合内的各个数据组间作相似度分析,获取两个数据组间的相似度,将其与筛选前的相似度做比较,以两者间的差值作为相似度变动值,由筛选后数据集合内两个数据组间相似度变动值间差值作为相似距离;将相似距离/>做无量纲化处理,构建筛选后数据集合的分布集中度/>,以获取的分布集中度/>对相应的筛选方案进行标记。
进一步的,将分布集中度最高的筛选方案作为目标筛选方案,并将执行对应的筛选后数据集合作为数据筛选结果输出,分布集中度/>的获取方式如下:
其中,为权重,/> ,/>,且/>,/>为第/>个相似距离,/>,/>为相似距离的个数,/>为相似距离的均值。
一种基于云计算的经营数据筛选系统,包括:预警单元,在接收周期内接收经营数据后,对经营数据归类并构建经营数据集合,依据经营数据集合内数据的接收状态构建分布均匀度,若分布均匀度/>超过分布状态阈值,向外部发出预警指令;
数据优化单元,对经营数据集合内的数据组做清洗后,在清洗后的数据组内筛选出异常值,以生成的替代值对异常值进行替换,完成数据组的优化;
数据加密单元,依据数据组内的数据状态构建数据状态集合,由数据状态集合构成数据状态系数,依据数据状态系数/>与解密难度的对应性,从加密方案库内为数据组匹配对应的加密方案,对数据组进行加密;
匹配单元,识别获取各个数据组的数据特征,依据数据组的数据特征与筛选方案间的对应性,从预先构建的数据筛选知识图谱内匹配出对应的数据筛选方案,依据数据筛选方案,使用训练后数据筛选模型对各个数据组内的数据进行筛选;
筛选单元,对筛选前后的数据组做相似度分析,并在获取相似距离的基础上获取分布集中度/>,以分布集中度/>对筛选方案及对应的筛选后数据集合做出选择,并将所选择的筛选后数据集合输出。
(三)有益效果
本发明提供了一种基于云计算的经营数据筛选方法和系统,具备以下有益效果:
1、通过先后两次数据预处理,可以提高数据组的数据质量,在对经营数据做出筛选时,能够进一步的降低数据筛选产生错误的风险,提高数据筛选的可靠性。对经营数据进行筛选时,也能够使筛选后的数据更能满足实际需要,提高经营数据筛选的真实性和实用性。
2、通过计算各个数据组的数据状态系数确定各个数据组的重要性,依据重要性程度不同,在对经营数据进行传输时,以选择对应的加密方案对数据组加密,使用加密传输和访问控制来保护数据,确保数据传输过程安全,从而可以避免在对数据进行筛选前,降低数据丢失或者被修改的风险。
3、通过预先构建的数据筛选知识图谱,在获取到数据特征的基础上,在需要对经营数据做出筛选时,可以快速的为各个数据组给出针对性筛选方案,从而使各个数据组与筛选方案相对应,在需要对各个数据组进行优化时,更具有针对性。
4、在分别对各个筛选方案进行执行后,获取对应的若干个筛选结果,依据不同的使用场景分别选择对应的数据筛选结果,保持数据筛选的多样性。
5、以获取到分布集中度对筛选方案以及对相应的数据筛选结果进行判断,在对经营数据经过若干次筛选后,确定出其中筛选效果最好、可靠性更高的筛选结果,以通过选择出较佳的数据筛选方案来提高数据筛选时的可靠性。
附图说明
图1为本发明基于云计算的经营数据筛选方法流程示意图;
图2为本发明基于云计算的经营数据筛选系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种基于云计算的经营数据筛选方法,包括:
步骤一、在接收周期内接收经营数据后,对经营数据归类并构建经营数据集合,依据经营数据集合内数据的接收状态构建分布均匀度若分布均匀度/>超过分布状态阈值,向外部发出预警指令;
所述步骤一包括如下内容:
步骤101、对经营数据进行接收时设置数据的接收周期,例如以12小时为一个接收周期,在每个接收周期内设置若干个等间隔的接收节点,于接收节点处接收各类别的经营数据,以对应时间点对接收的数据进行标记;并对接收到的经营数据进行归类处理,汇总后构建经营数据集合;
步骤102、获取各个接收节点处的数据接收量,对数据接收量/>做无量纲处理后构建分布均匀度/>,方式如下:
其中,/>,/>为接收节点的个数,权重系数:/>,/>且/>;/>为第i个接收节点处的数据接收量,/>为数据接收量的均值;
依据对数据接收的管理预期及历史数据,预先设置分布状态阈值,若分布均匀度超过分布状态阈值,则说明在当前的数据接收周期内接收的数据分布状态较为分散,获取数据时不够均匀,需要及时地进行处理,否则在对数据进行筛选时,难度会相对较大,效率相对交底,此时,向外部发出预警指令;
使用时,结合步骤101及102中的内容:
在对经营数据进行接收时,统计各个数据接收点上的数据接收量,并进而构建分布均匀度/>,因此,可以通过分布均匀度/>数据接收状态进行评价和描述;若是经营数据的接收量分布非常不均匀,则在对数据进行筛选时,于每个时间节点上投入的筛选时间会差别较大,由于数据量存在较大的差别,如果是定期地对数据进行筛选,可能需不断地重新匹配不同的筛选方案,这就导致数据筛选的效率相对较低,而如果只以固定的数据筛选方案来对数据进行筛选,则筛选结果的可靠性风险较大,筛选结果和实际使用场景适应性不足。
步骤二、对经营数据集合内的数据组做清洗后,在清洗后的数据组内筛选出异常值,以生成的替代值对异常值进行替换,完成数据组的优化;
所述步骤二包括如下内容:
步骤201、接收到预警指令后,依据对经营数据集合内的数据做归类后,获取若干个对应的数据组,例如:财务数据、客户数据、运营数据及货物采购数据等等;依据数据接收节点将数据组内的数据沿着时间轴的延伸方向做排列,对排序后的数据组内的数据进行清洗,去除不完整、重复或不相关的数据条目,获取清洗后数据组;
使用时,通过对接收到数据组进行清洗,完成对数据组的初步预处理,从而提高数据的质量,降低后续的筛选的难度;
步骤202、为各个数据组内的数据做归一化处理后,构建常规阈值,其具体方式如下:/>其中,/>为数据组内第一四分位数,/>为第三四分位数,/>为四分位数距,/>为数据组内的数据均值,/>为最大值,/>为最小值;
若数据组内的数据值不在常规阈值之内时,将其确定为异常值;
步骤203、分别为数据组内的数据设置上限阈值及下限阈值/>,将异常值/>的位置在数据组内标记,依照如下方式生成替代值/>;/>其中,/>为数据组内数据的最大值,/>为数据组内的最小值,使用替代值/>对异常值/>进行替换,完成对数据组的优化。
使用时,结合步骤201至204中的内容:
在对数据组完成初步预处理后构建的常规阈值,在数据组内筛选出异常值,在此基础上生成替代值/>,以替代值/>对异常值进行替换,对数据组完成二次数据预处理,因此,通过先后两次数据预处理,可以提高数据组的数据质量,在对经营数据做出筛选时,能够进一步的降低数据筛选产生错误的风险,提高数据筛选的可靠性。对经营数据进行筛选时,也能够使筛选后的数据更能满足实际需要,提高经营数据筛选的真实性和实用性。
步骤三、依据数据组内的数据状态构建数据状态集合,由数据状态集合构成数据状态系数,依据数据状态系数/>与解密难度的对应性,从加密方案库内为数据组匹配对应的加密方案,对数据组进行加密;
所述步骤三包括如下内容:
步骤301、在完成对数据组的预处理后,对各个数据组内的数据状态进行统计,获取数据组内数据的读取次数及储存时长,在汇总后构建数据状态集合;
由数据状态集合构成数据状态系数,方式如下:对读取次数/>及储存时长做线性归一化处理,将相应的数据值映射至区间/>内,依照如下方式:其中,/>为数据组内读取次数的预设标准值,/>为数据组内储存时长的预设标准值,/>,/>为数据组的个数,/>为第i个数据组内数据的读取次数;/>为第i个数据组内数据的储存时长;权重系数:/>,且/>,其中,权重系数参考层次分析法获取;
使用时,在获取到数据状态系数后,以数据状态系数/>对数据的重要程度进行评价,如果数据的重要性程度越高,则越需要保障数据的安全性;
步骤302、预先收集若干个数据加密方案,汇总构建若干个加密方案库,并获取各个加密方案的解密难度;依据数据状态系数与解密难度的对应性,为数据组匹配对应的加密方案;也即,数据组的数据状态系数越高,则匹配的加密方案的解密难度也越大;以匹配出的加密方案对数据组进行加密,并将加密后的数据组上传到所选择的云平台;
使用时,结合步骤301及302中的内容:
在获取到各个数据组内的数据后,通过计算各个数据组的数据状态系数确定各个数据组的重要性,依据重要性程度不同,在对经营数据进行传输时,以选择对应的加密方案对数据组加密,使用加密传输和访问控制来保护数据,可以确保数据传输过程安全,从而可以避免在对数据进行筛选前,降低数据丢失或者被修改的风险。
步骤四、识别获取各个数据组的数据特征,依据数据组的数据特征与筛选方案间的对应性,从预先构建的数据筛选知识图谱内匹配出对应的数据筛选方案,依据数据筛选方案,使用训练后数据筛选模型对各个数据组内的数据进行筛选;
所述步骤四包括如下内容:
步骤401、获取对应的解密密钥,于云平台上接收加密数据组后对其进行解密;对解密后的数据组进行特征识别,获取对应的数据特征;例如,数据的类别、用途及数量等;将若干个数据特征汇总构建数据特征集合;
步骤402、以经营数据筛选及其相关词作为目标词,在经过深度检索后,以检索获取的数据汇总构建知识图谱数据集合,并在搭建实体关系后,完成数据筛选知识图谱的构建;在限定数据筛选目标后,依据数据组的数据特征与筛选方案间的对应性,使用训练后的匹配模型从预先构建的数据筛选知识图谱内为各个数据组匹配出对应的数据筛选方案;
使用时,在完成对数据组的清理及预处理后,对各个数据组内的数据特征进行识别,获取若干个数据特征;并且通过预先构建的数据筛选知识图谱,在获取到数据特征的基础上,在需要对经营数据做出筛选时,可以快速地为各个数据组给出针对性筛选方案,从而使各个数据组与筛选方案相对应,在需要对各个数据组进行优化时,更具有针对性;
步骤403、由卷积神经网络构建初始模型,以数据的分布状态数据、筛选状态过程数据及筛选方案数据等作为样本数据,选取样本数据对初始模型进行训练和测试,获取训练后的数据筛选模型;以数据筛选方案作为输入,使用数据筛选模型对各个数据组内的数据进行筛选,获取筛选后的数据组,将其标记为筛选后数据组;对同一个筛选方案筛选后数据组进行归类汇总构建筛选后数据集合,并以筛选方案对筛选后数据集合进行标记;
使用时,结合步骤401至403内容:
在为各个数据组匹配到相应的筛选方案后,使用训练后的数据筛选模型对数据进行筛选,完成对经营数据的筛选;在分别对各个筛选方案进行执行后,获取对应的若干个筛选结果,因此,可以依据不同的使用场景分别选择对应的数据筛选结果,保持数据筛选的多样性。
步骤五、对筛选前后的数据组做相似度分析,并在获取相似距离的基础上获取分布集中度/>,以分布集中度/>对筛选方案及对应的筛选后数据集合做出选择,并将所选择的筛选后数据集合输出;
所述步骤五包括如下内容:
步骤501、对筛选后数据集合内的各个数据组间作相似度分析,获取两个数据组间的相似度,将其与筛选前的相似度做比较,以两者间的差值作为相似度变动值,由筛选后数据集合内两个数据组间相似度变动值间差值作为相似距离;
步骤502、将相似距离做无量纲化处理,构建筛选后数据集合的分布集中度,以获取的分布集中度/>对相应的筛选方案进行标记,其中,
其中,/>、/>为权重,,/>,且/>,/>为第i个相似距离,/>,n为相似距离的个数,/>为相似距离的均值;
将其中分布集中度最高的筛选方案作为目标筛选方案,并将执行对应的筛选后数据集合作为数据筛选结果输出;
使用时,结合步骤501及502中的内容:
通过以获取到分布集中度对筛选方案进行评价后,对筛选方案以及对相应的数据筛选结果进行判断,从而在对经营数据经过若干次筛选后,确定出其中筛选效果最好、可靠性更高的筛选结果,以通过选择出较佳的数据筛选方案来提高数据筛选时的可靠性。
需要说明的是:层次分析法是一种定性和定量相结合的分析方法,它可以将复杂的问题分解为多个层次,通过比较各层次因素的重要性,可以帮助决策者对复杂问题进行决策,确定最终的决策方案,在这个过程中,层次分析法可以用来确定这些指标的权重系数。
请参阅图2,本发明提供一种基于云计算的经营数据筛选系统,包括:
预警单元,在接收周期内接收经营数据后,对经营数据归类并构建经营数据集合,依据经营数据集合内数据的接收状态构建分布均匀度,若分布均匀度/>超过分布状态阈值,向外部发出预警指令;
数据优化单元,对经营数据集合内的数据组做清洗后,在清洗后的数据组内筛选出异常值,以生成的替代值对异常值进行替换,完成数据组的优化;
数据加密单元,依据数据组内的数据状态构建数据状态集合,由数据状态集合构成数据状态系数,依据数据状态系数/>与解密难度的对应性,从加密方案库内为数据组匹配对应的加密方案,对数据组进行加密;
匹配单元,识别获取各个数据组的数据特征,依据数据组的数据特征与筛选方案间的对应性,从预先构建的数据筛选知识图谱内匹配出对应的数据筛选方案,依据数据筛选方案,使用训练后数据筛选模型对各个数据组内的数据进行筛选;
筛选单元,对筛选前后的数据组做相似度分析,并在获取相似距离的基础上获取分布集中度/>,以分布集中度/>对筛选方案及对应的筛选后数据集合做出选择,并将所选择的筛选后数据集合输出。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一些逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(randomaccessmemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (9)
1.一种基于云计算的经营数据筛选方法,其特征在于:包括,
在接收周期内接收经营数据后,对经营数据归类并构建经营数据集合,依据经营数据集合内数据的接收状态构建分布均匀度Fbs,若分布均匀度Fbs超过分布状态阈值,向外部发出预警指令;其中,分布均匀度Fbs的构建方式如下:获取各个接收节点处的数据接收量Su,对数据接收量Su做无量纲处理后,其中:
其中,i=1,2,…,p,p为接收节点的个数,权重系数:0≤F1≤1,0≤F2≤1且F2+F1=1;Sui为第i个接收节点处的数据接收量,Suavg为数据接收量的均值;
对经营数据集合内的数据组做清洗后,在清洗后的数据组内筛选出异常值,以生成的替代值对异常值进行替换,完成数据组的优化;其中,接收到预警指令后,依据对经营数据集合内的数据做归类后,获取若干个对应的数据组,依据数据接收节点将数据组内的数据沿着时间轴的延伸方向做排列,对排序后的数据组内的数据进行清洗,获取清洗后数据组;为各个数据组内的数据做归一化处理,构建常规阈值[Qa,Qb],若低质量数据组内的数据值不在常规阈值之内时,将其确定为异常值;
分别为数据组内的数据设置上限阈值Fhigh及下限阈值Flow,将异常值Fcy的位置在数据组内标记,使用替代值Fdq对异常值Fcy进行替换,完成对数据组的优化,依照如下方式生成替代值Fdq;
其中,Fmax为数据组内数据的最大值,Fmin为数据组内的最小值;
依据数据组内的数据状态构建数据状态集合,由数据状态集合构成数据状态系数Sps,依据数据状态系数Sps与解密难度的对应性,从加密方案库内为数据组匹配对应的加密方案,对数据组进行加密;
识别获取各个数据组的数据特征,依据数据组的数据特征与筛选方案间的对应性,从预先构建的数据筛选知识图谱内匹配出对应的数据筛选方案,依据数据筛选方案,使用训练后数据筛选模型对各个数据组内的数据进行筛选;
对筛选前后的数据组做相似度分析,并在获取相似距离Xp的基础上获取分布集中度Pzd,以分布集中度Pzd对筛选方案及对应的筛选后数据集合做出选择,并将所选择的筛选后数据集合输出。
2.根据权利要求1所述的一种基于云计算的经营数据筛选方法,其特征在于:
对经营数据进行接收时设置数据的接收周期,在每个接收周期内设置若干个等间隔的接收节点,于接收节点处接收各类别的经营数据,以对应时间点对接收的数据进行标记;并对接收到的经营数据进行归类处理,汇总后构建经营数据集合。
3.根据权利要求2所述的一种基于云计算的经营数据筛选方法,其特征在于:
对各个数据组内的数据状态进行统计,获取数据组内数据的读取次数及储存时长,在汇总后构建数据状态集合;由数据状态集合构成数据状态系数Sps;
预先收集若干个数据加密方案,汇总构建若干个加密方案库,依据数据状态系数Sps与解密难度的对应性,为数据组匹配对应的加密方案;以匹配出的加密方案对数据组进行加密,并将加密后的数据组上传到所选择的云平台。
4.根据权利要求3所述的一种基于云计算的经营数据筛选方法,其特征在于:
数据状态系数Sps的获取方式如下:对读取次数Qc及储存时长Cc做线性归一化处理,将相应的数据值映射至区间[0,1]内,依照如下方式:
其中,为数据组内读取次数的预设标准值,/>为数据组内储存时长的预设标准值,i=1,2,…M,M为数据组的个数,Qci为第i个数据组内数据的读取次数;Cci为第i个数据组内数据的储存时长;权重系数:0≤β≤1,0≤α≤1,且α+β=1。
5.根据权利要求1所述的一种基于云计算的经营数据筛选方法,其特征在于:
获取对应的解密密钥,于云平台上接收加密数据组后对其进行解密;对解密后的数据组进行特征识别,获取对应的数据特征;
以经营数据筛选及其相关词作为目标词,构建数据筛选知识图谱的,依据数据组的数据特征与筛选方案间的对应性,从预先构建的数据筛选知识图谱内为各个数据组匹配出对应的数据筛选方案。
6.根据权利要求5所述的一种基于云计算的经营数据筛选方法,其特征在于:
以数据筛选方案作为输入,使用数据筛选模型对各个数据组内的数据进行筛选,获取筛选后的数据组,将其标记为筛选后数据组;对同一个筛选方案筛选后数据组进行归类汇总构建筛选后数据集合,并以筛选方案对筛选后数据集合进行标记。
7.根据权利要求1所述的一种基于云计算的经营数据筛选方法,其特征在于:
对筛选后数据集合内的各个数据组间作相似度分析,获取两个数据组间的相似度,将其与筛选前的相似度做比较,以两者间的差值作为相似度变动值,由筛选后数据集合内两个数据组间相似度变动值间差值作为相似距离Xp;将相似距离Xp做无量纲化处理,构建筛选后数据集合的分布集中度Pzd,以获取的分布集中度Pzd对相应的筛选方案进行标记。
8.根据权利要求7所述的一种基于云计算的经营数据筛选方法,其特征在于:
将分布集中度Pzd最高的筛选方案作为目标筛选方案,并将执行对应的筛选后数据集合作为数据筛选结果输出,分布集中度Pzd的获取方式如下:
其中,k2、k1为权重,0≤k1≤1,0≤k2≤1,且k1+k2=1,Xpi为第i个相似距离,i=1,2,…n,n为相似距离的个数,Xpavg为相似距离的均值。
9.一种基于云计算的经营数据筛选系统,应用有权利要求1至8中任一项所述的方法,其特征在于:包括:
预警单元,在接收周期内接收经营数据后,对经营数据归类并构建经营数据集合,依据经营数据集合内数据的接收状态构建分布均匀度Fbs,若分布均匀度Fbs超过分布状态阈值,向外部发出预警指令;
数据优化单元,对经营数据集合内的数据组做清洗后,在清洗后的数据组内筛选出异常值,以生成的替代值对异常值进行替换,完成数据组的优化;
数据加密单元,依据数据组内的数据状态构建数据状态集合,由数据状态集合构成数据状态系数Sps,依据数据状态系数Sps与解密难度的对应性,从加密方案库内为数据组匹配对应的加密方案,对数据组进行加密;
匹配单元,识别获取各个数据组的数据特征,依据数据组的数据特征与筛选方案间的对应性,从预先构建的数据筛选知识图谱内匹配出对应的数据筛选方案,依据数据筛选方案,使用训练后数据筛选模型对各个数据组内的数据进行筛选;
筛选单元,对筛选前后的数据组做相似度分析,并在获取相似距离Xp的基础上获取分布集中度Pzd,以分布集中度Pzd对筛选方案及对应的筛选后数据集合做出选择,并将所选择的筛选后数据集合输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410250008.7A CN117829689B (zh) | 2024-03-05 | 2024-03-05 | 一种基于云计算的经营数据筛选方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410250008.7A CN117829689B (zh) | 2024-03-05 | 2024-03-05 | 一种基于云计算的经营数据筛选方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117829689A CN117829689A (zh) | 2024-04-05 |
CN117829689B true CN117829689B (zh) | 2024-05-14 |
Family
ID=90508131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410250008.7A Active CN117829689B (zh) | 2024-03-05 | 2024-03-05 | 一种基于云计算的经营数据筛选方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117829689B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352971A (zh) * | 2020-02-28 | 2020-06-30 | 中国工商银行股份有限公司 | 银行系统监控数据异常检测方法及系统 |
CN113064879A (zh) * | 2021-03-12 | 2021-07-02 | 腾讯科技(深圳)有限公司 | 数据库参数调整方法、装置及计算机可读存储介质 |
CN114429398A (zh) * | 2022-04-06 | 2022-05-03 | 北京市农林科学院信息技术研究中心 | 数据驱动的新型农业经营主体信用等级生成方法及装置 |
CN115905360A (zh) * | 2022-11-29 | 2023-04-04 | 国网山东省电力公司电力科学研究院 | 一种基于随机构建矩阵的异常数据量测辨识方法和装置 |
CN116307761A (zh) * | 2023-02-28 | 2023-06-23 | 深圳企嗅科技有限公司 | 基于云平台的招商数据管理系统 |
CN117291649A (zh) * | 2023-11-27 | 2023-12-26 | 云南电网有限责任公司信息中心 | 一种集约化的营销数据处理方法及系统 |
CN117472894A (zh) * | 2023-11-24 | 2024-01-30 | 合肥学院 | 一种基于数据链路的通信数据的清洗方法 |
-
2024
- 2024-03-05 CN CN202410250008.7A patent/CN117829689B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352971A (zh) * | 2020-02-28 | 2020-06-30 | 中国工商银行股份有限公司 | 银行系统监控数据异常检测方法及系统 |
CN113064879A (zh) * | 2021-03-12 | 2021-07-02 | 腾讯科技(深圳)有限公司 | 数据库参数调整方法、装置及计算机可读存储介质 |
CN114429398A (zh) * | 2022-04-06 | 2022-05-03 | 北京市农林科学院信息技术研究中心 | 数据驱动的新型农业经营主体信用等级生成方法及装置 |
CN115905360A (zh) * | 2022-11-29 | 2023-04-04 | 国网山东省电力公司电力科学研究院 | 一种基于随机构建矩阵的异常数据量测辨识方法和装置 |
CN116307761A (zh) * | 2023-02-28 | 2023-06-23 | 深圳企嗅科技有限公司 | 基于云平台的招商数据管理系统 |
CN117472894A (zh) * | 2023-11-24 | 2024-01-30 | 合肥学院 | 一种基于数据链路的通信数据的清洗方法 |
CN117291649A (zh) * | 2023-11-27 | 2023-12-26 | 云南电网有限责任公司信息中心 | 一种集约化的营销数据处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117829689A (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887242B (zh) | 向用户终端发送告警信息方法、装置、系统 | |
Li et al. | Estimating numerical distributions under local differential privacy | |
Huh et al. | Adaptive data-driven inventory control with censored demand based on Kaplan-Meier estimator | |
Li et al. | Intrusion detection system using Online Sequence Extreme Learning Machine (OS-ELM) in advanced metering infrastructure of smart grid | |
Chulani et al. | Bayesian analysis of empirical software engineering cost models | |
CN109889538B (zh) | 用户异常行为检测方法及系统 | |
CN113127931A (zh) | 基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法 | |
Adekitan et al. | Data mining approach for predicting the daily Internet data traffic of a smart university | |
CN111461180A (zh) | 样本分类方法、装置、计算机设备及存储介质 | |
JP2010522376A (ja) | 3次元パレートフロント遺伝的プログラミングを使用して作成した推論センサ | |
CN113112032A (zh) | 基于联邦学习的航班延误预测系统及方法 | |
CN115115265A (zh) | 一种基于rfm模型的消费者评估方法、装置及介质 | |
Amazal et al. | Estimating software development effort using fuzzy clustering‐based analogy | |
CN112541635A (zh) | 业务数据统计预测方法、装置、计算机设备及存储介质 | |
Rebjock et al. | Online false discovery rate control for anomaly detection in time series | |
CN117828539B (zh) | 数据智能融合分析系统及方法 | |
CN117829689B (zh) | 一种基于云计算的经营数据筛选方法和系统 | |
Goeva et al. | Optimization-based calibration of simulation input models | |
CN112751785B (zh) | 待处理请求发送方法、装置、计算机设备及存储介质 | |
Milios et al. | Global optimization of analogy-based software cost estimation with genetic algorithms | |
CN115514581B (zh) | 一种用于工业互联网数据安全平台的数据分析方法及设备 | |
CN112437051B (zh) | 网络风险检测模型负反馈训练方法、装置及计算机设备 | |
CN115952426A (zh) | 基于随机采样的分布式噪音数据聚类方法及用户分类方法 | |
Xu | A Consensus Reaching Model with Minimum Adjustments in Interval‐Valued Intuitionistic MAGDM | |
CN112927092A (zh) | 理赔趋势预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |