CN112819092A - 一种数据采集软件的数据处理方法及装置 - Google Patents

一种数据采集软件的数据处理方法及装置 Download PDF

Info

Publication number
CN112819092A
CN112819092A CN202110204061.XA CN202110204061A CN112819092A CN 112819092 A CN112819092 A CN 112819092A CN 202110204061 A CN202110204061 A CN 202110204061A CN 112819092 A CN112819092 A CN 112819092A
Authority
CN
China
Prior art keywords
data
data acquisition
point
acquired
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110204061.XA
Other languages
English (en)
Inventor
汪礼君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110204061.XA priority Critical patent/CN112819092A/zh
Publication of CN112819092A publication Critical patent/CN112819092A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种数据处理的技术领域,揭露了一种数据采集软件的数据处理方法,包括:配置数据采集软件的参数信息,建立数据采集传输连接;根据所建立的数据传输连接,利用数据自适应采集算法进行数据采集;对于所采集到的数据,利用基于时序变动特征的数据描述方法得到采集数据的变动趋势;利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,得到采集数据的融合数据;利用结合量子粒子群的数据整理算法进行融合数据的整理。本发明还提供了一种数据采集软件的数据处理系统。本发明实现了数据的采集处理。

Description

一种数据采集软件的数据处理方法及装置
技术领域
本发明涉及数据处理的技术领域,尤其涉及一种数据采集软件的数据处理方法及装置。
背景技术
目前,随着大数据时代的来临,各类数据采集需求在不断增长,如何更为高效实现数据的采集处理,成为当前研究的热门话题。
由于各类智能设备数据传输协议、格式各异,导致每种设备的数据采集都需要有针对性的做适配开发,采集设备无法复用,造成二次开发的复杂性;数据采集量增长也会造成数据传输带宽增长,并增加云端压力。
鉴于此,如何利用数据采集软件实现数据的自适应采集,成为本领域技术人员亟待解决的问题。
发明内容
本发明提供一种数据采集软件的数据处理方法,通过利用数据自适应采集算法进行数据采集,并利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,最终利用结合量子粒子群的数据整理算法进行融合数据的整理。
为实现上述目的,本发明提供的一种数据采集软件的数据处理方法,包括:
配置数据采集软件的参数信息,建立数据采集传输连接;
根据所建立的数据传输连接,利用数据自适应采集算法进行数据采集;
对于所采集到的数据,利用基于时序变动特征的数据描述方法得到采集数据的变动趋势;
利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,得到采集数据的融合数据;
利用结合量子粒子群的数据整理算法进行融合数据的整理。
可选地,所述配置数据采集软件的参数信息,包括:
1)利用函数getWanDeviceCfgValue()获取数据采集软件配置信息,主要读取配置文件中的配置信息,并将这些配置字符串信息转化成可用格式的数据,在本发明一个具体实施例中,所述配置信息包括IP,端口、用户名、密码等;
2)获取本地MAC地址,进行MD5激活验证,比对成功则视为设备已授权成功,比对失败则表示授权失败,将无法建立连接;
3)进行连接请求,此模式采取TCP三次握手连接,客户端与服务端通过socket通道进行通信;
4)在建立连接之后,本地创建新的线程,专门用于设备心跳的传输;在本发明实施例中,心跳周期初始化为5s传输一次,如果配置界面已经配置了心跳周期,将根据实际配置发送;
在本发明一个实施例中,如若有底层设备的数据共享,本发明将采集到的全局缓存采用JSON格式进行数据转换,得到一个固定的JSON格式数据串具体格式为:{‘data_task’:’xxxxx’,’result’:{‘key’:’value’}},然后再通过TCP协议的socket通道发送到服务器。
可选地,所述利用数据自适应采集算法进行数据采集,包括:
1)获取第一个数据采集的时间t0,将其作为初始时间,并设置斜率初始值;
2)保存第一个数据点,以此点为基准,并初始化,记录数值value0
3)等待下一个数据点到来的时间t′,并记录数值value′;
4)计算采集数据的上斜率up和下斜率down:
Figure BDA0002949725470000021
Figure BDA0002949725470000022
其中:
diffData表示容差;
value′表示当前时刻t′的采集数值,value表示前一时刻t的采集数值;
5)若上斜率up大于下斜率down,则减小数据采集间隔,否则增大数据采集间隔;保存当前采集的数据值,将其作为下一轮数据采集的起点,并将上下斜率重新初始化,为下一轮自适应采集做准备;
在本发明一个具体实施例中,所述数据采集间隔增加的方法为:通过对采集时间间隔动态的增加,如果经过变化后的采集间隔大于最大阈值,则采用最大采集间隔进行采集;如果变换后的采集间隔小于最大值,则按新的调整后的值进行采集;所述数据采集间隔减少的方法为:使用采集间隔减半的方法,当减半后的间隔大于采集间隔的最小值时,将减半后的值赋值给新的采集间隔,当减半后的采集间隔比最小阈值还小时,将取最小采集间隔;
6)设置一个数据平滑度阈值T,并计算相邻两个数据平滑度Di:
Figure BDA0002949725470000031
若Di≤T,则新的数据采集间隔I′为:
I′=I+n*data
其中:
I为原有的数据采集间隔;
n为数据采集过程中,出现波动的次数;
data为采集间隔的乘数,将其设置为3;
7)重复步骤3)-6),直到所有数据采集完成。
可选地,所述利用基于时序变动特征的数据描述方法得到采集数据的变动趋势,包括:
1)对于按时序采集到的序列数据X={x1,...,xn},判断xi是否满足(xi-xi-1)(xi+1-xi)<0,若满足,则认为xi为极值点,按照时间顺序排列构成极值点序列E={e1,...,ek},并标注极值点的属性,极大值点的属性为1,极小值点的属性为-1;
2)设置阈值集合{ε1,...,εk},判断极值点序列中ei是否满足|ei-ej|<εi,满足则认为ei是波动点,遍历完成后,按照时间顺序排列构成波动点序列C={c1,...,cp},若波动点为增长趋势,则认为采集数据的时序变动趋势为增长趋势,反之则认为采集数据的时序变动趋势为下降趋势;
3)对于任意两段采集数据序列中的波动点序列,计算两段采集数据序列中两个波动点围成的面积,作为两个波动点之间的距离,通过遍历计算两段采集数据序列中任意对应的波动点之间的距离,从而比较两段采集数据序列的变动趋势。
可选地,所述利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,包括:
利用SAE编码器建立三个隐藏层,所述SAE编码器网络主要通过编码、解码进行网络组建,每次编码和解码常用的ReLU函数和sigmoid函数,在本发明一个具体实施例中,本发明采用在三次编码阶段全部选用ReLU函数,而解码阶段采用两种激活函数混合使用;
将SAE编码器的输出作为K-Medians聚类分类器的输入,并随机确定初始化输入数据的中心点;
每个数据点通过ou_distance()来定义数据点与每组中心距离的欧式距离,通过计算确定距离该数据最近的核心,确定该点所属类别;
计算出现在中心点和其他所有点的距离总和计算出该聚簇中各个点与其他所有点的总和,若是有小于当前中心点的距离总和的,中心点去掉,重新划分质心,经过多次迭代,得到最终的数据融合结果。
可选地,所述利用结合量子粒子群的数据整理算法整理融合数据,包括:
1)设定数据整理目标函数:
minQ
其中:
Q为融合数据所占的空间;
2)初始化量子粒子群,并设定种群参数,包括粒子的更新方式和数量;
3)设置粒子的适应度函数fi=∑(xi-xj),其中fi为粒子i的适应度函数,xi为粒子i的位置,∑(xi-xj)为粒子i与其他所有粒子之间的距离之和;将所有粒子的全局最优值和适应度函数值进行大小对比,如果粒子i的适应度值大于全局最优值,则更新粒子i的位置;所述粒子i位置更新的公式为:
Figure BDA0002949725470000041
其中:
α为收缩系数,将其设置为0.2;
xi,k(t+1)为在k维空间,粒子i在t+1时刻的更新位置;
pi,k(t)为粒子i的坐标位置转换为量子坐标的结果;
Cj(t)为粒子在t时刻的最优平均位置;
ui,j(t)为随机分布数,ui,j(t)~U(0,1);
4)重复步骤3),直到满足目标函数,此时输出粒子所在位置,所述粒子所在位置即为不同类别的融合数据在数据库的位置。
此外,为实现上述目的,本发明还提供一种数据采集软件的数据处理系统,所述装置包括:
数据采集装置,用于配置数据采集软件的参数信息,建立数据采集传输连接,利用数据自适应采集算法进行数据采集;
数据处理器,用于利用基于时序变动特征的数据描述方法得到采集数据的变动趋势;
数据处理装置,用于利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,得到采集数据的融合数据,利用结合量子粒子群的数据整理算法进行融合数据的整理。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据采集处理程序指令,所述数据采集处理程序指令可被一个或者多个处理器执行,以实现如上所述的数据采集软件的数据处理的实现方法的步骤。
相对于现有技术,本发明提出一种数据采集软件的数据处理方法,该技术具有以下优势:
首先,本发明提出一种数据自适应采集算法,通过计算采集数据的上斜率up和下斜率down:
Figure BDA0002949725470000051
Figure BDA0002949725470000052
其中:diffData表示容差;value′表示当前时刻t′的采集数值,value表示前一时刻t的采集数值;若上斜率up大于下斜率down,则减小数据采集间隔,否则增大数据采集间隔;保存当前采集的数据值,将其作为下一轮数据采集的起点,并将上下斜率重新初始化,为下一轮自适应采集做准备;在本发明一个具体实施例中,所述数据采集间隔增加的方法为:通过对采集时间间隔动态的增加,如果经过变化后的采集间隔大于最大阈值,则采用最大采集间隔进行采集;如果变换后的采集间隔小于最大值,则按新的调整后的值进行采集;所述数据采集间隔减少的方法为:使用采集间隔减半的方法,当减半后的间隔大于采集间隔的最小值时,将减半后的值赋值给新的采集间隔,当减半后的采集间隔比最小阈值还小时,将取最小采集间隔;并设置一个数据平滑度阈值T,同时计算相邻两个数据平滑度Di:
Figure BDA0002949725470000053
若Di≤T,则新的数据采集间隔I′为:
I′=I+n*data
其中:I为原有的数据采集间隔;n为数据采集过程中,出现波动的次数;data为采集间隔的乘数,将其设置为3;通过基于数据采集情况,不断对数据采集间隔进行调整,从而实现数据的自适应采集,获得更为准确有效的采集数据。
同时传统的时间序列相似性度量方法通常是基于点对点的距离计算方法,例如欧式距离和动态时间弯曲距离。显然,这种点对点的计算模式需要消耗大量的计算时间。因此本发明利用基于时序变动特征的数据描述方法得到采集数据的变动趋势,对于按时序采集到的序列数据X={x1,...,xn},通过判断xi是否满足(xi-xi-1)(xi+1-xi)<0,若满足,则认为xi为极值点,按照时间顺序排列构成极值点序列E={e1,...,ek},并标注极值点的属性,极大值点的属性为1,极小值点的属性为-1;并设置阈值集合{ε1,...,εk},判断极值点序列中ei是否满足|ei-ej|<εi,满足则认为ei是波动点,遍历完成后,按照时间顺序排列构成波动点序列C={c1,...,cp},若波动点为增长趋势,则认为采集数据的时序变动趋势为增长趋势,反之则认为采集数据的时序变动趋势为下降趋势;对于任意两段采集数据序列中的波动点序列,计算两段采集数据序列中两个波动点围成的面积,作为两个波动点之间的距离,相较于传统技术,通过对时序数据进行筛选处理,将点与点之间的计算转换为面积计算,降低了计算时间,并通过遍历计算两段采集数据序列中任意对应的波动点之间的距离,从而比较两段采集数据序列的变动趋势。
传统粒子群算法的缺点就是粒子的速度和位置决定了粒子当前的运动状态,在粒子的进化过程中,粒子的可行解是一个有限且不断缩小的区域,并且粒子速度是固定的,导致运动轨迹也是固定的,不能覆盖整个解空间,容易陷入局部最优值的现象。因此本发明利用结合量子粒子群的数据整理算法进行融合数据的整理,通过设置粒子的适应度函数fi=∑(xi-xj),其中fi为粒子i的适应度函数,xi为粒子i的位置,∑(xi-xj)为粒子i与其他所有粒子之间的距离之和;将所有粒子的全局最优值和适应度函数值进行大小对比,如果粒子i的适应度值大于全局最优值,则更新粒子i的位置;所述粒子i位置更新的公式为:
Figure BDA0002949725470000061
其中:α为收缩系数,将其设置为0.2;xi,k(t+1)为在k维空间,粒子i在t+1时刻的更新位置;pi,k(t)为粒子i的坐标位置转换为量子坐标的结果;Cj(t)为粒子在t时刻的最优平均位置;ui,j(t)为随机分布数,ui,j(t)~U(0,1);通过重复上述步骤,直到满足目标函数,此时输出粒子所在位置,所述粒子所在位置即为不同类别的融合数据在数据库的位置,相较于传统算法,本发明所述算法引入了量子力学理论中的量子不确定性理论,在量子空间中粒子的速度以及粒子的位置位置不能同时确定,所以粒子的轨迹不确定,可以随机出现在全部的解空间里,解决了粒子群算法的粒子轨迹固定导致容易陷入局部最优解的情况。
附图说明
图1为本发明一实施例提供的一种数据采集软件的数据处理方法的流程示意图;
图2为本发明一实施例提供的一种数据采集软件的数据处理系统的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
通过利用数据自适应采集算法进行数据采集,并利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,最终利用结合量子粒子群的数据整理算法进行融合数据的整理。参照图1所示,为本发明一实施例提供的数据采集软件的数据处理方法示意图。
在本实施例中,数据采集软件的数据处理方法包括:
S1、配置数据采集软件的参数信息,建立数据采集传输连接。
首先,本发明配置数据采集软件的参数信息,所述数据采集软件的参数配置流程为:
1)利用函数getWanDeviceCfgValue()获取数据采集软件配置信息,主要读取配置文件中的配置信息,并将这些配置字符串信息转化成可用格式的数据,在本发明一个具体实施例中,所述配置信息包括IP,端口、用户名、密码等;
2)获取本地MAC地址,进行MD5激活验证,比对成功则视为设备已授权成功,比对失败则表示授权失败,将无法建立连接;
3)进行连接请求,此模式采取TCP三次握手连接,客户端与服务端通过socket通道进行通信;
4)在建立连接之后,本地创建新的线程,专门用于设备心跳的传输;在本发明实施例中,心跳周期初始化为5s传输一次,如果配置界面已经配置了心跳周期,将根据实际配置发送;
在本发明一个实施例中,如若有底层设备的数据共享,本发明将采集到的全局缓存采用JSON格式进行数据转换,得到一个固定的JSON格式数据串具体格式为:{‘data_task’:’xxxxx’,’result’:{‘key’:’value’}},然后再通过TCP协议的socket通道发送到服务器。
S2、根据所建立的数据传输连接,利用数据自适应采集算法进行数据采集。
进一步地,根据数据采集软件所建立的数据传输连接,本发明利用数据自适应采集算法进行数据采集,所述数据自适应采集算法流程为:
1)获取第一个数据采集的时间t0,将其作为初始时间,并设置斜率初始值;
2)保存第一个数据点,以此点为基准,并初始化,记录数值value0
3)等待下一个数据点到来的时间t′,并记录数值value′;
4)计算采集数据的上斜率up和下斜率down:
Figure BDA0002949725470000081
Figure BDA0002949725470000082
其中:
diffData表示容差;
value′表示当前时刻t′的采集数值,value表示前一时刻t的采集数值;
5)若上斜率up大于下斜率down,则减小数据采集间隔,否则增大数据采集间隔;保存当前采集的数据值,将其作为下一轮数据采集的起点,并将上下斜率重新初始化,为下一轮自适应采集做准备;
在本发明一个具体实施例中,所述数据采集间隔增加的方法为:通过对采集时间间隔动态的增加,如果经过变化后的采集间隔大于最大阈值,则采用最大采集间隔进行采集;如果变换后的采集间隔小于最大值,则按新的调整后的值进行采集;所述数据采集间隔减少的方法为:使用采集间隔减半的方法,当减半后的间隔大于采集间隔的最小值时,将减半后的值赋值给新的采集间隔,当减半后的采集间隔比最小阈值还小时,将取最小采集间隔;
6)设置一个数据平滑度阈值T,并计算相邻两个数据平滑度Di:
Figure BDA0002949725470000083
若Di≤T,则新的数据采集间隔I′为:
I′=I+n*data
其中:
I为原有的数据采集间隔;
n为数据采集过程中,出现波动的次数;
data为采集间隔的乘数,将其设置为3;
7)重复步骤3)-6),直到所有数据采集完成。
S3、对于所采集到的数据,利用基于时序变动特征的数据描述方法得到采集数据的变动趋势。
进一步地,对于所采集到的数据,本发明利用基于时序变动特征的数据描述方法得到采集数据的变动趋势,所述基于时序变动特征的数据描述方法为:
1)对于按时序采集到的序列数据X={x1,...,xn},判断xi是否满足(xi-xi-1)(xi+1-xi)<0,若满足,则认为xi为极值点,按照时间顺序排列构成极值点序列E={e1,...,ek},并标注极值点的属性,极大值点的属性为1,极小值点的属性为-1;
2)设置阈值集合{ε1,...,εk},判断极值点序列中ei是否满足|ei-ej|<εi,满足则认为ei是波动点,遍历完成后,按照时间顺序排列构成波动点序列C={c1,…,cp},若波动点为增长趋势,则认为采集数据的时序变动趋势为增长趋势,反之则认为采集数据的时序变动趋势为下降趋势;
3)对于任意两段采集数据序列中的波动点序列,计算两段采集数据序列中两个波动点围成的面积,作为两个波动点之间的距离,通过遍历计算两段采集数据序列中任意对应的波动点之间的距离,从而比较两段采集数据序列的变动趋势。
S4、利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,得到采集数据的融合数据。
进一步地,本发明利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,所述基于聚类的自编码器数据融合方式为:
利用SAE编码器建立三个隐藏层,所述SAE编码器网络主要通过编码、解码进行网络组建,每次编码和解码常用的ReLU函数和sigmoid函数,在本发明一个具体实施例中,本发明采用在三次编码阶段全部选用ReLU函数,而解码阶段采用两种激活函数混合使用;
将SAE编码器的输出作为K-Medians聚类分类器的输入,并随机确定初始化输入数据的中心点;
每个数据点通过ou_distance()来定义数据点与每组中心距离的欧式距离,通过计算确定距离该数据最近的核心,确定该点所属类别;
计算出现在中心点和其他所有点的距离总和计算出该聚簇中各个点与其他所有点的总和,若是有小于当前中心点的距离总和的,中心点去掉,重新划分质心,经过多次迭代,得到最终的数据融合结果。
S5、利用结合量子粒子群的数据整理算法进行融合数据的整理。
进一步地,本发明利用结合量子粒子群的数据整理算法进行融合数据的整理,从而将不同类别的融合数据按类别归于数据库中,所述结合量子粒子群的数据整理算法流程为:
1)设定数据整理目标函数:
minQ
其中:
Q为融合数据所占的空间;
2)初始化量子粒子群,并设定种群参数,包括粒子的更新方式和数量;
3)设置粒子的适应度函数fi=∑(xi-xj),其中fi为粒子i的适应度函数,xi为粒子i的位置,∑(xi-xj)为粒子i与其他所有粒子之间的距离之和;将所有粒子的全局最优值和适应度函数值进行大小对比,如果粒子i的适应度值大于全局最优值,则更新粒子i的位置;所述粒子i位置更新的公式为:
Figure BDA0002949725470000091
其中:
α为收缩系数,将其设置为0.2;
xi,k(t+1)为在k维空间,粒子i在t+1时刻的更新位置;
pi,k(t)为粒子i的坐标位置转换为量子坐标的结果;
Cj(t)为粒子在t时刻的最优平均位置;
ui,j(t)为随机分布数,ui,j(t)~U(0,1);
4)重复步骤3),直到满足目标函数,此时输出粒子所在位置,所述粒子所在位置即为不同类别的融合数据在数据库的位置。
下面通过一个算法实验来说明本发明的具体实施方式,并对发明的处理方法进行测试。本发明算法的硬件测试环境为:操作装置是Ubuntu16.04,计算机处理器为Inteli5-8500 CPU@3GHZ×6,内存条的大小为16G,Tensorflow-gpu 1.18版本,keras 2.24版本;对比处理方法为基于随机森林的数据采集处理方法以及基于贝叶斯的数据采集处理方法。
在本发明所述算法实验中,数据集为采集到的100G数据。本实验将采集数据输入到本发明所述方法以及对比方法中,将数据库的存储效率作为评价算法性能的指标。
根据实验结果,基于随机森林的数据采集处理方法的数据库存储效率为81.32%,基于贝叶斯的数据采集处理方法的数据库存储效率为82.65%,本发明所述方法的数据库存储效率为85.68%,相较于对比方法,本发明所提出的数据采集软件的数据处理方法具有更高的采集数据存储效率。
发明还提供一种数据采集软件的数据处理系统。参照图2所示,为本发明一实施例提供的数据采集软件的数据处理系统的内部结构示意图。
在本实施例中,所述数据采集软件的数据处理系统1至少包括数据采集装置11、数据处理器12、数据处理装置13,通信总线14,以及网络接口15。
其中,数据采集装置11可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。
数据处理器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。数据处理器12在一些实施例中可以是数据采集软件的数据处理系统1的内部存储单元,例如该数据采集软件的数据处理系统1的硬盘。数据处理器12在另一些实施例中也可以是数据采集软件的数据处理系统1的外部存储设备,例如数据采集软件的数据处理系统1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,数据处理器12还可以既包括数据采集软件的数据处理系统1的内部存储单元也包括外部存储设备。数据处理器12不仅可以用于存储安装于数据采集软件的数据处理系统1的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
数据处理装置13在一些实施例中可以是一中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行数据处理器12中存储的程序代码或处理数据,例如数据采集处理程序指令等。
通信总线14用于实现这些组件之间的连接通信。
网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在数据采集软件的数据处理系统1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-15以及数据采集软件的数据处理系统1,本领域技术人员可以理解的是,图1示出的结构并不构成对数据采集软件的数据处理系统1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,数据处理器12中存储有数据采集处理程序指令;数据处理装置13执行数据处理器12中存储的数据采集处理程序指令的步骤,与数据采集软件的数据处理方法的实现方法相同,在此不作类述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据采集处理程序指令,所述数据采集处理程序指令可被一个或多个处理器执行,以实现如下操作:
配置数据采集软件的参数信息,建立数据采集传输连接;
根据所建立的数据传输连接,利用数据自适应采集算法进行数据采集;
对于所采集到的数据,利用基于时序变动特征的数据描述方法得到采集数据的变动趋势;
利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,得到采集数据的融合数据;
利用结合量子粒子群的数据整理算法进行融合数据的整理。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种数据采集软件的数据处理方法,其特征在于,所述方法包括:
配置数据采集软件的参数信息,建立数据采集传输连接;
根据所建立的数据传输连接,利用数据自适应采集算法进行数据采集;
对于所采集到的数据,利用基于时序变动特征的数据描述方法得到采集数据的变动趋势;
利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,得到采集数据的融合数据;
利用结合量子粒子群的数据整理算法进行融合数据的整理。
2.如权利要求1所述的一种数据采集软件的数据处理方法,其特征在于,所述配置数据采集软件的参数信息,包括:
1)利用函数getWanDeviceCfgValue()获取数据采集软件配置信息,主要读取配置文件中的配置信息,并将这些配置字符串信息转化成可用格式的数据;
2)获取本地MAC地址,进行MD5激活验证,比对成功则视为设备已授权成功,比对失败则表示授权失败,将无法建立连接;
3)进行连接请求,此模式采取TCP三次握手连接,客户端与服务端通过socket通道进行通信;
4)在建立连接之后,本地创建新的线程,专门用于设备心跳的传输;其中心跳周期初始化为5s传输一次。
3.如权利要求2所述的一种数据采集软件的数据处理方法,其特征在于,所述利用数据自适应采集算法进行数据采集,包括:
1)获取第一个数据采集的时间t0,将其作为初始时间,并设置斜率初始值;
2)保存第一个数据点,以此点为基准,并初始化,记录数值value0
3)等待下一个数据点到来的时间t′,并记录数值ualue′;
4)计算采集数据的上斜率up和下斜率down:
Figure FDA0002949725460000011
Figure FDA0002949725460000012
其中:
diffData表示容差;
value′表示当前时刻t′的采集数值,value表示前一时刻t的采集数值;
5)若上斜率up大于下斜率down,则减小数据采集间隔,否则增大数据采集间隔;保存当前采集的数据值,将其作为下一轮数据采集的起点,并将上下斜率重新初始化;
6)设置一个数据平滑度阈值T,并计算相邻两个数据平滑度Di:
Figure FDA0002949725460000021
若Di≤T,则新的数据采集间隔I′为:
I′=I+n*data
其中:
I为原有的数据采集间隔;
n为数据采集过程中,出现波动的次数;
data为采集间隔的乘数,将其设置为3;
7)重复步骤3)-6),直到所有数据采集完成。
4.如权利要求3所述的一种数据采集软件的数据处理方法,其特征在于,所述利用基于时序变动特征的数据描述方法得到采集数据的变动趋势,包括:
1)对于按时序采集到的序列数据X={x1,...,xn},判断xi是否满足(xi-xi-1)(xi+1-xi)<0,若满足,则认为xi为极值点,按照时间顺序排列构成极值点序列E={e1,...,ek},并标注极值点的属性,极大值点的属性为1,极小值点的属性为-1;
2)设置阈值集合{ε1,...,εk},判断极值点序列中ei是否满足|ei-ej|<εi,满足则认为ei是波动点,遍历完成后,按照时间顺序排列构成波动点序列C={c1,...,cp},若波动点为增长趋势,则认为采集数据的时序变动趋势为增长趋势,反之则认为采集数据的时序变动趋势为下降趋势;
3)对于任意两段采集数据序列中的波动点序列,计算两段采集数据序列中两个波动点围成的面积,作为两个波动点之间的距离,通过遍历计算两段采集数据序列中任意对应的波动点之间的距离,比较两段采集数据序列的变动趋势。
5.如权利要求4所述的一种数据采集软件的数据处理方法,其特征在于,所述利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,包括:
利用SAE编码器建立三个隐藏层;
将SAE编码器的输出作为K-Medians聚类分类器的输入,并随机确定初始化输入数据的中心点;
每个数据点通过ou_distance()来定义数据点与每组中心距离的欧式距离,通过计算确定距离该数据最近的核心,确定该点所属类别;
计算出现在中心点和其他所有点的距离总和计算出该聚簇中各个点与其他所有点的总和,若是有小于当前中心点的距离总和的,中心点去掉,重新划分质心,经过多次迭代,得到最终的数据融合结果。
6.如权利要求5所述的一种数据采集软件的数据处理方法,其特征在于,所述利用结合量子粒子群的数据整理算法整理融合数据,包括:
1)设定数据整理目标函数:
minQ
其中:
Q为融合数据所占的空间;
2)初始化量子粒子群,并设定种群参数,包括粒子的更新方式和数量;
3)设置粒子的适应度函数fi=∑(xi-xj),其中fi为粒子i的适应度函数,xi为粒子i的位置,∑(xi-xj)为粒子i与其他所有粒子之间的距离之和;将所有粒子的全局最优值和适应度函数值进行大小对比,如果粒子i的适应度值大于全局最优值,则更新粒子i的位置;所述粒子i位置更新的公式为:
Figure FDA0002949725460000031
其中:
α为收缩系数,将其设置为0.2;
xi,k(t+1)为在k维空间,粒子i在t+1时刻的更新位置;
pi,k(t)为粒子i的坐标位置转换为量子坐标的结果;
Cj(t)为粒子在t时刻的最优平均位置;
ui,j(t)为随机分布数,ui,j(t)~U(0,1);
4)重复步骤3),直到满足目标函数,此时输出粒子所在位置,所述粒子所在位置即为不同类别的融合数据在数据库的位置。
7.一种数据采集软件的数据处理系统,其特征在于,所述装置包括:
数据采集装置,用于配置数据采集软件的参数信息,建立数据采集传输连接,利用数据自适应采集算法进行数据采集;
数据处理器,用于利用基于时序变动特征的数据描述方法得到采集数据的变动趋势;
数据处理装置,用于利用基于聚类的自编码器数据融合方式进行采集数据的聚类融合,得到采集数据的融合数据,利用结合量子粒子群的数据整理算法进行融合数据的整理。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据采集处理程序指令,所述数据采集处理程序指令可被一个或者多个处理器执行,以实现如权利要求1至6中任一项所述的一种数据采集软件的数据处理的实现方法的步骤。
CN202110204061.XA 2021-02-24 2021-02-24 一种数据采集软件的数据处理方法及装置 Withdrawn CN112819092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110204061.XA CN112819092A (zh) 2021-02-24 2021-02-24 一种数据采集软件的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110204061.XA CN112819092A (zh) 2021-02-24 2021-02-24 一种数据采集软件的数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN112819092A true CN112819092A (zh) 2021-05-18

Family

ID=75865164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110204061.XA Withdrawn CN112819092A (zh) 2021-02-24 2021-02-24 一种数据采集软件的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112819092A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115935296A (zh) * 2023-03-09 2023-04-07 国网山东省电力公司营销服务中心(计量中心) 一种电能数据计量方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115935296A (zh) * 2023-03-09 2023-04-07 国网山东省电力公司营销服务中心(计量中心) 一种电能数据计量方法及系统
CN115935296B (zh) * 2023-03-09 2023-06-23 国网山东省电力公司营销服务中心(计量中心) 一种电能数据计量方法及系统

Similar Documents

Publication Publication Date Title
US10049300B2 (en) Global visual vocabulary, systems and methods
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
WO2022213465A1 (zh) 基于神经网络的图像识别方法、装置、电子设备及介质
CN107209860A (zh) 使用分块特征来优化多类图像分类
WO2022105179A1 (zh) 生物特征图像识别方法、装置、电子设备及可读存储介质
US8756216B1 (en) Scalable tree builds for content descriptor search
US8352483B1 (en) Scalable tree-based search of content descriptors
US11562179B2 (en) Artificial intelligence system for inspecting image reliability
US20160026848A1 (en) Global-scale object detection using satellite imagery
CN111325245B (zh) 重复图像识别方法、装置、电子设备及计算机可读存储介质
CN112529068B (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
CN110717806B (zh) 产品信息推送方法、装置、设备及存储介质
WO2023051369A1 (zh) 一种神经网络的获取方法、数据处理方法以及相关设备
Seng et al. A big data layered architecture and functional units for the multimedia Internet of Things
Jampour et al. Chaos game theory and its application for offline signature identification
Liong et al. Automatic traditional Chinese painting classification: A benchmarking analysis
CN110633733B (zh) 图像智能匹配方法、装置及计算机可读存储介质
US20200074277A1 (en) Fuzzy input for autoencoders
CN112819092A (zh) 一种数据采集软件的数据处理方法及装置
Tadepalli et al. Content‐based image retrieval using Gaussian–Hermite moments and firefly and grey wolf optimization
Khalaf et al. Robust partitioning and indexing for iris biometric database based on local features
US20210248423A1 (en) Method of identifying filters in a neural network, system and storage medium of the same
CN111709473B (zh) 对象特征的聚类方法及装置
CN113255752A (zh) 基于特征聚类的固体材料一致性分选方法
CN109992960B (zh) 一种伪造参数检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210518