CN112069161A - 一种数据清洗方法和装置 - Google Patents
一种数据清洗方法和装置 Download PDFInfo
- Publication number
- CN112069161A CN112069161A CN202010905695.3A CN202010905695A CN112069161A CN 112069161 A CN112069161 A CN 112069161A CN 202010905695 A CN202010905695 A CN 202010905695A CN 112069161 A CN112069161 A CN 112069161A
- Authority
- CN
- China
- Prior art keywords
- information
- data
- cleaning
- signal information
- data group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000015654 memory Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 18
- 230000000694 effects Effects 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 230000002596 correlated effect Effects 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000010813 municipal solid waste Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本申请涉及一种数据清洗方法和装置,方法包括获取多个归属于同一场景下的第一数字信号信息,这些第一数字信号信息分别来自一个或者多个信息采集端的一个或者多个轮询区间;对每第一数字信号信息进行解析,得到待清洗数据群信息,待清洗数据群信息中包含多个第二信号信息,至少有一个第二信号信息的频率特征与其他第二信号信息的频率特征是不同的;取根据场景构建的清洗规则信息以及根据清洗规则信息对待清洗数据群信息进行清洗,得到结果数据群信息,结果数据群信息中包含一个或者多个第二信号信息。本申请用于物联网数据的清洗,有助于提高清洗效果。
Description
技术领域
本申请涉及数据处理的技术领域,尤其是涉及一种数据清洗方法和装置。
背景技术
传统的大数据采集数据的时候,数据来自于人工数据,清洗时需要处理的问题主要是数据的失效和错漏,而物联网数据有数据采集于自然状况,混合有噪声及线性或非线性失真。传统的数据清洗方法主要是基于统计模型,针对人工数据可行,但是并不适用于物联网数据的清洗。
发明内容
本申请提供一种数据清洗方法和装置,有助于提高对物联网数据的清洗效果。
本申请的上述目的是通过以下技术方案得以实现的:
第一方面,本申请提供了一种数据清洗方法,包括:
获取多个归属于同一场景下的第一数字信号信息,这些第一数字信号信息分别来自一个或者多个信息采集端的一个或者多个轮询区间;
对每第一数字信号信息进行解析,得到待清洗数据群信息,待清洗数据群信息中包含多个第二信号信息,至少有一个第二信号信息的频率特征与其他第二信号信息的频率特征是不同的;
获取根据场景构建的清洗规则信息;以及
根据清洗规则信息对待清洗数据群信息进行清洗,得到结果数据群信息,结果数据群信息中包含一个或者多个第二信号信息。
通过采用上述技术方案,将第一数字信号转换为以频率特征为基础的第二信号,然后根据清洗规则进行清洗,相比于基于统计模型的筛选方式,这种筛选方式可以迅速确定所需要的数据。
在第一方面的一种可能的实现方式中,对清洗数据群信息进行多次清洗,每次使用的清洗规则信息是不同的。
通过采用上述技术方案,使用多次清洗的方式对获取到第一数字信号信息进行清洗,这种清洗方式可以根据实际的清洗需求制定合适的清洗规则,得到所需要的数据。
在第一方面的一种可能的实现方式中,对于属于同一场景下的来自不同信号采集端的第二信号信息,通过其在时间域、空间域和/或频率域上的关联性进行清洗。
通过采用上述技术方案,可以通过在时间、空间和频率上的关联性对第二信号信息进行清洗,清洗规则更加的多样化,有助于提高清洗效果。
在第一方面的一种可能的实现方式中,对于属于同一场景下的来自相同信号采集端的第二信号信息,通过其在时间域、空间域和/或频率域上的关联性进行清洗。
通过采用上述技术方案,可以通过在时间、空间和频率上的关联性对第二信号信息进行清洗,清洗规则更加的多样化,有助于提高清洗效果。
在第一方面的一种可能的实现方式中,所述清洗的方式包括去除和/或范围选择。
通过采用上述技术方案,可以将需要的第二信号信息挑出来或者将不用的第二信号信息去除,清洗的方式更加灵活。
在第一方面的一种可能的实现方式中,所述清洗规则信息包括噪声模型信息、干扰模型信息和/或期望信号模型信息。
通过采用上述技术方案,将清洗规则进行了模块化处理,方便根据实际的需求进行定制。
在第一方面的一种可能的实现方式中,还包括,对结果数据群信息中的第二信号信息进行数字信号处理。
通过采用上述技术方案,可以进一步提高第二信号信息的准确程度。
第二方面,本申请提供了一种数据清洗装置,包括:
第一获取单元,用于获取多个归属于同一场景下的第一数字信号信息,这些第一数字信号信息分别来自一个或者多个信息采集端的一个或者多个轮询区间;
第一解析单元,用于对每第一数字信号信息进行解析,得到待清洗数据群信息,待清洗数据群信息中包含多个第二信号信息,至少有一个第二信号信息的频率特征与其他第二信号信息的频率特征是不同的;
第二获取单元,用于获取根据场景构建的清洗规则信息;以及
第二解析单元,用于根据清洗规则信息对待清洗数据群信息进行清洗,得到结果数据群信息,结果数据群信息中包含一个或者多个第二信号信息。
通过采用上述技术方案,将第一数字信号转换为以频率特征为基础的第二信号,然后根据清洗规则进行清洗,相比于基于统计模型的筛选方式,这种筛选方式可以迅速确定所需要的数据。
在第二方面的一种可能的实现方式中,对清洗数据群信息进行多次清洗,每次使用的清洗规则信息是不同的。
通过采用上述技术方案,使用多次清洗的方式对获取到第一数字信号信息进行清洗,这种清洗方式可以根据实际的清洗需求制定合适的清洗规则,得到所需要的数据。
在第二方面的一种可能的实现方式中,对于属于同一场景下的来自不同信号采集端的第二信号信息,通过其在时间域、空间域和/或频率域上的关联性进行清洗。
通过采用上述技术方案,可以通过在时间、空间和频率上的关联性对第二信号信息进行清洗,清洗规则更加的多样化,有助于提高清洗效果。
在第二方面的一种可能的实现方式中,对于属于同一场景下的来自相同信号采集端的第二信号信息,通过其在时间域、空间域和/或频率域上的关联性进行清洗。
通过采用上述技术方案,可以通过在时间、空间和频率上的关联性对第二信号信息进行清洗,清洗规则更加的多样化,有助于提高清洗效果。
在第二方面的一种可能的实现方式中,所述清洗的方式包括去除和/或范围选择。
通过采用上述技术方案,可以将需要的第二信号信息挑出来或者将不用的第二信号信息去除,清洗的方式更加灵活。
在第二方面的一种可能的实现方式中,所述清洗规则信息包括噪声模型信息、干扰模型信息和/或期望信号模型信息。
通过采用上述技术方案,将清洗规则进行了模块化处理,方便根据实际的需求进行定制。
在第二方面的一种可能的实现方式中,还包括数字信号处理单元;
数字信号处理单元用于对结果数据群信息中的第二信号信息进行数字信号处理。
通过采用上述技术方案,可以进一步提高第二信号信息的准确程度。
第三方面,本申请提供了一种数据清洗系统,所述系统包括:
一个或多个存储器,用于存储指令;以及
一个或多个处理器,用于从所述存储器中调用并运行所述指令,执行如第一方面及第一方面任意可能的实现方式中所述的数据清洗方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质包括:
程序,当所述程序被处理器运行时,如第一方面及第一方面任意可能的实现方式中所述的数据清洗方法被执行。
第五方面,本申请提供了一种计算机程序产品,包括程序指令,当所述程序指令被计算设备运行时,如第一方面及第一方面任意可能的实现方式中所述的数据清洗方法被执行。
第六方面,本申请提供了一种芯片系统,该芯片系统包括处理器,用于实现上述各方面中所涉及的功能,例如,生成,接收,发送,或处理上述方法中所涉及的数据和/或信息。
该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。
在一种可能的设计中,该芯片系统还包括存储器,该存储器,用于保存必要的程序指令和数据。该处理器和该存储器可以解耦,分别设置在不同的设备上,通过有线或者无线的方式连接,或者处理器和该存储器也可以耦合在同一个设备上。
附图说明
图1是本申请实施例提供的一种对波形进行分解的示意图。
图2是本申请实施例提供的一种数据清洗方法的流程示意图。
具体实施方式
以下结合附图,对本申请中的技术方案作进一步详细说明。
为了更加清楚的理解本申请中的技术方案,首先对数据清洗进行简单的介绍。数据清洗是利用如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。例如全国人民都填写了一个同样的信息统计表格,表格信息里有姓名、年龄、职业和收入等信息,数据清洗的工作内容就是统计和挖掘,通过对信息统计表格的分析得到年龄分布、收入分布、职业分布和收入分布等信息。再例如针对一个人的行动轨迹,可以通过位置信息等方式记录下来,汇总后进行清洗,通过分析得到其兴趣爱好和活动范围等结果。
上述的数据清洗方式主要是针对人工生成的数据,生成过程中具备一定的规律性,并且受到的干扰也比较少,因此在制定了合适的规则后,基于统计模型,在算力允许的情况下,基本上都可以得到想要的结果。
但是对于物联网数据,上述方法却不再适用,因为物联网数据采集于自然状况,混合有噪声及线性或非线性失真,产生情况更加复杂,数据缠绕的情况也非常严重。
请参阅图1和图2,为本申请实施例公开的一种数据清洗方法,包括以下步骤:
S101,获取多个归属于同一场景下的第一数字信号信息,这些第一数字信号信息分别来自一个或者多个信息采集端的一个或者多个轮询区间;
S102,对每第一数字信号信息进行解析,得到待清洗数据群信息,待清洗数据群信息中包含多个第二信号信息,至少有一个第二信号信息的频率特征与其他第二信号信息的频率特征是不同的;
S103,获取根据场景构建的清洗规则信息;以及
S104,根据清洗规则信息对待清洗数据群信息进行清洗,得到结果数据群信息,结果数据群信息中包含一个或者多个第二信号信息。
应当理解,在日常人的眼中,世界是变化的,例如建筑物的形状、人的身高、汽车的轨迹都会随着时间发生改变,这种以时间作为参照来观察动态世界的方法我们称其为时域分析,也就是以时间线为参考,随着时间的流动,时间线上的物体在持续的发生改变,并且这种改变会随着时间持续的进行。
举例说明,一段音乐,如果从时间的维度上看,是在不断变化的,但是从另一个角度考虑,音乐也可以认为是由一个一个的音符组成的,在频域的维度上,音符是不变的,也就是从频域的角度看,音符可以看作是一个相对静止的存在,那么有多个音符叠加起来组成的音乐,当然也可以认为是静止的,这个静止的维度就是频域。
音符是通过震动产生的,可以将其看作是一个波形,这个波形在时域上是连续不断生成的,但是在频域上,是一个恒定的存在,那么对于前文中提到的音乐, 如果从频域的角度看,就是由一个一个不同的波形叠加在一起的,波形是不变的,因此叠加出来的音乐也是不变的,如果将音乐视为一个波形,那么对这个波形进行解析,就可以得到多个振幅与相位均不相同的正弦波。
一个基本的假设:任何信息都具有频率方面的特性,音频信号的声音高低、光的频谱以及电子震荡的周期等等,抽象出一个谐振动的概念,数学名称就叫做频率。想象在x-y平面上有一个原子围绕原点做半径为1匀速圆周运动,把x轴想象成时间,那么该圆周运动在y轴上的投影就是一个sin(t)的波形。
因此,对于物联网数据,将其转换到频域上进行分析,明显是更加合适的。
具体的说,在步骤S101中,获取多个归属于同一场景下的第一数字信号信息,这些第一数字信号信息分别来自一个或者多个信息采集端的一个或者多个轮询区间。
应理解,对于采样,有数字信号和模拟信号两种存在形式,例如震动,模拟信号可以电流值在时间上的大小进行反馈,电流值大表示震动的幅度大,电流值小表示震动的幅度小,这就是所谓的模拟信号,数据信号就是将不同时间上的电流值的大小以数字化的形式存储。
数据信号的实质也是模拟信号,可以理解为是一种数字化的模拟方式,应理解,为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱中最高频率的2倍,通俗的讲,当采样频率达到一定的密度时,就可以将电流在时间上的变化反映出来。
从数学的角度进行描述是这样的:如果周期函数 x(t) 不包含高于 B cps(次/秒)的频率,那么,一系列小于 1/(2B) 秒的x(t)函数值将会受到前一个周期的x(t)函数值影响,
第一数字信号信息就是各种信息采集端采集到的数据,信息采集端的数量可以是一个,也可以是多个,信息采集端的数量是一个时,对应的具体场景是一个传感器在采集数据;信息采集端的数量是多个时,对应的具体场景是多个传感器在采集数据。
应理解,信息采集端的数量是多个时,也应当是归属于同一场景的,也就是这些信息采集端采集到的数据是基于场景相关联的,而不是信息采集端本身是相关联的。
举例说明,涡激振动(简称涡振)是大跨度桥梁在低风速下出现的一种风致振动现象,从流体的角度来分析,任何非流线型物体,在一定的恒定流速下,都会在物体两侧交替地产生脱离结构物表面的旋涡。
桥梁的涡振是以低频和大尺度空间为特征的,其中混杂的噪声主要是车辆经过的振动,另外,车辆的数量、车流出现的时间段和车辆的重量等都会对最终的检测结果产生影响,对于安装在桥梁上的信息采集端,其采集到的数据是一个综合型的数据,无法真实的反馈桥梁的涡振。
汽车经过桥梁时同样会产生震动,这种震动和桥梁的涡振不同,是以高频和小范围空间为特征的,因此可以在频域上区分高频和低频将桥梁的涡振与汽车的震动区分开,也可以在空间上区分大尺度震荡和小范围震荡来将桥梁的涡振与汽车的震动区分开。
对于轮询区间,应当这样理解,在一个具体的时间段,例如可以是五分钟、十分钟或者其他长度的时间内,一个信息采集端采集到的全部数据。
对于第一数字信号信息来自一个或者多个轮询区间,应当这样理解,统计和分析的目的是接近真实,因为过程中会存在多种干扰因素或者说误差的影响,因此统计和分析出来的结果只能趋近于真实,样本的数量越多,也就越趋近于真实,使用多个轮询区间的数据,可以使清洗的数据更加符合要求。
在步骤S102中,对每第一数字信号信息进行解析,得到待清洗数据群信息,待清洗数据群信息中包含多个第二信号信息,至少有一个第二信号信息的频率特征与其他第二信号信息的频率特征是不同的。
该步骤是对在步骤S101中得到的第一数字信号信息进行解析,具体的方式是将第一数字信号信息放在频域上进行解析。
在前文中已经提到,波形在频域上是不会发生改变的,那么对于由多个波形组成的第一数字信号信息,可以通过解析的方式将其还原为多个在频域上的波形,然后通过对波形的分析来得到所需要的数据。
并且在该步骤中,对于属于不同的信息采集端或者不同的轮询区间的第一数字信号信息,应当进行分组处理,也就是属于不同信息采集端的不同轮询区间的第一数字信号信息应当归为一组。
举例说明,当信息采集端的数量为三个,轮询区间的数量为四个时,那么分组数量就是十二个。
接着执行步骤S103,该步骤中,获取根据场景构建的清洗规则信息,应当理解,对于不同的场景,获取到的数据是不同的,例如桥梁震动和地面上的公路震动,虽然都是震动,但是震动的频率、干扰的来源以及周围的自然噪声都不相同,并且需要的数据也不同,因此针对于不同的场景,应当使用不同的清洗规则对得到的第二信号信息进行清洗,将需要的部分挑选出来。
在步骤S104中,根据在步骤S103中得到的清洗规则信息对待清洗数据群信息进行清洗,得到结果数据群信息,在这个结果数据群信息中,包含一个或者多个第二信号信息。
从另一个角度理解,将清洗数据群信息认为是一个集合,这个集合可以具有多个子集,结果数据群信息是这些子集当中的一个,那么对于清洗规则信息,就可以理解成是一种挑选规则,目的是将一个特定的子集从集合中挑选出来。
本申请实施例公开的数据清洗方法,将采集到的数据从时域转换到频域上进行分析,这种转换方式同时省略了人工数据中统计分析的步骤,可以直接将需要的数据从数据群中挑选出来。
对于不同的数据,还可以通过场景和时间关联起来进行清洗,清洗过程中不再进行分类、统计和分析,而是可以直接将需要的挑选出来。
从数据的来源看,物联网的数据来源广泛,分布的规律性差,并且存在非常多的干扰因素,使用统计分析的方法明显会消耗巨大的算力,造成分析成本的极速升高,将其转换到频域上后,时域和空域都能够统一到频域下进行分析。
例如在一个应用场景中需要对垃圾桶满溢进行监测,那么垃圾桶满溢时间和人口是正相关的,或者说在一定程度上是线性相关的,但是对于垃圾桶进行满溢检测时,会因为监控镜头遮挡等出现前端误报漏报等干扰情况,干扰数据有高频突变的特征,那么可以用满溢频率信号与入住率线性相关来进行标注和清洗,将前端误报漏报等干扰情况排除掉。
对于得到的清洗数据群信息,包含了多种形式的数据,对于干扰数据,就可以分为自然干扰信息、人工干扰信息和突发干扰信息等,因此在进行清洗时,可以使用多次清洗的方式来获得更加准确的数据。
因此在本申请提供的一种具体的实施方式中,对清洗数据群信息进行多次清洗,并且每次清洗都使用的清洗规则信息进行。该过程可以看做是一个从粗略到精细的过程,例如第一次可以先去除自然干扰信息,然后在去除人工干扰信息,接着按照顺序对清洗数据群信息进行反复的清洗,直至得到最后需要的数据。
或者从另一个角度理解,每次清洗就是一个划定范围的过程,随着清洗次数的增加,范围逐渐缩小,最终得到的范围内的数据就是所需要的数据。
应当理解,对于不同的第二信号信息,其来源(所属信息采集端)和时间段可能是不同的,但是应当存在一定的关联性,才能够进行联动分析,此处提到的关联性可以通过时间域、空间域和频率域来体现,例如在本申请的一个具体实施方式中,对于属于同一场景下的来自不同信号采集端的第二信号信息,通过其在时间域、空间域和/或频率域上的关联性进行清洗,具体而言:
通过时间域的关联性进行清洗,也就是来自不同信号采集端的第二信号信息在时间上是关联的,例如对于桥梁涡振的检测,一个信号采集端采集到的数据来自与桥梁,另一个信号采集端采集到的数据来自于车流量,当车流量发生变化时,桥梁涡振的检测数据是不一样的,这两种第二信号信息可以看作是在时间域上相关联的。
通过空间域的关联性进行清洗,也就是来自不同信号采集端的第二信号信息在空间上是关联的,例如不同的信号采集端采集到的数据类型是不同的,在一个场景中,需要对大楼的沉降进行检测,那么和大楼相关联的信号采集端采集到的第二信号信息就都可以纳入到空间域上的关联范围之内。
再例如,位于同一个区域内的信号采集端,也可以通过空间上的关联性关联在一起。
通过频率域上的关联性进行清洗,也就是来自不同信号采集端的第二信号信息在频率上是关联的,例如一种干扰源在频率域上的频率和振幅是已知的,那么对于另外一个信号采集端的第二信号信息,就可以通过对比的方式将掺杂的干扰数据排除掉,换一种方式,也可以理解为是将需要的数据挑选出来。
在数据清洗的过程中,时间域、空间域和频率域上的关联性可以单个使用,也可以组合使用,可以每次使用其中的一个,也可以每次使用其中的两个或者三个同时使用,具体的组合方式根据清洗规则确定,最终将需要的数据清洗出来。
应注意,不论是时间域、空间域或者频率域上的关联,都应当是基于场景的关联性这个前提下的。
作为申请提供的数据清洗方法的另一种具体实施方式,属于同一场景下的来自相同信号采集端的第二信号信息,也可以通过其在时间域、空间域和/或频率域上的关联性进行清洗。
时间域上的关联性可以这样理解,来自相同信号采集端的第二信号信息可以通过时间关联在一起,例如属于一个信号采集端的第二信号信息归属于不同的轮询区间,通过对比的方式发现了某些特殊频率的第二信号信息,那么可以将这些特殊频率的第二信号信息挑选出来进行分析,。
时间域上的关联性可以这样理解,来自相同信号采集端的第二信号信息可以通过空间关联在一起,例如在一个应用场景下,同类型的信号采集端在不同的位置上进行数据采集,其在空间域上是相关联的,对于其得到的第二信号信息,可以通过清洗得到不同的部分,这些不同的部分可能就是最终需要的结果。
频率域上的关联性可以这样理解,来自相同信号采集端的第二信号信息可以通过频率关联在一起,第二信号信息的频率可以分为相同、相近和不同三种,对频率进行分析时,忽略掉时间和空间上的相关性,只通过场景来进行关联,最终得到想要的数据。
在数据清洗的过程中,时间域、空间域和频率域上的关联性可以单次使用,也可以组合使用,可以每次使用其中的一个,也可以每次使用其中的两个或者三个同时使用,具体的组合方式根据清洗规则确定,最终将需要的数据清洗出来。
此处也应注意,不论是时间域、空间域或者频率域上的关联,都应当是基于场景的关联性这个前提下的。
对于清洗的方式,在申请提供的数据清洗方法的一种具体实施方式中,有去除和范围选择两种,去除是将不需要的数据抛弃,范围选择是在一个确定的范围内进行选择,不在这个范围内的数据进行忽略处理。
这两种方式有其各自的使用范围,例如对于干扰数据,使用去除的方式更加便捷,对于某种特定范围内的数据,使用范围选择的方式更加便捷,因此两种方式可以交替使用,对数据进行清洗。
例如在多次清洗的过程中,首先使用去除的方式去除干扰数据,然后使用范围选择的方式挑出一类数据,接着继续使用去除的方式去除干扰数据或者继续挑选的方式进行清洗,最终得到需要的数据。
应理解,干扰数据在频率域上的存在可能是广泛的,因此在清洗的过程中,可以分别进行多次清洗,或者部分数据在本次清洗中归属到了有效数据中,在下一次清洗中归为了干扰数据,这都是可以的。
举例说明,第一次清洗,去除的是干扰数据,在频率域上给出了一个范围,属于该范围的数据都被去除,第二次清洗依然是干扰数据,在频率域上给出了一个更加准确的范围,这个范围是离散的,属于这个离散范围的数据就被去除掉了。
在申请提供的数据清洗方法的一种具体实施方式中,清洗规则信息包括噪声模型信息、干扰模型信息和/或期望信号模型信息。
从一个角度理解,一个数据群中有最终期望得到的数据、在采集过程中出现的干扰数据(例如突发情况等)和噪声数据(例如传感器本身的底噪等),将数据群进行了宏观性的分类后,就有利于搭建清洗规则,例如可以根据噪声模型信息、干扰模型信息和/或期望信号模型信息搭建三个大的清洗模块,那么在清洗的过程中就可以通过调用和修改参数的方式将清洗规则搭建出来,而不是根据每一个场景去单独建立清洗规则,可以在一定程度上实现清洗规则的通用。
在一些实现方式中,可以建设一个清洗规则模块库,搭建清洗规则时,将里面的模块直接调出来后按照一定的顺序连接起来,就可以使用。
当然,对于最终得到的第二信号信息,可能也存在一定的偏离,因此在申请提供的数据清洗方法的一种具体实施方式中,对结果数据群信息中的第二信号信息进行数字信号处理。
对于第二信号信息的偏离,可以这样理解,第二信号信息在频率域上的实际波形与理论波形不吻合,这个不吻合度表示了第二信号信息的偏离程度,不吻合的程度越高,偏离的程度越大。
数字信号处理是对偏离的修正,目的是提高实际波形与理论波形的吻合度,具体的方式有以下几种:
数字均衡:频域上对幅度和相位进行调整的方法,可以校正信号在信道中传输发生的畸变。
数字滤波:频域上对某一频道的幅度进行显著衰减,从而过滤出所关注频段的信号。
离散傅立叶变换、离散余弦变换,小波变换及其逆变换等:这些方法可以将一维或多维时空数据分解转化到频域数据,也可以将频域数据转化回一维或多维的时空数据。
图像处理:中值滤波,边缘检测,图像识别等,可以对图像数据进行平滑,锐化和特征提取等处理。
本申请实施例还公开了一种数据清洗装置,包括:
第一获取单元,用于获取多个归属于同一场景下的第一数字信号信息,这些第一数字信号信息分别来自一个或者多个信息采集端的一个或者多个轮询区间;
第一解析单元,用于对每第一数字信号信息进行解析,得到待清洗数据群信息,待清洗数据群信息中包含多个第二信号信息,至少有一个第二信号信息的频率特征与其他第二信号信息的频率特征是不同的;
第二获取单元,用于获取根据场景构建的清洗规则信息;以及
第二解析单元,用于根据清洗规则信息对待清洗数据群信息进行清洗,得到结果数据群信息,结果数据群信息中包含一个或者多个第二信号信息。
进一步地,对清洗数据群信息进行多次清洗,每次使用的清洗规则信息是不同的。
进一步地,对于属于同一场景下的来自不同信号采集端的第二信号信息,通过其在时间域、空间域和/或频率域上的关联性进行清洗。
进一步地,对于属于同一场景下的来自相同信号采集端的第二信号信息,通过其在时间域、空间域和/或频率域上的关联性进行清洗。
进一步地,所述清洗的方式包括去除和/或范围选择。
进一步地,所述清洗规则信息包括噪声模型信息、干扰模型信息和/或期望信号模型信息。
进一步地,增加了还包括数字信号处理单元;
数字信号处理单元用于对结果数据群信息中的第二信号信息进行数字信号处理。
在一个例子中,以上任一装置中的单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个专用集成电路(application specificintegratedcircuit,ASIC),或,一个或多个数字信号处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA),或这些集成电路形式中至少两种的组合。
再如,当装置中的单元可以通过处理元件调度程序的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,CPU)或其它可以调用程序的处理器。再如,这些单元可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
在本申请中可能出现的对各种消息/信息/设备/网元/系统/装置/动作/操作/流程/概念等各类客体进行了赋名,可以理解的是,这些具体的名称并不构成对相关客体的限定,所赋名称可随着场景,语境或者使用习惯等因素而变更,对本申请中技术术语的技术含义的理解,应主要从其在技术方案中所体现/执行的功能和技术效果来确定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
还应理解,在本申请的各个实施例中,第一、第二等只是为了表示多个对象是不同的。例如第一时间窗和第二时间窗只是为了表示出不同的时间窗。而不应该对时间窗的本身产生任何影响,上述的第一、第二等不应该对本申请的实施例造成任何限制。
还应理解,在本申请的各个实施例中,如果没有特殊说明以及逻辑冲突,不同的实施例之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供了一种数据清洗系统,所述系统包括:
一个或多个存储器,用于存储指令;以及
一个或多个处理器,用于从所述存储器中调用并运行所述指令,执行如上述内容中所述的数据清洗方法。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括指令,当该指令被执行时,以使得该数据清洗系统执行对应于上述方法的数据清洗系统的操作。
本申请实施例还提供了一种芯片系统,该芯片系统包括处理器,用于实现上述内容中所涉及的功能,例如,生成,接收,发送,或处理上述方法中所涉及的数据和/或信息。
该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。
上述任一处提到的处理器,可以是一个CPU,微处理器,ASIC,或一个或多个用于控制上述的反馈信息传输的方法的程序执行的集成电路。
在一种可能的设计中,该芯片系统还包括存储器,该存储器,用于保存必要的程序指令和数据。该处理器和该存储器可以解耦,分别设置在不同的设备上,通过有线或者无线的方式连接,以支持该芯片系统实现上述实施例中的各种功能。或者,该处理器和该存储器也可以耦合在同一个设备上。
可选地,该计算机指令被存储在存储器中。
可选地,该存储器为该芯片内的存储单元,如寄存器、缓存等,该存储器还可以是该终端内的位于该芯片外部的存储单元,如ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM等。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
非易失性存储器可以是ROM、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electricallyEPROM,EEPROM)或闪存。
易失性存储器可以是RAM,其用作外部高速缓存。RAM有多种不同的类型,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器。
本具体实施方式的实施例均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (10)
1.一种数据清洗方法,其特征在于,包括:
获取多个归属于同一场景下的第一数字信号信息,这些第一数字信号信息分别来自一个或者多个信息采集端的一个或者多个轮询区间;
对每第一数字信号信息进行解析,得到待清洗数据群信息,待清洗数据群信息中包含多个第二信号信息,至少有一个第二信号信息的频率特征与其他第二信号信息的频率特征是不同的;
获取根据场景构建的清洗规则信息;以及
根据清洗规则信息对待清洗数据群信息进行清洗,得到结果数据群信息,结果数据群信息中包含一个或者多个第二信号信息。
2.根据权利要求1所述的一种数据清洗方法,其特征在于,对清洗数据群信息进行多次清洗,每次使用的清洗规则信息是不同的。
3.根据权利要求1所述的一种数据清洗方法,其特征在于,对于属于同一场景下的来自不同信号采集端的第二信号信息,通过其在时间域、空间域和/或频率域上的关联性进行清洗。
4.根据权利要求1所述的一种数据清洗方法,其特征在于,对于属于同一场景下的来自相同信号采集端的第二信号信息,通过其在时间域、空间域和/或频率域上的关联性进行清洗。
5.根据权利要求1至4中任意一项所述的一种数据清洗方法,其特征在于,所述清洗的方式包括去除和/或范围选择。
6.根据权利要求1所述的一种数据清洗方法,其特征在于,所述清洗规则信息包括噪声模型信息、干扰模型信息和/或期望信号模型信息。
7.根据权利要求1所述的一种数据清洗方法,其特征在于,还包括,对结果数据群信息中的第二信号信息进行数字信号处理。
8.一种数据清洗装置,其特征在于,包括:
第一获取单元,用于获取多个归属于同一场景下的第一数字信号信息,这些第一数字信号信息分别来自一个或者多个信息采集端的一个或者多个轮询区间;
第一解析单元,用于对每第一数字信号信息进行解析,得到待清洗数据群信息,待清洗数据群信息中包含多个第二信号信息,至少有一个第二信号信息的频率特征与其他第二信号信息的频率特征是不同的;
第二获取单元,用于获取根据场景构建的清洗规则信息;以及
第二解析单元,用于根据清洗规则信息对待清洗数据群信息进行清洗,得到结果数据群信息,结果数据群信息中包含一个或者多个第二信号信息。
9.一种数据清洗系统,其特征在于,所述系统包括:
一个或多个存储器,用于存储指令;以及
一个或多个处理器,用于从所述存储器中调用并运行所述指令,执行如权利要求1至7中任意一项所述的数据清洗方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括:
程序,当所述程序被处理器运行时,如权利要求1至7中任意一项所述的数据清洗方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010905695.3A CN112069161B (zh) | 2020-09-01 | 2020-09-01 | 一种数据清洗方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010905695.3A CN112069161B (zh) | 2020-09-01 | 2020-09-01 | 一种数据清洗方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112069161A true CN112069161A (zh) | 2020-12-11 |
CN112069161B CN112069161B (zh) | 2023-11-03 |
Family
ID=73664862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010905695.3A Active CN112069161B (zh) | 2020-09-01 | 2020-09-01 | 一种数据清洗方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069161B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956603A (zh) * | 2016-04-15 | 2016-09-21 | 天津大学 | 一种基于张量时域关联模型的视频序列分类方法 |
US20180137525A1 (en) * | 2016-11-11 | 2018-05-17 | Jpmorgan Chase Bank, N.A. | System and Method for Providing Data Science as a Service |
CN108681542A (zh) * | 2018-02-12 | 2018-10-19 | 阿里巴巴集团控股有限公司 | 一种异常检测的方法及装置 |
CN109274416A (zh) * | 2018-10-16 | 2019-01-25 | 南京佰联信息技术有限公司 | 一种无人机及无人机采集移动终端信息的方法 |
CN109902957A (zh) * | 2019-02-28 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种数据处理方法和装置 |
US20190371133A1 (en) * | 2018-06-05 | 2019-12-05 | The Nielsen Company (Us), Llc | Methods, systems, apparatus, and articles of manufacture to generate corrected projection data for stores |
CN110597793A (zh) * | 2019-07-30 | 2019-12-20 | 深圳市华傲数据技术有限公司 | 数据管理方法及装置、电子设备和计算机可读存储介质 |
CN110633247A (zh) * | 2018-06-25 | 2019-12-31 | 国际商业机器公司 | 利用物联网环境的认知计算系统和服务 |
CN111460934A (zh) * | 2020-03-18 | 2020-07-28 | 深圳市贝斯达医疗股份有限公司 | 一种超导高场磁共振的中心频率计算方法及系统 |
-
2020
- 2020-09-01 CN CN202010905695.3A patent/CN112069161B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956603A (zh) * | 2016-04-15 | 2016-09-21 | 天津大学 | 一种基于张量时域关联模型的视频序列分类方法 |
US20180137525A1 (en) * | 2016-11-11 | 2018-05-17 | Jpmorgan Chase Bank, N.A. | System and Method for Providing Data Science as a Service |
CN108681542A (zh) * | 2018-02-12 | 2018-10-19 | 阿里巴巴集团控股有限公司 | 一种异常检测的方法及装置 |
US20190371133A1 (en) * | 2018-06-05 | 2019-12-05 | The Nielsen Company (Us), Llc | Methods, systems, apparatus, and articles of manufacture to generate corrected projection data for stores |
CN110633247A (zh) * | 2018-06-25 | 2019-12-31 | 国际商业机器公司 | 利用物联网环境的认知计算系统和服务 |
CN109274416A (zh) * | 2018-10-16 | 2019-01-25 | 南京佰联信息技术有限公司 | 一种无人机及无人机采集移动终端信息的方法 |
CN109902957A (zh) * | 2019-02-28 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种数据处理方法和装置 |
CN110597793A (zh) * | 2019-07-30 | 2019-12-20 | 深圳市华傲数据技术有限公司 | 数据管理方法及装置、电子设备和计算机可读存储介质 |
CN111460934A (zh) * | 2020-03-18 | 2020-07-28 | 深圳市贝斯达医疗股份有限公司 | 一种超导高场磁共振的中心频率计算方法及系统 |
Non-Patent Citations (4)
Title |
---|
CLAUDIO MARCHE ET AL.: "How to exploit the Social Internet of Things: Query Generation Model and Device Profiles’Dataset", 《COMPUTER NETWORKS》, pages 1 - 13 * |
周兴强: "RFID数据流清洗技术及其系统实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 710 * |
沈国重: "多抽样率信号处理方法及其在实时系统中的应用", 《中国优秀博硕士学位论文全文数据库 (博士) 信息科技辑》, pages 136 - 30 * |
陆志鹏: "面向物联网的RFID海量数据若干清洗挖掘方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 1588 * |
Also Published As
Publication number | Publication date |
---|---|
CN112069161B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yiou et al. | Spectral analysis of climate data | |
Flandrin et al. | EMD equivalent filter banks, from interpretation to applications | |
Lilly et al. | Multiwavelet spectral and polarization analyses of seismic records | |
Silik et al. | Selecting optimum levels of wavelet multi‐resolution analysis for time‐varying signals in structural health monitoring | |
Gabarda et al. | Detection of events in seismic time series by time–frequency methods | |
EP1974225B1 (en) | Signal analyser | |
CN108267784A (zh) | 一种地震信号随机噪声压制处理方法 | |
CN109446975A (zh) | 多尺度噪声调节随机共振的微弱信号检测 | |
CN110096956A (zh) | 基于eemd和排列熵二阶差分的信号去噪方法及装置 | |
Zurbenko et al. | Kolmogorov–Zurbenko filters in spatiotemporal analysis | |
CN103293556A (zh) | 一种地磁异动监测系统及方法 | |
CN107545904A (zh) | 一种音频检测方法及装置 | |
Torkamani et al. | Detection of system changes due to damage using a tuned hyperchaotic probe | |
Silik et al. | A new denoising technique via wavelet analysis of structural vibration response for structural health monitoring applications | |
Luo et al. | Surrogate test to distinguish between chaotic and pseudoperiodic time series | |
Li et al. | Magnetotelluric signal-noise separation method based on SVM–CEEMDWT | |
CN112069161A (zh) | 一种数据清洗方法和装置 | |
CN116183013A (zh) | 一种基于变分模态分解改进的das信号去噪方法 | |
CN114358162A (zh) | 一种基于连续小波变换的跌倒检测方法、装置及电子设备 | |
CN108123750A (zh) | 一种利于杂波检测光纤周界预警装置、系统 | |
CN113008363A (zh) | 一种多谐振点传声器阵列及其布置方法 | |
Murdika et al. | Ultrasonic signal denoising based on wavelet haar decomposition level | |
CN109348502B (zh) | 基于小波分解的公网通信数据安全监测方法及系统 | |
Qiao et al. | A Method of Mechanical Fault Feature Extraction for High-Voltage Circuit Breaker Via CEEMDAN and Weighted Time-Frequency Entropy | |
CN115128673A (zh) | 地震资料的获取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |