CN108763289B

CN108763289B - 一种海量异构传感器格式数据的解析方法

Info

Publication number: CN108763289B
Application number: CN201810333797.5A
Authority: CN
Inventors: 沈玉龙; 胡晓康; 马冬洁; 邬俊杰; 马飞昊; 张立; 潘超杰; 郝飞扬; 常二慧; 陈俊峰; 郑佳伟; 张欢
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2021-11-23
Anticipated expiration: 2038-04-13
Also published as: CN108763289A

Abstract

本发明属于物联网技术领域，公开了一种海量异构传感器格式数据的解析方法，初始化C‑TF‑IDF测量器模块，使用K‑Means算法对数据进行聚类模块，数据模板模块，利用规则模板解析传感器信息模块，根据数据集聚类准确度对脏数据进行清洗或回溯优化信息模板库模块。本发明可以满足物联网传感器数据实时处理的需求，并且针对数据集动态变化的特点，融合自修正模块，自动过滤脏数据或者生成新的解析规则；实现解析传感器数据准确度大于95％；可以选择清洗数据集中的脏数据或回溯优化规则模板。本发明可以达到自动解析其信息的效果；对于不同的传感器环境，通过调节准确度和自修正参数来使系统在不同的环境下达到一个综合的最佳效果。

Description

一种海量异构传感器格式数据的解析方法

技术领域

本发明属于物联网技术领域，尤其涉及一种海量异构传感器格式数据的解析方法。

背景技术

目前，业内常用的现有技术是这样的：面对各行各业不同环境下的物联网应用，物联网平台会接入各种不同厂商所提供的传感器设备，而传感器设备发送的数据包格式都不尽相同。为了解析这些异构传感器数据，需要人工设定解析规则，从而将每条数据中的可用信息提取出来。当传感器数据量庞大，异构数据大量混合传入时；如果单纯地依靠人工编写每类数据的解析规则，那么平台将很难满足广大用户的需求，并且对于平台也是一个很大的人工耗损。为了解决这个问题，现有的物联网平台都制定了传感器数据的格式，平台接收到的数据都具有统一的字段含义。这种方法较为简便，但同时也限定了传感器数据格式的多样性，所以通过限制接入的传感器设备数据格式的方法并不能有效地解决传感器数据海量异构的问题。综上所述，现有的技术存在的问题是：面对海量异构传感器数据，只能通过人工设定其解析规则，没有实现对海量异构传感器数据的自动抽取和解析。技术问题不能得到解决的原因：1传感器数据封装格式类别的多样性，以及新的数据封装格式的传感器的接入；2传感器数据量庞大，没法使用人工识别每条数据的解析规则；3数据集是实时更新的，不是一个固定的数据集。

综上所述，现有技术存在的问题是：：面对海量异构传感器数据，只能通过人工设定其解析规则，没有实现对海量异构传感器数据的自动抽取和解析。

解决上述技术问题的难度和意义：技术问题不能得到解决的原因：传感器数据封装格式类别的多样性，以及新的数据封装格式的传感器的接入；传感器数据量庞大，没法使用人工识别每条数据的解析规则；数据集是实时更新的，不是一个固定的数据集。

发明内容

针对现有技术存在的问题，本发明提供了一种海量异构传感器格式数据的解析方法。

本发明是这样实现的，一种海量异构传感器格式数据的解析方法，所述海量异构传感器格式数据的解析方法收集传感器数据，初始化C-TF-IDF测量器，使用K-Means算法对数据进行聚；数据模板自修正，利用规则模板解析传感器信息模块，根据数据集聚类准确度对脏数据进行清洗或回溯优化信息模板库。

进一步，所述海量异构传感器格式数据的解析方法包括以下步骤：

步骤一，收集大量的传感器数据作为元数据；

步骤二，使用元数据初始化C-TF-IDF测量器；

步骤三，确定字符串数据的相似度比较算法；

步骤四，使用K-Means算法，采用区间递增取极大值的方法选取最适合场景的聚类数目K使得每个类别群的平均数据相似度ADS最大；

步骤五，得到数据模板，并检验准确度，在准确度不大于阈值时进行数据模板自修正；

步骤六，生成规则模板，利用规则模板解析传感器信息；

步骤七，新加入的数据占总数据达到比例时，系统自动检验数据集聚类准确度，根据数据集聚类准确度对数据进行清洗或回溯优化信息模板库。

进一步，所述元数据初始化C-TF-IDF测量器步骤具体包括：

(1)对一条传感器数据，字符串部分出现频率高的相同部分是高权重的，数字部分出现频率低的不同部分是高权重的，两者结合共同代表一条数据的高权重部分；对字符串部分采用正向文件频率，相同部分权重较高；而数字部分则采用逆向文件频率，相同部分权重较低；

(2)将每一条数据划成一行，每一行在后续的计算中都当做一个文档，对每一个文档中的词分别做距离计算处理，实现对海量异构传感器数据的区别标记；

(3)分别计算传感器数据中的字符部分的权重W_s和数值部分的权重W_n，将W_s和W_n按权重结合得出该条数据的总权重W。

进一步，所述字符串数据的相似度比较算法具体包括：

(1)初始化一个矩阵data[i][j]，i∈[0,str.length()]，j∈[0,target.lenth()]使第一行和列的值从0开始增量递加，i变量代表被比较字符串str索引，j变量代表target字符串索引，该矩阵中定义临时变量temp来记录两个字符串的相同字符数量，相同是temp＝0，不同时temp＝1；

(2)依次遍历目标字符串str，使其与target字符串进行匹配标记，i与j变量在两个数据字符串上遍历。每次匹配到相同的字符，就做标记；str_i＝target_j，将临时变量temp标记为0；然后在矩阵data[i][j]赋值，该值是data[i-1][j]+1，data[i][j-1]+1，data[i-1][j-1]+temp三者之中的最小值；

(3)每完成一次循环就标记最小增量，获得data[str.length][target.length]的增量标记compare(str,target)，该增量标记是标记出了两个串不同的部分，最终计算相似度是需要除去不相同的部分，计算字符串的相似度公式如下(DS∈[0,1])：

进一步，所述区间递增取极大值选取聚类数目K具体包括：

(1)确定

准确度使用ADS进行比较；

(2)当ADS(K_i)＞＞ADS(K_j)，

时，取K＝K_i，则此K值即为所求；ADS(K_i)≈ADS(K_j)，

i＜j；

表示数据集划分为相近种类的子数据集，取K＝K_i；

取K＝K_j。

进一步，所述平均数据相似度ADS的计算具体包括：

(1)令每个类别群中第一条数据作为target数据；

(2)计算该数据与所属类别群中其他数据间的相似度，其平均值作为所属类别群的相似度考量，计算公式，docNum代表数据的数目：

进一步，所述数据模板自修正具体包括：

(1)计算各个类别中数据相似度DS小于0.9的数目docNum(DS＜0.9)；

(2)阈值t，对信息模板库调整优化的条件为：

本发明的另一目的在于提供一种所述海量异构传感器格式数据的解析方法的海量异构传感器格式数据的解析系统，所述海量异构传感器格式数据的解析系统包括：

元数据的输入模块，数据集为真实环境下收集的数据；

初始化C-TF-IDF测量器模块，对原始数据进行不同权重的标识，达到对不同数据的区分处理；

数据聚类处理模块，对各类数据进行聚类处理，数据集中的数据类别区分出来；

生成数据模板和规则模板，对规则进行持久化处理，对之后接收到的传感器数据直接处理；

模板的迭代优化模快，根据收集到的数据对整个系统进行动态的更新优化，避免接收到新格式数据无法处理。

本发明的另一目的在于提供一种应用所述海量异构传感器格式数据的解析方法的物联网平台。

本发明的另一目的在于提供一种应用所述海量异构传感器格式数据的解析方法的异构传感器。

综上所述，本发明的优点及积极效果为：本发明步骤简明，在几十T的数据量下，相比现有技术，本发明的方法可以使计算量减少70％；另一方面，解析数据的正确率达到了95％。本发明提出的海量异构传感器数据的解析方法无需人工参与，通过系统自身的动态调整，可以使得数据的解析正确率始终保持在95％以上。当有新型格式的传感器传入时，系统会通过回溯优化的方法得到该类数据的规则模板。对于实时有数据产生的物联网，现有技术都不能做到实时处理的要求，本发明的方法可以在很小的计算量下很好地解决海量异构传感器数据自动解析和实时处理的问题。

附图说明

图1是本发明实施例提供的海量异构传感器格式数据的解析方法流程图。

图2是本发明实施例提供的海量异构传感器数据的聚类抽取解析方法实现流程图。

图3是本发明实施例提供的K-Means算法输入数据结构示意图。

图4是本发明实施例提供的K-Means算法收敛过程示意图。

图5是本发明实施例提供的数据模板自修正示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明经实际的使用，对传入的传感器数据的解析正确率达到了95％。

图1所示，本发明实施例提供的海量异构传感器格式数据的解析方法包括以下步骤：

S301：在真实应用环境下收集大量的传感器数据作为元数据；

S302：使用元数据初始化C-TF-IDF(Classified-Term Frequency-InverseDocumentFrequency)测量器；

S303：设计一种字符串数据的相似度比较算法；

S304：使用K-Means算法，采用区间递增取极大值的方法选取最适合场景的聚类数目K使得每个类别群的平均数据相似度ADS(Average Data Similarity)最大；

S305：得到数据模板，并检验其准确度，在准确度不大于阈值时进行数据模板自修正；

S306：生成规则模板，可以利用规则模板解析传感器信息；

S307：新加入的数据占总数据达到一定比例时，系统自动检验数据集聚类准确度，根据数据集聚类准确度对数据进行清洗或回溯优化信息模板库。

本发明实施例的元数据初始化C-TF-IDF测量器步骤如下：

步骤一，对一条传感器数据，字符串部分出现频率高的相同部分是高权重的，数字部分出现频率低的不同部分是高权重的，两者结合共同代表一条数据的高权重部分；对字符串部分采用正向文件频率，相同部分权重较高；而数字部分则采用逆向文件频率，相同部分权重较低；

步骤二，鉴于传感器数据的格式特殊性，将每一条数据划成一行，每一行在后续的计算中都当做一个文档，对每一个文档中的词分别做距离计算处理，实现对海量异构传感器数据的区别标记；

步骤三，分别计算传感器数据中的字符部分的权重W_s和数值部分的权重W_n，然后将W_s和W_n按一定的权重结合起来得出该条数据的总权重W。

本发明的字符串数据的相似度比较算法的步骤如下：

步骤一，初始化一个矩阵data[i][j]，i∈[0,str.length()]，j∈[0,target.lenth()]使第一行和列的值从0开始增量递加，i变量代表被比较字符串str索引，j变量代表target字符串索引，该矩阵中定义临时变量temp来记录两个字符串的相同字符数量，相同是temp＝0，不同时temp＝1；

步骤二，依次遍历目标字符串str，使其与target字符串进行匹配标记，i与j变量在两个数据字符串上遍历。每次匹配到相同的字符，就做标记。如果str_i＝target_j，将临时变量temp标记为0；然后在矩阵data[i][j]赋值，该值是data[i-1][j]+1，data[i][j-1]+1，data[i-1][j-1]+temp三者之中的最小值；

步骤三，每完成一次循环就标记最小增量，最终获得data[str.length][target.length]的增量标记compare(str,target)，该增量标记是标记出了两个串不同的部分，最终计算相似度是需要除去不相同的部分。最后计算字符串的相似度公式如下(DS∈[0,1])：

本发明的区间递增取极大值选取聚类数目K的步骤如下：

步骤一，确定

准确度使用ADS进行比较；

步骤二，当ADS(K_i)＞＞ADS(K_j)，

时，取K＝K_i，则此K值即为所求。若ADS(K_i)≈ADS(K_j)，

(i＜j)；则分以下2种情况讨论：1.

表示数据集可以划分为相近种类的子数据集，则取K＝K_i；2.

则取K＝K_j。

本发明的平均数据相似度ADS的计算步骤如下：

步骤一，令每个类别群中第一条数据作为target数据；

步骤二，计算该数据与所属类别群中其他数据间的相似度，其平均值即可作为所属类别群的相似度考量，计算公式如下(docNum代表数据的数目)：

本发明的数据模板自修正的步骤如下：

步骤一，计算各个类别中数据相似度DS小于0.9的数目docNum(DS＜0.9)；

步骤二，设定阈值t，对信息模板库调整优化的条件为：

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明实施例提供的海量异构传感器数据的聚类抽取解析方法包括以下步骤：

S101：收集真实使用环境下的各类传感器数据，并将其作为元数据输入，用于初始化系统；

S102：C-TF-IDF测量器，用于对每项数据进行权重的评判；然后把具有权重的数据输入到S103，S103模块使用K-Means算法对数据集进行聚类了，生成数据模板S104；

对聚类结果进行准确度测量，如果准确度不大于阈值则进入S105，数据模板进行自修正；否则生成规则模板S106；

使用规则模板对传感器数据进行信息抽取操作，从而解析出传感器数据真实信息；同时计算新收集的数据占总数据的比例，如果该比例超过设定的阈值，则使用模块S108计算出数据集的准确度。如果准确度大于阈值，则清除数据集中的脏数据；否则进入模板S109，用现阶段的数据集对C-TF-IDF进行重新初始化。

如图3所示，对于模块S103输入的数据集结构为二维数组，图4为模块S103的模拟工作图；

如图5所示，数据模块的自修正包括以下步骤：

S201：模板获取模块，使用大量的样本数据对模板获取模块S201进行初始化；

S202：数据模板，通过S201模板获得数据聚类结果从而生成模板S202，该模板主要用来提取数据类别中的解析规则；

S203：信息抽取模块，该模块可以对实时输入的传感器数据进行正确的解析，从而获得数据中的真实信息；

S204:准确度检验，为了解析新的传感器数据格式和处理一些损坏的脏数据，准确度检验模块可以在一定条件下检验数据聚类的效果，从而做出相应的操作。

本发明的物联网传感器数据解析系统包括：

元数据的输入模块，数据集为真实环境下收集的数据；

初始化C-TF-IDF测量器模块，该模块的作用主要在于对原始数据进行不同权重的标识，从而达到对不同数据的区分处理；

数据聚类处理模块，对各类数据进行聚类处理，可以数据集中的数据类别区分出来；

生成数据模板和规则模板，对规则进行持久化处理，对之后接收到的传感器数据可以直接处理，加快解析速度；

模板的迭代优化模快，可以根据收集到的数据对整个系统进行动态的更新优化，避免接收到新格式数据无法处理的问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种海量异构传感器格式数据的解析方法，其特征在于，所述海量异构传感器格式数据的解析方法收集传感器数据，初始化C-TF-IDF测量器，使用K-Means算法对数据进行聚；数据模板自修正，利用规则模板解析传感器信息模块，根据数据集聚类准确度对脏数据进行清洗或回溯优化信息模板库；

所述海量异构传感器格式数据的解析方法包括以下步骤：

步骤一，收集大量的传感器数据作为元数据；

步骤二，使用元数据初始化C-TF-IDF测量器；

步骤三，确定字符串数据的相似度比较算法；

步骤六，生成规则模板，利用规则模板解析传感器信息；

步骤七，新加入的数据占总数据达到比例时，系统自动检验数据集聚类准确度，根据数据集聚类准确度对数据进行清洗优化信息模板库；

所述元数据初始化C-TF-IDF测量器步骤具体包括：

(1)对一条传感器数据，字符串部分出现频率高的相同部分是高权重的，数字部分出现频率低的不同部分是高权重的，两者结合共同代表一条数据的高权重部分；对字符串部分采用正向文件频率，相同部分权重高；而数字部分则采用逆向文件频率，相同部分权重低；

2.如权利要求1所述的海量异构传感器格式数据的解析方法，其特征在于，所述字符串数据的相似度比较算法具体包括：

(2)依次遍历目标字符串str，使其与target字符串进行匹配标记，i与j变量在两个数据字符串上遍历；次匹配到相同的字符，就做标记；str_i＝target_j，将临时变量temp标记为0；然后在矩阵data[i][j]赋值，该值是data[i-1][j]+1，data[i][j-1]+1，data[i-1][j-1]+temp三者之中的最小值；