CN108763289B - 一种海量异构传感器格式数据的解析方法 - Google Patents

一种海量异构传感器格式数据的解析方法 Download PDF

Info

Publication number
CN108763289B
CN108763289B CN201810333797.5A CN201810333797A CN108763289B CN 108763289 B CN108763289 B CN 108763289B CN 201810333797 A CN201810333797 A CN 201810333797A CN 108763289 B CN108763289 B CN 108763289B
Authority
CN
China
Prior art keywords
data
sensor
template
accuracy
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810333797.5A
Other languages
English (en)
Other versions
CN108763289A (zh
Inventor
沈玉龙
胡晓康
马冬洁
邬俊杰
马飞昊
张立
潘超杰
郝飞扬
常二慧
陈俊峰
郑佳伟
张欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201810333797.5A priority Critical patent/CN108763289B/zh
Publication of CN108763289A publication Critical patent/CN108763289A/zh
Application granted granted Critical
Publication of CN108763289B publication Critical patent/CN108763289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

本发明属于物联网技术领域,公开了一种海量异构传感器格式数据的解析方法,初始化C‑TF‑IDF测量器模块,使用K‑Means算法对数据进行聚类模块,数据模板模块,利用规则模板解析传感器信息模块,根据数据集聚类准确度对脏数据进行清洗或回溯优化信息模板库模块。本发明可以满足物联网传感器数据实时处理的需求,并且针对数据集动态变化的特点,融合自修正模块,自动过滤脏数据或者生成新的解析规则;实现解析传感器数据准确度大于95%;可以选择清洗数据集中的脏数据或回溯优化规则模板。本发明可以达到自动解析其信息的效果;对于不同的传感器环境,通过调节准确度和自修正参数来使系统在不同的环境下达到一个综合的最佳效果。

Description

一种海量异构传感器格式数据的解析方法
技术领域
本发明属于物联网技术领域,尤其涉及一种海量异构传感器格式数据的解析方法。
背景技术
目前,业内常用的现有技术是这样的:面对各行各业不同环境下的物联网应用,物联网平台会接入各种不同厂商所提供的传感器设备,而传感器设备发送的数据包格式都不尽相同。为了解析这些异构传感器数据,需要人工设定解析规则,从而将每条数据中的可用信息提取出来。当传感器数据量庞大,异构数据大量混合传入时;如果单纯地依靠人工编写每类数据的解析规则,那么平台将很难满足广大用户的需求,并且对于平台也是一个很大的人工耗损。为了解决这个问题,现有的物联网平台都制定了传感器数据的格式,平台接收到的数据都具有统一的字段含义。这种方法较为简便,但同时也限定了传感器数据格式的多样性,所以通过限制接入的传感器设备数据格式的方法并不能有效地解决传感器数据海量异构的问题。综上所述,现有的技术存在的问题是:面对海量异构传感器数据,只能通过人工设定其解析规则,没有实现对海量异构传感器数据的自动抽取和解析。技术问题不能得到解决的原因:1传感器数据封装格式类别的多样性,以及新的数据封装格式的传感器的接入;2传感器数据量庞大,没法使用人工识别每条数据的解析规则;3数据集是实时更新的,不是一个固定的数据集。
综上所述,现有技术存在的问题是::面对海量异构传感器数据,只能通过人工设定其解析规则,没有实现对海量异构传感器数据的自动抽取和解析。
解决上述技术问题的难度和意义:技术问题不能得到解决的原因:传感器数据封装格式类别的多样性,以及新的数据封装格式的传感器的接入;传感器数据量庞大,没法使用人工识别每条数据的解析规则;数据集是实时更新的,不是一个固定的数据集。
发明内容
针对现有技术存在的问题,本发明提供了一种海量异构传感器格式数据的解析方法。
本发明是这样实现的,一种海量异构传感器格式数据的解析方法,所述海量异构传感器格式数据的解析方法收集传感器数据,初始化C-TF-IDF测量器,使用K-Means算法对数据进行聚;数据模板自修正,利用规则模板解析传感器信息模块,根据数据集聚类准确度对脏数据进行清洗或回溯优化信息模板库。
进一步,所述海量异构传感器格式数据的解析方法包括以下步骤:
步骤一,收集大量的传感器数据作为元数据;
步骤二,使用元数据初始化C-TF-IDF测量器;
步骤三,确定字符串数据的相似度比较算法;
步骤四,使用K-Means算法,采用区间递增取极大值的方法选取最适合场景的聚类数目K使得每个类别群的平均数据相似度ADS最大;
步骤五,得到数据模板,并检验准确度,在准确度不大于阈值时进行数据模板自修正;
步骤六,生成规则模板,利用规则模板解析传感器信息;
步骤七,新加入的数据占总数据达到比例时,系统自动检验数据集聚类准确度,根据数据集聚类准确度对数据进行清洗或回溯优化信息模板库。
进一步,所述元数据初始化C-TF-IDF测量器步骤具体包括:
(1)对一条传感器数据,字符串部分出现频率高的相同部分是高权重的,数字部分出现频率低的不同部分是高权重的,两者结合共同代表一条数据的高权重部分;对字符串部分采用正向文件频率,相同部分权重较高;而数字部分则采用逆向文件频率,相同部分权重较低;
(2)将每一条数据划成一行,每一行在后续的计算中都当做一个文档,对每一个文档中的词分别做距离计算处理,实现对海量异构传感器数据的区别标记;
(3)分别计算传感器数据中的字符部分的权重Ws和数值部分的权重Wn,将Ws和Wn按权重结合得出该条数据的总权重W。
进一步,所述字符串数据的相似度比较算法具体包括:
(1)初始化一个矩阵data[i][j],i∈[0,str.length()],j∈[0,target.lenth()]使第一行和列的值从0开始增量递加,i变量代表被比较字符串str索引,j变量代表target字符串索引,该矩阵中定义临时变量temp来记录两个字符串的相同字符数量,相同是temp=0,不同时temp=1;
(2)依次遍历目标字符串str,使其与target字符串进行匹配标记,i与j变量在两个数据字符串上遍历。每次匹配到相同的字符,就做标记;stri=targetj,将临时变量temp标记为0;然后在矩阵data[i][j]赋值,该值是data[i-1][j]+1,data[i][j-1]+1,data[i-1][j-1]+temp三者之中的最小值;
(3)每完成一次循环就标记最小增量,获得data[str.length][target.length]的增量标记compare(str,target),该增量标记是标记出了两个串不同的部分,最终计算相似度是需要除去不相同的部分,计算字符串的相似度公式如下(DS∈[0,1]):
Figure BDA0001628653970000031
进一步,所述区间递增取极大值选取聚类数目K具体包括:
(1)确定
Figure BDA0001628653970000032
准确度使用ADS进行比较;
(2)当ADS(Ki)>>ADS(Kj),
Figure BDA0001628653970000033
时,取K=Ki,则此K值即为所求;ADS(Ki)≈ADS(Kj),
Figure BDA0001628653970000034
i<j;
Figure BDA0001628653970000035
表示数据集划分为相近种类的子数据集,取K=Ki
Figure BDA0001628653970000036
取K=Kj
进一步,所述平均数据相似度ADS的计算具体包括:
(1)令每个类别群中第一条数据作为target数据;
(2)计算该数据与所属类别群中其他数据间的相似度,其平均值作为所属类别群的相似度考量,计算公式,docNum代表数据的数目:
Figure BDA0001628653970000041
进一步,所述数据模板自修正具体包括:
(1)计算各个类别中数据相似度DS小于0.9的数目docNum(DS<0.9);
(2)阈值t,对信息模板库调整优化的条件为:
Figure BDA0001628653970000042
本发明的另一目的在于提供一种所述海量异构传感器格式数据的解析方法的海量异构传感器格式数据的解析系统,所述海量异构传感器格式数据的解析系统包括:
元数据的输入模块,数据集为真实环境下收集的数据;
初始化C-TF-IDF测量器模块,对原始数据进行不同权重的标识,达到对不同数据的区分处理;
数据聚类处理模块,对各类数据进行聚类处理,数据集中的数据类别区分出来;
生成数据模板和规则模板,对规则进行持久化处理,对之后接收到的传感器数据直接处理;
模板的迭代优化模快,根据收集到的数据对整个系统进行动态的更新优化,避免接收到新格式数据无法处理。
本发明的另一目的在于提供一种应用所述海量异构传感器格式数据的解析方法的物联网平台。
本发明的另一目的在于提供一种应用所述海量异构传感器格式数据的解析方法的异构传感器。
综上所述,本发明的优点及积极效果为:本发明步骤简明,在几十T的数据量下,相比现有技术,本发明的方法可以使计算量减少70%;另一方面,解析数据的正确率达到了95%。本发明提出的海量异构传感器数据的解析方法无需人工参与,通过系统自身的动态调整,可以使得数据的解析正确率始终保持在95%以上。当有新型格式的传感器传入时,系统会通过回溯优化的方法得到该类数据的规则模板。对于实时有数据产生的物联网,现有技术都不能做到实时处理的要求,本发明的方法可以在很小的计算量下很好地解决海量异构传感器数据自动解析和实时处理的问题。
附图说明
图1是本发明实施例提供的海量异构传感器格式数据的解析方法流程图。
图2是本发明实施例提供的海量异构传感器数据的聚类抽取解析方法实现流程图。
图3是本发明实施例提供的K-Means算法输入数据结构示意图。
图4是本发明实施例提供的K-Means算法收敛过程示意图。
图5是本发明实施例提供的数据模板自修正示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明经实际的使用,对传入的传感器数据的解析正确率达到了95%。
图1所示,本发明实施例提供的海量异构传感器格式数据的解析方法包括以下步骤:
S301:在真实应用环境下收集大量的传感器数据作为元数据;
S302:使用元数据初始化C-TF-IDF(Classified-Term Frequency-InverseDocumentFrequency)测量器;
S303:设计一种字符串数据的相似度比较算法;
S304:使用K-Means算法,采用区间递增取极大值的方法选取最适合场景的聚类数目K使得每个类别群的平均数据相似度ADS(Average Data Similarity)最大;
S305:得到数据模板,并检验其准确度,在准确度不大于阈值时进行数据模板自修正;
S306:生成规则模板,可以利用规则模板解析传感器信息;
S307:新加入的数据占总数据达到一定比例时,系统自动检验数据集聚类准确度,根据数据集聚类准确度对数据进行清洗或回溯优化信息模板库。
本发明实施例的元数据初始化C-TF-IDF测量器步骤如下:
步骤一,对一条传感器数据,字符串部分出现频率高的相同部分是高权重的,数字部分出现频率低的不同部分是高权重的,两者结合共同代表一条数据的高权重部分;对字符串部分采用正向文件频率,相同部分权重较高;而数字部分则采用逆向文件频率,相同部分权重较低;
步骤二,鉴于传感器数据的格式特殊性,将每一条数据划成一行,每一行在后续的计算中都当做一个文档,对每一个文档中的词分别做距离计算处理,实现对海量异构传感器数据的区别标记;
步骤三,分别计算传感器数据中的字符部分的权重Ws和数值部分的权重Wn,然后将Ws和Wn按一定的权重结合起来得出该条数据的总权重W。
本发明的字符串数据的相似度比较算法的步骤如下:
步骤一,初始化一个矩阵data[i][j],i∈[0,str.length()],j∈[0,target.lenth()]使第一行和列的值从0开始增量递加,i变量代表被比较字符串str索引,j变量代表target字符串索引,该矩阵中定义临时变量temp来记录两个字符串的相同字符数量,相同是temp=0,不同时temp=1;
步骤二,依次遍历目标字符串str,使其与target字符串进行匹配标记,i与j变量在两个数据字符串上遍历。每次匹配到相同的字符,就做标记。如果stri=targetj,将临时变量temp标记为0;然后在矩阵data[i][j]赋值,该值是data[i-1][j]+1,data[i][j-1]+1,data[i-1][j-1]+temp三者之中的最小值;
步骤三,每完成一次循环就标记最小增量,最终获得data[str.length][target.length]的增量标记compare(str,target),该增量标记是标记出了两个串不同的部分,最终计算相似度是需要除去不相同的部分。最后计算字符串的相似度公式如下(DS∈[0,1]):
Figure BDA0001628653970000071
本发明的区间递增取极大值选取聚类数目K的步骤如下:
步骤一,确定
Figure BDA0001628653970000072
准确度使用ADS进行比较;
步骤二,当ADS(Ki)>>ADS(Kj),
Figure BDA0001628653970000073
时,取K=Ki,则此K值即为所求。若ADS(Ki)≈ADS(Kj),
Figure BDA0001628653970000074
(i<j);则分以下2种情况讨论:1.
Figure BDA0001628653970000075
表示数据集可以划分为相近种类的子数据集,则取K=Ki;2.
Figure BDA0001628653970000076
则取K=Kj
本发明的平均数据相似度ADS的计算步骤如下:
步骤一,令每个类别群中第一条数据作为target数据;
步骤二,计算该数据与所属类别群中其他数据间的相似度,其平均值即可作为所属类别群的相似度考量,计算公式如下(docNum代表数据的数目):
Figure BDA0001628653970000077
本发明的数据模板自修正的步骤如下:
步骤一,计算各个类别中数据相似度DS小于0.9的数目docNum(DS<0.9);
步骤二,设定阈值t,对信息模板库调整优化的条件为:
Figure BDA0001628653970000081
下面结合附图对本发明的应用原理作进一步的描述。
如图2所示,本发明实施例提供的海量异构传感器数据的聚类抽取解析方法包括以下步骤:
S101:收集真实使用环境下的各类传感器数据,并将其作为元数据输入,用于初始化系统;
S102:C-TF-IDF测量器,用于对每项数据进行权重的评判;然后把具有权重的数据输入到S103,S103模块使用K-Means算法对数据集进行聚类了,生成数据模板S104;
对聚类结果进行准确度测量,如果准确度不大于阈值则进入S105,数据模板进行自修正;否则生成规则模板S106;
使用规则模板对传感器数据进行信息抽取操作,从而解析出传感器数据真实信息;同时计算新收集的数据占总数据的比例,如果该比例超过设定的阈值,则使用模块S108计算出数据集的准确度。如果准确度大于阈值,则清除数据集中的脏数据;否则进入模板S109,用现阶段的数据集对C-TF-IDF进行重新初始化。
如图3所示,对于模块S103输入的数据集结构为二维数组,图4为模块S103的模拟工作图;
如图5所示,数据模块的自修正包括以下步骤:
S201:模板获取模块,使用大量的样本数据对模板获取模块S201进行初始化;
S202:数据模板,通过S201模板获得数据聚类结果从而生成模板S202,该模板主要用来提取数据类别中的解析规则;
S203:信息抽取模块,该模块可以对实时输入的传感器数据进行正确的解析,从而获得数据中的真实信息;
S204:准确度检验,为了解析新的传感器数据格式和处理一些损坏的脏数据,准确度检验模块可以在一定条件下检验数据聚类的效果,从而做出相应的操作。
本发明的物联网传感器数据解析系统包括:
元数据的输入模块,数据集为真实环境下收集的数据;
初始化C-TF-IDF测量器模块,该模块的作用主要在于对原始数据进行不同权重的标识,从而达到对不同数据的区分处理;
数据聚类处理模块,对各类数据进行聚类处理,可以数据集中的数据类别区分出来;
生成数据模板和规则模板,对规则进行持久化处理,对之后接收到的传感器数据可以直接处理,加快解析速度;
模板的迭代优化模快,可以根据收集到的数据对整个系统进行动态的更新优化,避免接收到新格式数据无法处理的问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种海量异构传感器格式数据的解析方法,其特征在于,所述海量异构传感器格式数据的解析方法收集传感器数据,初始化C-TF-IDF测量器,使用K-Means算法对数据进行聚;数据模板自修正,利用规则模板解析传感器信息模块,根据数据集聚类准确度对脏数据进行清洗或回溯优化信息模板库;
所述海量异构传感器格式数据的解析方法包括以下步骤:
步骤一,收集大量的传感器数据作为元数据;
步骤二,使用元数据初始化C-TF-IDF测量器;
步骤三,确定字符串数据的相似度比较算法;
步骤四,使用K-Means算法,采用区间递增取极大值的方法选取最适合场景的聚类数目K使得每个类别群的平均数据相似度ADS最大;
步骤五,得到数据模板,并检验准确度,在准确度不大于阈值时进行数据模板自修正;
步骤六,生成规则模板,利用规则模板解析传感器信息;
步骤七,新加入的数据占总数据达到比例时,系统自动检验数据集聚类准确度,根据数据集聚类准确度对数据进行清洗优化信息模板库;
所述元数据初始化C-TF-IDF测量器步骤具体包括:
(1)对一条传感器数据,字符串部分出现频率高的相同部分是高权重的,数字部分出现频率低的不同部分是高权重的,两者结合共同代表一条数据的高权重部分;对字符串部分采用正向文件频率,相同部分权重高;而数字部分则采用逆向文件频率,相同部分权重低;
(2)将每一条数据划成一行,每一行在后续的计算中都当做一个文档,对每一个文档中的词分别做距离计算处理,实现对海量异构传感器数据的区别标记;
(3)分别计算传感器数据中的字符部分的权重Ws和数值部分的权重Wn,将Ws和Wn按权重结合得出该条数据的总权重W。
2.如权利要求1所述的海量异构传感器格式数据的解析方法,其特征在于,所述字符串数据的相似度比较算法具体包括:
(1)初始化一个矩阵data[i][j],i∈[0,str.length()],j∈[0,target.lenth()]使第一行和列的值从0开始增量递加,i变量代表被比较字符串str索引,j变量代表target字符串索引,该矩阵中定义临时变量temp来记录两个字符串的相同字符数量,相同是temp=0,不同时temp=1;
(2)依次遍历目标字符串str,使其与target字符串进行匹配标记,i与j变量在两个数据字符串上遍历;次匹配到相同的字符,就做标记;stri=targetj,将临时变量temp标记为0;然后在矩阵data[i][j]赋值,该值是data[i-1][j]+1,data[i][j-1]+1,data[i-1][j-1]+temp三者之中的最小值;
(3)每完成一次循环就标记最小增量,获得data[str.length][target.length]的增量标记compare(str,target),该增量标记是标记出了两个串不同的部分,最终计算相似度是需要除去不相同的部分,计算字符串的相似度公式如下(DS∈[0,1]):
Figure FDA0003302595150000021
3.如权利要求1所述的海量异构传感器格式数据的解析方法,其特征在于,所述区间递增取极大值选取聚类数目K具体包括:
(1)确定
Figure FDA0003302595150000022
准确度使用ADS进行比较;
(2)当
Figure FDA0003302595150000023
时,取K=Ki,则此K值即为所求;
Figure FDA0003302595150000024
Figure FDA0003302595150000025
表示数据集划分为相近种类的子数据集,取K=Ki
Figure FDA0003302595150000026
取K=Kj
4.如权利要求1所述的海量异构传感器格式数据的解析方法,其特征在于,所述平均数据相似度ADS的计算具体包括:
(1)令每个类别群中第一条数据作为target数据;
(2)计算该数据与所属类别群中其他数据间的相似度,其平均值作为所属类别群的相似度考量,计算公式,docNum代表数据的数目:
Figure FDA0003302595150000031
5.如权利要求1所述的海量异构传感器格式数据的解析方法,其特征在于,所述数据模板自修正具体包括:
(1)计算各个类别中数据相似度DS小于0.9的数目docNum(DS<0.9);
(2)阈值t,对信息模板库调整优化的条件为:
Figure FDA0003302595150000032
6.一种如权利要求1所述海量异构传感器格式数据的解析方法的海量异构传感器格式数据的解析系统,其特征在于,所述海量异构传感器格式数据的解析系统包括:
元数据的输入模块,数据集为真实环境下收集的数据;
初始化C-TF-IDF测量器模块,对原始数据进行不同权重的标识,达到对不同数据的区分处理;
数据聚类处理模块,对各类数据进行聚类处理,数据集中的数据类别区分出来;
生成数据模板和规则模板,对规则进行持久化处理,对之后接收到的传感器数据直接处理;
模板的迭代优化模块,根据收集到的数据对整个系统进行动态的更新优化,避免接收到新格式数据无法处理;
所述海量异构传感器格式数据的解析系统按照以下步骤执行:
步骤一,收集大量的传感器数据作为元数据;
步骤二,使用元数据初始化C-TF-IDF测量器;
步骤三,确定字符串数据的相似度比较算法;
步骤四,使用K-Means算法,采用区间递增取极大值的方法选取最适合场景的聚类数目K使得每个类别群的平均数据相似度ADS最大;
步骤五,得到数据模板,并检验准确度,在准确度不大于阈值时进行数据模板自修正;
步骤六,生成规则模板,利用规则模板解析传感器信息;
步骤七,新加入的数据占总数据达到比例时,系统自动检验数据集聚类准确度,根据数据集聚类准确度对数据进行清洗优化信息模板库;
所述元数据初始化C-TF-IDF测量器步骤具体包括:
(1)对一条传感器数据,字符串部分出现频率高的相同部分是高权重的,数字部分出现频率低的不同部分是高权重的,两者结合共同代表一条数据的高权重部分;对字符串部分采用正向文件频率,相同部分权重高;而数字部分则采用逆向文件频率,相同部分权重低;
(2)将每一条数据划成一行,每一行在后续的计算中都当做一个文档,对每一个文档中的词分别做距离计算处理,实现对海量异构传感器数据的区别标记;
(3)分别计算传感器数据中的字符部分的权重Ws和数值部分的权重Wn,将Ws和Wn按权重结合得出该条数据的总权重W。
7.一种应用权利要求1~5任意一项所述海量异构传感器格式数据的解析方法的物联网平台。
8.一种应用权利要求1~5任意一项所述海量异构传感器格式数据的解析方法的异构传感器。
CN201810333797.5A 2018-04-13 2018-04-13 一种海量异构传感器格式数据的解析方法 Active CN108763289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810333797.5A CN108763289B (zh) 2018-04-13 2018-04-13 一种海量异构传感器格式数据的解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810333797.5A CN108763289B (zh) 2018-04-13 2018-04-13 一种海量异构传感器格式数据的解析方法

Publications (2)

Publication Number Publication Date
CN108763289A CN108763289A (zh) 2018-11-06
CN108763289B true CN108763289B (zh) 2021-11-23

Family

ID=64010621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810333797.5A Active CN108763289B (zh) 2018-04-13 2018-04-13 一种海量异构传感器格式数据的解析方法

Country Status (1)

Country Link
CN (1) CN108763289B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083815B (zh) * 2019-05-07 2023-05-23 中冶赛迪信息技术(重庆)有限公司 一种同义变量识别方法和系统
CN112256683B (zh) * 2020-10-23 2022-09-16 贵州电网有限责任公司电力科学研究院 变电站自动化系统的信息治理方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294873A (zh) * 2016-08-24 2017-01-04 北京互利科技有限公司 一种机器数据的分析装置及分析方法
CN106547915A (zh) * 2016-11-29 2017-03-29 上海轻维软件有限公司 基于模型库的智能数据提取方法
CN106845526A (zh) * 2016-12-29 2017-06-13 北京航天测控技术有限公司 一种基于大数据融合聚类分析的关联参数故障分类方法
CN107038506A (zh) * 2017-05-09 2017-08-11 华东师范大学 一种工厂智能预警方法
CN107205016A (zh) * 2017-04-18 2017-09-26 中国科学院计算技术研究所 物联网设备的检索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016118979A2 (en) * 2015-01-23 2016-07-28 C3, Inc. Systems, methods, and devices for an enterprise internet-of-things application development platform
EP3136297A1 (en) * 2015-08-27 2017-03-01 Tata Consultancy Services Limited System and method for determining information and outliers from sensor data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294873A (zh) * 2016-08-24 2017-01-04 北京互利科技有限公司 一种机器数据的分析装置及分析方法
CN106547915A (zh) * 2016-11-29 2017-03-29 上海轻维软件有限公司 基于模型库的智能数据提取方法
CN106845526A (zh) * 2016-12-29 2017-06-13 北京航天测控技术有限公司 一种基于大数据融合聚类分析的关联参数故障分类方法
CN107205016A (zh) * 2017-04-18 2017-09-26 中国科学院计算技术研究所 物联网设备的检索方法
CN107038506A (zh) * 2017-05-09 2017-08-11 华东师范大学 一种工厂智能预警方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Multi-source kernel k-means for clustering heterogeneous biomedical data";Piyaphol Phoungphol;《2011 IEEE International Conference on Bioinformatics and Biomedicine Workshops (BIBMW)》;20111227;223-228 *
"浅析异构数据抽取";weixin_30663391;《https://blog.csdn.net/weixin_30663391/article/details/95626340》;20120314;1 *
"物联网海量异构数据存储与共享策略研究";田野 等;《电子学报》;20160215;247-256 *
"面向中文产品评论数据的情感分析模型设计及评估";李洋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180315(第03期);I138-2186 *
互联网商品匹配算法;顾颀等;《上海大学学报(自然科学版)》;20160226(第01期);58-68 *

Also Published As

Publication number Publication date
CN108763289A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
RU2648946C2 (ru) Способ и устройство распознавания категории объекта изображения
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN107169628B (zh) 一种基于大数据互信息属性约简的配电网可靠性评估方法
CN108229588B (zh) 一种基于深度学习的机器学习识别方法
CN107004141A (zh) 对大样本组的高效标注
CN112367273B (zh) 基于知识蒸馏的深度神经网络模型的流量分类方法及装置
CN108763289B (zh) 一种海量异构传感器格式数据的解析方法
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
CN111461121A (zh) 一种基于yolov3网络的电表示数识别方法
CN115099310A (zh) 训练模型、对企业进行行业分类的方法和装置
CN107463781B (zh) 用于高炉铁水硅含量预测模型的数据约简处理方法及装置
CN110197199B (zh) 嵌入式dcnn和边缘计算的裂解炉重管温度识别方法
CN105701501A (zh) 一种商标图像识别方法
CN110222814B (zh) 基于嵌入式dcnn的乙烯裂解炉炉管重管识别方法
CN115081485B (zh) 一种基于ai的漏磁内检测数据自动分析方法
CN108345943B (zh) 一种基于嵌入编码与对比学习的机器学习识别方法
CN115392375A (zh) 一种多源数据融合度智能评估方法及其系统
CN114860952A (zh) 一种基于数据统计和知识指导的图拓扑学习方法及系统
CN110095204B (zh) 一种乙烯裂解炉管温度诊断系统
CN107203755B (zh) 一种用于遥感图像时间序列标记样本自动增新的方法、装置和系统
CN111382787A (zh) 一种基于深度学习的目标检测方法
CN110597993A (zh) 一种微博热点话题数据挖掘方法
CN111626409B (zh) 一种图像质量检测的数据生成方法
CN109960929B (zh) 一种基于回归模型的零样本入侵检测方法
CN115080921B (zh) 一种基于审计敏感的改进的Top-k Dominating方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant