CN108763289A - 一种海量异构传感器格式数据的解析方法 - Google Patents
一种海量异构传感器格式数据的解析方法 Download PDFInfo
- Publication number
- CN108763289A CN108763289A CN201810333797.5A CN201810333797A CN108763289A CN 108763289 A CN108763289 A CN 108763289A CN 201810333797 A CN201810333797 A CN 201810333797A CN 108763289 A CN108763289 A CN 108763289A
- Authority
- CN
- China
- Prior art keywords
- data
- sensor
- template
- analytic method
- heterogeneous sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Abstract
本发明属于物联网技术领域,公开了一种海量异构传感器格式数据的解析方法,初始化C‑TF‑IDF测量器模块,使用K‑Means算法对数据进行聚类模块,数据模板模块,利用规则模板解析传感器信息模块,根据数据集聚类准确度对脏数据进行清洗或回溯优化信息模板库模块。本发明可以满足物联网传感器数据实时处理的需求,并且针对数据集动态变化的特点,融合自修正模块,自动过滤脏数据或者生成新的解析规则;实现解析传感器数据准确度大于95%;可以选择清洗数据集中的脏数据或回溯优化规则模板。本发明可以达到自动解析其信息的效果;对于不同的传感器环境,通过调节准确度和自修正参数来使系统在不同的环境下达到一个综合的最佳效果。
Description
技术领域
本发明属于物联网技术领域,尤其涉及一种海量异构传感器格式数据的解析方法。
背景技术
目前,业内常用的现有技术是这样的:面对各行各业不同环境下的物联网应用,物联网平台会接入各种不同厂商所提供的传感器设备,而传感器设备发送的数据包格式都不尽相同。为了解析这些异构传感器数据,需要人工设定解析规则,从而将每条数据中的可用信息提取出来。当传感器数据量庞大,异构数据大量混合传入时;如果单纯地依靠人工编写每类数据的解析规则,那么平台将很难满足广大用户的需求,并且对于平台也是一个很大的人工耗损。为了解决这个问题,现有的物联网平台都制定了传感器数据的格式,平台接收到的数据都具有统一的字段含义。这种方法较为简便,但同时也限定了传感器数据格式的多样性,所以通过限制接入的传感器设备数据格式的方法并不能有效地解决传感器数据海量异构的问题。综上所述,现有的技术存在的问题是:面对海量异构传感器数据,只能通过人工设定其解析规则,没有实现对海量异构传感器数据的自动抽取和解析。技术问题不能得到解决的原因:1传感器数据封装格式类别的多样性,以及新的数据封装格式的传感器的接入;2传感器数据量庞大,没法使用人工识别每条数据的解析规则;3数据集是实时更新的,不是一个固定的数据集。
综上所述,现有技术存在的问题是::面对海量异构传感器数据,只能通过人工设定其解析规则,没有实现对海量异构传感器数据的自动抽取和解析。
解决上述技术问题的难度和意义:技术问题不能得到解决的原因:传感器数据封装格式类别的多样性,以及新的数据封装格式的传感器的接入;传感器数据量庞大,没法使用人工识别每条数据的解析规则;数据集是实时更新的,不是一个固定的数据集。
发明内容
针对现有技术存在的问题,本发明提供了一种海量异构传感器格式数据的解析方法。
本发明是这样实现的,一种海量异构传感器格式数据的解析方法,所述海量异构传感器格式数据的解析方法收集传感器数据,初始化C-TF-IDF测量器,使用K-Means算法对数据进行聚;数据模板自修正,利用规则模板解析传感器信息模块,根据数据集聚类准确度对脏数据进行清洗或回溯优化信息模板库。
进一步,所述海量异构传感器格式数据的解析方法包括以下步骤:
步骤一,收集大量的传感器数据作为元数据;
步骤二,使用元数据初始化C-TF-IDF测量器;
步骤三,确定字符串数据的相似度比较算法;
步骤四,使用K-Means算法,采用区间递增取极大值的方法选取最适合场景的聚类数目K使得每个类别群的平均数据相似度ADS最大;
步骤五,得到数据模板,并检验准确度,在准确度不大于阈值时进行数据模板自修正;
步骤六,生成规则模板,利用规则模板解析传感器信息;
步骤七,新加入的数据占总数据达到比例时,系统自动检验数据集聚类准确度,根据数据集聚类准确度对数据进行清洗或回溯优化信息模板库。
进一步,所述元数据初始化C-TF-IDF测量器步骤具体包括:
(1)对一条传感器数据,字符串部分出现频率高的相同部分是高权重的,数字部分出现频率低的不同部分是高权重的,两者结合共同代表一条数据的高权重部分;对字符串部分采用正向文件频率,相同部分权重较高;而数字部分则采用逆向文件频率,相同部分权重较低;
(2)将每一条数据划成一行,每一行在后续的计算中都当做一个文档,对每一个文档中的词分别做距离计算处理,实现对海量异构传感器数据的区别标记;
(3)分别计算传感器数据中的字符部分的权重Ws和数值部分的权重Wn,将Ws和Wn按权重结合得出该条数据的总权重W。
进一步,所述字符串数据的相似度比较算法具体包括:
(1)初始化一个矩阵data[i][j],i∈[0,str.length()],j∈[0,target.lenth()]使第一行和列的值从0开始增量递加,i变量代表被比较字符串str索引,j变量代表target字符串索引,该矩阵中定义临时变量temp来记录两个字符串的相同字符数量,相同是temp=0,不同时temp=1;
(2)依次遍历目标字符串str,使其与target字符串进行匹配标记,i与j变量在两个数据字符串上遍历。每次匹配到相同的字符,就做标记;stri=targetj,将临时变量temp标记为0;然后在矩阵data[i][j]赋值,该值是data[i-1][j]+1,data[i][j-1]+1,data[i-1][j-1]+temp三者之中的最小值;
(3)每完成一次循环就标记最小增量,获得data[str.length][target.length]的增量标记compare(str,target),该增量标记是标记出了两个串不同的部分,最终计算相似度是需要除去不相同的部分,计算字符串的相似度公式如下(DS∈[0,1]):
进一步,所述区间递增取极大值选取聚类数目K具体包括:
(1)确定准确度使用ADS进行比较;
(2)当ADS(Ki)>>ADS(Kj),时,取K=Ki,则此K值即为所求;ADS(Ki)≈ADS(Kj),i<j;表示数据集划分为相近种类的子数据集,取K=Ki;取K=Kj。
进一步,所述平均数据相似度ADS的计算具体包括:
(1)令每个类别群中第一条数据作为target数据;
(2)计算该数据与所属类别群中其他数据间的相似度,其平均值作为所属类别群的相似度考量,计算公式,docNum代表数据的数目:
进一步,所述数据模板自修正具体包括:
(1)计算各个类别中数据相似度DS小于0.9的数目docNum(DS<0.9);
(2)阈值t,对信息模板库调整优化的条件为:
本发明的另一目的在于提供一种所述海量异构传感器格式数据的解析方法的海量异构传感器格式数据的解析系统,所述海量异构传感器格式数据的解析系统包括:
元数据的输入模块,数据集为真实环境下收集的数据;
初始化C-TF-IDF测量器模块,对原始数据进行不同权重的标识,达到对不同数据的区分处理;
数据聚类处理模块,对各类数据进行聚类处理,数据集中的数据类别区分出来;
生成数据模板和规则模板,对规则进行持久化处理,对之后接收到的传感器数据直接处理;
模板的迭代优化模快,根据收集到的数据对整个系统进行动态的更新优化,避免接收到新格式数据无法处理。
本发明的另一目的在于提供一种应用所述海量异构传感器格式数据的解析方法的物联网平台。
本发明的另一目的在于提供一种应用所述海量异构传感器格式数据的解析方法的异构传感器。
综上所述,本发明的优点及积极效果为:本发明步骤简明,在几十T的数据量下,相比现有技术,本发明的方法可以使计算量减少70%;另一方面,解析数据的正确率达到了95%。本发明提出的海量异构传感器数据的解析方法无需人工参与,通过系统自身的动态调整,可以使得数据的解析正确率始终保持在95%以上。当有新型格式的传感器传入时,系统会通过回溯优化的方法得到该类数据的规则模板。对于实时有数据产生的物联网,现有技术都不能做到实时处理的要求,本发明的方法可以在很小的计算量下很好地解决海量异构传感器数据自动解析和实时处理的问题。
附图说明
图1是本发明实施例提供的海量异构传感器格式数据的解析方法流程图。
图2是本发明实施例提供的海量异构传感器数据的聚类抽取解析方法实现流程图。
图3是本发明实施例提供的K-Means算法输入数据结构示意图。
图4是本发明实施例提供的K-Means算法收敛过程示意图。
图5是本发明实施例提供的数据模板自修正示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明经实际的使用,对传入的传感器数据的解析正确率达到了95%。
图1所示,本发明实施例提供的海量异构传感器格式数据的解析方法包括以下步骤:
S301:在真实应用环境下收集大量的传感器数据作为元数据;
S302:使用元数据初始化C-TF-IDF(Classified-Term Frequency-InverseDocumentFrequency)测量器;
S303:设计一种字符串数据的相似度比较算法;
S304:使用K-Means算法,采用区间递增取极大值的方法选取最适合场景的聚类数目K使得每个类别群的平均数据相似度ADS(Average Data Similarity)最大;
S305:得到数据模板,并检验其准确度,在准确度不大于阈值时进行数据模板自修正;
S306:生成规则模板,可以利用规则模板解析传感器信息;
S307:新加入的数据占总数据达到一定比例时,系统自动检验数据集聚类准确度,根据数据集聚类准确度对数据进行清洗或回溯优化信息模板库。
本发明实施例的元数据初始化C-TF-IDF测量器步骤如下:
步骤一,对一条传感器数据,字符串部分出现频率高的相同部分是高权重的,数字部分出现频率低的不同部分是高权重的,两者结合共同代表一条数据的高权重部分;对字符串部分采用正向文件频率,相同部分权重较高;而数字部分则采用逆向文件频率,相同部分权重较低;
步骤二,鉴于传感器数据的格式特殊性,将每一条数据划成一行,每一行在后续的计算中都当做一个文档,对每一个文档中的词分别做距离计算处理,实现对海量异构传感器数据的区别标记;
步骤三,分别计算传感器数据中的字符部分的权重Ws和数值部分的权重Wn,然后将Ws和Wn按一定的权重结合起来得出该条数据的总权重W。
本发明的字符串数据的相似度比较算法的步骤如下:
步骤一,初始化一个矩阵data[i][j],i∈[0,str.length()],j∈[0,target.lenth()]使第一行和列的值从0开始增量递加,i变量代表被比较字符串str索引,j变量代表target字符串索引,该矩阵中定义临时变量temp来记录两个字符串的相同字符数量,相同是temp=0,不同时temp=1;
步骤二,依次遍历目标字符串str,使其与target字符串进行匹配标记,i与j变量在两个数据字符串上遍历。每次匹配到相同的字符,就做标记。如果stri=targetj,将临时变量temp标记为0;然后在矩阵data[i][j]赋值,该值是data[i-1][j]+1,data[i][j-1]+1,data[i-1][j-1]+temp三者之中的最小值;
步骤三,每完成一次循环就标记最小增量,最终获得data[str.length][target.length]的增量标记compare(str,target),该增量标记是标记出了两个串不同的部分,最终计算相似度是需要除去不相同的部分。最后计算字符串的相似度公式如下(DS∈[0,1]):
本发明的区间递增取极大值选取聚类数目K的步骤如下:
步骤一,确定准确度使用ADS进行比较;
步骤二,当ADS(Ki)>>ADS(Kj),时,取K=Ki,则此K值即为所求。若ADS(Ki)≈ADS(Kj),(i<j);则分以下2种情况讨论:1.表示数据集可以划分为相近种类的子数据集,则取K=Ki;2.则取K=Kj。
本发明的平均数据相似度ADS的计算步骤如下:
步骤一,令每个类别群中第一条数据作为target数据;
步骤二,计算该数据与所属类别群中其他数据间的相似度,其平均值即可作为所属类别群的相似度考量,计算公式如下(docNum代表数据的数目):
本发明的数据模板自修正的步骤如下:
步骤一,计算各个类别中数据相似度DS小于0.9的数目docNum(DS<0.9);
步骤二,设定阈值t,对信息模板库调整优化的条件为:
下面结合附图对本发明的应用原理作进一步的描述。
如图2所示,本发明实施例提供的海量异构传感器数据的聚类抽取解析方法包括以下步骤:
S101:收集真实使用环境下的各类传感器数据,并将其作为元数据输入,用于初始化系统;
S102:C-TF-IDF测量器,用于对每项数据进行权重的评判;然后把具有权重的数据输入到S103,S103模块使用K-Means算法对数据集进行聚类了,生成数据模板S104;
对聚类结果进行准确度测量,如果准确度不大于阈值则进入S105,数据模板进行自修正;否则生成规则模板S106;
使用规则模板对传感器数据进行信息抽取操作,从而解析出传感器数据真实信息;同时计算新收集的数据占总数据的比例,如果该比例超过设定的阈值,则使用模块S108计算出数据集的准确度。如果准确度大于阈值,则清除数据集中的脏数据;否则进入模板S109,用现阶段的数据集对C-TF-IDF进行重新初始化。
如图3所示,对于模块S103输入的数据集结构为二维数组,图4为模块S103的模拟工作图;
如图5所示,数据模块的自修正包括以下步骤:
S201:模板获取模块,使用大量的样本数据对模板获取模块S201进行初始化;
S202:数据模板,通过S201模板获得数据聚类结果从而生成模板S202,该模板主要用来提取数据类别中的解析规则;
S203:信息抽取模块,该模块可以对实时输入的传感器数据进行正确的解析,从而获得数据中的真实信息;
S204:准确度检验,为了解析新的传感器数据格式和处理一些损坏的脏数据,准确度检验模块可以在一定条件下检验数据聚类的效果,从而做出相应的操作。
本发明的物联网传感器数据解析系统包括:
元数据的输入模块,数据集为真实环境下收集的数据;
初始化C-TF-IDF测量器模块,该模块的作用主要在于对原始数据进行不同权重的标识,从而达到对不同数据的区分处理;
数据聚类处理模块,对各类数据进行聚类处理,可以数据集中的数据类别区分出来;
生成数据模板和规则模板,对规则进行持久化处理,对之后接收到的传感器数据可以直接处理,加快解析速度;
模板的迭代优化模快,可以根据收集到的数据对整个系统进行动态的更新优化,避免接收到新格式数据无法处理的问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种海量异构传感器格式数据的解析方法,其特征在于,所述海量异构传感器格式数据的解析方法收集传感器数据,初始化C-TF-IDF测量器,使用K-Means算法对数据进行聚;数据模板自修正,利用规则模板解析传感器信息模块,根据数据集聚类准确度对脏数据进行清洗或回溯优化信息模板库。
2.如权利要求1所述的海量异构传感器格式数据的解析方法,其特征在于,所述海量异构传感器格式数据的解析方法包括以下步骤:
步骤一,收集大量的传感器数据作为元数据;
步骤二,使用元数据初始化C-TF-IDF测量器;
步骤三,确定字符串数据的相似度比较算法;
步骤四,使用K-Means算法,采用区间递增取极大值的方法选取最适合场景的聚类数目K使得每个类别群的平均数据相似度ADS最大;
步骤五,得到数据模板,并检验准确度,在准确度不大于阈值时进行数据模板自修正;
步骤六,生成规则模板,利用规则模板解析传感器信息;
步骤七,新加入的数据占总数据达到比例时,系统自动检验数据集聚类准确度,根据数据集聚类准确度对数据进行清洗或回溯优化信息模板库。
3.如权利要求2所述的海量异构传感器格式数据的解析方法,其特征在于,所述元数据初始化C-TF-IDF测量器步骤具体包括:
(1)对一条传感器数据,字符串部分出现频率高的相同部分是高权重的,数字部分出现频率低的不同部分是高权重的,两者结合共同代表一条数据的高权重部分;对字符串部分采用正向文件频率,相同部分权重较高;而数字部分则采用逆向文件频率,相同部分权重较低;
(2)将每一条数据划成一行,每一行在后续的计算中都当做一个文档,对每一个文档中的词分别做距离计算处理,实现对海量异构传感器数据的区别标记;
(3)分别计算传感器数据中的字符部分的权重Ws和数值部分的权重Wn,将Ws和Wn按权重结合得出该条数据的总权重W。
4.如权利要求2所述的海量异构传感器格式数据的解析方法,其特征在于,所述字符串数据的相似度比较算法具体包括:
(1)初始化一个矩阵data[i][j],i∈[0,str.length()],j∈[0,target.lenth()]使第一行和列的值从0开始增量递加,i变量代表被比较字符串str索引,j变量代表target字符串索引,该矩阵中定义临时变量temp来记录两个字符串的相同字符数量,相同是temp=0,不同时temp=1;
(2)依次遍历目标字符串str,使其与target字符串进行匹配标记,i与j变量在两个数据字符串上遍历;次匹配到相同的字符,就做标记;stri=targetj,将临时变量temp标记为0;然后在矩阵data[i][j]赋值,该值是data[i-1][j]+1,data[i][j-1]+1,data[i-1][j-1]+temp三者之中的最小值;
(3)每完成一次循环就标记最小增量,获得data[str.length][target.length]的增量标记compare(str,target),该增量标记是标记出了两个串不同的部分,最终计算相似度是需要除去不相同的部分,计算字符串的相似度公式如下(DS∈[0,1]):
5.如权利要求2所述的海量异构传感器格式数据的解析方法,其特征在于,所述区间递增取极大值选取聚类数目K具体包括:
(1)确定准确度使用ADS进行比较;
(2)当ADS(Ki)>>ADS(Kj),时,取K=Ki,则此K值即为所求;ADS(Ki)≈ADS(Kj),i<j;表示数据集划分为相近种类的子数据集,取K=Ki;取K=Kj。
6.如权利要求2所述的海量异构传感器格式数据的解析方法,其特征在于,所述平均数据相似度ADS的计算具体包括:
(1)令每个类别群中第一条数据作为target数据;
(2)计算该数据与所属类别群中其他数据间的相似度,其平均值作为所属类别群的相似度考量,计算公式,docNum代表数据的数目:
7.如权利要求2所述的海量异构传感器格式数据的解析方法,其特征在于,所述数据模板自修正具体包括:
(1)计算各个类别中数据相似度DS小于0.9的数目docNum(DS<0.9);
(2)阈值t,对信息模板库调整优化的条件为:
8.一种如权利要求1所述海量异构传感器格式数据的解析方法的海量异构传感器格式数据的解析系统,其特征在于,所述海量异构传感器格式数据的解析系统包括:
元数据的输入模块,数据集为真实环境下收集的数据;
初始化C-TF-IDF测量器模块,对原始数据进行不同权重的标识,达到对不同数据的区分处理;
数据聚类处理模块,对各类数据进行聚类处理,数据集中的数据类别区分出来;
生成数据模板和规则模板,对规则进行持久化处理,对之后接收到的传感器数据直接处理;
模板的迭代优化模快,根据收集到的数据对整个系统进行动态的更新优化,避免接收到新格式数据无法处理。
9.一种应用权利要求1~7任意一项所述海量异构传感器格式数据的解析方法的物联网平台。
10.一种应用权利要求1~7任意一项所述海量异构传感器格式数据的解析方法的异构传感器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810333797.5A CN108763289B (zh) | 2018-04-13 | 2018-04-13 | 一种海量异构传感器格式数据的解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810333797.5A CN108763289B (zh) | 2018-04-13 | 2018-04-13 | 一种海量异构传感器格式数据的解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763289A true CN108763289A (zh) | 2018-11-06 |
CN108763289B CN108763289B (zh) | 2021-11-23 |
Family
ID=64010621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810333797.5A Active CN108763289B (zh) | 2018-04-13 | 2018-04-13 | 一种海量异构传感器格式数据的解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763289B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083815A (zh) * | 2019-05-07 | 2019-08-02 | 中冶赛迪重庆信息技术有限公司 | 一种同义变量识别方法和系统 |
CN112256683A (zh) * | 2020-10-23 | 2021-01-22 | 贵州电网有限责任公司电力科学研究院 | 变电站自动化系统的信息治理方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294873A (zh) * | 2016-08-24 | 2017-01-04 | 北京互利科技有限公司 | 一种机器数据的分析装置及分析方法 |
US20170006135A1 (en) * | 2015-01-23 | 2017-01-05 | C3, Inc. | Systems, methods, and devices for an enterprise internet-of-things application development platform |
US20170055913A1 (en) * | 2015-08-27 | 2017-03-02 | Tata Consultancy Services Limited | System and method for determining information and outliers from sensor data |
CN106547915A (zh) * | 2016-11-29 | 2017-03-29 | 上海轻维软件有限公司 | 基于模型库的智能数据提取方法 |
CN106845526A (zh) * | 2016-12-29 | 2017-06-13 | 北京航天测控技术有限公司 | 一种基于大数据融合聚类分析的关联参数故障分类方法 |
CN107038506A (zh) * | 2017-05-09 | 2017-08-11 | 华东师范大学 | 一种工厂智能预警方法 |
CN107205016A (zh) * | 2017-04-18 | 2017-09-26 | 中国科学院计算技术研究所 | 物联网设备的检索方法 |
-
2018
- 2018-04-13 CN CN201810333797.5A patent/CN108763289B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170006135A1 (en) * | 2015-01-23 | 2017-01-05 | C3, Inc. | Systems, methods, and devices for an enterprise internet-of-things application development platform |
US20170055913A1 (en) * | 2015-08-27 | 2017-03-02 | Tata Consultancy Services Limited | System and method for determining information and outliers from sensor data |
CN106294873A (zh) * | 2016-08-24 | 2017-01-04 | 北京互利科技有限公司 | 一种机器数据的分析装置及分析方法 |
CN106547915A (zh) * | 2016-11-29 | 2017-03-29 | 上海轻维软件有限公司 | 基于模型库的智能数据提取方法 |
CN106845526A (zh) * | 2016-12-29 | 2017-06-13 | 北京航天测控技术有限公司 | 一种基于大数据融合聚类分析的关联参数故障分类方法 |
CN107205016A (zh) * | 2017-04-18 | 2017-09-26 | 中国科学院计算技术研究所 | 物联网设备的检索方法 |
CN107038506A (zh) * | 2017-05-09 | 2017-08-11 | 华东师范大学 | 一种工厂智能预警方法 |
Non-Patent Citations (5)
Title |
---|
PIYAPHOL PHOUNGPHOL: ""Multi-source kernel k-means for clustering heterogeneous biomedical data"", 《2011 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE WORKSHOPS (BIBMW)》 * |
WEIXIN_30663391: ""浅析异构数据抽取"", 《HTTPS://BLOG.CSDN.NET/WEIXIN_30663391/ARTICLE/DETAILS/95626340》 * |
李洋: ""面向中文产品评论数据的情感分析模型设计及评估"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
田野 等: ""物联网海量异构数据存储与共享策略研究"", 《电子学报》 * |
顾颀等: "互联网商品匹配算法", 《上海大学学报(自然科学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083815A (zh) * | 2019-05-07 | 2019-08-02 | 中冶赛迪重庆信息技术有限公司 | 一种同义变量识别方法和系统 |
CN112256683A (zh) * | 2020-10-23 | 2021-01-22 | 贵州电网有限责任公司电力科学研究院 | 变电站自动化系统的信息治理方法和装置 |
CN112256683B (zh) * | 2020-10-23 | 2022-09-16 | 贵州电网有限责任公司电力科学研究院 | 变电站自动化系统的信息治理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108763289B (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN106570179B (zh) | 一种面向评价性文本的核心实体识别方法及装置 | |
CN104317838B (zh) | 一种基于耦合鉴别性字典的跨媒体哈希索引方法 | |
CN107004141A (zh) | 对大样本组的高效标注 | |
CN108519971A (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
CN104820724A (zh) | 文本类教育资源知识点预测模型获得方法及模型应用方法 | |
CN109598307A (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN110365603A (zh) | 一种基于5g网络能力开放的自适应网络流量分类方法 | |
CN104199838B (zh) | 一种基于标签消歧的用户模型建构方法 | |
CN108280164A (zh) | 一种基于类别相关单词的短文本过滤与分类方法 | |
CN108763289A (zh) | 一种海量异构传感器格式数据的解析方法 | |
CN114419468A (zh) | 一种结合注意力机制和空间特征融合算法的水田分割方法 | |
CN114498619A (zh) | 一种风电功率预测方法及装置 | |
CN110019827A (zh) | 一种语料库生成方法、装置、设备和计算机存储介质 | |
CN114398891A (zh) | 基于日志关键词生成kpi曲线并标记波段特征的方法 | |
CN106484913A (zh) | 一种目标图片确定的方法以及服务器 | |
CN106503146A (zh) | 计算机文本的特征选择方法、分类特征选择方法及系统 | |
CN115801152B (zh) | 基于层次化transformer模型的WiFi动作识别方法 | |
CN113505863B (zh) | 基于级联均值向量综合评分的图片多级分类方法及系统 | |
CN109858507B (zh) | 一种应用于大气污染治理的多维时序数据的稀有子序列挖掘方法 | |
CN108762523A (zh) | 基于capsule网络的输入法输出字符预测方法 | |
CN109726738A (zh) | 基于迁移学习与属性熵加权模糊聚类的数据分类方法 | |
CN104573003B (zh) | 基于新闻主题信息检索的金融时间序列预测方法 | |
CN110413985B (zh) | 一种相关文本片段搜索方法及装置 | |
CN103092994B (zh) | 基于信息概念格矫正的svm文本自动分类方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |