CN110019809B - 一种分类确定方法、装置及网络设备 - Google Patents

一种分类确定方法、装置及网络设备 Download PDF

Info

Publication number
CN110019809B
CN110019809B CN201810000872.6A CN201810000872A CN110019809B CN 110019809 B CN110019809 B CN 110019809B CN 201810000872 A CN201810000872 A CN 201810000872A CN 110019809 B CN110019809 B CN 110019809B
Authority
CN
China
Prior art keywords
document
classification
target
descriptor
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810000872.6A
Other languages
English (en)
Other versions
CN110019809A (zh
Inventor
温雅
李小涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810000872.6A priority Critical patent/CN110019809B/zh
Publication of CN110019809A publication Critical patent/CN110019809A/zh
Application granted granted Critical
Publication of CN110019809B publication Critical patent/CN110019809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种分类确定方法、装置及网络设备,涉及通信技术领域。该方法包括:获取设备记录数据中目标设备的至少一描述词;获取所述目标设备归属系统中每一产品的主题文档;根据所述描述词和所述主题文档,确定所述目标设备的描述文档的特征向量;其中所述描述文档包括所述至少一描述词;根据所述特征向量以及通过已分类设备的第一分类信息进行训练获得的分类模型,确定所述目标设备的第二分类信息。本发明的方案,通过建立设备描述信息与系统中产品主题间的关联度,为设备进行分类,提升设备分类的准确性。

Description

一种分类确定方法、装置及网络设备
技术领域
本发明涉及通信技术领域,特别是指一种分类确定方法、装置及网络设备。
背景技术
物联网设备是物联网实体中的主要组成部分。物联网平台是基于云和大数据技术,提供物联网设备接入云平台,实现云端管控,对传感器数据进行存储和分析,同时开放丰富的应用API((Application Programming Interface,应用程序编程接口)。平台存储的传感器数据以设备记录的形式存在。每条设备记录中的信息包括时间、位置、类别、传感器数据值等信息。为实现设备管控和数据分析,平台上的设备记录中有唯一的设备ID标识字段,并且可在不同维度上对设备进行分类。典型的,根据产品概念对设备分类,在设备记录中设置的PID标识字段作为产品类别标签,表示设备的从属产品类别。
为设备标识类别信息通常采用手动标注、半自动或自动标注方法。无论是手动标注或是自动标注方法,都存在标注信息不准确、设备误分类的情况。物联网数据平台具有接入设备种类多,实时、海量数据的特点。在基于物联网平台设备记录进行数据挖掘和分析时,标签和分类的准确性是重要前提,将直接影响数据分析结果的准确性甚至是方案决策。
发明内容
本发明的目的是提供一种分类确定方法、装置及网络设备,通过建立设备描述信息与系统中产品主题间的关联度,为设备进行分类,提升设备分类的准确性。
为达到上述目的,本发明的实施例提供一种分类确定方法,包括:
获取设备记录数据中目标设备的至少一描述词;
获取所述目标设备归属系统中每一产品的主题文档;
根据所述描述词和所述主题文档,确定所述目标设备的描述文档的特征向量;其中所述描述文档包括所述至少一描述词;
根据所述特征向量以及通过已分类设备的第一分类信息进行训练获得的分类模型,确定所述目标设备的第二分类信息。
其中,所述获取设备记录数据中目标设备的至少一描述词的步骤,包括:
查找对应所述目标设备的目标设备记录数据;
根据所述目标设备记录数据的数据格式,提取预设标识字段的信息,得到描述文档,所述描述文档包括至少一描述词。
其中,所述主题文档包括对应所述主题文档的产品中所有设备的描述文档;
所述根据所述描述词和所述主题文档,确定所述目标设备的描述文档的特征向量的步骤,包括:
基于信息检索与数据挖掘的常用加权TF-IDF,计算每一描述词的词向量;
根据所述词向量,得到描述文档的特征向量
其中,所述基于信息检索与数据挖掘的常用加权TF-IDF,计算每一描述词的词向量的步骤,包括:
根据公式
Figure BDA0001536960770000021
和公式
Figure BDA0001536960770000022
分别计算所述目标设备的第i个描述词wi的词频tfi,j和逆向文件频率idfi;其中,i∈(1,k),j∈(1,N),k表示描述文档中描述词的总数;N表示系统中产品分类的总数;pj表示第j个产品的主题文档,wk表示第k个描述词,count(wi,pj)表示wi在pj中出现的次数,∑kcount(wk,pj)表示所有描述词在pj中出现次数之和,|{j:wi∈pj}表示系统中包含wi的主题文档的个数;
根据公式v(wi,pj)=tfi,j×idfi,计算wi在pj中的权重
Figure BDA0001536960770000023
根据所得的wi在每个主题文档中的权重,确定wi的词向量
Figure BDA0001536960770000024
其中,所述根据所述词向量,得到描述文档的特征向量的步骤,包括:
根据特征向量计算公式
Figure BDA0001536960770000031
计算所述目标设备的描述文档的特征向量X;其中,tfidf(wi)=count(wi,DS目标)×idfi’,
Figure BDA0001536960770000032
DS目标表示目标设备的描述文档,count(wi,DS目标)表示wi在DS目标中出现的次数,m∈(1,M),M表示系统中所有设备的总数;|{m:wi∈DSm}|表示M个设备所对应的描述文档中包含wi的描述文档的数量;DSm表示第m个描述文档。
其中,所述根据所述特征向量以及通过已分类设备的第一分类信息进行训练获得的分类模型,确定所述目标设备的第二分类信息的步骤,包括:
将所述目标设备的特征向量输入所述分类模型;
根据所述分类模型的输出结果,得到所述目标设备的第二分类信息。
其中,所述方法还包括:
将所述输出结果中的检验标签与所述目标设备的初始标签比对;
若所述初始标签与所述检验标签相同,则确定分类正确;
若所述初始标签与所述检验标签不相同,则确定发生误分类。
为达到上述目的,本发明的实施例还提供了一种分类确定装置,包括:
第一获取模块,用于获取设备记录数据中目标设备的至少一描述词;
第二获取模块,用于获取所述目标设备归属系统中每一产品的主题文档;
第一确定模块,第一确定模块,用于根据所述描述词和所述主题文档,确定所述目标设备的描述文档的特征向量;其中所述描述文档包括所述至少一描述词;
第二确定模块,用于根据所述特征向量以及通过已分类设备的第一分类信息进行训练获得的分类模型,确定所述目标设备的第二分类信息。
其中,所述第一获取模块包括:
查找子模块,用于查找对应所述目标设备的目标设备记录数据;
第一处理子模块,用于根据所述目标设备记录数据的数据格式,提取预设标识字段的信息,得到描述文档,所述描述文档包括至少一描述词。
其中,所述主题文档包括对应所述主题文档的产品中所有设备的描述文档;
所述第一确定模块包括:
第二处理子模块,用于基于信息检索与数据挖掘的常用加权TF-IDF,计算每一描述词的词向量;
第三处理子模块,用于根据所述词向量,得到描述文档的特征向量。
为达到上述目的,本发明的实施例还提供了一种网络设备,包括收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述计算机程序时实现如上所述的分类确定方法。
为达到上述目的,本发明的实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的分类确定方法。
本发明的上述技术方案的有益效果如下:
本发明实施例的分类确定方法,将获取目标设备的至少一描述词以及系统中所有产品的主题文档,之后由获得的描述词和主题文档,确定出该目标设备的包括该至少一描述词的描述文档的特征向量,最后利用特征向量和基于训练集训练的分类模型,确定该目标设备的分类信息,实现对物联网设备更为准确的分类,提升设备分类的精确度。
附图说明
图1为本发明实施例的分类确定方法的流程图之一;
图2为本发明实施例的分类确定方法的流程图之二;
图3为本发明实施例的分类确定方法的流程图之三;
图4为本发明实施例的分类确定装置的结构图;
图5为本发明另一实施例的网络设备的结构图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的设备分类方法中存在注信息不准确、设备误分类的问题,提供了一种分类确定方法,通过建立设备描述信息与系统中产品主题间的关联度,为设备进行分类,提升设备分类的准确性。
如图1所示,本发明实施例的一种分类确定方法,包括:
步骤101,获取设备记录数据中目标设备的至少一描述词;
步骤102,获取所述目标设备归属系统中每一产品的主题文档;
步骤103,根据所述描述词和所述主题文档,确定所述目标设备的描述文档的特征向量;其中所述描述文档包括所述至少一描述词;
步骤104,根据所述特征向量以及通过已分类设备的第一分类信息进行训练获得的分类模型,确定所述目标设备的第二分类信息。
通过上述步骤,本发明实施例的分类确定方法,将获取目标设备的至少一描述词以及系统中所有产品的主题文档,之后由获得的描述词和主题文档,确定出该目标设备的描述文档的特征向量,最后利用特征向量和基于训练集训练的分类模型,确定该目标设备的分类信息,实现对物联网设备更为准确的分类,提升设备分类的精确度。
应该知道是,设备上传至物联网系统的设备记录数据按其存储特点可分为两种数据格式:短数据和长数据。为便于表述,数据中设置了各字段标识,如产品类别编号为pid,设备编号为did,设备记录的描述信息为ds,数值为v字段标识。因此,本发明实施例中,如图2所示,步骤101包括:
步骤201,查找对应所述目标设备的目标设备记录数据;
步骤202,根据所述目标设备记录数据的数据格式,提取预设标识字段的信息,得到描述文档,所述描述文档包括至少一描述词。
这里,首先将在系统大量的设备记录数据中,查找该目标设备的目标设备记录数据,然后根据该目标设备记录数据的数据格式,提取预设标识字段的信息,得到该目标设备的至少一描述词,而得到的所有描述词的集合即为描述文档。其中,为简化后续处理流程,并未将所有标识字段的信息都提取来作为设备的描述词,而是优选设备描述的关键字段作为预设标识字段。
例如,设备A在同一时间点上传的设备记录数据包含多个传感器数据,每个传感器数据由一个对应ds字段标识。一次上传的数据按不同ds字段存储为多条设备记录,如下所示:
{“pid”:3,“did”:7,”ds”:”temprerature”,“v”:20,“at”:”2017-01-01 12:00:01”}
{“pid”:3,“did”:7,”ds”:”huminity”,“v”:75,“at”:”2017-01-01 12:00:01”}
{“pid”:3,“did”:7,”ds”:”light”,“v”:0,“at”:”2017-01-01 12:00:01”}
设备B在同一时间点上传至系统的设备记录数据包含多个传感器数据但只存储为一条设备记录,由一个ds字段标识,在v字段中包含多对key-value键值对,分别表示各传感器数据的数值,如下所示:
{“pid”:5,“did”:11,”ds”:”dingwei”,
“v”:{“DTP”:1800,”DTT”:3600,“GPSstate”:2,”cid”:32031,“lac”:17698,“mcc”:460,“ss”:-47},“battery”:44,“gsm”:90,“type”:”LBS”,“at”:”2017-01-0112:00:01”}
在目标设备为设备A时,对于短数据预设标识字段为ds字段,则将pid、did值相同的设备记录数据中各ds字段集合作为设备A的描述文档:DS(pid=3,did=7)={temperature,huminity,light}。在目标设备为设备B时,对于长数据预设标识字段为ds字段与v字段,则将pid下的一个did中的ds字段与v字段中的key值组合得到的集合作为设备B的描述文档:DS(pid=5,did=11)={dingwei,DTP,DTT,cid,lac,mcc,ss,battery,gsm,LBS}。
该实施例中,每个设备对应的描述文档可表示为:DS(pid,did)={w1,w2,...,wk},其中,w1为第1个描述词,w2为第2个描述词,…,wk为第k个描述词,k表示该描述文档DS(pid,did)中描述词的总数。
还应该知道的是,主题文档是基于明确语义分析ESA算法对应系统中每一产品构建的,具体的,所述主题文档包括对应所述主题文档的产品中所有设备的描述文档;
如图3所示,步骤103包括:
步骤301,基于信息检索与数据挖掘的常用加权TF-IDF,计算每一描述词的词向量;
步骤302,根据所述词向量,得到描述文档的特征向量。
这里,主题文档与产品对应,若系统中有N个产品(系统设置的产品种类),其中产品j共包括Q个设备,则基于这Q个设备的描述文档,产品j的主题文档:pj={DS1,DS2,...,DSq},则系统所有产品主题文档组成的主题文档集:P={p1,p2,...,pj,...,pN}。在获取到目标设备的每一描述词和每一产品的主题文档后,就能够先利用TF-IDF计算每一描述词的词向量,然后再根据词向量得到该目标设备描述文档的特征向量,建立起目标设备的描述文档与各产品主题间的关联度。
进一步具体的,所述基于信息检索与数据挖掘的常用加权TF-IDF,计算每一描述词的词向量的步骤,包括:
根据公式
Figure BDA0001536960770000071
和公式
Figure BDA0001536960770000072
分别计算所述目标设备的第i个描述词wi的词频tfi,j和逆向文件频率idfi;其中,i∈(1,k),j∈(1,N),k表示描述文档中描述词的总数;N表示系统中产品分类的总数;pj表示第j个产品的主题文档,wk表示第k个描述词,count(wi,pj)表示wi在pj中出现的次数,∑kcount(wk,pj)表示所有描述词在pj中出现次数之和,|{j:wi∈pj}表示系统中包含wi的主题文档的个数;
根据公式v(wi,pj)=tfi,j×idfi,计算wi在pj中的权重
Figure BDA0001536960770000073
根据所得的wi在每个主题文档中的权重,确定wi的词向量
Figure BDA0001536960770000074
该实施例中,词向量的分量为描述词在个主题文档中的权重。词向量表示每个描述词与各主题文档之间的关联程度,即反映出具有该种描述字段信息的设备属于某种产品的概率。以设备的第1个描述词w1与产品1的主题文档p1为例,假设p1中共有k个描述词,系统中有N个产品,生成词向量的具体过程如下:
第一步:由公式
Figure BDA0001536960770000075
计算w1的词频tf1,1;count(w1,p1)表示w1在p1中出现的次数,∑kcount(wk,p1)表示所有描述词w1,w2,...,wk在p1中出现次数之和。
第二步:由公式
Figure BDA0001536960770000081
计算w1的逆向文件频率idf1;N表示系统中产品分类的总数,|{j:w1∈pj}|表示系统中包含w1的主题文档的个数。
第三步:由公式v(w1,p1)=tf1,1×idf1计算w1在p1中的权重。
相应的,还能够计算出w1在p2,p3,…,pN中的权重,从而得到词向量
Figure BDA0001536960770000082
Figure BDA0001536960770000083
以及
Figure BDA0001536960770000084
由于描述文档中的描述词个数不统一,为便于计算各向量间的距离,需要以统一维度向量表示描述文档。在为每个描述词生成词向量后,即可提取描述文档的特征向量。进一步具体的,所述根据所述词向量,得到描述文档的特征向量的步骤,包括:
根据特征向量计算公式
Figure BDA0001536960770000085
计算所述目标设备的描述文档的特征向量X;其中,tfidf(wi)=count(wi,DS目标)×idfi’,
Figure BDA0001536960770000086
DS目标表示目标设备的描述文档,count(wi,DS目标)表示wi在DS目标中出现的次数,m∈(1,M),M表示系统中所有设备的总数;|{m:wi∈DSm}|表示M个设备所对应的描述文档中包含wi的描述文档的数量;DSm表示第m个描述文档。
对于系统中的N个产品,该系统中共有M个设备,通过与各描述词对应的词向量加权求和,得到的向量维数应等于主题文档的数量N,将N维向量作为描述文档的特征向量,建立起设备的描述文档与各产品主题间的关联度。
若设备g对应的描述文档由k个描述词组成,该描述文档可表示为DSg={w1,w2,...,wk}。以设备的第1个描述词w1为例,其词向量为Vw1,再由公式
Figure BDA0001536960770000087
计算得到idf1’,其中|{m:w1∈DSm}|表示M个设备所对应的描述文档即DS1,DS2,...,DSM中包含w1的描述文档的数量,DSm为第m个设备,m∈(1,M),进一步由tfidf(w1)=count(w1,DSg)×idf1’计算得到fidf(w1),count(w1,DSg)表示w1在该设备的描述文档DSg中出现的次数。在计算得到设备g中每个描述词对应的tfidf(w1),...,tfidf(wk)后,结合各描述词的词向量
Figure BDA0001536960770000091
Figure BDA0001536960770000092
Figure BDA0001536960770000093
最终就能够得到描述文档DSg的特征向量X。
此外,本发明实施例中的分类模型,是通过已分类设备的第一分类信息进行训练获得。训练集是由已标注正确产品类别的设备记录数据构成,按照目标设备的特征向量的获取过程,先将对训练集中设备记录数据生成各设备的描述文档,并构建产品的主题文档;然后基于ESA的算法,利用TF-IDF为描述词生成词向量;之后由表示各描述词在各主题中权重的词向量进而得到描述文档的特征向量。最终,将每个描述文档的特征向量作为样本属性X样本,设备记录的产品类别作为样本标签Y样本,使用机器学习算法中的分类算法训练多分类器用于分类,得到分类模型。其中分类算法可选择如Softmax回归,SVM,神经网络,决策树等算法。故,步骤104包括:
将所述目标设备的特征向量输入所述分类模型;
根据所述分类模型的输出结果,得到所述目标设备的第二分类信息。
这样,在将该目标设备的特征向量输入该分类模型后,就可由分类模型的输出结果,得到该目标设备的第二分类信息。该第二分类信息主要包括为目标设备划分的产品类别,可以通过标签标识。
往往目标设备在接入物联网时会进行产品分类,即初始标签,为确认分类是否准确,在通过上述步骤得到第二分类信息后,进行分类检验。因此,在上述实施例的基础上,所述方法还包括:
将所述输出结果中的检验标签与所述目标设备的初始标签比对;
若所述初始标签与所述检验标签相同,则确定分类正确;
若所述初始标签与所述检验标签不相同,则确定发生误分类。
这里,会将输出结果为目标设备分类的标签作为检验标签,与述目标设备的初始标签比对,若初始标签与检验标签相同,则确定分类正确;若初始标签与检验标签不相同,则确定发生误分类。对于判定为误分类的初始标签,还会对其对应设备进行误分类标记,以及给出建议的产品类别。
综上所述,本发明实施例的分类确定方法,不仅能够通过获取到目标设备的至少一描述词以及系统中所有产品的主题文档,确定出该目标设备的描述文档的特征向量,利用特征向量和基于训练集训练的分类模型,确定该目标设备的分类信息,还能够基于分类模型的结果对目标设备的初始标签进行检验,实现对物联网设备更为准确的分类,提升设备分类的精确度。
如图4所示,本发明实施例的一种分类确定装置400,包括:
第一获取模块401,用于获取设备记录数据中目标设备的至少一描述词;
第二获取模块402,用于获取所述目标设备归属系统中每一产品的主题文档;
第一确定模块403,用于根据所述描述词和所述主题文档,确定所述目标设备的描述文档的特征向量;其中所述描述文档包括所述至少一描述词;
第二确定模块404,用于根据所述特征向量以及通过已分类设备的第一分类信息进行训练获得的分类模型,确定所述目标设备的第二分类信息。
其中,所述第一获取模块包括:
查找子模块,用于查找对应所述目标设备的目标设备记录数据;
第一处理子模块,用于根据所述目标设备记录数据的数据格式,提取预设标识字段的信息,得到描述文档,所述描述文档包括至少一描述词。
其中,所述主题文档包括对应所述主题文档的产品中所有设备的描述文档;
所述第一确定模块包括:
第二处理子模块,用于基于信息检索与数据挖掘的常用加权TF-IDF,计算每一描述词的词向量;
第三处理子模块,用于根据所述词向量,得到描述文档的特征向量。
其中,所述第二处理子模块包括:
第一处理单元,用于根据公式
Figure BDA0001536960770000101
和公式
Figure BDA0001536960770000102
分别计算所述目标设备的第i个描述词wi的词频tfi,j和逆向文件频率idfi;其中,i∈(1,k),j∈(1,N),k表示描述文档中描述词的总数;N表示系统中产品分类的总数;pj表示第j个产品的主题文档,wk表示第k个描述词,count(wi,pj)表示wi在pj中出现的次数∑kcount(wk,pj)表示所有描述词在pj中出现次数之和,|{j:wi∈pj}表示系统中包含wi的主题文档的个数;
第二处理单元,用于根据公式v(wi,pj)=tfi,j×idfi,计算wi在pj中的权重
Figure BDA0001536960770000111
第三处理单元,用于根据所得的wi在每个主题文档中的权重,确定wi的词向量
Figure BDA0001536960770000112
其中,所述第三处理子模块进一步用于:
根据特征向量计算公式
Figure BDA0001536960770000113
计算所述目标设备的描述文档的特征向量X;其中,tfidf(wi)=count(wi,DS目标)×idfi’,
Figure BDA0001536960770000114
DS目标表示目标设备的描述文档,count(wi,DS目标)表示wi在DS目标中出现的次数,m∈(1,M),M表示系统中所有设备的总数;|{m:wi∈DSm}|表示M个设备所对应的描述文档中包含wi的描述文档的数量;DSm表示第m个描述文档。
其中,所述第二确定模块包括:
输入子模块,用于将所述目标设备的特征向量输入所述分类模型;
第四处理子模块,用于根据所述分类模型的输出结果,得到所述目标设备的第二分类信息。
其中,所述方法还包括:
比对模块,用于将所述输出结果中的检验标签与所述目标设备的初始标签比对;
第三确定模块,用于若所述初始标签与所述检验标签相同,则确定分类正确;
第四确定模块,用于若所述初始标签与所述检验标签不相同,则确定发生误分类。
本发明实施例的分类确定装置,不仅能够通过获取到目标设备的至少一描述词以及系统中所有产品的主题文档,确定出该目标设备的描述文档的特征向量,利用特征向量和基于训练集训练的分类模型,确定该目标设备的分类信息,还能够基于分类模型的结果对目标设备的初始标签进行检验,实现对物联网设备更为准确的分类,提升设备分类的精确度。
需要说明的是,该装置是应用了上述分类确定方法的装置,上述分类确定方法的实施例的实现方式适用于该装置,也能达到相同的技术效果。
本发明的实施例还提供了一种网络设备,如图5所示,包括收发器510、存储器520、处理器500及存储在所述存储器520上并可在所述处理器500上运行的计算机程序;所述处理器500执行所述计算机程序时实现上述的分类确定方法。
所述收发器510,用于在处理器500的控制下接收和发送数据。
其中,在图5中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器500代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发器510可以是多个元件,即包括发送机和收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器500负责管理总线架构和通常的处理,存储器520可以存储处理器500在执行操作时所使用的数据。
本发明实施例的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的分类确定方法中的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
进一步需要说明的是,此说明书中所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
上述范例性实施例是参考该些附图来描述的,许多不同的形式和实施例是可行而不偏离本发明精神及教示,因此,本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说,这些范例性实施例被提供以使得本发明会是完善又完整,且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中,组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的,并无意成为限制用。如在此所使用地,除非该内文清楚地另有所指,否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时,表示所述特征、整数、步骤、操作、构件及/或组件的存在,但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示,陈述时,一值范围包含该范围的上下限及其间的任何子范围。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种分类确定方法,其特征在于,包括:
获取设备记录数据中目标设备的至少一描述词;
获取所述目标设备归属系统中每一产品的主题文档,所述主题文档包括对应所述主题文档的产品中所有设备的描述文档;
根据所述描述词和所述主题文档,确定所述目标设备的描述文档的特征向量;其中所述描述文档包括所述至少一描述词;
根据所述特征向量以及通过已分类设备的第一分类信息进行训练获得的分类模型,确定所述目标设备的第二分类信息;
其中,所述根据所述描述词和所述主题文档,确定所述目标设备的描述文档的特征向量的步骤,包括:
基于信息检索与数据挖掘的常用加权TF-IDF,计算每一描述词的词向量;
根据所述词向量,得到描述文档的特征向量。
2.根据权利要求1所述的分类确定方法,其特征在于,所述获取设备记录数据中目标设备的至少一描述词的步骤,包括:
查找对应所述目标设备的目标设备记录数据;
根据所述目标设备记录数据的数据格式,提取预设标识字段的信息,得到描述文档,所述描述文档包括至少一描述词。
3.根据权利要求1所述的分类确定方法,其特征在于,所述基于信息检索与数据挖掘的常用加权TF-IDF,计算每一描述词的词向量的步骤,包括:
根据公式
Figure FDA0003126976480000011
和公式
Figure FDA0003126976480000012
分别计算所述目标设备的第i个描述词wi的词频tfi,j和逆向文件频率idfi;其中,i∈(1,k),j∈(1,N),k表示描述文档中描述词的总数;N表示系统中产品分类的总数;pj表示第j个产品的主题文档,wk表示第k个描述词,count(wi,pj)表示wi在pj中出现的次数,∑kcount(wk,pj)表示所有描述词在pj中出现次数之和,|{j:wi∈pj}|表示系统中包含wi的主题文档的个数;
根据公式v(wi,pj)=tfi,j×idfi,计算wi在pj中的权重vi pj
根据所得的wi在每个主题文档中的权重,确定wi的词向量
Figure FDA0003126976480000021
4.根据权利要求3所述的分类确定方法,其特征在于,所述根据所述词向量,得到描述文档的特征向量的步骤,包括:
根据特征向量计算公式
Figure FDA0003126976480000022
计算所述目标设备的描述文档的特征向量X;其中,tfidf(wi)=count(wi,DS目标)×idfi’,
Figure FDA0003126976480000023
DS目标表示目标设备的描述文档,count(wi,DS目标)表示wi在DS目标中出现的次数,m∈(1,M),M表示系统中所有设备的总数;|{m:wi∈DSm}|表示M个设备所对应的描述文档中包含wi的描述文档的数量;DSm表示第m个描述文档。
5.根据权利要求1所述的分类确定方法,其特征在于,所述根据所述特征向量以及通过已分类设备的第一分类信息进行训练获得的分类模型,确定所述目标设备的第二分类信息的步骤,包括:
将所述目标设备的特征向量输入所述分类模型;
根据所述分类模型的输出结果,得到所述目标设备的第二分类信息。
6.根据权利要求5所述的分类确定方法,其特征在于,所述方法还包括:
将所述输出结果中的检验标签与所述目标设备的初始标签比对;
若所述初始标签与所述检验标签相同,则确定分类正确;
若所述初始标签与所述检验标签不相同,则确定发生误分类。
7.一种分类确定装置,其特征在于,包括:
第一获取模块,用于获取设备记录数据中目标设备的至少一描述词;
第二获取模块,用于获取所述目标设备归属系统中每一产品的主题文档,所述主题文档包括对应所述主题文档的产品中所有设备的描述文档;
第一确定模块,用于根据所述描述词和所述主题文档,确定所述目标设备的描述文档的特征向量;其中所述描述文档包括所述至少一描述词;
第二确定模块,用于根据所述特征向量以及通过已分类设备的第一分类信息进行训练获得的分类模型,确定所述目标设备的第二分类信息;
其中,所述第一确定模块包括:
第二处理子模块,用于基于信息检索与数据挖掘的常用加权TF-IDF,计算每一描述词的词向量;
第三处理子模块,用于根据所述词向量,得到描述文档的特征向量。
8.根据权利要求7所述的分类确定装置,其特征在于,所述第一获取模块包括:
查找子模块,用于查找对应所述目标设备的目标设备记录数据;
第一处理子模块,用于根据所述目标设备记录数据的数据格式,提取预设标识字段的信息,得到描述文档,所述描述文档包括至少一描述词。
9.一种网络设备,包括收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的分类确定方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的分类确定方法。
CN201810000872.6A 2018-01-02 2018-01-02 一种分类确定方法、装置及网络设备 Active CN110019809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810000872.6A CN110019809B (zh) 2018-01-02 2018-01-02 一种分类确定方法、装置及网络设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810000872.6A CN110019809B (zh) 2018-01-02 2018-01-02 一种分类确定方法、装置及网络设备

Publications (2)

Publication Number Publication Date
CN110019809A CN110019809A (zh) 2019-07-16
CN110019809B true CN110019809B (zh) 2021-11-19

Family

ID=67187269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810000872.6A Active CN110019809B (zh) 2018-01-02 2018-01-02 一种分类确定方法、装置及网络设备

Country Status (1)

Country Link
CN (1) CN110019809B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382398B (zh) * 2020-11-12 2022-08-30 平安科技(深圳)有限公司 多尺度临床路径挖掘方法、装置、计算机设备及存储介质
CN113938819B (zh) * 2021-09-13 2023-08-08 中国联合网络通信集团有限公司 一种网络设备位置的确定方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104883278A (zh) * 2014-09-28 2015-09-02 北京匡恩网络科技有限责任公司 一种利用机器学习对网络设备进行分类的方法
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN105512270A (zh) * 2015-12-04 2016-04-20 百度在线网络技术(北京)有限公司 一种确定相关对象的方法和装置
CN105956083A (zh) * 2016-04-29 2016-09-21 广州优视网络科技有限公司 应用软件分类系统、应用软件分类方法及服务器
CN106874397A (zh) * 2017-01-16 2017-06-20 华南理工大学 一种面向物联网设备的自动语义标注方法
CN107205016A (zh) * 2017-04-18 2017-09-26 中国科学院计算技术研究所 物联网设备的检索方法
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107391545A (zh) * 2017-05-25 2017-11-24 阿里巴巴集团控股有限公司 一种对用户进行分类的方法、输入方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590997B2 (en) * 2004-07-30 2009-09-15 Broadband Itv, Inc. System and method for managing, converting and displaying video content on a video-on-demand platform, including ads used for drill-down navigation and consumer-generated classified ads
US7827011B2 (en) * 2005-05-03 2010-11-02 Aware, Inc. Method and system for real-time signal classification
KR100906568B1 (ko) * 2007-07-20 2009-07-07 호서대학교 산학협력단 반도체 장비 인터페이스 장치 및 이를 이용한 모니터링시스템
EP2745216A4 (en) * 2011-09-08 2015-05-27 Nokia Corp METHOD AND DEVICE FOR A HYBRID SOCIAL SEARCH MODEL
CN106599064B (zh) * 2016-11-16 2020-03-17 西安交通大学 一种适用于高端装备的复杂知识自动分类、获取及存储方法
CN106909694B (zh) * 2017-03-13 2020-01-17 杭州普玄科技有限公司 分类标签数据获取方法以及装置
CN107122413B (zh) * 2017-03-31 2020-04-10 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104883278A (zh) * 2014-09-28 2015-09-02 北京匡恩网络科技有限责任公司 一种利用机器学习对网络设备进行分类的方法
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN105512270A (zh) * 2015-12-04 2016-04-20 百度在线网络技术(北京)有限公司 一种确定相关对象的方法和装置
CN105956083A (zh) * 2016-04-29 2016-09-21 广州优视网络科技有限公司 应用软件分类系统、应用软件分类方法及服务器
CN106874397A (zh) * 2017-01-16 2017-06-20 华南理工大学 一种面向物联网设备的自动语义标注方法
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107205016A (zh) * 2017-04-18 2017-09-26 中国科学院计算技术研究所 物联网设备的检索方法
CN107391545A (zh) * 2017-05-25 2017-11-24 阿里巴巴集团控股有限公司 一种对用户进行分类的方法、输入方法及装置

Also Published As

Publication number Publication date
CN110019809A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
WO2020207431A1 (zh) 文献分类方法、装置、设备及存储介质
CN113159095B (zh) 一种训练模型的方法、图像检索的方法以及装置
US11809828B2 (en) Systems and methods of data augmentation for pre-trained embeddings
US10438091B2 (en) Method and apparatus for recognizing image content
AU2011326430B2 (en) Learning tags for video annotation using latent subtags
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
TWI682287B (zh) 知識圖譜產生裝置、方法及其電腦程式產品
CN110163376B (zh) 样本检测方法、媒体对象的识别方法、装置、终端及介质
US11144579B2 (en) Use of machine learning to characterize reference relationship applied over a citation graph
CN109726391B (zh) 对文本进行情感分类的方法、装置及终端
CN110502677B (zh) 一种设备识别方法、装置及设备、存储介质
WO2020170593A1 (ja) 情報処理装置及び情報処理方法
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
CN110019809B (zh) 一种分类确定方法、装置及网络设备
CN111400548A (zh) 一种基于深度学习与马尔科夫链的推荐方法及设备
WO2020135054A1 (zh) 视频推荐方法、装置、设备及存储介质
US20190258652A1 (en) Corpus management by automatic categorization into functional domains to support faceted querying
CN110059743B (zh) 确定预测的可靠性度量的方法、设备和存储介质
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN117218408A (zh) 基于因果纠偏学习的开放世界目标检测方法及装置
CN111460206B (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
US11321527B1 (en) Effective classification of data based on curated features
CN117523218A (zh) 标签生成、图像分类模型的训练、图像分类方法及装置
CN113886602A (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN117521673B (zh) 一种具备分析训练性能的自然语言处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant