CN112418289B - 一种不完全标注数据的多标签分类处理方法及装置 - Google Patents

一种不完全标注数据的多标签分类处理方法及装置 Download PDF

Info

Publication number
CN112418289B
CN112418289B CN202011286164.7A CN202011286164A CN112418289B CN 112418289 B CN112418289 B CN 112418289B CN 202011286164 A CN202011286164 A CN 202011286164A CN 112418289 B CN112418289 B CN 112418289B
Authority
CN
China
Prior art keywords
training data
neural network
vector
label
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011286164.7A
Other languages
English (en)
Other versions
CN112418289A (zh
Inventor
王础
王佳佳
陈浩
侯健
王凤敏
王立霞
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jinghang Computing Communication Research Institute
Original Assignee
Beijing Jinghang Computing Communication Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jinghang Computing Communication Research Institute filed Critical Beijing Jinghang Computing Communication Research Institute
Priority to CN202011286164.7A priority Critical patent/CN112418289B/zh
Publication of CN112418289A publication Critical patent/CN112418289A/zh
Application granted granted Critical
Publication of CN112418289B publication Critical patent/CN112418289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种不完全标注数据的多标签分类处理方法及装置,属于数据分类技术领域,解决了现有的多标签分类方法对具有数据重合标签分类的实用性较低的问题。方法包括:获取训练数据集;基于训练数据集对神经网络进行参数训练,得到训练好的神经网络;对训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;将待分类的不完全标注数据输入神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量。实现了不完全标注数据的多标签分类,提高了数据标签分类的精确度,具有较高的实用性。

Description

一种不完全标注数据的多标签分类处理方法及装置
技术领域
本发明涉及数据分类技术领域,尤其涉及一种不完全标注数据的多标签分类处理方法及装置。
背景技术
传统的数据分类问题中,各个类别的数据具有较为显著的类别特征,不同类别之间没有重合度,即同一个数据不能同时具有两个类别的特征。因此在理论上存在分类超曲面,使得不同类别的数据分别分布在被分类超曲面分割的不同区域中。
在某些应用领域中,由于具体场景和数据标识的方法,导致不同类别的数据具有一定的重合度,不同类别的数据分布既存在公共部分,又具有类别独有的数据。例如在网络安全领域,不同IP地址接收的流量数据代表用户的行为分布,由于用户的业务具有独特性,不同业务的用户会产生不同的流量分布。这些用户在终端中会产生一些公共操作。在采集用户数据的过程中,采集特定IP地址的数据会产生自动的标签,即该IP地址的用户,如果将用户作为类别,通过用户产生的流量数据对用户进行识别是分类问题,一些用户由于相同的用户行为而导致不同IP地址(不同类别)的流量数据具有重合度。
传统的分类方法无法鉴别不同类别的公共部分,所以传统的多标签分类方法对具有数据重合的标签分类的实用性较低。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种不完全标注数据的多标签分类处理方法及装置,用以解决现有的多标签分类方法对具有数据重合的标签分类的实用性较低的问题。
一方面,本发明实施例提供了一种不完全标注数据的多标签分类处理方法,包括下述步骤:
获取训练数据集,所述训练数据集包括多个训练数据向量及其对应的标签类别向量;
基于所述训练数据集对神经网络进行参数训练,得到训练好的神经网络;其中,所述神经网络包括输入层、中间层和输出层;
对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;
将待分类的不完全标注数据输入所述神经网络的最优网络结构,得到所述待分类的不完全标注数据对应的所有标签类别向量。
进一步,对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构,包括下述步骤:
对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离;
基于所述马氏距离计算每一个训练数据向量的类别相似度;
判断所述类别相似度是否满足终止条件,若是,结束训练,所述训练好的神经网络即为神经网络的最优网络结构;若否,更新标签类别向量,并基于训练数据向量及更新后的标签类别向量重新训练神经网络的参数,直至训练数据向量的类别相似度满足终止条件,得到神经网络的最优网络结构。
进一步,基于GMM聚类方法对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离。
进一步,所述类别相似度的计算公式为:
Figure BDA0002782416280000031
式中,
Figure BDA0002782416280000032
表示类别相似度,
Figure BDA0002782416280000033
表示训练数据向量对应的马氏距离,j∈[1,n],其中,n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。
进一步,所述终止条件的计算公式为:
|yj-sj|<τ
式中,yj表示训练数据向量对应的标签类别向量,
Figure BDA0002782416280000034
τ为给定阈值。
进一步,所述更新后的标签类别向量的计算公式为:
y′j=(1-w)·yj+w·sj
式中,y′j表示更新后的标签类别向量,w为类别相似度对应的权重。
另一方面,本发明实施例提供了一种不完全标注数据的多标签分类处理装置,包括:
训练数据集获得模块,用于获取训练数据集,所述训练数据集包括多个训练数据向量及其对应的标签类别向量;
参数训练模块,用于根据所述训练数据集对神经网络进行参数训练,得到训练好的神经网络;其中,所述神经网络包括输入层、中间层和输出层;
聚类模块,用于对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;
结果获得模块,用于将待分类的不完全标注数据输入所述神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量。
进一步,所述聚类模块用于:
对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离;
基于所述马氏距离计算每一个训练数据向量的类别相似度;
判断所述类别相似度是否满足终止条件,若是,结束训练,所述训练好的神经网络即为神经网络的最优网络结构;若否,更新标签类别向量,并基于训练数据向量及更新后的标签类别向量重新训练神经网络的参数,直至训练数据向量的类别相似度满足终止条件,得到神经网络的最优网络结构。
进一步,所述聚类模块根据GMM聚类方法得到每一个训练数据向量对应的马氏距离。
进一步,所述类别相似度的计算公式为:
Figure BDA0002782416280000041
式中,
Figure BDA0002782416280000042
表示类别相似度,
Figure BDA0002782416280000043
表示训练数据向量对应的马氏距离,j∈[1,n],其中,n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、一种不完全标注数据的多标签分类处理方法,通过训练数据集对神经网络进行训练,得到训练好的神经网络,接着基于GMM聚类方法对训练好的神经网络的中间层的输出进行聚类,得到训练数据向量对应的马氏距离,并依据马氏距离计算类别相似度,并判断该类别相似度是否满足终止条件,满足时训练好的神经网络即为神经网络的最优网络结构,不满足终止条件时,更新标签类别向量,并利用训练数据向量和更新后的标签类别向量重新训练神经网络,直至类别相似度满足终止条件,对应得到神经网络的最优网络结构,最后将待分类的不完全标注数据输入神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量,简单易行,易于实施,实现了不完全标注数据的分类,具有较高的实用性。
2、通过获得训练数据集,为后期进行神经网络的训练提供了技术支撑和依据,同时,为后期更新标签类别向量提供便利。
3、通过GMM聚类方法对神经网络中间层的输出进行聚类,以得到马氏距离,并依据马氏距离计算类别相似度,最后根据类别相似度是否满足终止条件判断是否终止训练,以得到神经网络的最优网络结构,方法新颖,易于实施,同时,采用神经网络提高了标签分类的精确度。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为一个实施例中多标签分类处理方法原理图;
图2为一个实施例中不完全标注数据的多标签分类处理方法流程图;
图3为另一个实施例中不完全标注数据的多标签分类处理装置结构图;
附图标记:
100-训练数据集获得模块,200-参数训练模块,300-聚类模块,400-结果获得模块。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
在网络安全领域,不同IP地址接收的流量数据代表用户的行为分布,由于用户的业务具有独特性,不同业务的用户会产生不同的流量分布。这些用户在终端中会产生一些公共操作。在采集用户数据的过程中,采集特定IP地址的数据会产生自动的标签,即该IP地址的用户,如果将用户作为类别,通过用户产生的流量数据对用户进行识别属于分类问题,一些用户由于相同的用户行为而导致不同IP地址(不同类别)的流量数据具有重合度。传统的多标签分类方法无法直接适用于具有数据重合的分类问题。为此,本申请提出了一种不完全标注数据的多标签分类处理方法及装置,如图1所示,通过训练数据集对神经网络进行训练,得到训练好的神经网络,接着基于GMM聚类方法对训练好的神经网络的中间层的输出进行聚类,得到训练数据向量对应的马氏距离,并依据马氏距离计算类别相似度,并判断该类别相似度是否满足终止条件,满足时训练好的神经网络即为神经网络的最优网络结构,不满足终止条件时,更新标签类别向量,并利用训练数据向量和更新后的标签类别向量重新训练神经网络,直至类别相似度满足终止条件,对应得到神经网络的最优网络结构,最后将待分类的不完全标注数据输入神经网络的最优网络结构中,得到待分类的不完全标注数据对应的所有标签类别向量,简单易行,易于实施,实现了不完全标注数据的分类,具有较高的实用性。
本发明的一个具体实施例,公开了一种不完全标注数据的多标签分类处理方法,如图2所示,包括下述步骤S1~S3。
步骤S1、获取训练数据集,训练数据集包括多个训练数据向量及其对应的标签类别向量。具体地,对于训练数据集{(xj,yj)}n,xj∈Rn表示训练数据向量,yj∈Rm表示训练数据的标签类别向量,j∈[1,n],n为训练数据的个数,m表示训练数据的类别数。
示例性地,以网络安全领域为例,在对不同IP地址接收的流量数据进行标签分类时,对于训练数据集(xj,yj),xj表示不同IP地址接收的流量数据,可以通过网络协议解析获得;yj表示不同IP地址接收的流量数据对应的所属用户。可采用本申请中的多标签分类方法实现对不同IP地址接收的流量数据的多标签分类。
通过获得训练数据集,为后期进行神经网络的训练提供了技术支撑和依据,同时,为后期更新标签类别向量提供便利。
步骤S2、基于训练数据集对神经网络进行参数训练,得到训练好的神经网络。具体来说,神经网络包括输入层、中间层和输出层。设定神经网络记作f(x,θ)=(f1(x,θ),...,fm(x,θ)),其中,x表示输入数据,θ表示神经网络的参数。本申请中主要通过训练数据集和交叉熵损失函数对神经网络进行训练,以得到训练好的神经网络。
步骤S3、对训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构。具体来说,给定输入数据
Figure BDA0002782416280000081
神经网络中间层中的输出记作
Figure BDA0002782416280000082
对训练好的神经网络中间层的输出
Figure BDA0002782416280000083
进行预处理,得到神经网络的最优网络结构,包括下述步骤:
步骤S31、基于GMM聚类方法对训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量的马氏距离。GMM聚类方法包括下述步骤:
首先进行参数初始化:神经网络中间层的输出为
Figure BDA0002782416280000084
j∈[1,n],n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。设定聚类个数k,迭代次数L=1,阈值ε>0,随机赋值聚类中心的初始值为
Figure BDA0002782416280000085
、类方差的初始值为
Figure BDA0002782416280000086
及类比例的初始值为
Figure BDA0002782416280000087
同时,1≤k≤K,其中,K为聚类个数的最大值,使得类方差的初始值
Figure BDA0002782416280000088
正定,类比例的初始值
Figure BDA0002782416280000089
并且
Figure BDA00027824162800000810
计算神经网络中间层的输出
Figure BDA00027824162800000811
关于聚类中心
Figure BDA00027824162800000812
的置信度γi(j,k):
Figure BDA00027824162800000813
其中,
Figure BDA00027824162800000814
表示后验概率。
计算聚类中心
Figure BDA00027824162800000815
类方差
Figure BDA00027824162800000816
和类比例
Figure BDA00027824162800000817
Figure BDA00027824162800000818
Figure BDA00027824162800000819
其中,
Figure BDA0002782416280000091
表示
Figure BDA0002782416280000092
的转置;
Figure BDA0002782416280000093
当同时满足条件
Figure BDA0002782416280000094
时,定义
Figure BDA0002782416280000095
并进行下述步骤;当不满足条件令L=L+1重新进行迭代计算聚类中心
Figure BDA0002782416280000096
类方差
Figure BDA0002782416280000097
和类比例
Figure BDA0002782416280000098
直至满足上述条件并进行下述步骤。
对每一个
Figure BDA0002782416280000099
根据公式
Figure BDA00027824162800000910
计算得到最大置信度对应的聚类个数
Figure BDA00027824162800000911
进而得到初始马氏距离的计算公式为:
Figure BDA00027824162800000912
式中,
Figure BDA00027824162800000913
为初始马氏距离,
Figure BDA00027824162800000914
为最大置信度对应的聚类个数,
Figure BDA00027824162800000915
为最大置信度对应的聚类中心。
给定整数i,i属于xj的类别则记作i∈yj,否则记作
Figure BDA00027824162800000916
在本申请中,第i类训练数据表示集合
Figure BDA00027824162800000917
记作
Figure BDA00027824162800000918
则通过下述方式获得马氏距离
Figure BDA00027824162800000919
Figure BDA00027824162800000920
Figure BDA00027824162800000921
步骤S32、基于马氏距离计算每一个训练数据向量的类别相似度。详细地,类别相似度的计算公式为:
Figure BDA0002782416280000101
式中,
Figure BDA0002782416280000102
表示类别相似度,
Figure BDA0002782416280000103
表示训练数据向量对应的马氏距离,j∈[1,n],其中,n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。
步骤S33、判断类别相似度是否满足终止条件,其中,终止条件的计算公式为:
|yj-sj|<τ
式中,yj表示训练数据向量对应的标签类别向量,
Figure BDA0002782416280000104
τ为给定阈值。
若类别相似度满足终止条件,结束训练,训练好的神经网络即为神经网络的最优网络结构;若类别相似度不满足终止条件,基于下述公式更新标签类别向量,并重新将训练数据向量及更新后的标签类别向量组成训练样本集,对神经网络的参数进行训练,得到训练好的神经网络后,对训练后的神经网络中间层的输出进行聚类,直至类别相似度满足终止条件,得到神经网络的最优网络结构,其中,更新后的标签类别向量的计算公式为:
y′j=(1-w)·yj+w·sj
式中,y′j表示更新后的标签类别向量,w为类别相似度对应的权重,其中,w∈[0,1],本实施例中取w=0.1。
通过GMM聚类方法对神经网络中间层的输出进行聚类,以得到马氏距离,并依据马氏距离计算类别相似度,最后根据类别相似度是否满足终止条件判断是否终止训练,以得到对应的神经网络的最优网络结构,方法新颖,易于实施,同时,采用神经网络提高了标签分类的精确度。
步骤S4、将待分类的不完全标注数据输入神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量。具体地,基于步骤S3得到神经网络的最优网络结构后,可将待分类的不完全标注数据输入神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量。
与现有技术相比,本实施例提供的不完全标注数据的多标签分类处理方法,通过训练数据集对神经网络进行训练,得到训练好的神经网络,接着采用GMM聚类方法对训练好的神经网络中间层的输出进行聚类,得到训练数据向量对应的马氏距离,并依据马氏距离计算类别相似度,并判断该类别相似度是否满足终止条件,以得到神经网络的最优网络结构,最后将待分类的不完全标注数据输入神经网络的最优网络结构中,得到待分类的不完全标注数据对应的所有标签类别向量,简单易行,易于实施,实现了不完全标注数据的分类,具有较高的实用性。
本发明的另一个具体实施例,公开了一种不完全标注数据的多标签分类处理装置,如图3所示,包括训练数据集获得模块100,用于获取训练数据集,训练数据集包括多个训练数据向量及其对应的标签类别向量;参数训练模块200,用于根据训练数据集对神经网络进行参数训练,得到训练好的神经网络;其中,神经网络包括输入层、中间层和输出层;聚类模块300,用于对训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;结果获得模块400,用于将待分类的不完全标注数据输入所述神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量。
由于不完全标注数据的多标签分类处理装置的实现原理与前述不完全标注数据的多标签分类处理方法的实现原理相似,故这里不再赘述。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种不完全标注数据的多标签分类处理方法,其特征在于,所述多标签分类处理方法用于实现对不同IP地址接收的流量数据的多标签分类处理,包括下述步骤:
获取训练数据集,所述训练数据集包括多个训练数据向量及其对应的标签类别向量;训练数据向量为不同IP地址接收的流量数据,标签类别向量为不同IP地址接收的流量数据对应的所属用户;
基于所述训练数据集对神经网络进行参数训练,得到训练好的神经网络;其中,所述神经网络包括输入层、中间层和输出层;
对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;
将待分类的不完全标注数据输入所述神经网络的最优网络结构,得到所述待分类的不完全标注数据对应的所有标签类别向量;
对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构,包括下述步骤:
对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离;
基于所述马氏距离计算每一个训练数据向量的类别相似度;
判断所述类别相似度是否满足终止条件,若是,结束训练,所述训练好的神经网络即为神经网络的最优网络结构;若否,更新标签类别向量,并基于训练数据向量及更新后的标签类别向量重新训练神经网络的参数,直至训练数据向量的类别相似度满足终止条件,得到神经网络的最优网络结构;
其中,马氏距离的计算方法包括如下步骤:
首先获取初始马氏距离
Figure FDA0003095362060000011
给定整数i,i属于xj的类别则记作i∈yj,否则记作
Figure FDA0003095362060000012
则通过下述方式获得马氏距离
Figure FDA0003095362060000021
Figure FDA0003095362060000022
Figure FDA0003095362060000023
Figure FDA0003095362060000024
为最大置信度对应的聚类个数,
Figure FDA0003095362060000025
为聚类中心,
Figure FDA0003095362060000029
为最大置信度对应的聚类中心,xj表示训练数据向量,yj表示训练数据向量对应的标签类别向量,j∈[1,n],n为训练数据的个数,i∈[1,m],m表示训练数据的类别数;
所述终止条件的计算公式为:
|yj-sj|<τ
式中,yj表示训练数据向量对应的标签类别向量,
Figure FDA0003095362060000027
τ为给定阈值;
所述更新后的标签类别向量的计算公式为:
y′j=(1-w)gyj+wgsj
式中,y′j表示更新后的标签类别向量,w为类别相似度对应的权重。
2.根据权利要求1所述的不完全标注数据的多标签分类处理方法,其特征在于,基于GMM聚类方法对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离。
3.根据权利要求1所述的不完全标注数据的多标签分类处理方法,其特征在于,所述类别相似度的计算公式为:
Figure FDA0003095362060000028
式中,
Figure FDA0003095362060000031
表示类别相似度,
Figure FDA0003095362060000032
表示训练数据向量对应的马氏距离,j∈[1,n],其中,n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。
4.一种不完全标注数据的多标签分类处理装置,其特征在于,所述多标签分类处理装置用于实现对不同IP地址接收的流量数据的多标签分类处理,包括:
训练数据集获得模块,用于获取训练数据集,所述训练数据集包括多个训练数据向量及其对应的标签类别向量;训练数据向量为不同IP地址接收的流量数据,标签类别向量为不同IP地址接收的流量数据对应的所属用户;
参数训练模块,用于根据所述训练数据集对神经网络进行参数训练,得到训练好的神经网络;其中,所述神经网络包括输入层、中间层和输出层;
聚类模块,用于对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;
结果获得模块,用于将待分类的不完全标注数据输入所述神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量;
所述聚类模块用于:
对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离;
基于所述马氏距离计算每一个训练数据向量的类别相似度;
判断所述类别相似度是否满足终止条件,若是,结束训练,所述训练好的神经网络即为神经网络的最优网络结构;若否,更新标签类别向量,并基于训练数据向量及更新后的标签类别向量重新训练神经网络的参数,直至训练数据向量的类别相似度满足终止条件,得到神经网络的最优网络结构;
其中,马氏距离的计算方法包括如下步骤:
首先获取初始马氏距离
Figure FDA0003095362060000041
给定整数i,i属于xj的类别则记作i∈yj,否则记作
Figure FDA0003095362060000042
则通过下述方式获得马氏距离
Figure FDA0003095362060000043
Figure FDA0003095362060000044
Figure FDA0003095362060000045
Figure FDA0003095362060000046
为最大置信度对应的聚类个数,
Figure FDA0003095362060000047
为聚类中心,
Figure FDA00030953620600000410
为最大置信度对应的聚类中心,xj表示训练数据向量,yj表示标签类别向量,j∈[1,n],n为训练数据的个数,i∈[1,m],m表示训练数据的类别数;
所述终止条件的计算公式为:
|yj-sj|<τ
式中,yj表示训练数据向量对应的标签类别向量,
Figure FDA0003095362060000049
τ为给定阈值;
所述更新后的标签类别向量的计算公式为:
y′j=(1-w)gyj+wgsj
式中,y′j表示更新后的标签类别向量,w为类别相似度对应的权重。
5.根据权利要求4所述的不完全标注数据的多标签分类处理装置,其特征在于,所述聚类模块根据GMM聚类方法得到每一个训练数据向量对应的马氏距离。
6.根据权利要求5所述的不完全标注数据的多标签分类处理装置,其特征在于,所述类别相似度的计算公式为:
Figure FDA0003095362060000051
式中,
Figure FDA0003095362060000052
表示类别相似度,
Figure FDA0003095362060000053
表示训练数据向量对应的马氏距离,j∈[1,n],其中,n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。
CN202011286164.7A 2020-11-17 2020-11-17 一种不完全标注数据的多标签分类处理方法及装置 Active CN112418289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011286164.7A CN112418289B (zh) 2020-11-17 2020-11-17 一种不完全标注数据的多标签分类处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011286164.7A CN112418289B (zh) 2020-11-17 2020-11-17 一种不完全标注数据的多标签分类处理方法及装置

Publications (2)

Publication Number Publication Date
CN112418289A CN112418289A (zh) 2021-02-26
CN112418289B true CN112418289B (zh) 2021-08-03

Family

ID=74830981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011286164.7A Active CN112418289B (zh) 2020-11-17 2020-11-17 一种不完全标注数据的多标签分类处理方法及装置

Country Status (1)

Country Link
CN (1) CN112418289B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113917938B (zh) * 2021-10-08 2024-04-19 北京京航计算通讯研究所 小样本条件下的飞行器姿态控制数据增强和模型训练方法
CN114842000A (zh) * 2022-07-01 2022-08-02 杭州同花顺数据开发有限公司 一种内窥镜图像质量评估方法和系统
CN114995117B (zh) * 2022-07-18 2023-12-26 海门市重型矿山机械厂 基于神经网络的砂石分离机进料槽自适应控制方法及装置
CN115017961B (zh) * 2022-08-05 2022-10-21 江苏江海润液设备有限公司 基于神经网络数据集增广的润滑设备的智能控制方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250918A (zh) * 2016-07-26 2016-12-21 大连理工大学 一种基于改进的推土距离的混合高斯模型匹配方法
CN109116834A (zh) * 2018-09-04 2019-01-01 湖州师范学院 一种基于深度学习的间歇过程故障检测方法
WO2019051356A1 (en) * 2017-09-08 2019-03-14 The General Hospital Corporation SYSTEM AND METHOD FOR AUTOMATICALLY LABELING AND ANNOUNTING NON-STRUCTURED MEDICAL DATA SETS
CN109859771A (zh) * 2019-01-15 2019-06-07 华南理工大学 一种联合优化深层变换特征与聚类过程的声场景聚类方法
CN110119447A (zh) * 2019-04-26 2019-08-13 平安科技(深圳)有限公司 自编码神经网络处理方法、装置、计算机设备及存储介质
CN110942091A (zh) * 2019-11-15 2020-03-31 武汉理工大学 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN111260117A (zh) * 2020-01-10 2020-06-09 燕山大学 一种基于气象因子的ca-narx水质预测方法
CN111598004A (zh) * 2020-05-18 2020-08-28 北京星闪世图科技有限公司 一种渐进增强自学习的无监督跨领域行人再识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960043A (zh) * 2018-05-21 2018-12-07 东南大学 一种用于电子相册管理的人物家庭关系构建方法
CN110309302B (zh) * 2019-05-17 2023-03-24 江苏大学 一种结合svm和半监督聚类的不平衡文本分类方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250918A (zh) * 2016-07-26 2016-12-21 大连理工大学 一种基于改进的推土距离的混合高斯模型匹配方法
WO2019051356A1 (en) * 2017-09-08 2019-03-14 The General Hospital Corporation SYSTEM AND METHOD FOR AUTOMATICALLY LABELING AND ANNOUNTING NON-STRUCTURED MEDICAL DATA SETS
CN109116834A (zh) * 2018-09-04 2019-01-01 湖州师范学院 一种基于深度学习的间歇过程故障检测方法
CN109859771A (zh) * 2019-01-15 2019-06-07 华南理工大学 一种联合优化深层变换特征与聚类过程的声场景聚类方法
CN110119447A (zh) * 2019-04-26 2019-08-13 平安科技(深圳)有限公司 自编码神经网络处理方法、装置、计算机设备及存储介质
CN110942091A (zh) * 2019-11-15 2020-03-31 武汉理工大学 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN111260117A (zh) * 2020-01-10 2020-06-09 燕山大学 一种基于气象因子的ca-narx水质预测方法
CN111598004A (zh) * 2020-05-18 2020-08-28 北京星闪世图科技有限公司 一种渐进增强自学习的无监督跨领域行人再识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Statistics have shown that most fall events are associated with identifiable risk factors, such as weakness, unsteady gait, medication use, and the environment. Falls can result in abrasions, broken bones, or even death. A real time fall detection system s;Ya-Wen Hsu;《 2015 IEEE/SICE International Symposium on System Integration (SII)》;20160211;全文 *
结合聚类的半监督分类方法;徐思;《青岛大学学报》;20181130;正文第1-3页 *

Also Published As

Publication number Publication date
CN112418289A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112418289B (zh) 一种不完全标注数据的多标签分类处理方法及装置
CN107527068B (zh) 基于cnn和域自适应学习的车型识别方法
US10832096B2 (en) Representative-based metric learning for classification and few-shot object detection
CN109583332B (zh) 人脸识别方法、人脸识别系统、介质及电子设备
WO2017124942A1 (zh) 一种异常访问检测方法及设备
JP6768681B2 (ja) 分散データからの学習
CN112446423B (zh) 一种基于迁移学习的快速混合高阶注意力域对抗网络的方法
CN112348081B (zh) 用于图像分类的迁移学习方法、相关装置及存储介质
CN110225001B (zh) 一种基于主题模型的动态自更新网络流量分类方法
CN112926045B (zh) 一种基于逻辑回归模型的群控设备识别方法
CN111507470A (zh) 一种异常账户的识别方法及装置
CN112633071B (zh) 基于数据风格解耦内容迁移的行人重识别数据域适应方法
CN112668482B (zh) 人脸识别训练方法、装置、计算机设备及存储介质
CN113269647B (zh) 基于图的交易异常关联用户检测方法
CN111598124A (zh) 图像处理及装置、处理器、电子设备、存储介质
CN112926403A (zh) 基于层次聚类与困难样本三元组的无监督行人重识别方法
CN113449012A (zh) 基于大数据预测的互联网服务挖掘方法及大数据预测系统
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
CN113947101A (zh) 一种基于软化相似性学习的无监督行人重识别方法和系统
CN112288465A (zh) 一种基于半监督聚类集成学习的客户细分方法
Liu et al. A weight-incorporated similarity-based clustering ensemble method
CN114329127B (zh) 特征分箱方法、装置及存储介质
CN116958622A (zh) 数据的分类方法、装置、设备、介质及程序产品
CN112883875B (zh) 图像聚类方法、装置、服务器及存储介质
Yu et al. Graph-structure based multi-label prediction and classification for unsupervised person re-identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant