CN107766870A - 信息处理装置和信息处理方法 - Google Patents

信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN107766870A
CN107766870A CN201610704157.1A CN201610704157A CN107766870A CN 107766870 A CN107766870 A CN 107766870A CN 201610704157 A CN201610704157 A CN 201610704157A CN 107766870 A CN107766870 A CN 107766870A
Authority
CN
China
Prior art keywords
data set
training data
label
data
testing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610704157.1A
Other languages
English (en)
Inventor
侯翠琴
夏迎炬
徐卓然
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201610704157.1A priority Critical patent/CN107766870A/zh
Publication of CN107766870A publication Critical patent/CN107766870A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及信息处理装置和信息处理方法。根据本公开的信息处理装置包括:划分单元,将具有标签的训练数据的集合划分成第一训练数据集合D1和小于第一训练数据集合D1的第二训练数据集合D2;训练单元,使用第一训练数据集合D1中的训练数据i1按K个类对M个监督模型进行训练;预测单元,使用M个监督模型预测不具有标签的待测数据集合D3中的每个待测数据i3的标签;聚类单元,使用N个聚类模型对第二训练数据集合D2和待测数据集合D3中的数据i进行聚类;相似度图构造单元,基于聚类结果和预测结果构造相似度图;以及融合单元,基于相似度图对待测数据i3的预测的标签和第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得每个待测数据i3的标签。

Description

信息处理装置和信息处理方法
技术领域
本公开涉及信息处理装置和信息处理方法,更具体地,涉及用于进行机器学习的信息处理装置和信息处理方法。
背景技术
总体上,机器学习技术是一种使机器利用数据而非利用指令进行操作的技术。更具体地,机器学习技术可被认为是一种使具备处理和存储功能的机器对已有的数据进行处理以获得某种模型,并且利用所述模型对未来的数据进行预测的技术。
目前,机器学习技术作为人工智能技术的一个重要分支,已被广泛地应用于模式识别、统计学习、数据挖掘、计算机视觉、语音识别、自然语言处理等众多领域。
发明内容
在下文中将给出关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
在机器学习技术中,对已有的数据进行的处理通常是分类处理。分类处理可被分为监督分类处理和非监督分类处理。
监督分类处理要求已有的数据具有标签以作为训练数据,基于这些标签对训练数据进行分类以构造分类模型,并且基于所构造的分类模型对不具有标签的未来的数据进行预测。
已提出了许多监督分类模型,诸如决策树、支持向量机、神经网络、逻辑回归模型、朴素贝叶斯分类器等。然而,大部分监督分类模型假设数据是独立的并且具有相同的分布,因而没有考虑数据的结构以及数据之间的关系。
注意,在本文中术语“监督分类模型”和“监督模型”可互换地使用,并且术语“监督分类处理”和“监督处理”可互换地使用。
非监督分类处理不要求已有的数据具有标签,而是仅根据已有的数据的特征对已有的数据的相似度进行分析,从而将已有的数据分成不同的类以构造聚类模型。因而,非监督分类处理还可被称为聚类处理。
注意,在本文中术语“非监督分类模型”和“聚类模型”可互换地使用,并且术语“非监督分类处理”和“聚类处理”可互换地使用。
通常,较之仅使用一种分类模型而言,将不同的分类模型融合在一起,具体地,将监督模型、聚类模型或者监督模型和聚类模型融合在一起,可以获得更优良和更稳定的性能。融合有监督模型和聚类模型的分类模型可以被称为半监督分类模型。
将监督模型和聚类模型融合在一起的半监督分类系统可以被分成两种类型的系统,其中一种类型的系统基于二分图,而另一种类型的系统基于图。
对于基于二分图的系统,设定集合U和集合V,其中集合U中的每个节点表示聚类或类,并且集合V中的每个节点表示实例(即,测试样本)。随后,基于集合U和V构造二分图,其中集合U中的节点与集合V中的节点之间的连线表示相应的实例属于相应的聚类或类。随后,通过使聚类结果和分类结果之间的一致性最大化来将监督模型和聚类模型融合在一起,从而改进预测结果。
对于基于图的系统,通过对聚类模型进行融合以构造实例的相似度图,并且随后基于所构造的相似度图与监督模型的分类结果融合。
本公开的目的在于提供一种通过融合监督模型和聚类模型的半监督分类方法进行机器学习的信息处理装置和信息处理方法。通过对监督模型和聚类模型进行融合,可以获得更优良和更稳定的预测性能。这种方法可被称为半监督模型融合方法。
本发明人发现,通过相结合地考虑一小部分训练数据的标签以及数据的结构,能够获得较高的预测精度。因而,可以将监督模型、聚类模型和一小部分训练数据的标签融合在一起。具体地,首先通过融合聚类模型的聚类结果来构造相似度图,随后基于该相似度图将监督模型的预测结果和一小部分训练数据的标签融合在一起。使融合结果在相似度图上是平滑的并且不会过分偏离监督模型的融合结果和一小部分训练数据的标签。
根据本公开的一个方面,提供了一种信息处理装置,其包括:划分单元,其被配置成将具有标签的训练数据的集合划分成第一训练数据集合D1和第二训练数据集合D2,第一训练数据集合D1中的训练数据i1的数目|D1|大于第二训练数据集合D2中的训练数据i2的数目|D2|;训练单元,其被配置成使用第一训练数据集合D1中的训练数据i1按K个类对M个监督模型进行训练,其中M和K是等于或大于2的自然数;预测单元,其被配置成使用经训练的M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签;聚类单元,其被配置成使用N个聚类模型对第二训练数据集合D2和待测数据集合D3中的数据i进行聚类,其中N是等于或大于2的自然数;相似度图构造单元,其被配置成基于聚类单元的聚类结果和预测单元的预测结果构造相似度图;以及融合单元,其被配置成基于相似度图对待测数据集合D3中的每个待测数据i3的预测的标签和第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得待测数据集合D3中的每个待测数据i3的标签。
根据本公开的另一方面,提供了一种信息处理方法,其包括如下步骤:将具有标签的训练数据的集合划分成第一训练数据集合D1和第二训练数据集合D2,第一训练数据集合D1中的训练数据i1的数目|D1|大于第二训练数据集合D2中的训练数据i2的数目|D2|;使用M个监督模型按K个类对第一训练数据集合D1中的训练数据i1进行分类,其中M和K是等于或大于2的自然数;使用M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签;使用N个聚类模型对第二训练数据集合D2和待测数据集合D3中的数据i进行聚类,其中N是等于或大于2的自然数;基于聚类结果和预测结果构造相似度图;以及基于相似度图对待测数据集合D3中的每个待测数据i3的预测的标签和第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得待测数据集合D3中的每个待测数据i3的标签。
根据本公开的又一方面,提供了一种信息处理设备,其包括控制器,该控制器被配置成执行以下处理:将具有标签的训练数据的集合划分成第一训练数据集合D1和第二训练数据集合D2,第一训练数据集合D1中的训练数据i1的数目|D1|大于第二训练数据集合D2中的训练数据i2的数目|D2|;使用M个监督模型按K个类对第一训练数据集合D1中的训练数据i1进行分类,其中M和K是等于或大于2的自然数;使用M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签;使用N个聚类模型对第二训练数据集合D2和待测数据集合D3中的数据i进行聚类,其中N是等于或大于2的自然数;基于聚类结果和预测结果构造相似度图;以及基于相似度图对待测数据集合D3中的每个待测数据i3的预测的标签和第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得待测数据集合D3中的每个待测数据i3的标签。
另外,本公开的实施例还提供了用于实现上述信息处理方法的计算机程序。
此外,本公开的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述信息处理方法的计算机程序代码。
通过根据本公开的信息处理技术,能够对监督模型和/或聚类模型的预测结果进行融合,有助于获得关于数据的结构和数据之间的关系的进一步的信息,能够实现更优良和更稳定的预测性能。
附图说明
参照下面结合附图对本公开实施例的说明,会更加容易地理解本公开的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本公开的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出了根据本公开的一个实施例的信息处理装置的配置的框图;
图2是示出了通过图1的根据本公开的实施例的信息处理装置执行的半监督模型融合方法的示意图;
图3是示出了根据本公开的一个实施例的相似度图构造单元执行的相似度计算处理的流程的流程图;
图4是示出了根据本公开的一个实施例的信息处理方法的处理过程的流程图;
图5是示出了根据本公开的一个实施例的信息处理装置的配置的框图;
图6是示出了可用来实现图5的根据本公开的实施例的信息处理装置的通用机器的结构简图。
具体实施方式
在下文中将结合附图对本公开的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的部件,而省略了与本公开关系不大的其他细节。
图1是图示了根据本公开的一个实施例的信息处理装置100的配置的框图。信息处理装置100包括划分单元101、训练单元102、预测单元103、聚类单元104、相似度图构造单元105和融合单元106。
此外,图2示出了通过图1的根据本公开的实施例的信息处理装置100执行的半监督模型融合方法的示意图。
根据本公开的实施例,划分单元101可以将具有标签的训练数据的集合随机地划分成第一训练数据集合D1和第二训练数据集合D2,其中第一训练数据集合D1中的训练数据i1的数目|D1|大于第二训练数据集合D2中的训练数据i2的数目|D2|,其中i1=1,2,…|D1|,并且i2=1,2,…|D2|。
换言之,第一训练数据集合D1和第二训练数据集合D2均为具有标签的训练数据的集合的子集,并且第一训练数据集合D1和第二训练数据集合D2之间不存在交集,同时第一训练数据集合D1大于第二训练数据集合D2
根据本公开的实施例,第一训练数据集合D1用于对监督模型进行训练,而第二训练数据集合D2作为前文所述的一小部分的具有标签的训练数据用于下文所述的半监督融合处理。
根据本公开的实施例,训练单元102可以基于训练数据的标签,使用第一训练数据集合D1中的训练数据i1按K个类k(k=1,2,…K)对M个监督模型m(m=1,2,…M)进行训练,其中M和K是等于或大于2的自然数。换言之,训练单元根据已知的训练数据的标签,使用监督模型对训练数据进行分类。这里,M的值可以根据经验预先设定,而K的值是根据所要解决的问题而具体设定的。
根据本公开的实施例,监督模型可以选自向量机监督模型、决策树监督模型、神经网络监督模型、朴素贝叶斯监督模型、逻辑回归监督模型中的至少两个或更多个。
根据本公开的实施例,预测单元103可以使用经训练的M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签。其中,待测数据集合D3中的待测数据i3的数目是|D3|,并且i3=1,2,…|D3|。
换言之,预测单元103使用经训练的M个监督模型按照K个类来预测不具有标签的待测数据集合D3中的每个待测数据i3属于哪个类,即预测待测数据i3的标签。
具体地,根据本公开的一个实施例,针对待测数据集合D3中的每个待测数据i3,预测单元103可以使用M×K矩阵V(i3)表示其标签预测结果,矩阵V(i3)中的每个元素Vmk (i3)可以表示待测数据i3被监督模型m分类成类k的概率。
根据本公开的实施例,聚类单元104可以使用N个聚类模型n(n=1,2,…N)对第二训练数据集合D2和待测数据集合D3中的数据i进行聚类,其中,并且i=1,2,…|D2|+|D3|。注意,这里所称的数据i是第二训练数据集合D2和待测数据集合D3的合集中的数据,也就是说,数据i可以是数据i2或数据i3
此外,N的值,即聚类模型的数目,与M的值,即监督模型的数目无关。换言之,N可以等于M,也可以不等于M。同样地,N的值可以根据经验预先设定。
根据本公开的实施例,聚类模型可以选自K-means聚类模型、层次聚类模型、谱聚类模型中的至少两个或更多个。
根据本公开的一个实施例,聚类单元104可以使用(|D2|+|D3|)×L矩阵U来表示其聚类结果,其中|D3|是待测数据集合D3中的待测数据i3的数目,并且L是N个聚类模型所产生的所有聚类的数目。
这里需要注意,如果聚类模型1产生了L1个聚类,聚类模型2产生了L2个聚类…聚类模型N产生了LN个聚类,则L应为L1,L2,…LN的和。
此外,矩阵U中的每个元素Uil可以表示第二训练数据集合D2和待测数据集合D3中的每个数据i是否属于聚类l(l=1,2,…L)。当数据i属于聚类l时,Uil=0,否则Uil=1。换言之,由于聚类单元104将第二训练数据集合D2和待测数据集合D3中的数据i聚类成L个类,因此对于数据i,矩阵U中的元素Uil表示数据i属于类l的概率,但是该概率取值仅为1或0。
根据本公开的实施例,相似度图构造单元105可以基于预测单元103的预测结果和聚类单元104的聚类结果二者计算第二训练数据集合D2和待测数据集合D3中的任意两个数据i和j之间的相似度,并且基于第二训练数据集合D2和待测数据集合D3中的任意两个数据i和j之间的相似度构造相似度图。注意,这里所称的数据i和j是第二训练数据集合D2和待测数据集合D3的合集中的数据,也就是说,数据i和j可以是数据i2或数据i3
图3示出了根据本公开的一个实施例的相似度图构造单元105执行的相似度计算处理300的流程。
图3所示的相似度计算处理300用于基于预测单元103的预测结果和聚类单元104的聚类结果二者计算第二训练数据集合D2和待测数据集合D3中的任意两个数据i和j之间的相似度。根据本公开的一个实施例,使用(|D2|+|D3|)×(|D2|+|D3|)矩阵S表示相似度图,所述矩阵S中的每个元素Sij表示所述第二训练数据集合D2和所述待测数据集合D3中的数据i和数据j之间的相似度。
下面参照图3描述用于计算第二训练数据集合D2和待测数据集合D3中的任意两数据i、j之间的相似度的相似度计算处理300的流程。
具体地,相似度计算处理300开始于步骤S301。在步骤S302中,针对第二训练数据集合D2和待测数据集合D3中的数据i,寻找第二训练数据集合D2和待测数据集合D3中的聚类结果与数据i的聚类结果相同的数据,基于所找到的数据的预测的标签(在所找到的数据属于待测数据集合D3的情况下)或已知的标签(在所找的数据属于第二训练数据集合D2的情况下)的统计分布来构造与数据i对应的第一向量P(L|Li)。
在步骤S303中,针对第二训练数据集合D2和待测数据集合D3中的数据j,寻找第二训练数据集合D2和待测数据集合D3中的聚类结果与数据j的聚类结果相同的数据,基于所找到的数据的预测的标签(在所找到的数据属于待测数据集合D3的情况下)或已知的标签(在所找的数据属于第二训练数据集合D2的情况下)的统计分布来构造与数据j对应的第二向量P(L|Lj)。
这里,第一向量P(L|Li)中的L表示第二训练数据集合D2和待测数据集合D3中的聚类结果与数据i的聚类结果相同的数据的预测结果,Li表示数据i的聚类结果。第二向量P(L|Lj)中的元素的物理意义与第一向量P(L|Li)相同。
在步骤S304中,基于第一向量P(L|Li)和第二向量P(L|Lj)之间的距离来计算数据i和数据j之间的相似度。具体地,该计算可以通过下式(1)来表示。
Sij=exp(β(1-dis(P(L|Li),P(L|Lj)))),
其中β是大于零的预先定义的常数,并且dis(P(L|Li),P(L|Lj))指示所述第一向量P(L|Li)和所述第二向量P(L|Lj)之间的距离。应注意,β的取值例如可以是根据经验确定的。
根据本公开的实施例,融合单元106可以基于相似度图构造单元105所构造的相似度图对待测数据集合D3中的每个待测数据i3的预测的标签和第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得待测数据集合D3中的每个待测数据i3的标签。
根据本公开的一个实施例,融合单元106可以通过迭代的方式对每个待测数据i3的预测的标签和训练数据i2的标签进行融合处理以获得每个待测数据i3的标签。
根据本公开的一个实施例,融合单元106可以基于下式(2)对待测数据集合D3中的每个待测数据i3的预测的标签和第二训练数据集合D2中的训练数据i2的标签进行初始化。
其中Fi(0)表示初始化时的数据i的标签。
在式(3)中,Yi是K维向量,其中除了与其标签对应的元素取值为1之外,其他元素均取值为0。
在式(3)中,Zi是K维向量,其中每个元素Zik可以通过下式(3)表示。
其中,K维向量Zi中的每个元素Zik是针对待测数据集合D3中的每个待测数据i3对Vmk (i3)进行加权求和而获得的,其中Vmk (i3)是预测单元103对待测数据i3的预测结果,即待测数据i3被监督模型m分类成类k的概率,并且wm是关于监督模型m的权重,可以根据经验预先确定。
随后,融合单元106可以执行迭代处理直至收敛,将收敛时的Fi(T)中值最大的元素所对应的标签确定为数据i的标签,其中T表示最终迭代次数。
这里,例如可以使用损失函数来确定融合单元106执行的迭代处理的具体形式,根据以下三个原则来构造损失函数Q(F)。
(1)对于待测数据集合D3中的每个待测数据i3,融合单元106获得的标签与预测的标签尽量一致;
(2)对于第二训练数据集合D2和待测数据集合D3中的相邻的数据,融合单元106获得的标签尽量一致;以及
(3)对于第二训练数据集合D2中的训练数据i2,融合单元获得的标签与其原有标签尽量一致。
根据本公开的一个实施例,根据上述三个原则,融合单元106执行的迭代处理的损失函数可以具有例如下式(4)的形式。
其中,损失函数Q(F)中的第一项体现了上述原则(1),第二项体现了上述原则(2),并且第三项体现了上述原则(3)。其中,α1和α2是预先定义的常数。
应注意,α1和α2的取值例如可以是根据经验确定的。
根据上述损失函数Q(F),融合单元106执行的迭代处理的具体形式可以被确定为具有例如下式(5)的形式。
其中t是迭代处理的时间变量,随着迭代次数的增加而递增。
如上文所述,在迭代收敛时,将Fi(T)中值最大的元素所对应的标签确定为数据i的标签。应注意,如果连续两次迭代处理所获得的结果之间的差在预定阈值内,则可以认为迭代处理已收敛。
下面根据图4描述根据本公开的信息处理方法,即半监督模型融合方法的处理过程。图4示出了根据本公开的一个实施例的信息处理方法400的处理过程的流程图。
图4中的流程图400开始于步骤S401,随后执行步骤S402。在步骤S402中,将具有标签的训练数据的集合划分成第一训练数据集合D1和第二训练数据集合D2,其中第一训练数据集合D1中的训练数据i1的数目|D1|大于第二训练数据集合D2中的训练数据i2的数目|D2|。例如,可以通过执行例如参照图1描述的划分单元101的处理来实现步骤S402,在此省略其描述。
在步骤S403中,使用M个监督模型按K个类对第一训练数据集合D1中的训练数据i1进行分类,其中M和K是等于或大于2的自然数。例如,可以通过执行例如参照图1描述的训练单元102的处理来实现步骤S403,在此省略其描述。
在步骤S404中,使用M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签。例如,可以通过执行例如参照图1描述的预测单元103的处理来实现步骤S404,在此省略其描述。
在步骤S405中,使用N个聚类模型对第二训练数据集合D2和待测数据集合D3中的数据i进行聚类,其中N是等于或大于2的自然数。例如,可以通过执行例如参照图1描述的聚类单元104的处理来实现步骤S405,在此省略其描述。
在步骤S406中,基于聚类结果和预测结果构造第二训练数据集合D2和待测数据集合D3中的任意两数据i和j之间的相似度图。例如,可以通过执行例如参照图3描述的相似度图构造单元105的处理来实现步骤S406,在此省略其描述。
在步骤S407中,基于相似度图对待测数据集合D3中的每个待测数据i3的预测的标签和第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得待测数据集合D3中的每个待测数据i3的标签。例如,可以通过执行例如参照图1描述的融合单元106的处理来实现步骤S407,在此省略其描述。
该处理400在步骤S408结束。
根据本公开的上述信息处理方法可由如图5中所示的信息处理设备500实现。如图5中所示,信息处理设备500包括控制器501。根据本公开的一个实施例的,控制器501可以被配置成执行如下处理:将具有标签的训练数据的集合划分成第一训练数据集合D1和第二训练数据集合D2,第一训练数据集合D1中的训练数据i1的数目|D1|大于第二训练数据集合D2中的训练数据i2的数目|D2|;使用M个监督模型按K个类对第一训练数据集合D1中的训练数据i1进行分类,其中M和K是等于或大于2的自然数;使用M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签;使用N个聚类模型对第二训练数据集合D2和待测数据集合D3中的数据i进行聚类,其中N是等于或大于2的自然数;基于聚类结果和预测结果构造第二训练数据集合D2和待测数据集合D3中的任意两数据i和j之间的相似度图;以及基于相似度图对待测数据集合D3中的每个待测数据i3的预测的标签和第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得待测数据集合D3中的每个待测数据i3的标签。
下面描述本公开的一个具体的应用示例。例如,可以将本公开应用于对网页数据进行处理。在该示例中,训练数据是网页数据,所进行的处理是对网页数据进行分类,而聚类或类可以是新闻、财经、科技、体育等。通过这里公开的装置和方法,能够利用少量的具有标签的训练数据(即已被归类的网页数据)有效地融合监督模型和聚类模型,从而提高最终的分类精度。
图6是示出了可用来实现图5的根据本公开的实施例的信息处理设备的通用机器600的结构简图。通用机器600可以是例如计算机系统。应注意,通用机器600只是一个示例,并非暗示对本公开的方法和装置的使用范围或者功能的局限。也不应将通用机器600解释为对上述信息处理装置或信息处理方法中示出的任一组件或其组合具有依赖或需求。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件也连接到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上,使得从中读出的计算机程序可根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
因此,本公开还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本公开的实施例的半监督模型融合方法。相应地,用于承载这种程序产品的上面列举的各种存储介质也包括在本公开的范围内。
在上面对本公开的具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。
此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
综上,在根据本公开的实施例中,本公开提供了如下方案,但不限于此:
方案1.一种信息处理装置,包括:
划分单元,其被配置成将具有标签的训练数据的集合划分成第一训练数据集合D1和第二训练数据集合D2,所述第一训练数据集合D1中的训练数据i1的数目|D1|大于所述第二训练数据集合D2中的训练数据i2的数目|D2|;
训练单元,其被配置成使用所述第一训练数据集合D1中的训练数据i1按K个类对M个监督模型进行训练,其中M和K是等于或大于2的自然数;
预测单元,其被配置成使用经训练的M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签;
聚类单元,其被配置成使用N个聚类模型对所述第二训练数据集合D2和所述待测数据集合D3中的数据进行聚类,其中N是等于或大于2的自然数;
相似度图构造单元,其被配置成基于所述聚类单元的聚类结果和所述预测单元的预测结果来构造相似度图;以及
融合单元,其被配置成基于所述相似度图对所述待测数据集合D3中的每个待测数据i3的预测的标签和所述第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得所述待测数据集合D3中的每个待测数据i3的标签。
方案2.根据方案1所述的信息处理装置,其中
所述预测单元被进一步配置成,针对所述待测数据集合D3中的待测数据i3,使用M×K矩阵V(i3)表示其标签预测结果,所述矩阵V(i3)中的每个元素Vmk (i3)表示所述待测数据i3被监督模型m分类成类k的概率,
其中1≤m≤M,1≤k≤K。
方案3.根据方案1所述的信息处理装置,其中
所述聚类单元被进一步配置成,使用(|D2|+|D3|)×L矩阵U来表示其聚类结果,所述矩阵U中的每个元素Uil表示所述第二训练数据集合D2和所述待测数据集合D3中的每个数据i是否属于聚类l,当数据i属于聚类l时,Uil=0,否则Uil=1,
其中L是所述N个聚类模型所产生的所有聚类的总数,|D3|是待测数据集合D3中的待测数据i3的总数,其中N≤l≤L。
方案4.根据方案1至3中任一项所述的信息处理装置,其中
所述相似度图构造单元被进一步配置成,根据所述聚类单元的聚类结果和所述预测单元的预测结果来计算所述第二训练数据集合D2和所述待测数据集合D3中的任意两数据i、j之间的相似度,并且基于所计算的所述第二训练数据集合D2和所述待测数据集合D3中的任意两数据i、j之间的相似度构造所述相似度图。
方案5.根据方案4中所述的信息处理装置,其中
所述相似度图构造单元被进一步配置成通过如下步骤计算所述第二训练数据集合D2和所述待测数据集合D3中的任意两数据i、j之间的相似度:
寻找所述第二训练数据集合D2和所述待测数据集合D3中的聚类结果与数据i的聚类结果相同的数据,基于所找到的数据的预测的标签或已知的标签的统计分布来构造与数据i对应的第一向量P(L|Li);
寻找所述第二训练数据集合D2和所述待测数据集合D3中的聚类结果与数据j的聚类结果相同的数据,基于所找到的数据的预测的标签或已知的标签的统计分布来构造与数据j对应的第二向量P(L|Lj);以及
基于所述第一向量P(L|Li)和所述第二向量P(L|Lj)之间的距离来计算所述数据i和所述数据j之间的相似度。
方案6.根据方案5中所述的信息处理装置,其中
使用(|D2|+|D3|)×(|D2|+|D3|)矩阵S表示相似度图,所述矩阵S中的每个元素Sij表示所述第二训练数据集合D2和所述待测数据集合D3中的数据i和数据j之间的相似度,
Sij=exp(β(1-dis(P(L|Li),P(L|Lj)))),
其中β是大于零的预先定义的常数,并且dis(P(L|Li),P(L|Lj))指示所述第一向量P(L|Li)和所述第二向量P(L|Lj)之间的距离。
方案7.根据方案1所述的信息处理装置,其中
所述监督模型选自向量机监督模型、决策树监督模型、神经网络监督模型、朴素贝叶斯监督模型、逻辑回归监督模型中的至少两个或更多个。
方案8.根据方案1所述的信息处理装置,其中
所述聚类模型选自K-means聚类模型、层次聚类模型、谱聚类模型中的至少两个或更多个。
方案9.一种信息处理方法,包括如下步骤:
将具有标签的训练数据的集合划分成第一训练数据集合D1和第二训练数据集合D2,所述第一训练数据集合D1中的训练数据i1的数目|D1|大于所述第二训练数据集合D2中的训练数据i2的数目|D2|;
使用M个监督模型按K个类对所述第一训练数据集合D1中的训练数据i1进行分类,其中M和K是等于或大于2的自然数;
使用所述M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签;
使用N个聚类模型对所述第二训练数据集合D2和所述待测数据集合D3中的数据i进行聚类,其中N是等于或大于2的自然数;
基于所述聚类结果和所述预测结果构造相似度图;以及
基于所述相似度图对所述待测数据集合D3中的每个待测数据i3的预测的标签和所述第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得所述待测数据集合D3中的每个待测数据i3的标签。
方案10.根据方案9所述的信息处理方法,其中
针对所述待测数据集合D3中的待测数据i3,使用M×K矩阵V(i3)表示其标签预测结果,所述矩阵V(i3)中的每个元素Vmk (i3)表示所述待测数据i3被监督模型m分类成类k的概率,
其中1≤m≤M,1≤k≤K。
方案11.根据方案9所述的信息处理方法,其中
使用(|D2|+|D3|)×L矩阵U来表示聚类结果,所述矩阵U中的每个元素Uil表示所述第二训练数据集合D2和所述待测数据集合D3中的每个数据i是否属于聚类l,当数据i属于聚类l时,Uil=0,否则Uil=1,
其中L是所述N个聚类模型所产生的所有聚类的总数,|D3|是待测数据集合D3中的待测数据i3的总数,其中N≤l≤L。
方案12.根据方案9至11中任一项所述的信息处理方法,其中
根据所述聚类结果和所述预测结果来计算所述第二训练数据集合D2和所述待测数据集合D3中的任意两数据i、j之间的相似度,并且基于所计算的所述第二训练数据集合D2和所述待测数据集合D3中的任意两数据i、j之间的相似度构造所述相似度图。
方案13.根据方案12中所述的信息处理方法,其中
通过如下步骤计算所述第二训练数据集合D2和所述待测数据集合D3中的任意两数据i、j之间的相似度:
寻找所述第二训练数据集合D2和所述待测数据集合D3中的聚类结果与数据i的聚类结果相同的数据,基于所找到的数据的预测的标签或已知的标签的统计分布来构造与数据i对应的第一向量P(L|Li);
寻找所述第二训练数据集合D2和所述待测数据集合D3中的聚类结果与数据j的聚类结果相同的数据,基于所找到的数据的预测的标签或已知的标签的统计分布来构造与数据j对应的第二向量P(L|Lj);以及
基于所述第一向量P(L|Li)和所述第二向量P(L|Lj)之间的距离来计算所述数据i和所述数据j之间的相似度。
方案14.根据方案13中所述的信息处理方法,其中
使用(|D2|+|D3|)×(|D2|+|D3|)矩阵S表示相似度图,所述矩阵S中的每个元素Sij表示所述第二训练数据集合D2和所述待测数据集合D3中的数据i和数据j之间的相似度,
Sij=exp(β(1-dis(P(L|Li),P(L|Lj)))),
其中β是大于零的预先定义的常数,并且dis(P(L|Li),P(L|Lj))指示所述第一向量P(L|Li)和所述第二向量P(L|Lj)之间的距离。
方案15.根据方案9所述的信息处理方法,其中
所述监督模型选自向量机监督模型、决策树监督模型、神经网络监督模型、朴素贝叶斯监督模型、逻辑回归监督模型中的至少两个或更多个。
方案16.根据方案9所述的信息处理方法,其中
所述聚类模型选自K-means聚类模型、层次聚类模型、谱聚类模型中的至少两个或更多个。
方案17.一种信息处理设备,包括:
控制器,被配置成执行以下处理:
将具有标签的训练数据的集合划分成第一训练数据集合D1和第二训练数据集合D2,所述第一训练数据集合D1中的训练数据i1的数目|D1|大于所述第二训练数据集合D2中的训练数据i2的数目|D2|;
使用M个监督模型按K个类对所述第一训练数据集合D1中的训练数据i1进行分类,其中M和K是等于或大于2的自然数;
使用所述M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签;
使用N个聚类模型对所述第二训练数据集合D2和所述待测数据集合D3中的数据i进行聚类,其中N是等于或大于2的自然数;
基于所述聚类结果和所述预测结果构造相似度图;以及
基于所述相似度图对所述待测数据集合D3中的每个待测数据i3的预测的标签和所述第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得所述待测数据集合D3中的每个待测数据i3的标签。
方案18.一种计算机可读存储介质,其上存储有能够由计算机执行的计算机程序,该程序使得计算机用作如方案1至8中任一项所述的信息处理装置。
尽管上面已经通过对本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

Claims (10)

1.一种信息处理装置,包括:
划分单元,其被配置成将具有标签的训练数据的集合划分成第一训练数据集合D1和第二训练数据集合D2,所述第一训练数据集合D1中的训练数据i1的数目|D1|大于所述第二训练数据集合D2中的训练数据i2的数目|D2|;
训练单元,其被配置成使用所述第一训练数据集合D1中的训练数据i1按K个类对M个监督模型进行训练,其中M和K是等于或大于2的自然数;
预测单元,其被配置成使用经训练的M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签;
聚类单元,其被配置成使用N个聚类模型对所述第二训练数据集合D2和所述待测数据集合D3中的数据进行聚类,其中N是等于或大于2的自然数;
相似度图构造单元,其被配置成基于所述聚类单元的聚类结果和所述预测单元的预测结果来构造相似度图;以及
融合单元,其被配置成基于所述相似度图对所述待测数据集合D3中的每个待测数据i3的预测的标签和所述第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得所述待测数据集合D3中的每个待测数据i3的标签。
2.根据权利要求1所述的信息处理装置,其中
所述预测单元被进一步配置成,针对所述待测数据集合D3中的待测数据i3,使用M×K矩阵V(i3)表示其标签预测结果,所述矩阵V(i3)中的每个元素Vmk (i3)表示所述待测数据i3被监督模型m分类成类k的概率,
其中1≤m≤M,1≤k≤K。
3.根据权利要求1所述的信息处理装置,其中
所述聚类单元被进一步配置成,使用(|D2|+|D3|)×L矩阵U来表示其聚类结果,所述矩阵U中的每个元素Uil表示所述第二训练数据集合D2和所述待测数据集合D3中的每个数据i是否属于聚类l,当数据i属于聚类l时,Uil=0,否则Uil=1,
其中L是所述N个聚类模型所产生的所有聚类的总数,|D3|是待测数据集合D3中的待测数据i3的总数,其中N≤l≤L。
4.根据权利要求1至3中任一项所述的信息处理装置,其中
所述相似度图构造单元被进一步配置成,根据所述聚类单元的聚类结果和所述预测单元的预测结果来计算所述第二训练数据集合D2和所述待测数据集合D3中的任意两数据i、j之间的相似度,并且基于所计算的所述第二训练数据集合D2和所述待测数据集合D3中的任意两数据i、j之间的相似度构造所述相似度图。
5.根据权利要求4中所述的信息处理装置,其中
所述相似度图构造单元被进一步配置成通过如下步骤计算所述第二训练数据集合D2和所述待测数据集合D3中的任意两数据i、j之间的相似度:
寻找所述第二训练数据集合D2和所述待测数据集合D3中的聚类结果与数据i的聚类结果相同的数据,基于所找到的数据的预测的标签或已知的标签的统计分布来构造与数据i对应的第一向量P(L|Li);
寻找所述第二训练数据集合D2和所述待测数据集合D3中的聚类结果与数据j的聚类结果相同的数据,基于所找到的数据的预测的标签或已知的标签的统计分布来构造与数据j对应的第二向量P(L|Lj);以及
基于所述第一向量P(L|Li)和所述第二向量P(L|Lj)之间的距离来计算所述数据i和所述数据j之间的相似度。
6.根据权利要求5中所述的信息处理装置,其中
使用(|D2|+|D3|)×(|D2|+|D3|)矩阵S表示相似度图,所述矩阵S中的每个元素Sij表示所述第二训练数据集合D2和所述待测数据集合D3中的数据i和数据j之间的相似度,
Sij=exp(β(1-dis(P(L|Li),P(L|Lj)))),
其中β是大于零的预先定义的常数,并且dis(P(L|Li),P(L|Lj))指示所述第一向量P(L|Li)和所述第二向量P(L|Lj)之间的距离。
7.根据权利要求1所述的信息处理装置,其中
所述监督模型选自向量机监督模型、决策树监督模型、神经网络监督模型、朴素贝叶斯监督模型、逻辑回归监督模型中的至少两个或更多个。
8.根据权利要求1所述的信息处理装置,其中
所述聚类模型选自K-means聚类模型、层次聚类模型、谱聚类模型中的至少两个或更多个。
9.一种信息处理方法,包括如下步骤:
将具有标签的训练数据的集合划分成第一训练数据集合D1和第二训练数据集合D2,所述第一训练数据集合D1中的训练数据i1的数目|D1|大于所述第二训练数据集合D2中的训练数据i2的数目|D2|;
使用M个监督模型按K个类对所述第一训练数据集合D1中的训练数据i1进行分类,其中M和K是等于或大于2的自然数;
使用所述M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签;
使用N个聚类模型对所述第二训练数据集合D2和所述待测数据集合D3中的数据i进行聚类,其中N是等于或大于2的自然数;
基于所述聚类结果和所述预测结果构造相似度图;以及
基于所述相似度图对所述待测数据集合D3中的每个待测数据i3的预测的标签和所述第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得所述待测数据集合D3中的每个待测数据i3的标签。
10.一种信息处理设备,包括:
控制器,被配置成执行以下处理:
将具有标签的训练数据的集合划分成第一训练数据集合D1和第二训练数据集合D2,所述第一训练数据集合D1中的训练数据i1的数目|D1|大于所述第二训练数据集合D2中的训练数据i2的数目|D2|;
使用M个监督模型按K个类对所述第一训练数据集合D1中的训练数据i1进行分类,其中M和K是等于或大于2的自然数;
使用所述M个监督模型来预测不具有标签的待测数据集合D3中的每个待测数据i3的标签;
使用N个聚类模型对所述第二训练数据集合D2和所述待测数据集合D3中的数据i进行聚类,其中N是等于或大于2的自然数;
基于所述聚类结果和所述预测结果构造相似度图;以及
基于所述相似度图对所述待测数据集合D3中的每个待测数据i3的预测的标签和所述第二训练数据集合D2中的训练数据i2的标签进行融合处理以获得所述待测数据集合D3中的每个待测数据i3的标签。
CN201610704157.1A 2016-08-22 2016-08-22 信息处理装置和信息处理方法 Pending CN107766870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610704157.1A CN107766870A (zh) 2016-08-22 2016-08-22 信息处理装置和信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610704157.1A CN107766870A (zh) 2016-08-22 2016-08-22 信息处理装置和信息处理方法

Publications (1)

Publication Number Publication Date
CN107766870A true CN107766870A (zh) 2018-03-06

Family

ID=61264121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610704157.1A Pending CN107766870A (zh) 2016-08-22 2016-08-22 信息处理装置和信息处理方法

Country Status (1)

Country Link
CN (1) CN107766870A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163238A (zh) * 2018-12-13 2019-08-23 腾讯科技(深圳)有限公司 一种信息预测的方法、模型训练的方法以及服务器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163238A (zh) * 2018-12-13 2019-08-23 腾讯科技(深圳)有限公司 一种信息预测的方法、模型训练的方法以及服务器

Similar Documents

Publication Publication Date Title
Tian et al. Evolutionary large-scale multi-objective optimization: A survey
Bertsimas et al. The voice of optimization
US20210049512A1 (en) Explainers for machine learning classifiers
CN110263227B (zh) 基于图神经网络的团伙发现方法和系统
JP7169369B2 (ja) 機械学習アルゴリズムのためのデータを生成する方法、システム
CN107004159A (zh) 主动机器学习
Becker et al. CNN architecture comparison for radio galaxy classification
US20220067588A1 (en) Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model
US10528889B2 (en) Stereoscopic learning for classification
Mohammadi et al. Hierarchical neural regression models for customer churn prediction
Elazouni Classifying construction contractors using unsupervised-learning neural networks
Chacón et al. Classification algorithms applied to structure formation simulations
Goes et al. Automated machine learning can classify bound entangled states with tomograms
CN107480687A (zh) 信息处理装置和信息处理方法
CN111582313A (zh) 样本数据生成方法、装置及电子设备
CN107766870A (zh) 信息处理装置和信息处理方法
Safdari et al. Anomaly detection and community detection in networks
Nakashima et al. Incremental learning of fuzzy rule-based classifiers for large data sets
Hemkiran et al. Design of Automatic Credit Card Approval System Using Machine Learning
Trivedi Machine Learning Fundamental Concepts
Pulkkinen et al. A multi-objective rule optimizer with an application to risk management
CN110796262B (zh) 机器学习模型的测试数据优化方法、装置及电子设备
CN111932287B (zh) 数据合作处理方法、装置、电子设备及计算机存储介质
Jeyakarthic et al. Genetic Programming with Dynamic Bayesian Network based Credit Risk Assessment Model
CN117763382A (zh) 客户群体分群方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180306

WD01 Invention patent application deemed withdrawn after publication