CN108509971A - 信息处理设备和信息处理方法 - Google Patents

信息处理设备和信息处理方法 Download PDF

Info

Publication number
CN108509971A
CN108509971A CN201711062209.0A CN201711062209A CN108509971A CN 108509971 A CN108509971 A CN 108509971A CN 201711062209 A CN201711062209 A CN 201711062209A CN 108509971 A CN108509971 A CN 108509971A
Authority
CN
China
Prior art keywords
cluster
attribute
node
information processing
processing equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711062209.0A
Other languages
English (en)
Inventor
邱旭乐
冈本洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN108509971A publication Critical patent/CN108509971A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

信息处理设备和信息处理方法。一种信息处理设备包括:获取表示对象中的每个对象的属性的输入数据的单元;生成单元,所述生成单元生成二分网络,所述二分网络包括作为节点包括在所述输入数据中的对象和属性,并且在所述二分网络中,与所述对象中的每个对象对应的节点经由链路连接到与所述对象的属性对应的节点;以及聚类单元,所述聚类单元通过执行在所述二分网络中经由链路在所述节点之间的转移的随机过程的迭代计算,来执行所述节点的组的聚类。

Description

信息处理设备和信息处理方法
技术领域
本发明涉及一种信息处理设备和一种信息处理方法。
背景技术
通常的做法是从关于对象(分析目标)的原始数据机械地提取该对象的属性值,并使用一组属性值作为表示对象的特征的特征表示。例如,作为文档的特征表示,使用表示该文档中的每个词的出现频率的向量。这是一种众所周知的做法。
通常使用执行从原始数据获取的对象的特征表示的聚类(clustering)的分析技术。在根据现有技术的聚类技术中,通常,将从对象的原始数据获取的特征表示视为向量,并且基于向量空间中的特征表示向量之间的距离来执行聚类。
在日本特开第2013-168127号、第2016-029526号和第2016-218531号公报中,本发明人提出了一种用于基于“马尔可夫链的模块化分解”从网络检测重叠和分层群集(cluster)结构的方法。在基于马尔可夫链的模块化分解的聚类计算(提取社团)中,使用其中网络的每个节点的概率经由一个链路转移(随机游走)到另一个链路的模型,重复计算每个节点的概率的变化,并且基于达到稳定状态时的信息来确定每个节点所属的群集。
在基于特征表示的向量之间的距离的聚类中,即使向量中包括的分量(即,属性)有关系,该关系也不反映在聚类中。因此,通过基于向量的聚类,不可能准确地执行对象的聚类。假设示例情况:将个人过去购买的食物列表用作个人的特征表示的向量以执行聚类。甚至在存在喜欢水果并购买比其它食物更多数量的水果的两个人的情况下,如果两个人中的一个人购买的水果与另一个人购买的水果完全不同,那么这两个人可能不会被归类到与水果爱好者相同的群集中,而是可能被归类到单独群集中。
发明内容
因此,本发明的目的在于提供一种方法,通过该方法,可以获取比通过基于表示对象的属性组的特征表示的向量之间的距离执行聚类获取的结果更精确的聚类结果。
根据本发明的第一方面,提供一种信息处理设备,该信息处理设备包括:获取输入数据的单元,所述输入数据表示对象中的每个对象的属性;生成单元,所述生成单元生成二分网络,所述二分网络包括作为节点包括在所述输入数据中的对象和属性,并且在所述二分网络中,与所述对象中的每个对象对应的节点经由链路连接到与所述对象的所述属性对应的节点;以及聚类单元,所述聚类单元通过执行在所述二分网络中经由链路在所述节点之间的转移的随机过程的迭代计算,来执行节点的组的聚类。
根据本发明的第二方面,所述信息处理设备还包括:对象特征生成单元,所述对象特征生成单元通过使用由所述聚类单元执行的所述聚类的结果,针对所述对象中的每个对象生成表示聚类观点下的所述对象的特征的对象群集特征数据。
根据本发明的第三方面,所述信息处理设备还包括:属性特征生成单元,所述属性特征生成单元通过使用由所述聚类单元执行的所述聚类的结果,针对所述属性中的每个属性生成表示聚类观点下的所述属性的特征的属性群集特征数据。
根据本发明的第四方面,所述信息处理设备还包括以下单元:所述单元在输入表示不包括在输入数据中的新对象的属性的数据的情况下,通过使用由所述属性特征生成单元使用针对所述输入数据执行的所述聚类的结果生成的属性的所述属性群集特征数据,生成表示聚类观点下的所述新对象的特征的特征数据。
根据本发明的第五方面,在所述信息处理设备中,所述聚类单元设置所述随机过程中的节点的初始值,以满足与所述对象对应的一组节点的初始值的总和大致等于与所述属性对应的节点的初始值的总和的条件,并使用所设置的节点的初始值以执行迭代计算。
根据本发明的第六方面,在所述信息处理设备中,所述聚类单元执行通过使用连续时间模型而不使用离散时间模型进行的计算,作为所述随机过程的迭代计算。
根据本发明的第七方面,提供一种信息处理方法,该方法包括以下步骤:获取输入数据,所述输入数据表示对象中的每个对象的属性;生成包括作为节点包括在输入数据中的所述对象和所述属性的二分网络,并且在所述二分网络中,与所述对象中的每个对象对应的节点经由链路连接到与所述对象的所述属性对应的节点;以及通过执行在所述二分网络中经由链路在所述节点之间的转移的随机过程的迭代计算,来执行所述节点的组的聚类。
根据本发明的第一方面和第七方面,可以获取比通过基于表示对象的属性组的特征表示的向量之间的距离执行聚类获取的结果更精确的聚类结果。
根据本发明的第二方面,可以生成表示聚类观点下的对象的新特征的数据。
根据本发明的第三方面,可以生成表示聚类观点下的属性的特征的数据。
根据本发明的第四方面,在输入新对象的数据的情况下,可以生成针对新对象的特征数据,其具有比在将对象的数据反映到二分网络并执行随机过程的迭代计算的情况下的计算负荷更轻的计算负荷。
根据本发明的第五方面,与随机地简单确定对象的一组节点的初始值和属性的一组节点的初始值的情况相比,可以在更大程度上补救迭代计算因为概率值在与对象对应的该组节点和与属性对象的该组节点之间来回移动而不可能收敛(converge)的情况。
根据本发明的第六方面,与使用离散时间模型的情况相比,可以在更大程度上补救迭代计算因为概率值在与对象对应的一组节点和与属性对象的一组节点之间来回移动而不可能收敛的情况。
附图说明
将基于以下附图详细描述本发明的示例性实施方式,在附图中:
图1是示出根据示例性实施方式的示例设备配置的视图;
图2是示出从原始数据获取的示例原始特征表示的视图;
图3是示出对象和属性的示例二分网络的视图;
图4是示出通过聚类计算单元执行的示例处理的视图;
图5是示出关于对象的示例聚类结果的视图;
图6是示出由特征表生成单元生成的示例特征表示的视图;
图7是用于说明概率切换的问题的视图;
图8是示出根据修改例的示例设备配置的视图;以及
图9是示出存储在属性特征存储单元中的属性的示例特征表示的视图。
具体实施方式
在下文中,将参照附图描述本发明的示例性实施方式。
图1是示出根据本发明的示例性实施方式的信息处理设备1的配置的视图。信息处理装置1包括存储单元10、输入单元12、特征表示处理单元14和分析单元16。
存储单元10包括例如随机存取存储器(RAM)和只读存储器(ROM)。存储单元10存储由特征表示处理单元14执行的程序,并且用作特征表示处理单元14的工作存储器。存储在存储单元10中并由特征表示处理单元14执行的程序可以是经由通信线路提供的程序,或者可以是存储在诸如半导体存储元件的计算机可读信息存储介质中并被提供的程序。
根据本示例性实施方式的信息处理设备1的存储单元10存储从原始数据提取的原始特征表示(以下称为“原始表示”)的数据。
原始数据是包括关于作为分析目标的每个对象的属性的信息,属性构成对象的特征。对数据内容、数据格式等都没有限制。诸如电子文档(以下简称为“文档”)的文本数据是原始数据的示例。在这种情况下,将每个文档视为作为分析目标的对象,并且将该文档中包括的各个词视为对象的各个属性。此外,诸如记录有个体的购买历史的数据库的关系数据以及上下文数据是原始数据的示例。在购买历史数据库的情况下,每个个体是作为分析目标的对象,并且由对象购买并被记录到数据库的各个商品是对象的各个属性。关于从原始数据获取的哪个信息项被视为对象并且从原始数据获取的哪个信息项被视为对象的属性的确定是根据分析目的适当指定的事项,上述说明仅是示例。
原始表示是指示从原始数据提取的对象与属性之间的关系的信息。图2示出从一组文档中提取的示例原始表示。在图2中的每个原始表示中,与作为对象的文档的文档ID(识别信息)关联地指示在文档中是(值“1”)否(值“0”)包括作为属性的每个词。也就是说,通过由属性(词)值组成的向量来表示每个对象(文档)的特征。类似地,作为从购买历史数据获取的原始表示的示例,可以使用其中指示每项是否已被个人购买的向量是否与此人的ID相关联的数据。
在图2的示例中,每个属性的值由二进制数据表示,该二进制数据指示该对象是否具有该属性;然而,这仅是一个示例。每个属性的值是根据分析目的适当指定的事项。例如,作为文档的每个属性的值,可以使用与文档中的属性(词)的出现频率对应的值来代替如图2所示的二进制数据。
可以通过使用根据现有技术的技术从原始数据生成原始表示,并且该示例性实施方式假设所生成的原始表示被预先存储在存储单元10中。当然,根据该示例性实施方式的设备或另一设备可以在执行分析时从原始数据生成原始表示。
输入单元12例如是键盘或鼠标,并且将用户指令发送到特征表示处理单元14。
特征表示处理单元14包括例如中央处理单元(CPU),并且执行存储在存储单元10中的程序,从而执行用于从原始表示生成每个对象的新特征表示的过程。通过执行原始表示的聚类来生成新特征表示。也就是说,执行由原始表示表示的对象的聚类,并且将作为聚类的结果获取的关于每个对象所属的群集的信息视为对象的新特征。在该示例性实施方式中,对于从原始表示生成的网络,基于在例如日本特开第2013-168127号、第2016-029526号和第2016-218531号公报(以下分别称为PTL 1、PTL 2和PTL 3)中提出的网络的模块化分解执行聚类,从而实现对象的聚类(下面将详细描述)。
分析单元16使用由特征表示处理单元14生成的特征表示来分析对象。分析单元16通过使用根据现有技术的技术执行分析。省略对分析的描述。
进一步详细描述特征表示处理单元14。
在根据现有技术的聚类中,假设由原始表示所表示的每个对象的特征(即,属性值的向量)指示该对象在向量空间中的位置,并且一组中的对象根据对象的位置之间的接近程度被分成多个群集。然而,在基于特征向量之间的距离的这种聚类中,如上所述,向量的属性之间的关系不反映在聚类中。
此外,原始表示通常非常稀疏,并且难以基于向量之间的距离来正确地执行非常稀疏向量的聚类。例如,在分析在Twitter(注册商标)上发布的推文的情况下,在一组推文中包括各种各样的词(例如,几千到几万个词)。如果使用这样的各种词作为每个向量(属性)的分量,则每个推文仅包括各种词中的有限词(最多几十个词)。因此,表示每个推文的特征表示的向量针对包括在该推文中的仅有限词而言,具有大于0的值(例如,1),并且针对除了有限词之外的大多数词,具有值0,也就是说,该向量是非常稀疏向量。
根据相关技术的基于向量之间的距离的聚类过多地依赖于向量之间的距离。也就是说,向量之间的接近程度根据用于向量生成等执行的预处理而改变,因此,不可能仅根据距离获取高可靠性的聚类结果。
特征表示处理单元14从原始表示形成包括作为节点的对象和属性的二分网络,并且基于网络的模块化分解来执行二分网络的聚类,而不是基于向量之间的距离来执行原始表示的聚类。
特征表示处理单元14在功能上包括获取单元140、二分网络生成单元142、聚类计算单元144和特征表示生成单元146。
获取单元140从存储单元10获取原始表示的数据。
二分网络生成单元142从原始表示的数据生成包括作为节点的对象和属性的二分网络。二分网络也称为二分图,并且是将一组节点分成两个子集并且不存在连接相同子集中的节点的链路的网络(图表)。二分网络生成单元142生成包括作为单独子集的对象的一组节点和属性的一组节点的二分网络。
在图3中示出了从图2所示的原始表示数据生成的二分网络。在图3中,每个方块表示指示作为对象的文档的节点,并且每个圆圈表示指示作为属性的词的节点。连接对象的节点与属性的节点的每条直线表示链路。该二分网络通过例如经由链路连接图2中所示的原始表示中的文档的节点与值为1的词的节点来生成。在该二分网络中,不存在连接文档的节点和值为0的词的节点的链路。
在原始表示的每个属性的值不是如图2所示的二进制值,而是诸如词的出现频率的正多级值的情况下,对象的节点经由链路连接到对于该对象具有正值的属性的节点,并且不提供连接对象的节点与对于该对象具有值为0的属性的节点的链路,从而形成二分网络。在这种情况下,可以使用多级值作为指示链路的强度的信息。链路的强度可以被反映到例如下面描述的聚类计算中经由链路的转移的概率(即,下面描述的转移概率矩阵Tnm)(例如,随着链路的强度增加,链路的转移概率的值增加)。
聚类计算单元144通过使用用于网络的模块化分解的技术,对由二分网络生成单元142生成的作为目标的二分网络执行聚类计算。由下面的表达式1表示网络的模块化分解。
在表达式1中,p(n)表示节点n的概率(针对该节点存在随机游走的概率),πk表示群集(社团)k的先验概率并且表示群集k的重要度。对于k的πk总和为1,p(n|k)表示群集k中的节点n的概率,K表示群集k的总数。表达式1表示节点n的概率p(n)在各个群集k中被分解为节点n的概率p(n|k)的组合。
由聚类计算单元144使用的特定计算技术可以是例如与PTL 1至PTL 3中描述的那些技术类似的技术。作为特定计算过程,下面参照图4来描述基于与PTL 2和PTL 3中描述的技术类似的想法的示例性过程。
在图4的过程中,聚类计算单元144首先生成用于由二分网络生成单元142生成的二分网络的转移概率矩阵Tnm(S10)。这里,转移概率矩阵Tnm是表示代理(换句话说,节点m的概率值)沿网络中的链路从节点m转移(随机游走)到节点n的概率(即,转移概率)的矩阵。例如,如果假设代理选择从具有相等概率的节点延伸的一个或更多个链路,则转移概率矩阵仅取决于由网络信息指示的网络的结构,即,仅取决于节点如何链接。当然,可以通过考虑除了关于网络结构的信息以外的信息(例如,节点的重要度或链路的强度)来计算转移概率矩阵Tnm。另外在这种情况下,转移概率矩阵Tnm基于网络信息。在二分网络的情况下,不存在连接属于相同子集的节点的链路,因此,在相同子集中的节点之间转移的转移概率在转移概率矩阵Tnm中为0。关于转移概率矩阵,请进一步详细参考PTL 1至PTL 3。
接下来,聚类计算单元144计算稳定链路概率(S12)。
在该计算中,首先使用在S10中获取的转移概率矩阵Tnm来计算在二分网络中的概率转移(随机游走)处于稳定状态时的每个节点的概率(稳定状态的节点概率)。在计算中,例如,重复计算下面的表达式2,直到达到稳定状态。
在表达式2中,pt(n)是节点n在离散时间t处的概率。重复计算表达式2,并且达到稳定状态时的pt(n)的值是节点n在稳定状态下的节点概率pstead(n)。
接下来,聚类计算单元144通过使用下面的表达式3,从各个节点n在稳定状态下的节点概率pstead(n)计算稳定状态下的链路概率。
pstead(l)=T(链路1的终点|链路1的起点)pstead(链路l的起点)…表达式3
链路概率是通过将节点概率pt(n)乘以从该节点延伸的链路l的转移概率而获取的值。链路l在稳定状态下的链路概率(表达式3的左侧)是通过将作为链路l的起点的节点在稳定状态下的节点概率乘以从链路l的起点节点转移到链路l的终点节点的转移概率而获取的值,转移概率被包括在转移概率矩阵Tnm中。
在PTL 2和PTL 3中,作为通过执行D次虚拟观测而获取的观测数据的通道(passage)信息τn (d)(其中,d是从1到D的整数,n是节点标识号)被用作学习数据。在下面描述的示例中,在观测次数D足够大(远大于节点数N)的合理假设下,使用与由下面的表达式4定义的实际链路l有关的通道信息代替τn (d)
这里,n是节点标识号,δ是克罗内克符号(Kronecker delta)。也就是说,如果节点n与实际链路l的终点或实际链路l的起点匹配,则由表达式4定义的关于节点n的实际链路l的通道信息(学习数据)具有值1,否则具有值0。聚类计算单元144从关于二分网络的信息生成这样的通道信息作为学习数据。所生成的通道信息在下面描述的期望最大化(EM)算法的计算中使用。
在这个示例中,使用由下面关于实际链路l的表达式(III)定义的比例γlk(具有波浪符)来代替比例γ(d)(k),γ(d)(k)是群集k与PTL 2等中描述的第d次虚拟观测中的所有多个群集(分量)的比例。
如上所述,由实际链路号l替换观测次数d,并且用于函数的总和的表达式替换如下。
下面描述的表达式(I)右侧的第二项通过对PTL 2等中描述的类似表达执行这样的替换来获取。
返回参照图4的过程,聚类计算单元144临时确定概率pt(n|k)、重要度πk new和比例γlk的初始值,并将用于对迭代次数进行计数的计数器g初始化为0(S14)。概率pt(n|k)是节点n在群集k中的概率。重要度πk new是群集k的重要度。比例γlk是群集k与链路l的所有多个群集的比例。
接下来,聚类计算单元144通过使用下面的表达式(I)、(II)和(III)来执行EM算法的迭代计算。
(I)
(lI)
其中
(III)
也就是说,聚类计算单元144首先通过使用表达式(III)来计算比例γlk,这是EM算法中的期望(E)步骤(S16)。在迭代计算中的第一次迭代中,聚类计算单元144使用在S14中临时确定的初始值。
接下来,聚类计算单元144执行替换,以将作为先前时间处的值的pt-1(n|k)和πk old设置为当前概率pt(n|k)和当前重要度πk new(S18)。然后,聚类计算单元144根据表达式(I)和(II)来计算概率pt(n|k)和重要度πk new,这是EM算法中的最大化(M)步骤(S20)。更具体地,在S20中,聚类计算单元144首先根据表达式(II)计算新重要度πk new,此后,通过使用新重要度来计算表达式(I),从而计算概率pt(n|k)。这里,α为正实数和用于指定群集的大小的参数,并且需要使用预定值。
聚类计算单元144使用于对迭代计算的次数进行计数的计数器g递增1(S22),并且确定计数器g是否达到预定值G(S24)。如果计数器g未达到G(S24中:否),则重复S16到S22的处理。值G是在根据本示例性实施方式的计算技术中用于从S16到S20的计算以进行收敛所需要的迭代次数,并且根据实验、经验知识等被预先确定。
如果在S24中确定计数器g达到值G(S24中:是),则聚类计算单元144确定迭代计算已经收敛,并结束处理。
在S24中获取确定结果为“是”之后,聚类计算单元144根据下面的表达式计算节点n属于群集k的程度的归属度γ(k|n)。
在该表达式中,πk和p(n|k)是通过重复执行EM算法的计算(从S16到S20)最终获取的πk new和pt(n|k)。该表达式是通过使用贝叶斯定理从πk和p(n|k)计算节点n属于群集k的程度(归属度)的表达式。
聚类计算单元144输出因此计算的归属度γ(k|n)作为聚类结果。归属度γ(k|n)是指示节点n的软聚类结果的信息。
另选地,例如,聚类计算单元144可以基于预定阈值使归属度γ(k|n)二值化,并且可以将所得到的值输出作为聚类结果。该聚类结果指示节点n属于归属度γ(k|n)具有等于或大于阈值的值(所得到的二值化值为1)的群集k。对于节点n,根据所确定的阈值的值,可以存在二值化的结果为1的多个群集k。这被视为是一种软聚类的结果。在图5中示出如上所述的被二值化的示例聚类结果。在本示例中,确定具有对象ID 1的对象属于两个群集,即,具有群集ID C2的群集和具有群集ID C4的群集。对象ID对应于节点号n,并且群集ID对应于群集号k。
聚类计算单元144可以提取并输出所有K个群集的聚类结果中的仅在迭代计算中使用的几个重要群集的聚类结果(其中,K是群集的总数,k=1至K),作为最终聚类结果。重要群集需要基于重要度πk来确定。例如,可以提取在迭代计算已经收敛时最终获取的重要度πk等于或大于预定阈值的群集k作为重要群集,或者可以提取具有从顶部排列在预定位置或者上方的重要度πk的群集k作为重要群集。
在S24中确定收敛时,代替使用图4所示的方法,可以使用与PTL 1至PTL 3中描述的那些方法类似的方法,其中,确定迭代计算在每次迭代中的评估值Qt的变化量变为非常小的值(小于阈值)的情况下已经收敛。
图4的过程使用与PTL 2和PTL 3中描述的计算技术类似的技术;然而,在二分网络的聚类中可以使用与PTL 1中描述的计算技术类似的技术。PTL 1至PTL 3中描述的所有技术是用于将网络中的节点之间的概率的转移处理为离散马尔可夫链的技术;然而,可以使用基于连续马尔可夫过程的诸如连续时间主方程的计算技术,来代替离散马尔可夫链。
当如上所述完成聚类计算单元144进行的聚类时,特征表示生成单元146通过使用聚类结果生成用于每个对象的新特征表示。
特征表示生成单元146生成从聚类计算单元144获取的聚类结果中的关于每个对象的信息,作为该对象的新特征表示。在该示例中,根据图5中的聚类结果,由例如向量(0,1,0,1,...,0)(向量的分量的数量为K)表示具有对象ID 1的对象的新特征表示。在聚类结果不由指示对象是否属于每个群集的二进制值表示,而是由对象属于每个群集的程度(例如,上述归属度γ(k|n))的数值(实数等于或大于0并且等于或小于1)表示的情况下,可以使用与聚类结果中的每个对象有关的信息作为该对象的新特征表示。
另选地,例如,特征表示生成单元146可以生成图6所示的组合表示作为每个对象的新特征表示。这种组合表示通过将原始表示与附加表示组合而获取。附加表示是与从聚类计算单元144获取的聚类结果中的每个对象有关的信息。
关于由特征表示生成单元146生成的对象的新特征表示的数据被提供给分析单元16。分析单元16使用对象的特征表示来分析各个对象以及对象之间的关系。
通过聚类计算单元144执行的计算也可以获取针对属性的聚类结果。因此,特征表示生成单元146可以从属性的聚类结果生成属性的特征表示。所生成的每个属性的特征表示例如是如在对象的附加表示中的指示属性是否属于每个群集或者指示属性属于每个群集的程度(如果属性根本不属于群集,则值为0)的信息(例如,向量表示)。
如上所述,在该示例性实施方式中,由给定原始表示形成包括作为节点的对象和属性的二分网络,并且针对二分网络执行节点之间的概率的转移过程的迭代计算,从而执行节点的聚类。
在初始原始表示中,不明确地包括指示属性之间的关系的数据,因此在二分网络中不存在将属性的节点彼此直接连接的链路。然而,属性的节点经由链路连接到具有该属性的对象的节点,并经由对象的节点间接地连接到对象的另一属性的节点。彼此相关的对象很可能具有共同属性,并且彼此相关的属性很可能属于共同对象。因此,最初彼此密切相关的属性的节点很可能经由大量对象节点中的每一个以两个链路的距离彼此连接。即使没有连接节点的直接链路,但是由于二分网络的聚类的结果,属性可能被归类到相同群集中。因此,即使在彼此密切相关的对象不具有共同属性的情况下,在聚类计算中,对象之间的关联度通过经由很可能被归类到与该属性被归类到的群集相同的群集中的另一个属性的概率的转移表面化(surface),并且对象可能被归类到相同群集中。如上所述,利用根据本示例性实施方式的技术,能够在聚类中反映不包括在基于向量之间的距离的聚类技术中的计算中的属性之间的关系。
通过上述形成对象和属性的二分网络并且执行二分网络的聚类的方法,还在聚类结果中反映对象与不是该对象的属性的属性之间的关系。因此,即使原始表示是稀疏的,也可以获取比基于向量之间的距离的聚类所获取的聚类结果更合理的聚类结果。
如上所述的对象和属性的二分网络的聚类不使用向量之间的距离,因此,聚类结果不太多依赖于向量之间的距离。
解决概率切换
在用于二分网络的马尔可夫链的迭代计算中,对象的节点的概率在下一个步骤中必须转移到属性的节点,并且属性的节点的概率在下一个步骤必须移动到对象的节点。因此,在计算的每个迭代步骤中,概率在对象的节点组与属性的节点组之间来回移动,并且计算不大可能收敛(或不收敛)。
例如,图7中的示例示出了这样的情况:在初始阶段的时间点处,属于二分网络中的对象节点的子集SA的节点的概率的总和p(SA)为0.99,并且属于二分网络中的属性节点的子集SB的节点的概率的总和p(SB)为0.01。当马尔可夫链的计算从该初始状态进行一个步骤时,p(SA)变为等于0.01并且p(SB)变为等于0.99。当计算进一步进行一个步骤时,p(SA)变为等于0.99并且p(SB)变为等于0.01。此后,每个子集的概率的总和在两个子集之间来回移动。每个节点的概率根据来自另一链接节点的概率的转移而单独改变;然而,每个子集的总和在每个步骤中具有显著的不平衡值,并且保持这种不平衡。这种不平衡阻碍了每个节点的概率收敛。
上述问题被称为概率切换。在下文中,提出了用于解决概率切换问题的技术。
在第一种技术中,设置在马尔可夫链的迭代操作中使用的节点的概率的初始值,使得对象节点的概率的总和等于属性节点的概率的总和。
更具体地,例如,聚类计算单元144在上述图4的过程中在S12中计算稳定状态下的节点概率(表达式2的迭代)时,确定每个节点n的概率pt(n)的初始值p0(n),以满足对象节点组的总初始值等于属性节点组的总初始值的限制条件(即,总值等于0.5)。
另选地,例如,在针对对象节点组的总数等于针对属性节点组的总数的限制条件下,聚类计算单元144在图4的过程中在S14中临时确定概率pt(n|k)的初始值。
另选地,可以根据针对对象节点组的总数等于针对属性节点组的总数的限制条件来确定每个节点n的概率pt(n)的初始值和概率pt(n|k)的初始值。
当初始值如上所述设置时,不发生对象节点的子集与属性节点的子集之间的概率的不平衡,并且消除或减少由于上述概率切换而导致的对收敛的阻碍。
这里,执行初始化,使得对象节点的概率的初始值的总和等于属性节点的概率的初始值的总和;然而,总和不需要彼此完全相等,而是需要彼此接近,使得总和被视为大致相等。这里,“大致相等”表示对象节点的概率的初始值的总和与属性节点的概率的初始值的总和之间的差异小到以上针对二分网络描述的EM算法的计算在计算迭代可允许范围内的次数时收敛的程度。
在用于解决概率切换问题的第二种技术中,在聚类计算中,使用基于时间连续马尔可夫过程模型来代替时间离散马尔可夫链模型的计算。基于连续马尔可夫过程的计算模型的示例包括连续时间主方程。
由下面的表达式5表示在使用连续时间主方程的情况下节点n的概率的时间变化。
根据表达式5,获得以下表达式6。
这里,Δt是比0长且比1短的非常短时间。当表达式6中的Δt等于1时,表达式6在上述离散马尔可夫链的情况下与表达式2相同。
在表达式6中,假设由以下表达式表达的狄利克雷分布(Dirichletdistribution)。
在这种情况下,EM算法中的数学表达式(I′)至(III′)如下。
(I′)
(II′)
其中
这里,γ(k|1)表示链路1到社团k的归属度,τ(n|1)表示节点n是否是链路1的顶点。
(III′)
这里,上述表达式中的γ(k|1)和τ(n|1)分别对应于上述表达式(I)中的γ1k和τn (1)
聚类计算单元144在图4所示的处理过程中的S16和S20中使用上述表达式(I')至(III')执行计算,并且将计算迭代G次。
在离散马尔可夫链(表达式(I)至(III))的上述示例中,所有节点的概率以1的时间间隔(Δt=1)同时转移,因此,上述概率切换问题出现。在基于连续时间主方程(表达式(I')至(III'))的计算中,所有节点的概率在每个时间间隔1期间转移;然而,所有节点的概率不在相同定时处同时转移,而是根据非常短时间间隔Δt在不同时间处转移。因此,消除或减少了上述概率切换的问题。
从新原始数据简化对象的特征表示的计算
基于上述聚类的二分网络的聚类和特征表示的生成需要马尔可夫链等的迭代计算,因此花费很长时间进行计算。因此,在已经获取一次聚类结果之后,如果每次通过将原始数据包括在二分网络中添加新原始数据(或基于该数据的原始表示)时都执行聚类,那么计算花费大量时间。下面描述使用已经一次获取的聚类结果来简单地计算稍后添加的原始数据的特征表示的修改例。
图8示出本修改例的信息处理设备1的配置的视图。在根据本修改例的信息处理设备1中,向特征表示处理单元14添加属性特征存储单元150和特征表示简化计算单元152的功能。此外,特征表示生成单元146包括对象特征生成单元147和属性特征生成单元148的功能。其余配置与图1所示的根据上述示例性实施方式的信息处理设备1相同。
对象特征生成单元147生成与聚类结果中的每个对象有关的信息(例如,图5所示的信息)作为关于群集的对象的特征表示。所生成的特征表示对应于图6所示的附加表示。特征表示生成单元146可以将附加表示输出为与原始表示不同的对象的新特征表示,或者可以通过将附加表示与原始表示组合来生成组合表示(参见图6),并将组合表示输出为对象的新特征表示。
属性特征生成单元148从由聚类计算单元144获取的每个属性的聚类结果生成用于每个属性的属性的特征表示。该特征表示需要为如对象的附加表示中(参见图6)的、指示属性是否属于每个群集或者指示属性属于每个群集的程度(如果属性不属于该群集,则该值为0)的信息(例如,向量表示)。
属性特征存储单元150存储由属性特征生成单元148生成的每个属性的特征表示的数据。这里,假定通过聚类计算单元144基于上述EM算法从大量原始表示数据获取的每个属性的特征表示已经被存储在属性特征存储单元150中。
在关于一个或更多个对象,原始表示在学习之后被新输入到信息处理设备1的情况下,特征表示简化计算单元152通过使用存储在属性特征存储单元150中的属性的特征表示,来计算关于包括在被新输入到信息处理设备1的原始表示中的对象的新特征表示。
特征表示简化计算单元152基于下面的表达式7执行计算。
p(k|τ)=∑ωp(k,ω|τ)=∑ωp(k|ω,τ)p(ω|τ)≈∑ωp(k|ω)p(ω|τ)…表达式7
*τ表示“分析对象侧”的节点,ω表示“特征属性侧”的节点。
这里,τ是对象的原始表示,ω是通过执行学习获取的属性的特征表示。表达式7的左侧表示在对象的原始表示为向量τ的条件下的群集k的概率(条件概率)。该条件概率p(k|τ)可以被视为对象τ属于群集k的程度,并且基本上等于归属度γ(k|n),其在上述示例性实施方式中表示节点n(与对象τ对应)属于的群集k的程度。在该修改例中,条件概率p(k|τ)被视为基于聚类结果的对象τ的特征表示。表达式7表示条件概率p(k|τ)基本上等于针对ω的在属性的原始表示为向量ω的条件下的群集k的概率p(k|ω)与在对象的原始表示为向量τ的条件下的属性ω的概率p(ω|τ)的乘积的总和。这里,p(k|ω)可以被视为属性ω属于群集k的程度,并且是基于聚类结果的属性ω的特征表示。作为该特征表示的值,存储在属性特征存储单元150中的每个属性的特征表示是可用的。此外,p(ω|τ)需要通过使对象τ的属性ω的值归一化来计算,使得总和等于1。
使用具体示例来给出下面的描述。例如,假设对象τ的原始表示由下面的表达式8表示。
τ=(0,0,1,0,0,1,0,1,0,0)…表达式8
当对象τ的原始表示的向量被归一化时,如上面的表达式9所示来计算概率p(ω|τ)。
这里,分别与对象的原始表示的向量的第三分量、第六分量和第八分量(存储在属性特征存储单元150中的特征表示)对应的属性ω3、ω6和ω8的特征表示如下。这些特征表示对应于表达式7中的概率p(k|ω)。
ω3=(0,0.1,0,0.4,0.5,0)
ω6=(0,0.3,0,0,0.7,0)
ω8=(0,0.2,0,0.1,0.7,0)
在这种情况下,对象τ的特征表示p(k|τ)是根据表达式7的针对ω的p(k|ω)和p(ω|τ)的乘积的总和,并且计算如下。
如上所述,根据该变形例,作为学习的结果而获取的属性的特征表示被用于生成由学习之后输入的原始表示所表示的对象的新特征表示(关于群集的特征表示)。
以上已经描述了本发明的示例性实施方式。上述信息处理设备1通过使计算机执行描述上述功能的程序来实现。计算机具有电路配置,其中硬件单元(即,对诸如CPU的微处理器进行控制的控制器、诸如RAM和ROM的存储器(主存储器)以及诸如闪存、固态驱动器(SSD)或硬盘驱动器(HDD)的固定存储设备、各种输入/输出(I/O)接口、以及执行用于连接到诸如局域网的网络的控制的网络接口)经由例如总线彼此连接。描述功能的处理细节的程序通过网络等保存在诸如闪存的固定存储设备中,并安装在计算机上。存储在固定存储设备中的程序被加载到RAM中,并且由诸如CPU的微处理器执行,从而实现上述功能模块组。
为了例示和描述的目的,已经提供了本发明的示例性实施方式的前面描述。其不旨在是排他性的或者将本发明限制到所公开的精确形式。明显地,对于本领域技术人员而言,许多修改和变形是显而易见的。选择并描述这些实施方式以最好地说明本发明的原理及其可实践应用,因而使本领域技术人员能够理解本发明的多种实施方式以及适于预期的特定使用的多种修改。本发明的范围意在由权利要求及其等同物限定。

Claims (7)

1.一种信息处理设备,所述信息处理设备包括:
获取输入数据的单元,所述输入数据表示对象中的每个对象的属性;
生成单元,所述生成单元生成二分网络,所述二分网络包括作为节点包括在所述输入数据中的对象和属性,并且在所述二分网络中,与所述对象中的每个对象对应的节点经由链路连接到与所述对象的所述属性对应的节点;以及
聚类单元,所述聚类单元通过执行在所述二分网络中经由所述链路在所述节点之间的转移的随机过程的迭代计算,来执行所述节点的组的聚类。
2.根据权利要求1所述的信息处理设备,所述信息处理设备还包括:
对象特征生成单元,所述对象特征生成单元通过使用由所述聚类单元执行的聚类的结果,针对所述对象中的每个对象生成表示聚类观点下的所述对象的特征的对象群集特征数据。
3.根据权利要求1或2所述的信息处理设备,所述信息处理设备还包括:
属性特征生成单元,所述属性特征生成单元通过使用由所述聚类单元执行的聚类的结果,针对所述属性中的每个属性生成表示聚类观点下的所述属性的特征的属性群集特征数据。
4.根据权利要求3所述的信息处理设备,所述信息处理设备还包括以下单元:
所述单元在输入表示不包括在所述输入数据中的新对象的属性的数据的情况下,通过使用由所述属性特征生成单元使用针对所述输入数据执行的聚类的结果而生成的属性的属性群集特征数据,生成表示聚类观点下的所述新对象的特征的特征数据。
5.根据权利要求1至4中的任一项所述的信息处理设备,其中
所述聚类单元设置所述随机过程中的节点的初始值,以满足与所述对象对应的一组节点的初始值的总和大致等于与所述属性对应的节点的初始值的总和的条件,并使用所设置的节点的初始值来执行迭代计算。
6.根据权利要求1至4中的任一项所述的信息处理设备,其中
所述聚类单元执行通过使用连续时间模型而不使用离散时间模型进行的计算,作为所述随机过程的迭代计算。
7.一种信息处理方法,所述信息处理方法包括以下步骤:
获取输入数据,所述输入数据表示对象中的每个对象的属性;
生成包括作为节点包括在所述输入数据中的对象和属性的二分网络,并且在所述二分网络中,与所述对象中的每个对象对应的节点经由链路连接到与所述对象的所述属性对应的节点;以及
通过执行在所述二分网络中经由所述链路在所述节点之间的转移的随机过程的迭代计算,来执行所述节点的组的聚类。
CN201711062209.0A 2017-02-27 2017-11-02 信息处理设备和信息处理方法 Pending CN108509971A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017034888A JP2018142095A (ja) 2017-02-27 2017-02-27 プログラム及び情報処理装置
JP2017-034888 2017-02-27

Publications (1)

Publication Number Publication Date
CN108509971A true CN108509971A (zh) 2018-09-07

Family

ID=63246874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711062209.0A Pending CN108509971A (zh) 2017-02-27 2017-11-02 信息处理设备和信息处理方法

Country Status (3)

Country Link
US (1) US11068525B2 (zh)
JP (1) JP2018142095A (zh)
CN (1) CN108509971A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612967B (zh) * 2020-09-11 2023-07-18 辽宁师范大学 基于链接聚类和约简的协同过滤推荐方法
US20230214881A1 (en) * 2021-12-31 2023-07-06 Synamedia Limited Methods, Devices, and Systems for Dynamic Targeted Content Processing

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5895813B2 (ja) 2012-01-18 2016-03-30 富士ゼロックス株式会社 プログラム及び検索装置
US9424307B2 (en) * 2012-10-11 2016-08-23 Scott E. Lilienthal Multivariate data analysis method
US9679247B2 (en) * 2013-09-19 2017-06-13 International Business Machines Corporation Graph matching
JP6390239B2 (ja) 2014-07-25 2018-09-19 富士ゼロックス株式会社 情報処理装置、及びプログラム
JP6511951B2 (ja) 2015-05-14 2019-05-15 富士ゼロックス株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
US20180247225A1 (en) 2018-08-30
JP2018142095A (ja) 2018-09-13
US11068525B2 (en) 2021-07-20

Similar Documents

Publication Publication Date Title
Huang et al. Transformer-patcher: One mistake worth one neuron
Wainer Comparison of 14 different families of classification algorithms on 115 binary datasets
Li et al. A multi-task learning formulation for survival analysis
Creutz Microcanonical monte carlo simulation
AU2019210306A1 (en) Systems and methods for preparing data for use by machine learning algorithms
US20210042586A1 (en) Phenomenon prediction device, prediction model generation device, and phenomenon prediction program
Ozolins et al. Goal-aware neural SAT solver
da Silva et al. Distinct chains for different instances: An effective strategy for multi-label classifier chains
Ngufor et al. Extreme logistic regression
Huang et al. A deep learning approach for power system knowledge discovery based on multitask learning
CN108509971A (zh) 信息处理设备和信息处理方法
CN113656691A (zh) 数据预测方法、装置及存储介质
Ravi et al. Hybrid classification and regression models via particle swarm optimization auto associative neural network based nonlinear PCA
Hu Functional-link nets with genetic-algorithm-based learning for robust nonlinear interval regression analysis
CN112767190B (zh) 一种基于多层堆叠式神经网络的台区相序识别方法及装置
Das et al. An improved quadratic approximation-based Jaya algorithm for two-echelon fixed-cost transportation problem under uncertain environment
Mitrai et al. Taking the human out of decomposition-based optimization via artificial intelligence, Part I: Learning when to decompose
CN115455457B (zh) 基于智慧大数据的链数据管理方法、系统和存储介质
Hooker Diagnosing extrapolation: Tree-based density estimation
Moezi et al. Fault isolation of analog circuit using an optimized ensemble empirical mode decomposition approach based on multi-objective optimization
Browning et al. A maximum entropy approach for collaborative filtering
Belz et al. Proposal for a function generator and extrapolation analysis
Shalova et al. Deep Representation Learning for Dynamical Systems Modeling
Sassi et al. A methodology using neural network to cluster validity discovered from a marketing database
Hasan et al. Fault Occurrence Detection and Classification of Fault Type in Electrical Power Transmission Line with Machine Learning Algorithms.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Tokyo, Japan

Applicant after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo, Japan

Applicant before: Fuji Xerox Co.,Ltd.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180907