CN104778205B

CN104778205B - 一种基于异构信息网络的移动应用排序和聚类方法

Info

Publication number: CN104778205B
Application number: CN201510101179.4A
Authority: CN
Inventors: 吴健; 白双伶; 陈亮; 邓水光; 李莹; 尹建伟; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-03-09
Filing date: 2015-03-09
Publication date: 2019-02-15
Anticipated expiration: 2035-03-09
Also published as: CN104778205A

Abstract

本发明公开了一种基于异构信息网络的移动应用排序和聚类方法，由于排序结果主要是反映对象的重要性程度，聚类过程中引入该排序结果使得聚类结果更有意义，并且采用迭代的方法使得排序结果与聚类结果不断调整，相辅相成，从整体上提升了聚类的效果。传统的，能够用于移动应用聚类的方法中，通常只使用一种或者两种类型的信息，本发明基于由应用的四种类型信息组成的异构信息网络，使用的信息源更多，可以从本质上提升聚类的正确率。

Description

一种基于异构信息网络的移动应用排序和聚类方法

技术领域

本发明属于应用推荐领域，尤其涉及一种基于异构信息网络的特质以及基于排序的聚类方法，实现了一种对移动应用进行有效聚类和排序的方法。

背景技术

随着移动互联网的迅速发展，移动市场中涌现出了数量庞大的应用，这些各式各样的移动应用正在逐渐改变着人们的生活。每个移动应用都关联着各自相关的信息，而成千上万的移动应用就形成了一个庞大的异构信息网络，这个网络包含了大量有价值的信息，因此对移动应用信息网络的研究将具有很重要的意义。一方面，深入分析大量移动应用的使用情况可以帮助我们详细了解用户的使用行为，从而为用户提供更为个性化的服务。例如个性化的应用推荐通过挖掘用户之间或者应用之间的潜在结构化关系来为目标用户推荐更为准确的移动应用，从而提升用户的体验度。另一方面，对移动应用数据的分析还能帮助公司找到更加有效的广告推广平台。通常用户从应用市场中获取应用的方法主要分为三种途径：一种是使用应用市场的搜索引擎，直接进行搜索，第二种是使用应用市场中的应用分类标签以及排名来寻找需要的应用，第三种是在系统推荐的应用列表中获取应用。其中，应用搜索主要是采用关键字匹配方法，使用到的信息类型是移动应用的名称，而分类标签往往是固定的、人为事先设定的，随着应用数量的增长，标签设定的不合理之处将会逐渐显现出来，有鉴于此，采用一种有效的信息提取技术以弥补这些不足之处是十分必要的。聚类是一种了解数据，掌握有效信息的重要方法之一，大量杂乱的数据通过使用聚类方法被归于不同的组，有利于对数据的分析和学习，对移动应用数据进行聚类分析可以作为预测建模之前的预处理步骤。目前，大部分的能够用于应用数据聚类分析的方法主要是针对同构信息网络的，即基于应用的某一类型信息，使用单一类型的信息源由于忽略了其他相关信息，在很大程度上限制了聚类的准确度。因此一种通过提取应用的不同类型的信息以构建一个移动应用异构网络，然后基于该网络对应用本身以及其相关信息进行聚类分析的方法已成为学术界与工业界的迫切需求。

发明内容

针对上述技术问题，本发明提出一种基于异构信息网络的移动应用排序和聚类方法

为了解决上述技术问题，本发明的技术方案如下：

一种基于异构信息网络的移动应用排序和聚类方法，系统包括数据预处理模块、排序分布计算模块以及概率生成模块，具体包括如下步骤：

11)数据预处理模块从移动应用市场中获得移动应用信息文档，对该移动应用信息文档进行预处理，所述预处理过程包括信息过滤，分词处理以及关键词提取；

12)构建起一个由四类信息组成的星形异构网络；对该星形异构网络进行随机聚类，星形异构网络随之分为多个子网络；

13)排序分布计算模块接收子网络分别结算每个子网络中属性节点的排序分布，然后输出；

13)概率生成模型接收属性节点的排序分布用于计算中心节点在每个子网络中的后验概率，之后通过近邻关系计算其他属性节点的后验概率，最后检查聚类结果是否收敛，如果不收敛就按照新的概率分布重新划分子网络输入到排序分布计算模块，如果收敛就作为聚类结果输出。

进一步的，所述排序分布计算模块排序流程具体包括如下步骤：

首先输入为聚类数K以及K个移动应用的子网络，然后分别计算三类属性节点在每个子网络中的排序分布，针对AUTHOR和CATEGORY类型的对象，采用传递性排序方法，该方法是一个迭代的过程，终止条件是排序分布收敛或者迭代次数大于设定的最大次数；针对TERM类型的对象采用计数排序方法来计算其排序分布，整个排序分布计算流程最终将输出每个属性类型的排序分布；所述AUTHOR、CATEGORY和TERM类型的对象均为提取的关键词。

进一步的，首先输入部分包括聚类数K，K个移动应用子网络及其对应的属性类型的排序分布，在建立概率生成模型之后将采用EM方法获得最佳参数值，利用得到的最优参数值以及属性类型的排序分布生成中心类型节点在每个聚类中的后验概率，然后利用近邻关系计算每个属性类型节点的后验概率，最后根据概率分布情况重新分配每个节点到不同的聚类，然后输出聚类结果。

进一步的，构建起一个由四类信息组成的星形异构网络为建立星形网络：G＝(V，E，W)，其中V＝{APP，AUTHOR，CATEGORY，TERM}，包括应用的四类信息节点，APP＝{ap₁，ap₂……ap_n}是中心节点集合，AUTHOR＝{au₁，au₂……au_n}，CATEGORY＝{ca₁，ca₂……ca_n}，TERM＝{te₁，te₂……te_m}是三类属性节点集合，E是连接中心节点与属性节点的边集合，W是边的权重集合，权值分为三种，第一，如果边e_i连接的是APP与{AUTHOR，CATEGORY}的节点，那么w_i的值为1，第二，如果边e_i连接的是APP与TERM的节点，那么w_i的值可以为任何正整数，第三，如果两个节点之间没有连接边，那么w_i表示为0。

进一步的，星形网络经过排序分布计算将得到属性类型信息的排序分布结果，三种类型信息节点都有自己的排序分布，它们将作为条件概率输入到概率生成模型中，其中AUTHOR的排序分布为R＝{r(au₁)，r(au₂)……r(au_n)}，其中r(au_i)≥0，并且其他两种属性类型信息的排序分布也以同样方式表示，排序分布的具体计算过程分为两个部分，第一个部分采用的是传递性排序方法，针对AUTHOR，CATEGORY两种类型的信息，这是一个迭代的计算过程：

P(AUTHOR|G)

＝(W_AUTHOR，APPσ^-1 _AUTHOR，APP)(W_{APP，CATEGORY}σ^-1 _{APP，CATEGORY})P(CATOGORY|G) (1)

P(CATEGORY|G)

＝(W_{CATEGORY，APP}σ^-1 _{CATEGORY，APP})(W_APP，AUTHORσ^-1 _APP，AUTHOR)P(AUTHOR|G) (2)

其中σ^-1 _AUTHOR，APP，σ^-1 _{APP，CATEGORY}，σ^-1 _{CATEGORY，APP}，σ^-1 _APP，AUTHOR是对角矩阵，值分别等于权矩阵W_AUTHOR，APP，W_{APP，CATEGORY}，W_{CATEGORY，APP}，W_APP，AUTHOR的每一列值的总和，第二部分是计数排序方法，针对TERM类型，具体的计算过程如下：

其中N_G(te_i)表示G网络中，te_i的邻居节点。

进一步的，概率生成模型将会使用排序分布作为输入条件之一，然后使用EM方法评APP节点在不同聚类中的后验概率分布，定义访问某个子网络G_k中d某个属性节点x的概率为：

p(x|G_k)＝p(X|G_k)×p(x|X，G_k) (4)

其中p(X|G_k)表示在网络G_k中访问类型X的概率，p(x|X，G_k)表示在网络G_k中，访问类型X中某一个节点的概率，为了避免p(x|X，G_k)出现零概率现象，加入全局信息，对其进行平滑处理：

p′(x|X，G_k)＝(1-ε)p(x|X，G_k)+εp(x|X，G) (5)

在某个子网络中G_k访问一个中心节点ap_i的概率由其属性节点来决定：

根据贝叶斯定律，获得中心节点ap_i的后验概率：p(G_k|ap_i)∝p(ap_i|G_k)×p(G_k)，为了得到合适的P(G_k)考虑最大化后验概率p(G_k|ap_i)，然后使用EM方法来得到最佳的p(G_k)，具体计算步骤如下：

其中，K是用户输入的需要聚类的数量，当得到了所有中心类型概率分布后，为每一个属性节点计算其在每个聚类中的后验概率，具体公式如下：

其中x是某个属性节点，N(x)是一个中心节点集合，是x的邻居节点，对于某个属性节点来说，其在某个聚类中的后验概率等于其邻居节点在该聚类中的后验概率的均值。

本发明的有益效果在于：排序结果主要是反映对象的重要性程度，聚类过程中引入该排序结果使得聚类结果更有意义，并且采用迭代的方法使得排序结果与聚类结果不断调整，相辅相成，从整体上提升了聚类的效果。传统的，能够用于移动应用聚类的方法中，通常只使用一种或者两种类型的信息，本发明基于由应用的四种类型信息组成的异构信息网络，使用的信息源更多，可以从本质上提升聚类的正确率。

附图说明

图1为本发明整体结构图；

图2为本发明排序分布计算模块内部流程图；

图3为本发明概率生成模块内部流程图；

具体实施方式

下面将结合附图和具体实施例对本发明做进一步的说明。

传统聚类方法中，对移动应用数据的分析往往忽略了与应用相关的其他类型数据，这在一定程度上限制了聚类方法的准确性。本发明采用了一种基于排序的聚类方法，首先对移动应用数据进行了预处理，提取出四种类型的数据，包括被称为中心类型的应用名称以及其他三个属性类型：应用发布者、应用类别以及应用描述信息，其中对应用描述信息进行了分词处理，采用TF-IDF方法提取出关键词汇，然后将这些信息联合起来形成一个星形异构信息网络，采用类别权重矩阵来进行标识，接着采用基于排序的聚类方法，通过排序方法计算类别信息的排序分布，用于反映类别重要性的程度。然后在排序分布的基础上建立概率生成模型，以此获取应用在每个聚类中的后验概率，在计算出每个应用在每个聚类中的后验概率分布后，通过近邻关系获得其他属性类别节点在每个聚类中的概率分布，计算排序分布以及估计后验概率这两个部分是连续并迭代的，迭代将不断进行直至结果收敛。

整个移动应用排序和聚类方法主要由三个模块组成：数据预处理模块、排序分布计算模块以及概率生成模块。

从图1中可以看出，整个对移动应用排序和聚类的过程主要由数据预处理模块、排序分布计算模块以及概率生成模块三个部分顺序构成。首先数据预处理模块从移动应用市场中获得移动应用信息文档，预处理过程包括信息过滤，分词处理以及关键词提取，然后构建起一个由四类信息组成的星形异构网络；初始化部分进行随机聚类，星形网络随之分为多个子网络，排序分布计算模块接收子网络分别结算每个子网络中属性节点的排序分布，然后输出；概率生成模型接收属性节点的排序分布用于计算中心节点在每个子网络中的后验概率，之后通过近邻关系计算其他属性节点的后验概率，最后检查聚类结果是否收敛，如果不收敛就按照新的概率分布重新划分子网络输入到排序分布计算模块，如果收敛就作为聚类结果输出。

数据预处理模块对从移动市场中获取的移动应用文档进行数据提取、信息过滤、分词处理以及关键词提取，首先要提取出每个应用所对应的四种类型的数据，接下来要对提取出来的应用描述信息进行分词处理，利用TF-IDF方法提取出每个应用的关键描述词汇，最后用权重矩阵来标识这些信息，形成一个异构信息网络。

图2介绍了排序分布计算模块的流程。首先输入为聚类数K以及K个移动应用的子网络，然后分别计算三类属性节点在每个子网络中的排序分布，针对AUTHOR和CATEGORY类型的对象，采用传递性排序方法，该方法是一个迭代的过程，终止条件是排序分布收敛或者迭代次数大于设定的最大次数；针对TERM类型的对象采用计数排序方法来计算其排序分布。整个排序分布计算流程最终将输出每个属性类型的排序分布。

排序分布计算模块用于获取能够反映对象在不同聚类中重要程度的排序分布，针对不同类型数据排序模块又被细分为两个部分，其中一个部分采用的是传递性排序方法，主要是用于计算应用发布者以及应用类别这两个属性类型的排序分布，另一个部分采用的是计数排序方法，主要是用于计算应用关键词汇的排序分布。

图3介绍了概率生成模块的内部工作流程。首先输入部分包括聚类数K，K个移动应用子网络及其对应的属性类型的排序分布，在建立概率生成模型之后将采用EM方法获得最佳参数值，利用得到的最优参数值以及属性类型的排序分布生成中心类型节点在每个聚类中的后验概率，然后利用近邻关系计算每个属性类型节点的后验概率，最后根据概率分布情况重新分配每个节点到不同的聚类，然后输出聚类结果。

概率生成模块用于计算中心类型，即应用本身在不同聚类中的后验概率，采用EM方法来估计中心类型的后验概率，然后根据近邻关系获得应用的其他三个属性类型信息的概率分布，最后根据后验概率来重新聚类，输出聚类结果。

在进行排序和聚类之前需要将移动应用的文档转换为由四类信息组成的异构信息网络：

星形网络：G＝(V，E，W)，其中V＝{APP，AUTHOR，CATEGORY，TERM}，包括应用的四类信息节点，APP＝{ap₁，ap₂……ap_n}是中心节点集合，AUTHOR＝{au₁，au₂……au_n}，CATEGORY＝{ca₁，ca₂……ca_n}，TERM＝{te₁，te₂……te_m}是三类属性节点集合，E是连接中心节点与属性节点的边集合，W是边的权重集合，权值分为三种，第一，如果边e_i连接的是APP与{AUTHOR，CATEGORY}的节点，那么w_i的值为1，第二，如果边e_i连接的是APP与TERM的节点，那么w_i的值可以为任何正整数，第三，如果两个节点之间没有连接边，那么w_i表示为0。

星形网络经过排序分布计算将得到属性类型信息的排序分布结果，三种类型信息节点都有自己的排序分布，它们将作为条件概率输入到概率生成模型中，其中AUTHOR的排序分布为R＝{r(au₁)，r(au₂)……r(au_n)}，其中r(au_i)≥0，并且其他两种属性类型信息的排序分布也以同样方式表示。排序分布的具体计算过程分为两个部分，第一个部分采用的是传递性排序方法，主要是针对AUTHOR，CATEGORY两种类型的信息，这是一个迭代的计算过程：

P(AUTHOR|G)

P(CATEGORY|G)

其中σ^-1 _AUTHOR，APP，σ^-1 _{APP，CATEGORY}，σ^-1 _{CATEGORY，APP}，σ^-1 _APP，AUTHOR是对角矩阵，值分别等于权矩阵W_AUTHOR，APP，W_{APP，CATEGORY}，W_{CATEGORY，APP}，W_APP，AUTHOR的每一列值的总和。第二部分是计数排序方法，针对TERM类型，具体的计算过程如下：

其中N_G(te_i)表示G网络中，te_i的邻居节点。概率生成模型将会使用排序分布作为输入条件之一，然后使用EM方法评估APP节点在不同聚类中的后验概率分布。定义访问某个子网络G_k中d某个属性节点x的概率为：

p(x|G_k)＝p(X|G_k)×p(x|X，G_k) (4)

其中p(X|G_k)表示在网络G_k中访问类型X的概率，p(x|X，G_k)表示在网络G_k中，访问类型X中某一个节点的概率。为了避免p(x|X，G_k)出现零概率现象，加入全局信息，对其进行平滑处理：

p′(x|X，G_k)＝(1-ε)p(x|X，G_k)+εp(x|X，G) (5)

根据贝叶斯定律，可以获得中心节点ap_i的后验概率：p(G_k|ap_i)∝p(ap_i|G_k)×p(G_k)。为了得到合适的P(G_k)考虑最大化后验概率p(G_k|ap_i)，然后使用EM方法来得到最佳的p(G_k)，具体计算步骤如下：

其中，K是用户输入的需要聚类的数量，当得到了所有中心类型概率分布后，我们可以为每一个属性节点计算其在每个聚类中的后验概率，具体公式如下：

其中x是某个属性节点，N(x)是一个中心节点集合，是x的邻居节点。对于某个属性节点来说，其在某个聚类中的后验概率等于其邻居节点在该聚类中的后验概率的均值。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于异构信息网络的移动应用排序和聚类方法，其特征在于，系统包括数据预处理模块、排序分布计算模块以及概率生成模块，具体包括如下步骤：

具体构建起一个由四类信息组成的星形异构网络为建立星形网络：G＝(V,E,W)，其中V＝{APP,AUTHOR,CATEGORY,TERM}，包括应用的四类信息节点，APP＝{ap₁,ap₂……ap_n}是中心节点集合，AUTHOR＝{au₁,au₂……au_n}，CATEGORY＝{ca₁,ca₂……ca_n}，TERM＝{te₁,te₂……te_m}是三类属性节点集合，E是连接中心节点与属性节点的边集合，W是边的权重集合，权值分为三种，第一，如果边e_i连接的是APP与{AUTHOR，CATEGORY}的节点，那么w_i的值为1，第二，如果边e_i连接的是APP与TERM的节点，那么w_i的值可以为任何正整数，第三，如果两个节点之间没有连接边，那么w_i表示为0；

所述星形网络经过排序分布计算将得到属性类型信息的排序分布结果，三种类型信息节点都有自己的排序分布，它们将作为条件概率输入到概率生成模型中，其中AUTHOR的排序分布为R＝{r(au₁),r(au₂)……r(au_n)}，其中r(au_i)≥0，并且其他两种属性类型信息的排序分布也以同样方式表示，排序分布的具体计算过程分为两个部分，第一个部分采用的是传递性排序算法，针对AUTHOR，CATEGORY两种类型的信息，这是一个迭代的计算过程：

P(AUTHOR|G)

＝(W_AUTHOR,APPσ^-1 _AUTHOR,APP)(W_APP,CATEGORYσ^-1 _APP,CATEGORY)P(CATOGORY|G) (1)

P(CATEGORY|G)

＝(W_CATEGORY,APPσ^-1 _CATEGORY,APP)(W_APP,AUTHORσ^-1 _APP,AUTHOR)P(AUTHOR|G) (2)

其中σ^-1 _AUTHOR,APP，σ^-1 _APP,CATEGORY，σ^-1 _CATEGORY,APP，σ^-1 _APP,AUTHOR是对角矩阵，值分别等于权矩阵W_AUTHOR,APP，W_APP,CATEGORY，W_CATEGORY,APP，W_APP,AUTHOR的每一列值的总和，第二部分是计数排序算法，针对TERM类型，具体的计算过程如下：

其中N_G(te_i)表示G网络中，te_i的邻居节点；

所述概率生成模型将会使用排序分布作为输入条件之一，然后使用EM方法评APP节点在不同聚类中的后验概率分布，定义访问某个子网络G_k中d某个属性节点x的概率为：

p(x|G_k)＝p(X|G_k)×p(x|X,G_k) (4)

其中p(X|G_k)表示在网络G_k中访问类型X的概率，p(x|X,G_k)表示在网络G_k中，访问类型X中某一个节点的概率，为了避免p(x|X,G_k)出现零概率现象，加入全局信息，对其进行平滑处理：

p′(x|X,G_k)＝(1-ε)p(x|X,G_k)+εp(x|X,G) (5)

其中x是某个属性节点，N(x)是一个中心节点集合，是x的邻居节点，对于某个属性节点来说，其在某个聚类中的后验概率等于其邻居节点在该聚类中的后验概率的均值；

13)概率生成模型接收属性节点的排序分布用于计算中心节点在每个子网络中的后验概率，之后通过近邻关系计算其他属性节点的后验概率，最后检查聚类结果是否收敛，如果不收敛就按照新的概率分布重新划分子网络输入到排序分布计算模块，如果收敛就作为聚类结果输出；

所述排序分布计算模块排序流程具体包括如下步骤：

首先输入为聚类数K以及K个移动应用的子网络，然后分别计算三类属性节点在每个子网络中的排序分布，针对AUTHOR和CATEGORY类型的对象，采用传递性排序方法，该方法是一个迭代的过程，终止条件是排序分布收敛或者迭代次数大于设定的最大次数；针对TERM类型的对象采用计数排序方法来计算其排序分布，整个排序分布计算流程最终将输出每个属性类型的排序分布；所述AUTHOR、CATEGORY和TERM类型的对象均为提取的关键词；

首先输入部分包括聚类数K，K个移动应用子网络及其对应的属性类型的排序分布，在建立概率生成模型之后将采用EM方法获得最佳参数值，利用得到的最优参数值以及属性类型的排序分布生成中心类型节点在每个聚类中的后验概率，然后利用近邻关系计算每个属性类型节点的后验概率，最后根据概率分布情况重新分配每个节点到不同的聚类，然后输出聚类结果。