CN108874868A

CN108874868A - 一种隐式标签同现的预测方法及装置

Info

Publication number: CN108874868A
Application number: CN201810374955.1A
Authority: CN
Inventors: 陈晋鹏; 张佩; 傅湘玲; 管皓; 孙艺; 牛琨; 高慧; 吴国仕
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-11-23

Abstract

本发明公开了一种隐式标签同现的预测方法，包括：获取信息网络中与标签相关的实体，基于不同实体之间的关系构建权重网络元结构并得到信息网络对应的网络拓扑结构；分别针对不同的实体，相应计算得到不同实体的权重并添加到所述网络拓扑结构中；针对待预测的两个标签，在所述网络拓扑结构中获取两个标签之间的权重路径；其中，所述权重路径为待预测的两个标签之间连接路径；将所述权重路径作为输入，采用逻辑回归模型作为预测模型，计算待预测的两个标签同现的概率。本申请能够对标签网络中隐藏更深的标签关系是否能够同现进行准确预测，进而挖掘得到更深层次的相关信息。

Description

一种隐式标签同现的预测方法及装置

技术领域

本发明涉及标签同现预测相关技术领域，特别是指一种隐式标签同现的预测方法及装置。

背景技术

近年来，社会标注系统(如Flickr、YouTube等)得到了很多研究者的关注。这些系统中的用户通过加标签来标注自己感兴趣的内容，通过构建他们的朋友网络来和其他的用户形成社会关系。当前，许多研究者基于用户标记产生的标记内容、形成的社会关系等做了一系列的研究工作。在这些研究工作中，标签同现是一个热门的研究话题。比如，标签同现可以定义标签的相似性、通过标签同现可以学习用户的标记行为。同时，标签同现在一定程度上可以起到语义扩展的作用。比如，通过同现标签“北京”、“长城”，我们可以知道长城是北京一个景点；通过标签“跑步”、“阿迪达斯”，我们可以知道一个用户喜欢跑步这项运动并且喜欢用阿迪达斯这个牌子的运动装备。

通常，标签使用频率以及标签同现频率都服从幂律分布。例如：一些研究者指出，在一家用标签系统管理内容的网站del.icio.us标注系统中标签的使用频率服从幂律分布，也即标签的选择是高度集中的。最流行的标签被使用的次数高达180,000。也有一些研究者阐明所有标签中的55％只被使用一次，并且同现标签也服从幂律分布。这样，标签同现在扩展语义方面受到了限制。

因此，在实现本申请的过程中发明人发现现有技术至少存在以下缺陷：当前基于已知标签同现关系的研究依旧存在限制，导致无法对网络中更深层次的关联关系进行预测，也即无法预知未知两个标签是否可能出现同现关系。

发明内容

有鉴于此，本发明的目的在于提出一种隐式标签同现的预测方法及装置，能够对标签网络中隐藏更深的标签关系是否能够同现进行准确预测，进而得到更深层次的相关信息。

基于上述目的本发明提供的一种隐式标签同现的预测方法，包括：

获取信息网络中与标签相关的实体，基于不同实体之间的关系构建权重网络元结构并得到信息网络对应的网络拓扑结构；其中，所述权重网络元结构用于表述不同实体之间的连接关系以及权重大小；所述网络拓扑结构包含多个权重网络元结构；

分别针对不同的实体，相应计算得到不同实体的权重并添加到所述网络拓扑结构中；

针对待预测的两个标签，在所述网络拓扑结构中获取两个标签之间的权重路径；其中，所述权重路径为待预测的两个标签之间连接路径；

将所述权重路径作为输入，采用逻辑回归模型作为预测模型，计算待预测的两个标签同现的概率。

可选的，所述实体包括图片、标签、用户以及组；其中，图片与用户之间的链路隐含着“上传”和“被上传”信息，图片与标签之间的链路隐含着“添加”和“被添加”信息，图片与组之间的链路隐含着“包含”和“被包含”信息。

可选的，所述计算得到不同实体的权重包括：

基于图片中的标签序列，计算得到标签的序列权重，计算公式如下：

其中，i为标签在标签序列中的序号，n为预设的临界值，w_seq(t_xi)为标签t_xi的序列权重；

基于标签所属的组的数目，计算得到标签的概念权重，计算公式如下：

其中，N是标签t_xi所属的组的数目，w_con(t_xi)为标签t_xi的概念权重；

将序列权重与概念权重与对应的系数相乘后相加得到基于用户的标签权重，如下：

w_u(t_xi)＝α*w_sep(t_xi)+(1-α)*w_con(t_xi)；

其中，α(α∈[0,1])为可调参数，w_u(t_xi)为基于用户的标签权重；

基于使用了同一个标签的所有用户集合，进行标签权重求和，进而得到标签t_xi的权重，算法如下：

其中，u为用户；U_txi为使用标签t_xi的用户集合；w(t_xi)为标签t_xi的权重；

基于标签权重以及当前用户具有的标签，通过如下公式计算得到用户权重：

其中，w(t_xi)为标签t_xi的权重；T_u为用户具有的标签集合，CT_u为用户指派的候选标签集合；δ为预设的阈值；w(u)为用户权重；

基于用户权重以及组中所具有的用户，通过如下公式计算得到组权重：

其中，g_xi为某一个组；w(u)为用户权重；

基于标签权重通过如下算法计算得到图片权重；

其中，w(t_xi)为标签t_xi的权重；w(i_x)为图片权重。

可选的，所述在所述网络拓扑结构中获取两个标签之间的权重路径还包括：

通过计算两条权重路径的相似性，确定待预测的两个标签对应的基准权重路径；其中，权重路径的相似性通过如下算法计算：

v_pi＝{LW(A₀,A₁),LW(A₁,A₂),...,LW(A_l-1,A_l)}；

d(u_x,i_y)＝1；

其中，v_pi为权重路径p_i的向量；p_j为另一条权重路径；w(A_x)w(A_y)分别为节点A_x,A_y的权重值；节点为网络中对应的实体；G_c为引力常量；LW(A_x,A_y)为链路权重；节点A包括标签t、图片i、组g或者用户u；

代表标签t_x出现在图片i_y的频率；代表标签t_x对于图片i_y的重要程度；

代表图片i_y出现在组g_x的频率；代表图片i_y对于组g_x的重要程度。

可选的，所述预测模型通过如下算法计算：

L(β)＝Π_iπ(xi)^yi(1-π(xi)^yi)；

其中，x_i为包含了一个常数和描述两标签之间拓扑特征的(d+1)维向量，y_i为指示值，用来判断两个标签在将来是否会同现；β为关联常数项和每一个拓扑特征的(d+1)维的权重系数；L(β)为β的最优取值；Pro_i为标签同现的概率。

本申请还提供了一种隐式标签同现的预测装置，包括：

网络构建模块，用于获取信息网络中与标签相关的实体，基于不同实体之间的关系构建权重网络元结构并得到信息网络对应的网络拓扑结构；其中，所述权重网络元结构用于表述不同实体之间的连接关系以及权重大小；所述网络拓扑结构包含多个权重网络元结构；

权重计算模块，用于分别针对不同的实体，相应计算得到不同实体的权重并添加到所述网络拓扑结构中；

权重路径模块，用于针对待预测的两个标签，在所述网络拓扑结构中获取两个标签之间的权重路径；其中，所述权重路径为两个标签之间连接路径；

标签同现预测模块，用于将所述权重路径作为输入，采用逻辑回归模型作为预测模型，计算待预测的两个标签同现的概率。

从上面所述可以看出，本发明提供的一种隐式标签同现的预测方法及装置，通过获取信息网络中不同实体之间的关系，然后构建对应的网络拓扑结构来表述所有实体之间的相互连接的关系以及对应的权重，然后通过基于不同实体的特点相应的计算得到不同实体的权重，进而可以基于不同的两个标签，基于上述网络拓扑而得到一个连接两个标签的权重路径，最后通过预测模型来计算所述权重路径的概率，既可以得到未知两个标签是否存在标签同现关系。因此，本申请能够对标签网络中隐藏更深的标签关系是否能够同现进行准确预测，进而挖掘得到更深层次的相关信息。

附图说明

图1为本发明提供的隐式标签同现的预测方法一个实施例的流程示意图；

图2为本发明提供的权重网络元结构一个实施例的结构示意图；

图3为本发明提供的隐式标签同现的预测方法另一个实施例的实现框架；

图4为本发明提供的隐式标签同现的预测装置一个实施例的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

在标签推荐领域，标签同现是一个重要的衡量策略，它可以定量标签的相似性、重构标签同现网络、揭示标签系统所形成的话题结构。对于标签同现中的两个标签来说，如果他们更经常地被同一个用户用在相同的图片、视频、文档上，那么这两个标签是更相关的。Peng(CIKM2010)等提出了一种聚合的社交标签系统的结构，这个结构捕获了显示在标签数据中的所有类型的同现信息。但是，他们的方法主要是统计已知的标签同现关系。

隐式标签同现挖掘目的是为了揭示信息网络中那些隐藏的更相关的标签，但隐式标签同现关系预测不同于现有的链路关系预测，例如，隐式标签同现是一种无向的标签-标签关系，然而常见的朋友关系或者合作者关系是预测用户-用户关系，因为用户更愿意和有相同兴趣或者同一研究组的用户进行交际，所以用户-用户关系容易形成用户组和社区，展现出明显的聚合特征。但是，标签同现没有一定规律可循，是一个更加困难的任务，例如同现标签“Sagrada Familia”和“Barcelona”，它们很难用语义信息来估计是否同现。

本申请针对于此，提出一种在异构信息网络上预测未来可能出现的标签同现关系，并且是基于考虑带权重的异构拓扑结构来实现的。

具体的，参照图1所示，为本发明提供的隐式标签同现的预测方法一个实施例的流程示意图。所述隐式标签同现的预测方法包括：

步骤S1，获取信息网络中与标签相关的实体，基于不同实体之间的关系构建权重网络元结构并得到信息网络对应的网络拓扑结构；其中，所述权重网络元结构用于表述不同实体之间的连接关系以及权重大小；所述网络拓扑结构包含多个权重网络元结构；这里的信息网络是指与标签相关的信息网络，这里的实体是指与标签相关的不同对象，例如用户、图片等等。通过上述网络拓扑结构的构建使得能够将所有标签以及相应的隐含信息通过网络连接显现出来，进而有利于后续的预测分析。

步骤S2，分别针对不同的实体，相应计算得到不同实体的权重并添加到所述网络拓扑结构中；其中，基于不同实体具有不同的定义，例如若实体为用户组，则相应的需要计算不同用户的权重。通过将不同实体的权重添加到网络拓扑结构中，使得构建得到具有权重的拓扑结构。

步骤S3，针对待预测的两个标签，在所述网络拓扑结构中获取两个标签之间的权重路径；其中，所述权重路径为待预测的两个标签之间连接路径；基于任意两个标签之间的关系属于位置，而本申请通过在上述网络拓扑结构中进行路径查询或者计算可以得到两个标签之间的联系，即网络中的路径，这样可以进一步基于不同实体的权重进而得到两个标签之间的关联程度，最后可以通过计算判断是否能够同现。

步骤S4，将所述权重路径作为输入，采用逻辑回归模型作为预测模型，计算待预测的两个标签同现的概率。其中，这里的预测模型是基于网络中不同路径以及包含的权重关系相应得到两个标签是否能够同现的一个算法模型，当然本申请并不限于采用逻辑回归模型们可以相应的使用其他形式。

由上述实施例可知，本申请提供的隐式标签同现的预测方法，通过获取信息网络中不同实体之间的关系，然后构建对应的网络拓扑结构来表述所有实体之间的相互连接的关系以及对应的权重，然后通过基于不同实体的特点相应的计算得到不同实体的权重，进而可以基于不同的两个标签，基于上述网络拓扑而得到一个连接两个标签的权重路径，最后通过预测模型来计算所述权重路径的概率，既可以得到未知两个标签是否存在标签同现关系。因此，本申请能够对标签网络中隐藏更深的标签关系是否能够同现进行准确预测，进而挖掘得到更深层次的相关信息。

在本申请一些可选的实施例中，以Flickr网站中的一类信息网络数据为例进行说明，参照图2所示，所述实体包括图片(Images)、标签(Tags)、用户(Users)以及组(Groups)；其中，图片与用户之间的链路隐含着“上传”和“被上传”信息，图片与标签之间的链路隐含着“添加”和“被添加”信息，图片与组之间的链路隐含着“包含”和“被包含“信息。为了方便表示，本实施例用“I”代表图片，“T”代表标签，“U”代表用户，“G”代表组。具体的，上述不同实体能够对应得到：一个用户集合U＝{u₁,u₂,...,u_n}，一个图片集合I＝{i₁,i₂,...,i_m}，一个标签集合T＝{t₁,t₂,...,t_p}以及一个组的集合G＝{g₁,g₂,...,g_q}，一个用户u_x上传一张图片i_x，这张图片被一个子标签集合T_ux＝{t_x1,t_x2,...}描述并且会属于一个组集合G_ux＝{g_x1,g_x2,...}。也即这里有n个用户、m张图片、p个标签以及q个组。

需要说明的是，本申请方案中的实体并不限于上述四种实体类型，例如上述图片还可以是视频、推文等等。

此外，为了进一步说明本申请构建的网络拓扑结构的特点，对相关结构以及含义做出如下说明：首选，本申请构建的网络拓扑结构是一个异构信息网络，一个异构信息网络能被定义为一个有向网络G_r＝(V,E,W)，这个有向网络带有一个实体类型映射函数φ:V→A和一个链路类型映射函数在这个网络中，每一个实体对象都属于一个特殊的实体类型每一个链路属于一种特殊的关系类型权重是一个从一条边到一个数值权重映射值得注意的是，只有当实体类型满足条件|A|＞1，或者链路类型满足条件这个网络才被称作异构信息网络。

由此可以得到，本申请对应的权重网络元结构是异构信息网络G_r＝(V,E,W)的一个原子结构，带有一个实体类型映射函数φ:V→A和一个链路类型映射函数它是一个有向图，基于实体类型A和链路定义如下除此以外，每个实体对象和链路对象都被指定了一个权重值。这里的权重网络元结构可以看成是一个具体网络结构的最小单位，用于定义实体对象和链路对象被创建的规则。

因此，本申请基于目前大多数关于标签同现的研究方法都是利用显式的标签同现来进行个性化标签推荐。其中，所谓显式标签同现是指已经存在的标签同现。而本申请则希望通过预测潜在的标签同现关系来得到更相关信息，而不是研究统计已经存在的标签同现关系。所以，本申请提出了一种新颖的两步链路预测算法。为了捕获相似路径以及暗含着隐式标签同现的网络结构，这个两步链路算法尝试给每一个实体对象和链路对象设置合理的权重；之后，两步链路算法考虑如何定义权重路径特征、如何衡量成对标签之间路径的相似性以及如何挖掘隐式标签同现关系。

在本申请另一些可选的实施例中，参照图3所示，上述实施例中的步骤顺序还可以相应的调整，例如可以先计算得到不同实体对象的权重，然后构建网络拓扑结构，当然在计算之前还可以包括数据的收集以及数据预处理操作等。

在本申请一些可选的实施例中，所述计算得到不同实体的权重包括：

首选，基于图片中的标签序列，计算得到标签的序列权重，计算公式如下：

其中，i为标签t_xi在标签序列T_uix中的序号，n为预设的临界值，w_seq(t_xi)为标签t_xi的序列权重；这里的序列通常是指某一实体对象中标签的排序，例如某一图片具有多个标签，这些标签之间存在一定的排序关系。同时本实施例还通过设置一个依赖于数据集的临界值n可以避免对排序非常靠后的标签进行过多的计算。这样使得某一图片第n个以后的标签具有同样的权重值，可以降低计算复杂度。

据某一项数据调研得到，50.9％的用户至少在一个组中共享了一张图片，用户平均共享了25.3个不同的组。本申请认为随着标签所属的组的数目的增多，这个标签的概念权重值会降低。换句话说，如果一个标签属于的组越多，那么这个标签对于每一个组概念越泛化。由此，本实施例进一步基于标签所属的组的数目，计算得到标签的概念权重，计算公式如下：

其中，N是标签t_xi所属的组的数目，w_con(t_xi)为标签t_xi的概念权重。

然后，将序列权重与概念权重与对应的系数相乘后相加得到基于用户的标签权重，如下：

w_u(t_xi)＝α*w_sep(t_xi)+(1-α)*w_con(t_xi)；

其中，α(α∈[0,1])为可调参数，w_u(t_xi)为基于用户的标签权重。

最后，基于使用了同一个标签的所有用户集合，进行标签权重求和，进而得到标签t_xi的权重，算法如下：

其中，u为用户；U_txi为使用标签t_xi的用户集合；w(t_xi)为标签t_xi的权重。

对于用户的权重，基于用户指派或者添加标签到他上传的图片上，这种行为暗含了一些关于图片和用户的信息。用户经常使用的标签更可能反映出了用户收集图片的相关兴趣。这些兴趣在某种程度上能映射出用户的特征。因此，本实施例提出的用户权重是基于所有与该用户相关的标签权重来计算的。为了简易化，本实施例给定一个预定义的标签权重值，过滤掉了那些权重值没达到预定义标签权重值的标签。也即可以基于标签权重以及当前用户具有的标签，通过如下公式计算得到用户权重：

其中，w(t_xi)为标签t_xi的权重；T_u为用户具有的标签集合，CT_u为用户指派的候选标签集合；δ为预设的阈值；w(u)为用户权重。

针对于组权重，一个组是物理位置上邻近或者共享一些抽象特征的用户或者对象的集合。例如：在Flickr网络中，从一个严格的技术观点来看，组是一个用户自由选择加入的社区集合。同样地，Flickr允许用户创建任何图片话题的特殊兴趣小组。例如，有一些关于照相技术探讨的兴趣组、有一些地理位置邻近或者特殊事件的组、为上传图片评分的组、识别或具有高水准摄影技术的组等等。本实施例通过对属于这个组的用户权重求和得到该组的权重。也即基于用户权重以及组中所具有的用户，通过如下公式计算得到组权重：

其中，g_xi为某一个组；w(u)为用户权重。

针对于图片权重，在以Flickr为数据源构建的异构信息网络中，图片是一个中心类型，和用户、组、标签都有链路。如前面描述，用户权重、组权重都和标签权重相关联。为了简化计算，本实施例通过对添加在这张图片上的标签权重求和获得图片权重。也即能够基于标签权重通过如下算法计算得到图片权重；

其中，w(t_xi)为标签t_xi的权重；w(i_x)为图片权重。

在本申请一些可选的实施例中，所述在所述网络拓扑结构中获取两个标签之间的权重路径还包括：

v_pi＝{LW(A₀,A₁),LW(A₁,A₂),...,LW(A_l-1,A_l)}；

d(u_x,i_y)＝1；

进一步，为了更加清楚的解释本申请提出的权重路径的含义，现对权重路径的构建过程做出如下说明：

首选，一条权重路径P定义在基于权重元结构形成的网络图上，它可以被形式化为也即定义了A₀和A_l之间的一组关系R₁R₂...R_l，其中，w_i(i＝0，1，…，l)代表着每个对象的权重。

上述的权重路径不仅捕获了路径的语义信息，而且捕获了路径上重要的节点。这两点对于衡量标签的相似性都是有用的。这样，多种类型的从标签到标签的权重路径可以相应的从拓扑结构中获取得到。下面举例说明，

权重路径P₁能捕获出现在同一张图片上的两个标签的同现关系。明显地，如果两个标签之间有被P₁定义的关系，那么这是一个标签同现关系，或者说目标关系。权重路径P₂定义了两个标签之间基于用户的相似性，也即两个标签是被同一个用户标记的(PTCR)。至此，我们能观察到不同的权重路径捕获了隐藏在异构信息网络中的不同的关系信息。这一点对于捕获两个标签之间的拓扑结构信息是非常有用的。进一步，本专利用每个节点对象英文名称首字母来代表该对象。因此，P₁能被表示成T-I-T，P₂能被表示成T-I-U-I-T。

在给出权重路径拓扑结构后，本实施例还提出一种权重路径的衡量标准(WeightPathSim)，这是一种新颖的相似性策略，它不仅捕获了两个节点对象之间的语义相似性，而且捕获了这两个节点对象之间链路的权重信息。

在介绍WeightPathSim之前，先说明两个新的概念：元链路和链路权重。其中，元链路是定义在权重路径上的两个权重对象之间的链路，能被形式化为L₁,L₂,...,L_l。这里每一条链路都可以被称作是元链路。在元链路定义之后，权重路径可以进一步被形式化为P＝{L₁,L₂,...,L_l}。

链路权重LW用来衡量被这条链路直接相连的两个节点对象(A_x,A_y)的关联性。受牛顿万有引力定律的启发，本实施例得到链路权重LW(A_x,A_y)如下：

其中，G_c是引力常量，为了简单化计算，可以设置G_c＝1。w(A_x)和w(A_y)分别是节点对象A_x,A_y的权重值。d(A_x,A_y)是两个节点对象A_x,A_y之间的语义距离。

本实施例采用类Tf-Idf策略定义了三种类型的语义距离：对于链路Tag-Image，语义距离d(t_x,i_y)衡量的是标签t_x标记的图片数目和图片i_y拥有的标签数目的比例关系；对于链路Group-Image，语义距离d(g_x,i_y)衡量的是图片i_y所属的组的数目与组g_x拥有的图片数目的比例关系；对于链路User-Image，由于一张图片仅能被唯一的一个用户上传，本专利定义语义距离d(u_x,i_y)＝1。下面详细介绍距离函数d(A_x,A_y)。

如图2所示，给定一个权重元结构，我们可以知道观测的标签标记的图片的总数目N_ti，观测的图片拥有的标签的总数目N_it，图片被不同的组分享的总数目N_ig，以及观测组所拥有的图片的总数目N_gi，三种类型的距离d(A_x,A_y)通过如下公式计算：

其中，代表着标签t_x出现在图片i_y的频率。代表着标签t_x对于图片i_y的重要程度。

其中，代表着图片i_y出现在组g_x的频率。代表着图片i_y对于组g_x的重要程度。

d(u_x,i_y)＝1；

进一步，为了计算WeightPathSim，本实施例为每一条权重路径定义了一个权重路径向量v_pi，其中P_u是一个候选权重路径的集合。这个权重向量可以被形式化为v_pi＝{LW(A₀,A₁),LW(A₁,A₂),...,LW(A_l-1,A_l)}。可选的，本实施例用余弦相似性来衡量两条权重路径的相似性。

其中，不同类型的权重路径被分开比较，也就是说WeightPathSim被用来衡量相同类型的权重路径，比如P_PTCR，3-hop权重路径。

可选的，基于相对短的元路径能较好地衡量路径相似性，较长路径会降低衡量质量。因此，为了获得更加精确的预测结果，避免过度计算不相关的标签，需要限定源标签足够接近目的标签，也即给出具有长度约束的标签到标签的基准权重路径。参见表1所示，表中的三种基本权重路径通过选择源标签的2-hop同现标签(T-I-T)²或者3-hop同现标签(T-I-T)³来选择目的标签。

表1两标签之间长度小于4的权重路径

在本申请一些可选的实施例中，所述预测模型通过如下算法计算：

L(β)＝Π_iπ(xi)^yi(1-π(xi)^yi)；

也即，本实施例采用逻辑回归模型作为预测模型，也即用二元逻辑回归模型来预测本申请的隐式标签同现关系。给定每一个标签训练对<T_xi,T_xj>，假设x_i是包含了一个常数1和d维描述两标签之间拓扑特征的(d+1)维向量，y_i是一个指示值，用来判断两个标签在将来是否会同现。通过考虑权重路径特征，本实施例定义了服从二项式分布的概率值Pr o_i，

其中，如果两个标签是同现关系，y_i＝1，否则，y_i＝0。β是关联常数项和每一个拓扑特征的(d+1)维的权重系数。为了得到最优的回归系数β，本专利采用最大似然估计(MLE，Maximum Likelihood Estimation)的方法来进行估测。其中，本申请最大化所有训练标签对的似然值，且通过如下算法实现：L(β)＝Π_iπ(xi)^yi(1-π(xi)^yi)。

因此，本申请上述预测方法通过基于挖掘变迁更深层次的关联关系，进而不仅能够对个性化标签推荐理论进行补充，同时也有助于工业界标签推荐相关产品的开发，实现更小有效的标签同现或者推荐。

参照图4所示，为本发明提供的隐式标签同现的预测装置一个实施例的结构框图。所述隐式标签同现的预测装置包括：

网络构建模块1，用于获取信息网络中与标签相关的实体，基于不同实体之间的关系构建权重网络元结构并得到信息网络对应的网络拓扑结构；其中，所述权重网络元结构用于表述不同实体之间的连接关系以及权重大小；所述网络拓扑结构包含多个权重网络元结构；

权重计算模块2，用于分别针对不同的实体，相应计算得到不同实体的权重并添加到所述网络拓扑结构中；

权重路径模块3，用于针对待预测的两个标签，在所述网络拓扑结构中获取两个标签之间的权重路径；其中，所述权重路径为两个标签之间连接路径；

标签同现预测模块4，用于将所述权重路径作为输入，采用逻辑回归模型作为预测模型，计算待预测的两个标签同现的概率。

需要说明的是，基于所述隐式标签同现的预测装置包括上述实施例中隐式标签同现的预测方法的所有特征，因此具有同样的技术效果，本实施例再次不作重复说明。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种隐式标签同现的预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述实体包括图片、标签、用户以及组；其中，图片与用户之间的链路隐含着“上传”和“被上传”信息，图片与标签之间的链路隐含着“添加”和“被添加”信息，图片与组之间的链路隐含着“包含”和“被包含“信息。

3.根据权利要求2所述的方法，其特征在于，所述计算得到不同实体的权重包括：

w_u(t_xi)＝α*w_sep(t_xi)+(1-α)*w_con(t_xi)；

其中，g_xi为某一个组；w(u)为用户权重；

基于标签权重通过如下算法计算得到图片权重；

其中，w(t_xi)为标签t_xi的权重；w(i_x)为图片权重。

4.根据权利要求1所述的方法，其特征在于，所述在所述网络拓扑结构中获取两个标签之间的权重路径还包括：

v_pi＝{LW(A₀,A₁),LW(A₁,A₂),...,LW(A_l-1,A_l)}；

d(u_x,i_y)＝1；

5.根据权利要求1所述的方法，其特征在于，所述预测模型通过如下算法计算：

其中，x_i为包含了一个常数和描述两标签之间拓扑特征的(d+1)维向量，y_i为指示值，用来判断两个标签在将来是否会同现；β为关联常数项和每一个拓扑特征的(d+1)维的权重系数；L(β)为β的最优取值；Pr_oi为标签同现的概率。

6.一种隐式标签同现的预测装置，其特征在于，包括：