CN108712663B

CN108712663B - 基于二分图的直播间推荐方法、相关存储介质和设备

Info

Publication number: CN108712663B
Application number: CN201810418231.2A
Authority: CN
Inventors: 王璐; 张文明; 陈少杰
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2018-05-03
Filing date: 2018-05-03
Publication date: 2021-02-02
Anticipated expiration: 2038-05-03
Also published as: CN108712663A

Abstract

本发明提供一种基于二分图的直播间推荐方法，包括以下步骤：S1，构建直播间与用户的二分图以及直播间与标签的二分图；S2，根据所述直播间与用户的二分图计算用户对直播间的第一贡献向量以及根据所述直播间与标签的二分图计算标签对直播间的第二贡献向量；S3，根据所述第一贡献向量和所述第二贡献向量计算第三贡献向量；以及S4，根据构成所述第三贡献向量的元素的值的大小，对所述元素进行从大到小排序，并将从大到小排序的所述元素所对应的直播间推荐给目标用户。本发明还涉及相关的计算机可读存储介质以及电子设备。

Description

基于二分图的直播间推荐方法、相关存储介质和设备

技术领域

本发明涉及大数据推荐领域，具体涉及一种基于二分图的直播间推荐方法、相关计算机可读存储介质和电子设备。

背景技术

在大数据的应用领域中，一个重要的方向是根据海量数据对用户进行个性化推荐。目前最流行的推荐方法是基于内容、基于协同过滤、基于关联规则的推荐算法，以及这几种推荐的结合体。但这些算法在实际的应用中也存在着一些问题，例如，稀疏问题，当一个用户浏览过一个系统很少的对象或很少进行操作与评价时，用户的行为数据就会变得很稀疏，而利用此类数据去计算用户之间的相似性是不可靠的。另外，根据长尾理论，有些用户可能会喜欢一些比较小众的直播间，常用推荐算法对于越是热门的直播间，它的推荐度就越大，但并非越是热门的直播间，用户就一定会喜欢，于是就无法准确地对用户真正喜欢的直播间进行推荐。

因此，有必要提出一种新的直播间推荐方法。

发明内容

有鉴于此，为了克服上述问题的至少一个方面，本发明的实施例提供了一种基于二分图的直播间推荐方法。

根据本发明的一个方面，提供了一种基于二分图的直播间推荐方法，包括以下步骤：

S1，构建直播间与用户的二分图以及直播间与标签的二分图；

S2，根据所述直播间与用户的二分图计算用户对直播间的第一贡献向量以及根据所述直播间与标签的二分图计算标签对直播间的第二贡献向量；

S3，根据所述第一贡献向量和所述第二贡献向量计算第三贡献向量；以及

S4，根据构成所述第三贡献向量的元素的值的大小，对所述元素进行从大到小排序，并将从大到小排序的所述元素所对应的直播间推荐给目标用户。

进一步地，在步骤S1之前还包括：

根据目标用户对直播间的观看行为得到直播间的初始贡献值，所述初始贡献值构成初始贡献向量

其中，

是直播间j的初始贡献值，如果目标用户看过直播间j则

否则

m为直播间的总数。

进一步地，根据所述直播间与用户的二分图计算用户对直播间的第一贡献向量的步骤包括以下步骤：

S211，根据所述直播间的初始贡献值计算直播间对用户的贡献值；

S212，根据所述直播间对用户的贡献值计算用户对直播间的贡献值；以及

S213，根据步骤S212得到的所述用户对直播间的贡献值计算步骤S211中直播间对用户的贡献值，再利用得到的直播间对用户的贡献值计算步骤S212中用户对直播间的贡献值，如此循环，直到相邻两次计算所得的用户对直播间的贡献值的变化率小于或等于第一预设值时终止循环，得到用户对每一个直播间的最终贡献值，用户对全部直播间的最终贡献值构成第一贡献向量。

根据下式计算直播间对用户的贡献值：

其中，k(I_j)是看过直播间j的用户数量；

是重复k次后用户对直播间的贡献值，初始值为

a_ij是直播间j和用户i的连接权值，如果用户i看过直播间j，则a_ij＝1，否则a_ij＝0；m是直播间的总数；以及

根据下式计算用户对直播间的贡献值：

其中：k(U_i)是用户i看过的直播间数；n是用户的总数。

进一步地，所述根据所述直播间与标签的二分图计算标签对直播间的第二贡献向量的步骤包括以下步骤：

S221，根据所述直播间的初始贡献值计算直播间对标签的贡献值；

S222，根据所述直播间对标签的贡献值计算标签对直播间的贡献值；以及

S223，根据步骤S222得到的所述标签对直播间的贡献值计算步骤S221中直播间对标签的贡献值，再利用得到的直播间对标签的贡献值计算步骤S222中标签对直播间的贡献值，如此循环，直到前后两次计算所得的标签对直播间的贡献值的变化率小于或等于第二预设值时终止循环，得到标签对每一个直播间的最终贡献值，标签对全部直播间的最终贡献值构成第二贡献向量。

例如，根据下式计算直播间对标签的贡献值：

其中：T(I_j)是直播间j拥有的标签数量；

是重复k次后标签对直播间的贡献值，初始值为

a_js是直播间j和标签s的连接权值，如果直播间j有标签s，则a_js＝1，否则a_js＝0；m是直播间的总数；以及

根据下式计算标签对直播间的贡献值：

k(T_s)是包含标签s的直播间的数量；p为标签的总数。

进一步地，根据下式计算第三贡献向量：

第三贡献向量＝λ*第一贡献向量+(1-λ)*第二贡献向量

其中，λ为0到1的常数。

例如，所述步骤S4进一步包括：根据所述第三贡献向量，在从大到小排序的所述元素所对应的直播间中选择未被所述目标用户看过的直播间进行推荐。

本发明还提供一种计算机可读存储介质，其上存储有可执行指令，其特征在于，所述指令在由处理器执行时，实现如上所述的任一种基于二分图的直播间推荐方法的步骤。

本发明还提供了一种电子设备，其包括：

存储器，用于存储可执行指令；以及

处理器，用于执行所述存储器中存储的可执行指令，以实现实现如上所述的任一种基于二分图的直播间推荐方法的步骤。

与现有技术相比，本发明具有以下优点：

(1)通过构建直播间与用户的二分图以及直播间与标签之间的二分图，可以反映用户、直播间和标签之间已有的联系，通过一定的推断方式得到用户与其他暂时没有观看的直播间之间的联系，从而达到推荐的目的。

(2)通过构建直播间与用户的二分图以及直播间与标签之间的二分图，能够充分考虑到长尾效应的影响，解决了长尾直播间无法被推荐的问题。

(3)直播间的标签含有丰富信息，代表了直播间的内容和用户的偏好，通过构建直播间与标签之间的二分图可以考虑更多的因素，对找到用户的真正兴趣是很有帮助的。

附图说明

通过下文中参照附图对本发明所作的描述，本发明的其它目的和优点将显而易见，并可帮助对本发明有全面的理解。

图1为本发明实施例提供的基于二分图的直播间推荐方法的实施步骤的流程图；

图2为本发明实施例提供的用户与直播间之间的二分图示意图；

图3为本发明实施例提供的标签与直播间之间的二分图示意图；

图4为本发明实施例提供的计算机可读存储介质的结构示意图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一个实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

根据本发明的一个方面，提供了一种基于二分图的直播间推荐方法，具体实现思路如下：

先根据用户和直播间的关系构建用户与直播间之间的二分图，并且根据直播间和标签之间的关系构建标签与直播间之间的二分图，然后计算两个二分图中用户对直播间的贡献向量以及标签对直播间的贡献向量，再对得到的贡献向量加权得到目标用户对所有直播间的贡献值，最后对这些贡献值进行排序，并将贡献值最大的前N个直播间推荐给目标用户。

更具体的，下面结合附图对本发明实现挖掘直播间搜索词的同义词的方法进行详细的描述。

参考图1所示，本发明的实施例提供的基于二分图的直播间推荐方法可以包括如下步骤：

在直播间与用户的二分图中，每一个用户可以构成一个节点，每一个直播间可以构成一个节点，例如在二分图中可以包括m个直播间节点和n个用户节点，若用户i看过直播间j，则用户i的节点和直播间j的节点之间用一条边连接，其中，用户节点和直播间节点之间的关系可以用a_ij表示，如果用户i看过直播间j，则a_ij＝1，否则a_ij＝0。在直播间与标签的二分图中，每一个标签可以构成一个节点，每一个直播间可以构成一个节点，例如在二分图中可以包括m个直播间节点和p个标签节点，若直播间j有标签s，则直播间j的节点和标签s的节点之间用一条边连接。其中，直播间j和标签s之间的关系可以用a_js表示，如果直播间j有标签s，则a_js＝，否则a_js＝0。

具体的，构建二分图的过程如下：

若根据用户与直播间的关系a_ij的值判断，用户i看过直播间j，则将用户i的节点和直播间j的节点之间用一条边连接，这代表了用户i与直播间j之间有关系，以此类推，当所有用户中的每一个对应的用户节点与该用户看过的所有直播间所对应的直播间节点之间用边连接后，形成一个网络关系，这个网络关系可以成为用户与直播间之间的二分图。

若根据标签与直播间的关系a_js的值判断，直播间j有标签s，则将直播间j的节点和标签s的节点之间用一条边连接，这代表了标签s与直播间j之间有关系，以此类推，当所有直播间中的每一个所对应的直播间节点与和该直播间有关系的标签对应的标签节点之间用边连接后，形成一个网络关系，这个网络关系可以成为标签与直播间之间的二分图。

参见图2，图中示出了用户U1、U2和U3与直播间I1、I2、I3、I4和I5构成的用户与直播间之间的二分图，其中，用户U1看过直播间I1、I3和I5，则用户U1的节点与直播间I1、I3和I5的节点均连接；用户U2看过直播间I2、I3和I4，则用户U2的节点与直播间I2、I3和I4的节点均连接；用户U3看过直播间I1、I2、I4和I5，则用户U3的节点与直播间I1、I2、I4和I5的节点均连接。

参见图3，图中示出了直播间I1、I2、I3、I4和I5与标签T1、T2、T3和T4构成的标签与直播间之间的二分图，其中，拥有标签T1的直播间为I1和I2，则标签T1的节点与直播间I1和I2的节点均连接，拥有标签T2的直播间为I1和I3，则标签T2的节点与直播间I1和I3的节点均连接，拥有标签T3的直播间为I2、I4和I5，则标签T3的节点与直播间I2、I4和I5的节点均连接，拥有标签T4的直播间为I3和I4，则标签T4的节点与直播间I3和I4的节点均连接。

在其他较佳实施例中，在步骤S1之前还可以包括步骤：

其中，

是直播间j的初始贡献值，如果目标用户看过直播间j则

否则

m为直播间的总数。

这里应当说明的是，初始贡献向量可以是根据目标用户对所有直播间的观看行为，得到的目标用户对所有直播间的贡献值构成的向量，目标用户对所有直播间的贡献值在这里可以看成所有直播间节点在初始阶段获得的贡献值，即初始阶段用户对直播间的贡献值。当然，在其他实施例中，也可以根据其他设定，获取初始贡献向量。

在具体实施过程中，可以根据目标用户是否在一段时间内观看过各个直播间，得到该用户对直播间的初始贡献向量。在本实施例中，一段时间可以是7天。当然在其他实施例中，也可以是其他时间长度，比如可以为更长的时间长度，例如30天，还可以为较短的时间长度，例如数小时。在此，比如可以获取7天内目标用户看过的直播间，以及获取7天内被目标用户看过的直播间所对应的标签。

S2，根据直播间与用户的二分图计算用户对直播间的第一贡献向量以及根据直播间与标签的二分图计算标签对直播间的第二贡献向量；

在本步骤中，第一贡献向量是由所有用户对直播间的贡献值构成的，计算用户对直播间的第一贡献向量相当于计算所有用户对直播间的贡献值；第二贡献向量是由所有标签对直播间的贡献值构成的，计算标签对直播间的第二贡献向量相当于计算所有标签对直播间的贡献值。两者的计算过程都可以看做是一个贡献值分配的过程，假设每个直播间有相应的贡献值，然后将贡献值通过边分配给直接相关的每个用户，每个用户再把其收集到的贡献值再分配给与他直接相关的每个直播间，这里定义用户与直播间之间的边是没有权重的，可以看作是平均分配。

例如，计算用户对直播间的第一贡献向量时，可以根据目标用户对直播间的观看行为得到用户对直播间的初始贡献值，再根据用户对直播间的初始贡献值计算直播间对所有用户的贡献值，得到直播间对所有用户的贡献值后，再根据直播间对所有用户的贡献值计算所有用户对直播间的贡献值，得到更新后的直播间的贡献值，再根据更新后的直播间的贡献值循环上述计算过程，即，根据更新后的直播间的贡献值计算直播间对所有用户的贡献值，得到直播间对所有用户的贡献值后，再根据直播间对所有用户的贡献值计算所有用户对直播间的贡献值，如此循环，直到相邻两次计算所得的用户对直播间的贡献值的变化率小于或等于第一预设值时，终止循环，得到需要的所有用户对直播间的贡献值，进而根据这些贡献值，构成第一贡献向量。

在本实施例中，计算标签对直播间的第二贡献向量时，可以根据在计算用户对直播间的第一贡献向量时得到的初始贡献值看成标签对直播间的初始贡献值，当然在其他实施例中，也可以通过其他设定获取标签对直播间的初始贡献值。所以，计算标签对直播间的第二贡献向量可以是以下步骤：根据用户对直播间的初始贡献值计算直播间对所有标签的贡献值，得到直播间对所有标签的贡献值后，再根据直播间对所有标签的贡献值计算所有标签对直播间的贡献值，得到更新后的直播间的贡献值，再根据更新后的直播间的贡献值循环上述计算过程，即，根据更新后的直播间的贡献值计算直播间对所有标签的贡献值，得到直播间对所有标签的贡献值后，再根据直播间对所有标签的贡献值计算所有标签对直播间的贡献值，如此循环，直到相邻两次计算所得的标签对直播间的贡献值的变化率小于或等于第二预设值时终止循环，得到需要的所有标签对直播间的贡献值，进而根据这些贡献值，构成第二贡献向量。

需要说明的是，计算第一贡献向量和计算第二贡献向量时迭代的次数可以是不同的，也可以是相同的，需要根据实际情况灵活判断。比如，可以设置后一次迭代循环得到的贡献值相对于前一次迭代循环得到的贡献值的变化率，只要该变化率满足设置条件，比如小于或等于第一预设值或第二预设值，即可停止迭代。第一预设值和第二预设值比如可以设置为1％，当然，可以根据实际情况进行适当调整，比如还可以设置为0％-5％内的任意值，或者也可以设置为更大的值。另外，在此也可以设置适当的迭代次数，比如可以设置为迭代次数为10次、20次、50次等，当然，也可以迭代更多次或更少次。在此，第一预设值和第二预设值可以相同，也可以不同。

在具体实施过程中，可以根据下式计算直播间对用户的贡献值：

其中，k(I_j)是看过直播间j的用户数量；

是重复k次后用户对直播间的贡献值，初始值为

a_ij是直播间j和用户i的连接权值，如果用户i看过直播间j，则a_ij＝1，否则a_ij＝0；m是直播间的总数；

以及可以根据下式计算用户对直播间的贡献值：

其中：k(U_i)是用户i看过的直播间数；n是用户的总数。

在具体实施过程中，可以根据下式计算直播间对标签的贡献值：

其中：T(I_j)是直播间j拥有的标签数量；

是重复k次后标签对直播间的贡献值，初始值为

a_js是直播间j和标签s的连接权值，如果直播间j有标签s，则a_js＝，否则a_js＝0；m是直播间的总数；以及

根据下式计算标签对直播间的贡献值：

k(T_s)是包含标签s的直播间的数量；p为标签的总数。

S3，根据上述第一贡献向量和第二贡献向量计算第三贡献向量。

在具体实施过程中，可以对第一贡献向量和第二贡献向量加权计算得到第三贡献向量，例如，

第三贡献向量＝λ*第一贡献向量+(1-λ)*第二贡献向量

其中，λ为0到1的常数，例如λ的取值范围可以是0.3-0.7，再比如，λ优选为0.5。

当然，也可以通过其他加权方式得到第三贡献向量，或者其他计算方法得到第三贡献向量。

应当说明的是，构成第三贡献向量的元素与构成第一、第二贡献向量的元素本质上是相同的，都是贡献值，其区别仅在于构成第一贡献向量的是循环k次后所有用户对直播间的贡献值，构成第二贡献向量的是循环k次后所有标签对直播间的贡献值，构成第三贡献向量的是两者加权后的对直播间的贡献值。

S4，根据构成第三贡献向量的元素的值的大小，对所述元素进行从大到小排序，并将从大到小排序的所述元素所对应的直播间推荐给目标用户，即根据贡献值的大小，把对应的直播间推荐给用户。

在进一步较佳实施例中，可以根据所述第三贡献向量，在从大到小排序的所述元素所对应的直播间中选择未被所述目标用户看过的直播间进行推荐。

下面列举一个实际例子具体说明本发明是如何基于直播间与用户的二分图以及直播间与标签之间的二分图进行直播间推荐的。

假设有三个用户U1、U2和U3，有5个直播间分别是I1、I2、I3、I4和I5，它们的观看关系是：用户U1看过直播间I1、I3和I5；用户U2看过直播间I2、I3和I4；用户U3看过直播间I1、I2、I4和I5，如图2所示。

另外有4个标签分别为T1、T2、T3和T4，与直播间的关系是：直播间I1和I2具有标签T1；直播间I1和I3具有标签T2；直播间I2、I4和I5具有标签T3；直播间I3和I4具有标签T4，如图3所示。

假设现在为用户U1进行推荐，于是根据U1的观看情况得到用户对直播间的初始贡献值，

并构成初始贡献向量：f⁰＝(1，0，1，0，1)。

根据直播间的初始贡献值计算直播间对用户的贡献值：

同理可以得到其他

并构成向量：v¹(u)＝(1.5，0.5，1)。

根据直播间对用户的贡献值计算用户对直播间的贡献值：

同理可以得到其他

并构成向量：f¹(u)＝(3/4，5/12，2/3，5/12，3/4)。

将得到的f¹(u)，即经过1次迭代后的用户对直播间的贡献值，计算直播间对用户的贡献值：

同理可以得到其他

并构成向量：v²(u)＝(13/12，3/4，31/12)。

根据v²(u)计算用户对直播间的贡献值：

同理可以得到其他

并构成向量：f²(u)＝(145/144，25/48，11/18，47/48，145/144)。

按照相似的方法，可以得到：

直播间对标签的贡献值向量：v¹(t)＝(1/2，1，1，1/2)。

标签对直播间的贡献值向量：f¹(t)＝(3/4，7/12，3/4，7/12，1/3)。

经过一次迭代后，直播间对标签的贡献值向量：v²(t)＝(2/3，3/4，11/12，2/3)。

经过一次迭代后，标签对直播间的贡献值向量：f²(t)＝(17/24，23/36，17/24，23/36，11/36)。

取λ＝0.5，于是可以得到：

f²＝λf²(u)+(1-λ)f²(t)＝0.5*f²(u)+0.5*f²(t)

＝(247/288，167/288，95/144，233/288，223/288)。

对构成f²的元素按其值的大小进行排序：(247/288，233/288，223/288，95/144，167/288)。

由此可见，对于用户U1来说，对直播间I4的兴趣要比I2大，由此可以依次向用户U1推荐其未观看过的直播间I4和I2。以上仅以迭代两次为例对计算用户对直播间的贡献值向量和标签对直播间的贡献值向量进行了说明，能够理解的是，可以根据实际情况确定迭代次数，以获得满足需求的相应的贡献值向量。

与现有技术相比，本发明具有以下优点：

(2)通过构建直播间与用户的二分图以及直播间与标签之间的二分图，能够充分考虑到长尾效应的影响，解决了小众直播间无法被推荐的问题。

基于同一发明构思，参考图4所示，本发明的实施例还提供一种计算机可读存储介质201，其上存储有可执行指令202，所述可执行指令202在由一个或多个处理器执行时，可以实现如上实施例所述的任一种基于二分图的直播间推荐方法的步骤。

基于同一发明构思，参考图5所示，本发明实施例还提供了一种电子设备301，该电子设备301可以包括：

存储器310，其用于存储可执行指令311；以及

处理器320，其用于执行存储器310中存储的可执行指令311，以实现如上实施例所述的任一种基于二分图的直播间推荐方法的步骤。

对于本发明的实施例，还需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合以得到新的实施例。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于二分图的直播间推荐方法，包括以下步骤：

在步骤S1之前还包括：

其中，

是直播间j的初始贡献值，如果目标用户看过直播间j则

否则

m为直播间的总数；

其中，所述计算用户对直播间的第一贡献向量包括：S211，根据所述直播间的初始贡献值计算直播间对用户的贡献值；S212，根据所述直播间对用户的贡献值计算用户对直播间的贡献值；以及S213，根据步骤S212得到的所述用户对直播间的贡献值，执行步骤S211计算得到更新后的直播间对用户的贡献值，再利用得到的更新后的直播间对用户的贡献值执行步骤S212计算得到更新后的用户对直播间的贡献值，如此循环，直到相邻两次计算所得的用户对直播间的贡献值的变化率小于或等于第一预设值时终止循环，得到用户对每一个直播间的最终贡献值，用户对全部直播间的最终贡献值构成第一贡献向量；

根据下式计算直播间对用户的贡献值：

其中，k(I_j)是看过直播间j的用户数量；

是重复k次后用户对直播间的贡献值，初始值为

根据下式计算用户对直播间的贡献值：

其中：k(U_i)是用户i看过的直播间数；n是用户的总数；

所述计算标签对直播间的第二贡献向量包括：S221，根据所述直播间的初始贡献值计算直播间对标签的贡献值；S222，根据所述直播间对标签的贡献值计算标签对直播间的贡献值；以及S223，根据步骤S222得到的所述标签对直播间的贡献值，执行步骤S221计算得到更新后的直播间对标签的贡献值，再利用得到的更新后的直播间对标签的贡献值执行步骤S222计算得到更新后的标签对直播间的贡献值，如此循环，直到相邻两次计算所得的标签对直播间的贡献值的变化率小于或等于第二预设值时终止循环，得到标签对每一个直播间的最终贡献值，标签对全部直播间的最终贡献值构成第二贡献向量；

据下式计算直播间对标签的贡献值：

其中：T(I_j)是直播间j拥有的标签数量；

是重复k次后标签对直播间的贡献值，初始值为

根据下式计算标签对直播间的贡献值：

k(T_s)是包含标签s的直播间的数量；p为标签的总数；

S3，根据所述第一贡献向量和所述第二贡献向量计算第三贡献向量；其中，第三贡献向量＝λ*第一贡献向量+(1-λ)*第二贡献向量，λ为0到1的常数；

以及

2.如权利要求1所述的方法，其特征在于，所述步骤S4进一步包括：根据所述第三贡献向量，在从大到小排序的所述元素所对应的直播间中选择未被所述目标用户看过的直播间进行推荐。

3.一种计算机可读存储介质，其上存储有可执行指令，其特征在于，所述指令在由处理器执行时，实现如权利要求1-2中的任一项所述的基于二分图的直播间推荐方法的步骤。

4.一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于执行所述存储器中存储的可执行指令，以实现如权利要求1-2中的任一项所述的基于二分图的直播间推荐方法的步骤。