CN102663047B

CN102663047B - 移动阅读中的社交关系挖掘方法及装置

Info

Publication number: CN102663047B
Application number: CN201210088773.0A
Authority: CN
Inventors: 叶剑; 朱珍民; 张磊; 李艳兵; 唐熊; 肖灿; 杜静
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2012-03-29
Filing date: 2012-03-29
Publication date: 2014-11-05
Anticipated expiration: 2032-03-29
Also published as: CN102663047A

Abstract

本发明提供了移动阅读中的社交关系挖掘方法，所述社交关系例如是用户之间的关联度。该方法首先对用户书籍阅读过程中访问的知识点形成的知识结构进行相似度计算，然后，根据所计算的知识结构相似度，并结合用户交互记录获取两个用户之间的关联度。该方法综合考虑了用户阅读过程中的知识结构和用户之间的交互行为模式，所获取的用户关联度可以很好地反映出人与人的关系。

Description

移动阅读中的社交关系挖掘方法及装置

技术领域

本发明涉及知识挖掘领域，尤其涉及移动阅读中的社交关系挖掘方法。

背景技术

随着智能手机、无线网和互联网技术的不断发展，移动阅读越来越受人欢迎。通常用于移动阅读的电子产品主要包括传统的阅读类电子产品和交互式电子产品(也可被称为阅读社交平台)。

现有阅读类电子产品的交互方式只是局限于电子资源的阅读，忽视了电子资源之间的知识关联和阅读过程中的知识查询需求。因此，交互式电子课本正逐渐发展起来，在这种新型的阅读社交平台中充分考虑了知识点应答和用户交流这两种需求。其充分发挥电子课本的智能交互能力，建立电子教材之间的知识关联，采用文本、多媒体、Flash等多种方式，实现智能的教材知识点的关联“闪答”。同时，用户在书籍阅读过程中，如果对某些内容感兴趣，还可以与同时在阅读此书的用户进行交流。

在阅读社交平台中，知识点一般是书籍中的关键人物、事件以及重要的名词术语，当用户对某一知识点进行查询时，屏幕上能够显示知识点的简短描述、详细信息、相关知识点及相关的音频视频。用户可以浏览知识点的详细信息、听相关音频或看相关视频。当用户通过点击相关知识点来访问新的知识点时，将形成一条条的知识点访问子路径，这些访问子路径集中体现了用户的知识结构。用户在阅读过程中形成的知识结构在一定程度上反映了用户的兴趣和爱好。

但是在现有的阅读社交平台中缺少通过利用用户在阅读时形成知识结构、用户交互记录等信息来对用户之间的社交关系(例如用户之间的关联度)进行定性或定量的描述的技术方案。因而，也不能通过用户之间的社交关系(例如用户之间的关联度)来为用户提供诸如推荐好友或资源等个性化服务。例如，向用户推荐与其相似的用户作为好友，以便在阅读中进行交流和讨论，或者推荐与其兴趣和爱好相似的用户曾经阅读的书籍等等。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种基于阅读社交平台的用户关联度获取方法。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种基于阅读社交平台的用户关联度获取方法，所述方法包括：

步骤1)计算用户A和用户B的知识结构的相似度，所述知识结构是由用户在书籍阅读过程中访问的知识点形成的；

步骤2)根据用户A和用户B的知识结构的相似度来获取用户A和用户B的关联度。

又一方面，本发明提供了一种基于阅读社交平台的用户关联度获取方法，所述方法包括：

步骤2’)基于所述知识结构的相似度并结合用户交互记录，来获取这用户A和用户B的关联度，所述用户交互记录包括用户加入的聊天室、用户在聊天室中发言的次数、与哪个用户在哪个聊天室进行过私聊。

上述技术方案中，步骤1)可包括以下步骤：

步骤1-1)分别获取用户A和用户B的阅读书目，得到用户A和用户B的阅读书目交集；

步骤1-2)对于所获得的阅读书目交集中的每一本书，分别计算用户A和用户B在看该书时形成的知识结构的相似度；

步骤1-3)基于用户A和用户B在看阅读书目交集中每本书时形成的知识结构的相似度，计算用户A和用户B的知识结构的相似度。

上述技术方案中，所述阅读书目交集可表示为Book_common＝{b₁，b₂...，b_t}，t表示用户A和用户B共同访问的书的个数；所述步骤1-2)可包括以下步骤：

a)根据用户A和用户B在阅读书b_k时的相关知识点访问路径，得到这两个用户访问知识点的交集K_common＝{K₁，K₂...，K_l}，l表示用户A和用户B共同访问的知识点的个数，b_k表示阅读书目交集Book_common中的第k本书；

b)用户A和用户B在看某书b_k时的知识结构相似度为

{Sim}_{(A, B)}^{b_{k}} = \frac{1}{m + n - l} \times Σ_{i = 1}^{l} \min (\frac{t_{Ai}^{*}}{t_{Bi}^{*}}, \frac{t_{Bi}^{*}}{t_{Ai}^{*}})

其中m表示用户A访问的知识点的个数，n表示用户B访问的知识点的个数，和分别表示用户A和用户B在知识点K_i(K_i∈K_common)的停留时间。

上述技术方案中，

t_{Ai}^{*} = t_{Ai} + \underset{j}{Σ} [Cor (i, j) t_{Aj}],

t_{Bi}^{*} = t_{Bi} + \underset{j}{Σ} [Cor (i, j) t_{Bj}],

其中j为用户A或B访问的知识点i的相关知识点，t_Ai为用户A浏览知识点i的时间，t_Aj为用户A浏览知识点j的时间，t_Bi为用户B浏览知识点i的时间，t_Bj为用户B浏览知识点j的时间，Cor(i，j)为相关知识点i和j之间的关联度Cor(i，j)。

上述技术方案中，在步骤1-3)可以如下公式计算用户A和用户B的知识结构的相似度Sim_(A，B)：

{Sim}_{(A, B)} = \frac{Σ_{k = 1}^{k = t} {Sim}_{(A, B)}^{b_{k}}}{r + s - t}

其中r表示用户A阅读的书的个数，s表示用户B阅读的书的个数，t表示用户A和用户B共同访问的书的个数。

上述技术方案中，所述步骤2’)可包括以下步骤：

步骤2-1)对用户A和用户B的用户交互记录进行统计，以分别得到每个用户加入的聊天室的个数，用户A和用户B共同加入的聊天室的个数，以每个用户在共同加入的聊天室中的发言次数，以及用户A和用户B进行过私聊的聊天室的个数；

步骤2-2)计算用户A和用户B在聊天室中发言次数的相似度；

步骤2-3)根据所述用户A和用户B的知识结构的相似度、在聊天室中发言次数的相似度以及这两个用户进行过私聊的聊天室的个数，来获取用户A和用户B的关联度。

上述技术方案中，所述步骤2-2)可以如下公式计算用户A和用户B在聊天室中发言次数的相似度S_talk(A，B)：

S_{talk (A, B)} = \frac{m^{2}}{N_{1} \times N_{2}} Σ_{i = 1}^{m} \min (s_{Ai}, s_{Bi})

N₁为用户A加入的聊天室的个数，N₂为用户B加入的聊天室的个数，m为用户A和用户B共同加入的聊天室的个数，S_Ai表示用户A在这m个聊天室中的第i个聊天室中的发言次数，S_Bi表示用户B在这m个聊天室中的第i个聊天室中的发言次数。

上述技术方案中，在步骤2-3)可根据所述用户A和用户B的知识结构的相似度、在聊天室中发言次数的相似度以及用户A和用户B进行过私聊的聊天室的个数，以如下公式来获取用户A和用户B的关联度Correlation_(A，B)：

Correlation_(A，B)＝λ₁Sim_(A，B)+λ₂Talk_(A，B)+λ₃Chat_(A，B)

其中，(λ₁+λ₂+λ₃＝1；0＜λ₁＜1；0＜λ₂＜1；0＜λ₃＜1)，Sim_(A，B)为用户A和B的知识结构的相似度，S_talk(A，B)为用户A和B在聊天室中发言次数的相似度，X为与用户A加入过同一个聊天室的用户，∑S_talk(A，X)为用户A和与其加入过相同聊天室的所有用户的发言次数的相似度的总和；S_chat(A，B)为用户A和用户B进行过私聊的聊天室个数，Y为与用户A私聊过的用户，∑S_chat(A，Y)为用户A和与其有过私聊的所有用户进行过私聊的聊天室的总数。

又一方面，本发明提供了一种基于阅读社交平台的用户关联度获取装置，所述装置包括：

用户知识结构相似度计算模块，用于计算用户A和用户B的知识结构的相似度，所述知识结构是由用户在书籍阅读过程中访问的知识点形成的；

用于根据用户A和用户B的知识结构的相似度来获取用户A和用户B的关联度的模块。

用户关联度计算模块，用于基于所述知识结构的相似度并结合用户交互记录，来计算用户A和用户B的关联度，所述用户交互记录包括用户加入的聊天室、用户在聊天室中发言的次数、与哪个用户在哪个聊天室进行过私聊。

上述技术方案中，用户知识结构相似度计算模块分别获取用户A和用户B的阅读书目，得到用户A和用户B的阅读书目交集，并且对于所获得的阅读书目交集中的每一本书，分别计算用户A和用户B在看该书时形成的知识结构的相似度；最后，计算用户A和用户B的知识结构的相似度。

上述技术方案中，所述用户关联度计算模块对用户A和用户B的用户交互记录进行统计，以分别得到每个用户加入的聊天室的个数，用户A和用户B共同加入的聊天室的个数，以每个用户在共同加入的聊天室中的发言次数，以及用户A和用户B进行过私聊的聊天室的个数；并计算用户A和用户B在聊天室中发言次数的相似度；最后，根据用户A和用户B的知识结构的相似度、在聊天室中发言次数的相似度以及用户A和用户B进行过私聊的聊天室的个数，来计算用户A和用户B的关联度。

与现有技术相比，本发明的优点在于：

综合考虑了用户的阅读行为和用户之间的交互行为模式，从知识点访问记录挖掘出客观的知识结构相似度，从用户的交互记录挖掘出主观的用户关系强度，并由此从主观和客观两个方面对用户之间的关联度给予了定量的描述。利用该方法分析出的用户关联度可以很好地刻画出人与人的关系。而利用这种关系，可以提供一些个性化的服务，如好友推荐及基于协同过滤的资源推荐。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的对两个用户在书籍阅读过程中形成的知识结构进行相似度计算的流程示意图；

图2为根据本发明实施例的对于两个用户在阅读单本书时形成的知识结构相似度计算的过程示意图；

图3为根据本发明实施例的获取两个用户之间的关联度的方法的过程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更好地理解本发明，首先对阅读社交平台进行简单介绍，在这种交互式的阅读平台中，为知识点建立了标注。知识点一般是书籍中的关键人物、事件以及重要的名词术语。为知识点标注的信息可包括知识点的简短描述、详细信息、相关知识点及相关的音频视频。例如，为知识点“贾宝玉”标注的详细信息为“贾宝玉，中国古典小说《红楼梦》主要的人物，别号怡红公子、绛洞花主、富贵闲人。由神瑛侍者脱胎而成，对绛珠仙草有灌溉之恩”。“贾宝玉”的相关知识点为“林黛玉”、“薛宝钗”、“袭人”、“晴雯”、“贾政”、“王夫人”等，相关的音频为《枉凝眉》，相关的视频为《宝玉挨打》等。

当用户对某一已标注的知识点感兴趣时，可以对其查询访问，获取知识点的详细信息、相关的知识点，也可以听相关的音频或看相关的视频来加深对知识点的理解。用户可以顺次访问知识点的相关知识点，比如用户访问“贾宝玉”时，访问了“贾宝玉”的相关知识点“林黛玉”，然后又访问了“林黛玉”的相关知识点“林如海”，这样就形成了“贾宝玉”一“林黛玉”一“林如海”这样的访问子路径。用户不断地访问新的知识点，知识点的访问记录体现了用户的知识结构，其表示为一系列访问子路径的集合。每个用户在阅读某一本书时，都有许多条相关知识点的访问路径。例如“贾宝玉-林黛玉-薛宝钗”是一条相关知识点的访问路径，知识点“薛宝钗”访问结束后，需要逐级后退，先退回到“林黛玉”，再退回到“贾宝玉”，即任何一条路径都是闭合的。这样一条路径结束后，才会有一条新的访问路径。

另外，用户在阅读书籍的过程中，除了希望查询知识点外，可能希望就书中某些感兴趣的内容，与同时在阅读此书的用户进行讨论。因此，在阅读社交平台中，用户不仅可以通过点击相关知识点来访问新的知识点，而且可以申请加入该书的主题聊天室。在聊天室中，用户可以自由发言，另外，如果对某一用户的发言特别感兴趣的话，在征得对方同意的情况下，可以选择私聊。可见，用户之间的交互行为在一定程度上也可以反映用户之间的关系。

在本发明的一个实施例中，提供了一种基于阅读社交平台的用户关联度获取方法。该方法首先对用户书籍阅读过程中访问的知识点形成的知识结构进行相似度计算；然后根据所述知识结构相似度，结合用户交互记录计算两个用户之间的关联度。该方法结合用户的知识结构和用户的兴趣爱好对用户间的关联度进行了定量分析。所获得的用户间的关联度可以更准确地反映出以移动阅读中用户间的社交关系。因此，基于所计算的用户关联度所反映出的用户间的社交关系，可以在SNS(Social NetworkingServices社会性网络服务)社区中进行好友推荐或在电子商务系统中利用相似用户进行基于协同过滤的资源推荐。

更具体地，该方法包括以下步骤：

步骤1，计算两个用户的知识结构的相似度(也可以简称为知识结构相似度)。

其中，用户的知识结构是由该用户在书籍阅读过程中访问的知识点形成的。每个用户都可能会阅读多本书，用户在阅读每一本书时都会形成一定的知识结构，例如，可以用相关知识点的访问路径和在知识点的停留时间来描述知识结构。该用户所阅读的多本书可以综合体现了用户的知识存储和用户的访问习惯，而不同用户的知识结构的相似也可以在一定程度上体现了用户阅读行为的相似。

图1给出了根据本发明实施例的计算用户知识结构相似度的流程示意图。如图1所示，以计算用户A与用户B在书籍阅读时形成的知识结构相似度为例，进行说明。主要的计算步骤如下：

步骤1-1)分别获取每个用户的阅读书目以得到用户之间阅读书目交集。

设用户A阅读的书的集合(即用户A的阅读书目)为Book_A＝{b_A1，b_A2...，b_Ar}，r表示用户A阅读的书的个数；用户B阅读的书的集合(即用户B的阅读书目)为Book_B＝{b_B1，b_B2...，b_Bs}，s表示用户B阅读的书的个数；用户A和用户B阅读的书的交集(即用户A和用户的阅读书目交集)为Book_common＝{b₁，b₂...，b_t}，t表示用户A和用户B共同访问的书的个数。

步骤1-2)对于所获得的阅读书目交集中的每一本书，分别计算两个用户在阅读该书时形成的知识结构的相似度。(下文将参考图2对该步骤进行详细的描述)

步骤1-3)基于用户A和用户B在看阅读书目交集中每本书时形成的知识结构的相似度，计算用户A和用户B的综合知识结构相似度(可参见下文对Sim_(A，B)的计算)。

图2给出了在步骤1-2)对于两个用户在阅读单本书时形成的知识结构相似度计算的过程示意图。例如，假设用户A和用户B在看书b_k时的知识结构相似度为其计算包括以下步骤：

a)获取用户A和用户B在阅读书b_k时的相关知识点访问路径，以得到A和B访问知识点的交集。

每个用户在阅读某一本书时，形成的所有相关知识点的访问路径中所涉及的知识点构成该用户在阅读该书时的访问知识点列表。例如，用户A阅读《(红楼梦》时，一条相关知识点访问路径为“贾宝玉-林黛玉-薛宝钗-薛蟠-香菱-甄士隐”；则{贾宝玉，林黛玉，薛宝钗，薛蟠，香菱，甄士隐}这几个知识点将会被包含在用户A的访问知识点列表中。在计算用户A和用户B在看同一本书b_k时的知识结构相似度时，用户A在阅读书b_k时的所有访问路径中的知识点构成一个知识点列表。例如，用户A在阅读书b_k时有20条访问路径，每一条访问路径都有5个知识点，则取这20*5＝100个知识点的并集作为A访问的知识点列表，由于不同路径中知识点可能重复，故并集中的A访问的知识点的个数可能小于100个。同理，用户B在阅读书b_k时也会有一个知识点列表。

假设用户A访问的知识点集合为K_A＝{K_A1，K_A2...，K_Am}，m表示用户A访问的知识点的个数；用户B访问的知识点集合为K_B＝{K_B1，K_B2...，K_Bn}，n表示用户B访问的知识点的个数；则用户A和用户B访问的知识点的交集为K_commoon＝{K₁，K₂...，K_l}，l表示用户A和用户B共同访问的知识点的个数。

b)对于A和B访问知识点交集中的每一个知识点，分别计算用户A和用户B在该知识点的停留时间。

例如用户A在知识点i时的停留时间为

t_{Ai}^{*} = t_{Ai} + \underset{j}{Σ} [Cor (i, j) t_{Aj}]

其中j为访问的i的相关知识点，t_Ai为用户A浏览知识点i的时间，t_Aj为用户A浏览知识点j的时间，相关知识点(i，j)之间的关联度Cor(i，j)作为衰减系数对知识点访问的时间进行修正。举例说明，下面的公式(1)表示用户顺次访问了i的相关知识点y，又返回知识点i并继续访问了i的相关知识点k，接着访问了k的相关知识点x。

i→k→x

↓

y (1)

则用户在知识点i的停留时间而用户在知识点k的停留时间如果在A的另一条知识点访问路径中也出现了知识点i，则将进行累加，作为新的例如，用户A在阅读某一本书时，有多条知识点访问路径。如“贾宝玉-林黛玉-薛宝钗”，“贾宝玉-贾母-史湘云”是两条路径，但知识点“贾宝玉”出现了两次，要将两次的“贾宝玉”的停留时间累加起来，作为新的在知识点“贾宝玉”的停留时间。用户A在某个知识点的停留时间，只与A的知识点访问路径有关，与其他人的知识点访问路径无关。同理，用户B在知识点i时的停留时间为

t_{Bi}^{*} = t_{Bi} + \underset{j}{Σ} [Cor (i, j) t_{Bj}]

其中，可以采用如下方法来计算相关知识点之间的关联度Cor(i，j)。在一个实施例中，使用带重启机制的随机游走算法(random walk with restart，RWR)计算知识点i与知识点j的关联度Cor(i，j)。RWR模型数学表示为

c^(t+1)＝(1-a)Sc^(t)+aq

其中，矩阵c^(t)为第t步时图中的概率分布，矩阵q为初始状态，为对角矩阵，对角线上元素为1，其余元素均为0。S为转移概率矩阵，S_i，j为当前在点i，下一步达到顶点j的概率，S_i，j计算公式为

S_{i, j} = \frac{Freq (i &RightArrow; j)}{Freq (i)} (i &NotEqual; j)

Freq(i →j)表示通过访问知识点i来访问知识点j的次数，Freq(i)为访问知识点i的次数，若i和j不是相关知识点，则S_i，j＝0。a为重启概率，取经验值0.8。对于一个非周期不可约的图，多次迭代后，公式收敛，图中概率达到稳定分布，再次迭代也不会改变图中的概率分布。知识点i与知识点j的关联度Cor(i，j)＝c^+∞(i，j)，其中c^+∞(i，j)表示稳定分布时知识点i到知识点j的概率。

在又一个实施例中，也可以直接将作为知识点i和知识点j的关联度Cor(i，j)，如上所述，Freq(i →j)表示通过访问知识点i来访问知识点j的次数，Freq(i)为访问知识点i的次数。不过这样计算的相关知识点关联度可能不够准确。

c)计算用户A和用户B在看某书b_k时的知识结构相似度：

{Sim}_{(A, B)}^{b_{k}} = \frac{1}{m + n - l} \times Σ_{i = 1}^{l} \min (\frac{t_{Ai}^{*}}{t_{Bi}^{*}}, \frac{t_{Bi}^{*}}{t_{Ai}^{*}})

其中m+n-l表示用户A和用户B访问的知识点的并集中知识点的个数，和分别表示用户A和用户B在知识点K_i(K_i∈K_common)的停留时间，为和中的小数除以大数，衡量了用户A和用户B在访问知识点K_i时停留时间的相似程度，则表示了用户A和用户B在共同访问的l个知识点总的相似程度。

在经上述步骤对于所获得的阅读书目交集中的每一本书，分别计算出两个用户在阅读该书时形成的知识结构的相似度之后，计算用户A和用户B的综合知识结构相似度。

步骤1-3)基于用户A和用户B在看阅读书目交集中每本书时形成的知识结构的相似度，计算用户A和用户B的综合知识结构相似度Sim_(A，B)：

{Sim}_{(A, B)} = \frac{Σ_{k = 1}^{k = t} {Sim}_{(A, B)}^{b_{k}}}{r + s - t}

其中表示用户A和用户B在看公共的t本书时的知识结构相似度之和，r+s-t表示用户A和用户B一共看的书本的个数。

步骤2，根据所计算的两个用户间的知识结构相似度，并结合用户交互记录来获取两个用户之间的关联度。

其中，用户交互记录主要包括用户加入的聊天室、用户在聊天室发言的次数、与哪个用户在哪个聊天室进行过私聊、私聊的次数等。例如，当用户在阅读书籍时，如果对某些内容感兴趣，希望与同时在阅读此书的用户进行交流，可以申请加入该书的主题聊天室。比如用户在阅读《红楼梦》时，如果对贾宝玉、林黛玉等人物感兴趣，可以申请加入“红楼梦”的主题聊天室。在此聊天室中，所有用户可以自由发言。用户发言的次数体现了用户对该聊天室的兴趣度，如果两个用户的发言次数比较接近，且发言次数都比较多，则这两个用户阅读兴趣较为接近。同时，如果某一用户对当前聊天室中另一用户的发言特别感兴趣的话，在征得对方同意的情况下，可以选择私聊，私聊内容是非公开的，即聊天室的其它成员是看不到聊天记录的。如果两个用户共同加入的聊天室较多，且在聊天室中发言次数以及私聊的次数比较多时，这两个用户的关联度可能会比较大的。也就是说用户交互记录也可以在一定程度上反映用户之间的关联度。

图3给出了根据本发明实施例的结合用户交互记录计算用户关联度的方法的过程示意图。以获取用户A与用户B进行书籍阅读时的用户关联度为例，如图3所示，在计算两个用户之间的关联度时，不仅考虑了两个用户问的知识结构相似度，而且还结合用户交互记录考虑了两个用户在聊天室中发言次数相似度和这两个用户进行过私聊的聊天室的个数。

其中，用户A和用户B之间的知识结构相似度Sim_(A，B)可以采用上文介绍的方法计算得到。通过对用户交互记录进行统计，可以得到用户A和用户B进行过私聊的聊天室的个数为S_chat(A，B)。用户A和用户B在聊天室里发言次数相似度为S_talk(A，B)，其是通过下面的公式计算的：

S_{talk (A, B)} = \frac{m^{2}}{N_{1} \times N_{2}} Σ_{i = 1}^{m} \min (s_{Ai}, s_{Bi})

其中，N₁为用户A加入的聊天室的个数，N₂为用户B加入的聊天室的个数，m为用户A和用户B共同加入的聊天室的个数。在这m个聊天室中，用户A在第i个聊天室中的发言次数用s_Ai表示，用户B在第i个聊天室中的发言次数用s_Bi表示。对于A和B来说，S_talk(A，B)是同一个值，只考虑加入相同聊天室时各自的发言次数，如果没有加入相同聊天室，则发言次数不做考虑。其中，min(s_Ai，s_Bi)表示用户A和用户B在第i个聊天室里发言次数的较小值。上述参数的具体值均可以通过对用户交互记录的统计而得到。例如，可以通过分别对用户A和用户B的用户交互记录进行统计，从而得到用户A加入的聊天室个数，用户B加入的聊天室个数、用户A和用户B共同加入的聊天室个数，用户A和用户B在共同加入的聊天室中的发言次数，以及用户A和用户B进行过私聊的聊天室的个数等。

继续参考图3，基于获得的用户A和用户B之间的知识结构相似度Sim_(A，B)、用户A和用户B在聊天室里发言次数相似度为S_talk(A，B)、用户A和用户B进行过私聊的聊天室的个数为S_chat(A，B)，来计算用户A和用户B之间的关联度。

在本发明的实施例中，还可以对S_talk(A，B)和S_chat(A，B)进行如下的归一化处理，也就是分别将其值映射到[0，1]中的某个值：

(X为与A加入过同一个聊天室的用户)，该式计算的是S_talk(A，B)在与A加入过相同聊天室的所有用户的发言次数相似度中所占的比例，∑S_talk(A，X)表示用户A和与其加入过相同聊天室的所有用户的发言次数的相似度的总和。对A来说，比例越大，说明A与B的相似程度比与其它用户的相似程度更大。

同理，对S_chat(A，B)进行归一化，(Y为与A私聊过的用户)，该式计算的是用户A和用户B的私聊聊天室个数在与A有过私聊的所有用户的私聊聊天室个数中所占的比例，该比例越大，说明A与B的兴趣越相似。其中∑S_chat(A，Y)为用户A和与其有过私聊的所有用户进行过私聊的聊天室的总数。

根据本发明的一个实施例，可以通过对Sim_(A，B)、Talk_(A，B)、Chat_(A，B)进行线性加权，计算用户A和用户B之间的关联度Correlation_(A，B)，其计算公式如下：

Correlation_(A，B)＝λ₁Sim_(A，B)+λ₂Talk_(A，B)+λ₃Chat_(A，B)

λ₁、λ₂、λ₃表示Sim_(A，B)、Talk_(A，B)、Chat_(A，B)三者的权值，(λ₁+λ₂+λ₃＝1；0＜λ₁＜1；0＜λ₂＜1；0＜λ₃＜1)。在一个实施例中，可以通过如下方法来确定λ₁、λ₂、λ₃的值：抽取200个用户进行问卷调查，对知识结构相似度Sim_(A，B)、在聊天室中的发言次数Talk_(A，B)、私聊次数Chat_(A，B)的重要程度分别进行打分，每项打分分为1到5分五个等级，5分表示非常重要，1分表示非常不重要，按所有用户取平均值，可以得到每项的平均得分，分别为s₁、s₂、s₃，则λ₁∶λ₂∶λ₃＝s₁∶s₂∶s₃，且λ₁+λ₂+λ₃＝1，则可以计算出λ₁、λ₂、λ₃的值，代入公式，即求得用户关联度的值。在其他实施例中，可以根据需求直接指定各个系数所占的比重，也就是直接指定λ₁、λ₂、λ₃。也可以通过调查问卷来确定各个系数(即λ₁、λ₂、λ₃)。例如，可以通过如下方法确定λ₁、λ₂、λ₃的值：抽取50个用户(人数可以调整)作为样本进行问卷调查，对每个用户提供其它用户(也就是其它49个用户)的阅读记录及与本人的交互记录，阅读记录为用户的知识点访问路径，交互记录为加入的聊天室，在聊天室中发言的次数及与本人私聊的聊天室个数。然后每个用户对其余用户与本人的关联度进行打分，打分的满分为10分，打分值可以为小数，这样就通过调查问卷的形式获取了任意两个用户的关联度作为训练集，然后利用线性回归的方法，计算出系数λ₁、λ₂、λ₃。然后就能用这三个系数和用户关联度计算公式来计算获任意两个用户的间的关联度了。

应指出，以上对Sim_(A，B)、Talk_(A，B)、Chat_(A，B)采用线性加权方式来获取用户关联度意在说明而非限制，本领域技术人员可以使用其他方式来根据Sim(A，B)、Talk(A，B)、Chat(A，B)获取用户关联度Correlation(A，B)，例如函数模型、广义线性模型、非参数模型方法等。

而且，上述实施例仅是一种优选的实施例，通过将所计算的两个用户间的知识结构相似度与用户交互记录相结合来获取两个用户之间的关联度，可以从主观和客观两个方面对用户之间的关联度给予更准确的定量描述。在其他实施例中，在步骤2)中，也可以仅基于根据上文提到的方法所计算的两个用户间的知识结构相似度来获取这两个用户之间的关联度，而不必结合用户交互记录。例如，可以直接将根据上文提到的方法所计算的两个用户间的知识结构相似度作为这两个用户之间的关联度。

在本发明的又一个实施例中，提供一种基于阅读社交平台的用户关联度获取装置，所述装置包括用于计算用户A和用户B的知识结构的相似度的模块，以及用于根据用户A和用户B的知识结构的相似度来获取用户A和用户B的关联度的模块。

在本发明的又一个实施例中，提供了一种基于阅读社交平台的用户关联度获取装置。该装置包括用户知识结构相似度计算模块，用于对用户书籍阅读过程中访问的知识点形成的知识结构进行相似度计算；以及包括用户关联度计算模块，用于根据所述知识结构相似度，结合用户交互记录计算两个用户之间的关联度。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种基于阅读社交平台的用户关联度获取方法，所述方法包括：

步骤1)计算用户A和用户B的知识结构的相似度，所述知识结构是由用户在书籍阅读过程中访问的知识点形成的；所述步骤1)包括：

步骤1-3)基于用户A和用户B在看阅读书目交集中每本书时形成的知识结构的相似度，计算用户A和用户B的知识结构的相似度；

2.一种基于阅读社交平台的用户关联度获取方法，所述方法包括：

3.根据权利要求1或2所述的方法，其中，所述阅读书目交集表示为Book_common＝{b₁,b₂...,b_t}，t表示用户A和用户B共同访问的书的个数；所述步骤1-2)包括以下步骤：

a)根据用户A和用户B在阅读书bk时的相关知识点访问路径，得到这两个用户访问知识点的交集K_common＝{K₁,K₂...,K_l}，l表示用户A和用户B共同访问的知识点的个数，b_k表示阅读书目交集Book_common中的第k本书；

b)用户A和用户B在看某书b_k时的知识结构相似度为

{Sim}_{(A, B)}^{b_{k}} = \frac{1}{m + n - l} \times Σ_{i = 1}^{l} \min (\frac{t_{Ai}^{*}}{t_{Bi}^{*}}, \frac{t_{Bi}^{*}}{t_{Ai}^{*}})

4.根据权利要求3所述的方法，其中，

t_{Ai}^{*} = t_{Ai} + \underset{j}{Σ} [Cor (i, j) t_{Aj}],

t_{Bi}^{*} = t_{Bi} + \underset{j}{Σ} [Cor (i, j) t_{Bj}]

其中j为用户A或B访问的知识点i的相关知识点，t_Ai为用户A浏览知识点i的时间，t_Aj为用户A浏览知识点j的时间，t_Bi为用户B浏览知识点i的时间，t_Bj为用户B浏览知识点j的时间，Cor(i,j)为相关知识点i和j之间的关联度，其中Cor(i,j)等于通过访问知识点i来访问知识点j的次数与访问知识点i的次数的比值。

5.根据权利要求3所述的方法，在步骤1-3)，以如下公式计算用户A和用户B的知识结构的相似度Sim_(A,B)：

{Sim}_{(A, B)} = \frac{Σ_{k = 1}^{k = t} {Sim}_{(A, B)}^{b_{k}}}{r + s - t}

6.根据权利要求5所述的方法，所述步骤2’)包括以下步骤：

步骤2-2)计算用户A和用户B在聊天室中发言次数的相似度；

7.根据权利要求6所述的方法，所述步骤2-2)以如下公式计算用户A和用户B在聊天室中发言次数的相似度S_talk(A,B)：

S_{talk (A, B)} = \frac{m^{2}}{N_{1} \times N_{2}} Σ_{i = 1}^{m} \min (s_{Ai}, s_{Bi})

8.根据权利要求7所述的方法，在步骤2-3)根据所述用户A和用户B的知识结构的相似度、在聊天室中发言次数的相似度以及用户A和用户B进行过私聊的聊天室的个数，以如下公式来获取用户A和用户B的关联度Correlation_(A,B)：

Correlation_(A,B)＝λ₁Sim_(A,B)+λ₂Talk_(A,B)+λ₃Chat_(A,B)

其中，(λ₁+λ₂+λ₃＝1；0<λ₁<1；0<λ₂<1；0<λ₃<1)，Sim_(A,B)为用户A和B的知识结构的相似度，S_talk(A,B)为用户A和B在聊天室中发言次数的相似度，X为与用户A加入过同一个聊天室的用户，∑S_talk(A,X)为用户A和与其加入过相同聊天室的所有用户的发言次数的相似度的总和；S_chat(A,B)为用户A和用户B进行过私聊的聊天室个数，Y为与用户A私聊过的用户，∑S_chat(A,Y)为用户A和与其有过私聊的所有用户进行过私聊的聊天室的总数。

9.一种基于阅读社交平台的用户关联度获取装置，所述装置包括：

用户知识结构相似度计算模块，用于计算用户A和用户B的知识结构的相似度，所述知识结构是由用户在书籍阅读过程中访问的知识点形成的；所述模块被配置为：

分别获取用户A和用户B的阅读书目，得到用户A和用户B的阅读书目交集；

对于所获得的阅读书目交集中的每一本书，分别计算用户A和用户B在看该书时形成的知识结构的相似度；

基于用户A和用户B在看阅读书目交集中每本书时形成的知识结构的相似度，计算用户A和用户B的知识结构的相似度；

10.一种基于阅读社交平台的用户关联度获取装置，所述装置包括：

11.根据权利要求10所述的装置，其中，所述用户关联度计算模块对用户A和用户B的用户交互记录进行统计，以分别得到每个用户加入的聊天室的个数，用户A和用户B共同加入的聊天室的个数，以每个用户在共同加入的聊天室中的发言次数，以及用户A和用户B进行过私聊的聊天室的个数；并计算用户A和用户B在聊天室中发言次数的相似度；最后，根据用户A和用户B的知识结构的相似度、在聊天室中发言次数的相似度以及用户A和用户B进行过私聊的聊天室的个数，来计算用户A和用户B的关联度。