CN103577592A

CN103577592A - 基于性格相似度匹配计算的网络社区用户好友推荐方法

Info

Publication number: CN103577592A
Application number: CN201310565879.XA
Authority: CN
Inventors: 张晓滨
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2013-11-13
Filing date: 2013-11-13
Publication date: 2014-02-12

Abstract

基于性格相似度匹配计算的网络社区用户好友推荐方法，通过用性格表征用户特点，建立性格模型，完成性格建模、性格相似度计算与判定，进而实现社区用户好友智能推荐的方法。本发明基于性格相似度匹配计算的网络社区用户好友推荐方法，通过网络社区用户性格模型的建立，能较好地反映基于用户性格的活动特征信息，可以更好地反映网络社区用户真实的兴趣与应用趋向；以此为基础，通过用户性格相似性匹配计算，实现用户好友智能推荐，能很好地应用于当前网络社区用户好友关系圈的建立中，解决当前社区网站在服务效果与用户需求之间仍然存在着巨大差距的问题。

Description

基于性格相似度匹配计算的网络社区用户好友推荐方法

技术领域

本发明属于WEB网络社区个性化服务技术领域，具体涉及一种基于性格相似度匹配计算的网络社区用户好友推荐方法。

背景技术

随着互联网社区网站的飞速发展，通过收集和分析用户的信息来学习用户的性格、兴趣和行为，建立对用户性格的描述，研究不同用户的性格取向，实现网络社区用户好友智能推荐是目前互联网社区发展的一个重要方面。

研究发现，目前社区网站在服务效果与用户需求之间仍然存在着巨大差距。其根源在于社区网站仅仅通过衡量用户的静态信息一致性和共同好友数量实现推荐，进而实现信息分享。这种技术手段，首先，它没有考虑到用户的特征并不仅仅由用户的静态信息决定，更多的体现在用户的行为及其行为变化上。其次，它缺乏服务的即时性，用户的特征不是一成不变的，所以推荐的结果也应该有相应的变化。因此，研究用户的性格特征，建立性格模型，完成性格相似度计算，是改进目前基于用户静态信息和共同好友数目的推荐方法的可行技术方案。

发明内容

本发明的目的是提供一种基于性格相似度匹配计算的网络社区用户好友推荐方法，解决当前社区网站在服务效果与用户需求之间仍然存在着巨大差距的问题。

本发明所采用的技术方案是，基于性格相似度匹配计算的网络社区用户好友推荐方法，具体步骤如下：

步骤1，建立用户性格模型

根据性格相关理论，结合社区用户相关信息获取的可能性，抽象出用户的性格模型，建立可量化的用户性格特征项集合；

步骤2，用户性格信息的获取

从用户的注册信息和交互过程中获取用户的静态特征项和动态特征项，用特征项元素所组成的集合来表示用户的性格特征；

步骤3，性格特征项相似度计算

通过性格的各个特征项相似度计算，建立基于用户特征的性格相似度计算模型；

步骤4，用户性格相似度计算

对用户特征的性格相似度计算模型进行子树相似度计算，然后对子树的相似度加权求和，得到目标用户与社区用户数据库中其他用户的性格相似度；

步骤5，基于性格相似度匹配的好友推荐

判断步骤4中计算的性格相似度sim与阈值σ的大小关系，来判断当前的两个用户是否满足好友的条件，当Sim≥σ，说明两个用户满足好友对的条件，从而将他们记为一个好友对；否则，则说明两个用户性格不相似或者是相似度不高，将他们舍弃；将满足推荐条件的用户按照相似度由大到小的顺序依次推荐给当前的用户。

本发明的特点在于，

步骤2中静态特征项的获取是从用户的注册信息中，得到体液类型、血型、星座、颜色喜好信息；动态特征项的获取是以用户发表和分享的日志作为数据来源，通过中文分词、同义词近义词处理等预处理过程得到兴趣度及其对应的频数二元组；基于该二元组，获取出兴趣集、兴趣度持续时间、兴趣集序列。

步骤3中性格特征相相似度计算包括静态特征项相似度计算和动态特征项相似度计算；静态特征项相似度计算包括体液类型相似度、血型相似度、星座相似度和颜色喜好相似度计算；动态特征项相似度计算包括兴趣集、兴趣度持续时间和兴趣集序列计算。

静态特征项相似度具体计算方法如下：

a.体液类型相似度Sim_A(P,Q)

体液类型集合A＝{A₁,A₂,...,A_n},1≤n≤4；A(P)，A(Q)表示用户P，Q的体液类型，A(P)∈A,A(Q)∈A.，其相似度为：

{Sim}_{A} (P, Q) = \{\begin{matrix} 1, & A (P) = A (Q) \\ 0, & A (P) &NotEqual; A (Q) \end{matrix} - - - (1);

b.血型相似度Sim_B(P,Q)

血型集合B＝{B₁,B₂,...,B_n},1≤n≤4,B(P)，B(Q)表示用户P，Q的血型，B(P)∈B,B(Q)∈B，其相似度为：

{Sim}_{B} (P, Q) = \{\begin{matrix} 1, & B (P) = B (Q) \\ 0, & B (P) &NotEqual; B (Q) \end{matrix} - - - (2);

c.星座相似度Sim_C(P,Q)

星座集合C＝{C₁,C₂,...,C_n},1≤n≤12,C(P)，C(Q)表示用户P，Q的星座，C(P)∈C,C(Q)∈C,其相似度为：

{Sim}_{C} (P, Q) = \{\begin{matrix} 1, & C (P) = C (Q) \\ 0, & C (P) &NotEqual; C (Q) \end{matrix} - - - (3);

d.颜色喜好相似度Sim_D(P,Q)

颜色喜好集合记为D＝{D₁,D₂,...,D_n},n≥1，D(P)，D(Q)表示用户P，Q喜好的颜色集合，

用户P，Q共同的颜色喜好为D_com＝D(P)∩D(Q)，size用来表示集合的元素个数，则二者喜好的最多颜色数目可以表示为：

\max (size (D (P)), size (D (Q))} = \{\begin{matrix} size (D (P), & size (D (P) &GreaterEqual; size (D (Q) \\ size (D (Q), & size (D (P) < size (D (Q) \end{matrix};

其相似度为：

{Sim}_{D} (P, Q) = \{\begin{matrix} 1 & , size (D (P) = size (D (Q)) = 0 \\ \frac{size (D_{com})}{\max {size (D (P)), size (D (Q))}} & , \max {size (D (P), size (D (Q))} &NotEqual; 0 \end{matrix} - - - (4) .

动态特征项相似度计算是基于兴趣集的时间序列的，用兴趣度曲线的斜率比较函数和时间间隔函数的乘积作为序列相似度的判断依据，具体计算方法如下：

a.兴趣集相似度Sim_E(P,Q)

兴趣元素集合记为H＝{h₁,h₂,h_3,…,h_n},频数集合记为F＝{f₁,f₂,f₃,…,f_n}；某一时刻，对应的兴趣元素与对应的频数组成的二元组构成为这一时刻的兴趣集E，则E＝{＜e₁＝(h₁,f₁),e₂＝(h₂,f₂),…e_n＝(h_n,f_n)＞}，用户P和Q的兴趣度交集记为H_com，H_com＝H(P)∩H(Q)＝{h_com1,h_com2,…,h_comn},其对应的兴趣集二元组为：

E_com={＜e_com1=(h_com1，f_com1)，e_com2=(h_com2，f_com2)，…，e_comn=(h_comn，f_comn)＞}，通过二者兴趣度交集频数的相似程度来表示兴趣集的相似度；当H_com不为空时，二者有共同的兴趣度，对于不同用户，其共同兴趣度的频数存在差异；此时，通过各元素的频数相似度与该元素在兴趣集交集中所占比例求和得出，否则，则说明二者没有相同的兴趣度，此时的相似度为0；公式表达如下：

{Sim}_{E} (P, Q) = \{\begin{matrix} Σ_{i = 1}^{n} \frac{\min (f_{comi} (P), f_{comi} (Q))}{\max (f_{comi} (P), f_{comi} (Q))} \cdot \overset{&OverBar;}{P_{comi}}, & H_{com} &NotEqual; φ \\ 0, & H_{com} = φ \end{matrix} - - - (5)

式中，min(f_comi(P),f_comi(Q))表示E_com(P)和E_com(Q)中第i个兴趣度的频数最小值，max(f_comi(P),f_comi(Q))表示E_com(P)和E_com(Q)中第i个兴趣度的频数最大值，

i表示E_co中第i个元素在该兴趣集中所占的比重，其中，P_comi(P)，P_comi(Q)分别表示用户P和Q第i个共同兴趣度在E_com(P)和E_com(Q)中所占的比重，即

P_{comi} (Q) = f_{comi} (Q) / Σ_{i = 1}^{n} f_{comi} (Q);

b.兴趣度持续时间相似度Sim_F(P,Q)

兴趣度持续时间的相似度用来表征一段时间内兴趣度在不同时刻存在性的相似程度；T₁到T_N时刻用户兴趣度集合为：

H_sum(T₁～T_N)=H(T₁)∩H(T₂)∩…∩H(T_N)={h_sum1，h_sum2，h_{sum3，…，}h_sumn}；

兴趣及持续时间用兴趣集集合中各元素持续时间和的平均值来表示，但是考虑到时间粒度对时间结果的影响，因此引入时间粒度Δt，某一元素的持续时间就表示为Δt与该时间粒度下持续时间的乘积，即为：

T (T_{1} ~ T_{N}) = Σ_{i = 1}^{n} \frac{1}{n} t (h_{sumi}) * Δt - - - (6)

其中，t(h_sumi)表示兴趣度i持续的时间，Δt表示T_N与T_N+1之间的时间间隔，t_j(h_sumi)表示兴趣度h_sumi是否存在与连续时刻，若h_sumi存在于连续的时刻中，则该兴趣度持续，记为1，否则说明该兴趣度不持续，记为0；

t_{j} (h_{sumi}) \{\begin{matrix} 1, & h_{sumi} &Element; H (T_{N}) \cap H (T_{N + 1}) \\ 0, & h_{sumi} &NotElement; H (T_{N}) \cap H (T_{N + 1}) \end{matrix} - - - (7)

由公式（6）和（7）可知，兴趣度持续时间为：

T (T_{1} ~ T_{N}) = Σ_{i = 1}^{n} \frac{1}{n} Σ_{j = 1}^{N - 1} t_{j} (h_{sumi}) \cdot Δt - - - (8)

根据兴趣度持续时间的相似度定义，当max({T_P(T₁～T_N),T_Q(T₁～T_N)≠0时，二者的持续时间有交集，但是对于不同用户，其持续时间有差异，此时二者的相似度通过最小持续时间与最大持续时间的比值来得到，当T_P(T₁～T_N)＝T_Q(T₁～T_N)＝0时，即二者的兴趣度都不持续，此时兴趣度持续时间为0；公式表达为：

{Sim}_{F} (P, Q) = \{\begin{matrix} \frac{\min {T_{P} (T_{1} ~ T_{N}), T_{Q} (T_{1} ~ T_{N})}}{\max ({T_{P} (T_{1} ~ T_{N}), T_{Q} (T_{1} ~ T_{N})}} & , \max ({T_{P} (T_{1} ~ T_{N}), T_{Q} (T_{1} ~ T_{N})} &NotEqual; 0 \\ 0 & , T_{P} (T_{1} ~ T_{N}) = T_{Q} (T_{1} ~ T_{N}) = 0 \end{matrix} - - - (9)

c.兴趣集序列相似度Sim_G(P,Q)

兴趣集序列的相似度表征一段时间内用户兴趣集变化趋势的相似程度，考虑到兴趣集序列是兴趣度序列的集合，采用先计算兴趣度序列的相似度，然后通过兴趣度序列的相似度得到兴趣集序列的相似度；

兴趣度序列相似度

兴趣度g_i的时间序列记为S＝{＜x₁＝(f₁,T₁),x₂＝(f₂,T₂),…,x_n＝(f_n,T_N)}＞，其中，f_i是T_i时刻该兴趣度的频数，将不同时刻所对应的频数用平滑的曲线连接起来，则该曲线的意义是用户在此时间段内对此兴趣度感兴趣程序的变化趋势；

考虑到曲线可能存在拉伸，压缩，噪音干扰，通过比较序列的形状来实现兴趣度序列相似度的比较，首先选取曲线上的特征点，描述如下：

在S＝{＜x₁＝(f₁,T₁),x₂＝(f₂,T₂),…,x_n＝(f_n,T_N)}＞中，当x_m满足：存在常量R，i和j且1≤i＜m＜j≤n，使得：（1）f_m是f_1,…,f_j中的最大值；（2）f_m/f_i≥R且f_m/f_j≥R成立。则称x_m(1＜m＜n)是一个极大特征值；同理，当x_m满足：（1）f_m是f_1,…,f_j中的最小值；（2）f_i/f_m≥R且f_j/f_m≥R成立，则称x_m(1＜m＜n)是一个极小特征值；

用线段连接相邻特征点，通过斜率比较函数与时间轴长度比较函数的乘积来简化曲线相似度的计算，其中，线段端点在横坐标上投影的距离记为l_i，该线段的斜率记为ρ_i，则根据斜率的定义可知ρ_i＝(f_i+1-f_i)/(T_i+1-T_i)，那么对应的序列表示为(＜ρ₁,l₁＞,…,＜ρ_m,l_m＞)；假设两用户的序列S₁和S₂分段后的线段的斜率存放于数组U₁(1,…,n)和U₂(1,…,n)中，s(i)表示斜率比较函数，

若U₁(i)＝0，

s (i) = \{\begin{matrix} 1, & U_{2} [i] = U_{1} [i] \\ 0, & U_{2} [i] &NotEqual; U_{1} [i] \end{matrix} - - - (10);

若U₁(i)≠0，

s (i) = \{\begin{matrix} 1, & U_{2} [i] / U_{1} [i] &GreaterEqual; 0 \\ 0, & U_{2} [i] / U_{1} [i] < 0 \end{matrix} - - - (11)

数组V₁(1,…,n)和V₂(1,…,n)用来存放线段在时轴上投影的长度，w(i)表示时间轴长度比较函数，则

w (i) = \frac{\min {V_{1} [i], V_{2} [i]}}{\max {V_{1} [i], V_{2} [i]}} - - - (12)

由以上的过程得出，序列S₁和S₂的相似度为：

{Sim}_{g_{i}} (S_{1}, S_{2}) = Σ_{i = 1}^{n} \frac{1}{n} s (i) * w (i) - - - (13)

设定一定的容忍限度ε，其中0＜ε≤1，当

表示序列S₁和S₂相似，用1来表示，否则用0来表示，因此，该兴趣度序列的相似度为：

{Sim}_{g_{i}} (P, Q) = \{\begin{matrix} 1, & {Sim}_{g_{i}} (S_{1}, S_{2}) > ϵ \\ 0, & {Sim}_{g_{i}} (S_{1}, S_{2}) \leq ϵ \end{matrix} - - - (14)

兴趣集序列相似度Sim_G(P,Q)

兴趣集序列的相似度表征一段时间内用户兴趣集变化趋势的相似程度，兴趣集序列的相似度由兴趣度序列的相似度的平均值得出，公式表达如下：

{Sim}_{G} (P, Q) = Σ_{i = 1}^{n} \frac{1}{n} * {Sim}_{g_{i}} (P, Q) - - - (15)

其中

表示兴趣集中第i个元素，即兴趣度g_i，在该时间段内的序列相似度，n表示兴趣集所包含的兴趣度元素个数。

步骤4中性格相似度

通过对相似度计算模型的子树相似度的加权求和得出，表达式为：

{Sim}_{Hnow} (P, Q) = Σ_{i = 1}^{7} P (I_{i}) {Sim}_{I_{i}} (P, Q) - - - (16)

其中，表示用户P和Q的性格特征项I_i的相似度，P(I_i)表示特征项I_i的相似度在性格相似度中所占的权重。

本发明的有益效果是，本发明基于性格相似度匹配计算的网络社区用户好友推荐方法，通过网络社区用户性格模型的建立，能较好地反映基于用户性格的活动特征信息，可以更好地反映网络社区用户真实的兴趣与应用趋向；以此为基础，通过用户性格相似性匹配，实现用户好友智能推荐，能很好地应用于当前网络社区用户好友关系圈的建立中，解决当前社区网站在服务效果与用户需求之间仍然存在着巨大差距的问题。

附图说明

图1是本发明方法中用户性格模型图；

图2是本发明方法中基于用户特征的性格相似度模型图；

图3是本发明方法中性格相似度子树匹配流程图；

图4是本发明方法中好友推荐流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于性格相似度匹配计算的网络社区用户好友推荐方法，通过性格表征用户特点，建立性格模型，完成性格相似度计算，进而实现社区用户好友智能推荐的方法。

具体按照以下步骤实施：

步骤1，建立用户性格模型

根据性格相关理论，结合社区用户相关信息获取的可能性，抽象出用户的性格模型，如图1所示，用户性格由静态特征项和动态特征项构成，建立可量化的用户性格特征项集合；

步骤2，用户性格信息的获取

静态特征项的获取是从用户的注册信息中，得到体液类型、血型、星座、颜色喜好信息；动态特征项的获取是以用户发表和分享的日志作为数据来源，通过中文分词和同义词近义词处理等预处理过程得到兴趣度及其对应的频数二元组，基于该二元组，获取出兴趣集、兴趣度持续时间、兴趣集序列；

动态特征项是指从用户的行为习惯中得出的性格信息，性格的动态特征项的获取方法和途径有以下几种：

a.统计分析：在一段时间内对用户的习惯和行为进行统计，从而统计出高发性的习惯或行为；

b.聚类分析：根据统计分析的结果，按照聚类标准，将满足聚类条件的信息就行归并整合；

c.依赖推理：通过分析用户行为的前因后果，推理出不局限于当前特征的特征描述；

d.序列分析：将用户在某一时间点的行为、爱好用点或集合的方式表达，那么某一时间段内就可以形成一个变化趋势图，这个变化趋势不仅反映了用户的变化过程，也可以根据该曲线预示后续的结果；

步骤3，性格特征相相似度计算

通过性格的各个特征项相似度计算，建立基于用户特征的性格相似度计算模型，如图2所示；

性格特征相相似度计算包括静态特征项相似度计算和动态特征项相似度计算，静态特征项相似度计算包括体液类型相似度、血型相似度、星座相似度和颜色喜好相似度计算；动态特征项相似度计算包括兴趣集、兴趣度持续时间和兴趣集序列计算；

静态特征项相似度具体计算方法如下：

a.体液类型相似度Sim_A(P,Q)

体液集合A＝{A₁,A₂,...,A_n},1≤n≤4；A(P)，A(Q)表示用户P，Q的体液类型，A(P)∈A,A(Q)∈A.，其相似度为：

{Sim}_{A} (P, Q) = \{\begin{matrix} 1, & A (P) = A (Q) \\ 0, & A (P) &NotEqual; A (Q) \end{matrix} - - - (1);

b.血型相似度Sim_B(P,Q)

{Sim}_{B} (P, Q) = \{\begin{matrix} 1, & B (P) = B (Q) \\ 0, & B (P) &NotEqual; B (Q) \end{matrix} - - - (2);

c.星座相似度Sim_C(P,Q)

{Sim}_{C} (P, Q) = \{\begin{matrix} 1, & C (P) = C (Q) \\ 0, & C (P) &NotEqual; C (Q) \end{matrix} - - - (3);

d.颜色喜好相似度Sim_D(P,Q)

\max (size (D (P)), size (D (Q))} = \{\begin{matrix} size (D (P), & size (D (P) &GreaterEqual; size (D (Q) \\ size (D (Q), & size (D (P) < size (D (Q) \end{matrix};

其相似度为：

{Sim}_{D} (P, Q) = \{\begin{matrix} 1 & , size (D (P) = size (D (Q)) = 0 \\ \frac{size (D_{com})}{\max {size (D (P)), size (D (Q))}} & , \max {size (D (P), size (D (Q))} &NotEqual; 0 \end{matrix} - - - (4); .

a.兴趣集相似度Sim_E(P,Q)

兴趣元素集合记为H＝{h₁,h₂,h₃,…,h_n}，频数集合记为F＝{f₁,f₂,f₃,…,f_n}；某一时刻，对应的兴趣元素与对应的频数组成的二元组构成为这一时刻的兴趣集E，则E＝{＜e₁＝(h₁,f₁),e₂＝(h₂,f₂),…e_n＝(h_n,f_n)＞}，用户P和Q的兴趣度交集记为H_com，H_com＝H(P)∩H(Q)＝{h_com1,h_com2,…,h_comn},其对应的兴趣集二元组为：

{Sim}_{E} (P, Q) = \{\begin{matrix} Σ_{i = 1}^{n} \frac{\min (f_{comi} (P), f_{comi} (Q))}{\max (f_{comi} (P), f_{comi} (Q))} \cdot \overset{&OverBar;}{P_{comi}}, & H_{com} &NotEqual; φ \\ 0, & H_{com} = φ \end{matrix} - - - (5)

i表示E_co中第i个元素在该兴趣集中所占的比重，

其中，P_comi(P)，P_comi(Q)分别表示用户P和Q第i个共同兴趣度在E_com(P)和E_com(Q)中所占的比重，即

P_{comi} (Q) = f_{comi} (Q) / Σ_{i = 1}^{n} f_{comi} (Q);

b.兴趣度持续时间相似度Sim_F(P,Q)

T (T_{1} ~ T_{N}) = Σ_{i = 1}^{n} \frac{1}{n} t (h_{sumi}) * Δt - - - (6)

t_{j} (h_{sumi}) \{\begin{matrix} 1, & h_{sumi} &Element; H (T_{N}) \cap H (T_{N + 1}) \\ 0, & h_{sumi} &NotElement; H (T_{N}) \cap H (T_{N + 1}) \end{matrix} - - - (7)

由公式（6）和（7）可知，兴趣度持续时间为：

T (T_{1} ~ T_{N}) = Σ_{i = 1}^{n} \frac{1}{n} Σ_{j = 1}^{N - 1} t_{j} (h_{sumi}) \cdot Δt - - - (8)

{Sim}_{F} (P, Q) = \{\begin{matrix} \frac{\min {T_{P} (T_{1} ~ T_{N}), T_{Q} (T_{1} ~ T_{N})}}{\max ({T_{P} (T_{1} ~ T_{N}), T_{Q} (T_{1} ~ T_{N})}} & , \max ({T_{P} (T_{1} ~ T_{N}), T_{Q} (T_{1} ~ T_{N})} &NotEqual; 0 \\ 0 & , T_{P} (T_{1} ~ T_{N}) = T_{Q} (T_{1} ~ T_{N}) = 0 \end{matrix} - - - (9)

c.兴趣集序列相似度Sim_G(P,Q)

兴趣度序列相似度

用线段连接相邻特征点，通过斜率比较函数与时间轴长度比较函数的乘积来简化曲线相似度的计算，其中，线段端点在横坐标上投影的距离记为l_i，该线段的斜率记为ρ_i，则根据斜率的定义可知ρ_i＝(f_i+1-f_i)(T_i+1-T_i)，那么对应的序列表示为(＜ρ₁,l₁＞,…,＜ρ_m,l_m＞)；假设两用户的序列S₁和S₂分段后的线段的斜率存放于数组U₁(1,…,n)和U₂(1,…,n)中，s(i)表示斜率比较函数，

若U₁(i)＝0，

s (i) = \{\begin{matrix} 1, & U_{2} [i] = U_{1} [i] \\ 0, & U_{2} [i] &NotEqual; U_{1} [i] \end{matrix} - - - (10);

若U₁(i)≠0，

s (i) = \{\begin{matrix} 1, & U_{2} [i] / U_{1} [i] &GreaterEqual; 0 \\ 0, & U_{2} [i] / U_{1} [i] < 0 \end{matrix} - - - (11);

w (i) = \frac{\min {V_{1} [i], V_{2} [i]}}{\max {V_{1} [i], V_{2} [i]}} - - - (12);

由以上的过程得出，序列S₁和S₂的相似度为：

{Sim}_{g_{i}} (S_{1}, S_{2}) = Σ_{i = 1}^{n} \frac{1}{n} s (i) * w (i) - - - (13);

设定一定的容忍限度ε，其中0＜ε≤1，当

{Sim}_{g_{i}} (P, Q) = \{\begin{matrix} 1, & {Sim}_{g_{i}} (S_{1}, S_{2}) > ϵ \\ 0, & {Sim}_{g_{i}} (S_{1}, S_{2}) \leq ϵ \end{matrix} - - - (14);

兴趣集序列相似度Sim_G(P,Q)

{Sim}_{G} (P, Q) = Σ_{i = 1}^{n} \frac{1}{n} * {Sim}_{g_{i}} (P, Q) - - - (15);

其中

表示兴趣集中第i个元素，即兴趣度g_i，在该时间段内的序列相似度，n表示兴趣集所包含的兴趣度元素个数；

步骤4，用户性格相似度计算

对用户特征的性格相似度计算模型进行子树相似度计算，然后对子树的相似度加权求和，得到目标用户与社区用户数据库中其他用户的性格相似度，如图3所示；

性格特征项的集合记为I＝{A,B,C,D,E,F,G},分别对应于性格的特征项体液、血型、星座、颜色喜好、兴趣集、兴趣度持续时间、兴趣集序列，性格相似度通过对相似度计算模型的子树相似度的加权求和得出，表达式为：

{Sim}_{Hnow} (P, Q) = Σ_{i = 1}^{7} P (I_{i}) {Sim}_{I_{i}} (P, Q) - - - (16)

其中，

表示用户P和Q的性格特征项I_i的相似度，P(I_i)表示特征项I_i的相似度在性格相似度中所占的权重。

步骤5，基于性格相似度匹配的好友推荐

（1）性格相似度匹配

通过判断步骤4中计算的性格相似度sim与阈值σ的大小关系，来判断当前的两个用户是否满足好友的条件；当Sim≥σ，说明两个用户满足好友对的条件，从而将他们记为一个好友对；否则，则说明两个用户性格不相似或者是相似度不高，将他们舍弃；

（2）基于性格的好友推荐

如图4所示，将满足推荐条件的用户按照相似度由大到小的顺序依次推荐给当前的用户，实现社区网站的好友推荐。首先，将好友对(P,i)各自的性格相似度Sim(P,i)由大到小排列；其次，对排列后的好友对建立索引Index，用来标记好友对；最后，按照索引值递增的顺序依次推荐好友。

下面以用户P和Q性格数据为例说明性格相似度计算过程。

a.静态特征项

用户P（体液类型，血型，星座，颜色喜好）=（粘液型，O，白羊座，（红、黄、绿、蓝、黑））；

用户Q（体液类型，血型，星座，颜色喜好）=（胆汁型，O，白羊座，（黑、白、灰、黄））；

通过公式（1）～（4）计算用户P和Q性格的各静态特征项相似度：

（1）体液相似度：Sim_A(P,Q)＝0；

（2）血型相似度：Sim_B(P,Q)＝1；

（3）星座相似度：Sim_C(P,Q)＝1；

（4）颜色喜好相似度：Sim_D(P,Q)＝2/5＝0.4。

b.动态特征项

用户P从T₁到T₄时刻兴趣度频数f≥5的兴趣度及其对应的频数二元组序列为：

T₁：（社会，12），（人生，10），（信息，10），（网站，8)，（化学，8）；

T₂：（生活，20），（理想，15），（人生，15），（信息，10)；

T₃：（人生，15），（科学，10），（事业，8），（政治，6)，（社会，5）；

T₄：（人生，20），（家庭，15），（科学，10），（事业，8），（政治，5）；

用户Q从T₁到T₄时刻兴趣度频数f≥5的兴趣度及其对应的频数二元组序列为：

T₁：（社会，25），（人生，10），（信息，10），（理想，8），（科学，6）)；

T₂：（艺术，20），（人生，10），（科学，10），（事业，5)；

T₃：（人生，20），（科学，10），（事业，10），（社会，5），（艺术，5）；

T₄：（科学，20），（理想，10），（人生，10），（社会，5）；

通过公式（5）～（15）计算用户P和Q性格动态特征项的兴趣集、兴趣度持续时间、兴趣集序列的相似度：

（1）兴趣集相似度：

{Sim}_{e} (P, Q) = \frac{10}{20} \times \frac{\frac{20}{30} + \frac{10}{30}}{2} + \frac{10}{20} \times \frac{\frac{10}{30} + \frac{20}{30}}{2} = 0.5;

（2）兴趣度持续时间相似度：

{Sim}_{F} (P, Q) = \frac{(3 + 1 + 1 + 1 + 1) Δt}{(3 + 3 + 1 +!) Δt} = 0.875;

（3）兴趣度持续时间相似度，取R＝1，ε＝1：

{Sim}_{G} (P, Q) = \frac{1}{11} \times (\frac{2}{3} + 0 + \frac{1}{3} + \frac{2}{3} + \frac{2}{3} + \frac{1}{3} + \frac{1}{3} + 0 + \frac{1}{3} + \frac{1}{3} + \frac{2}{3}) = 0.393

c.性格相似度计算

根据公式（16），取P(I_A)＝10%、P(I_B)＝10%、P(I_C)＝10%、P(I_D)＝10%、P(I_E)＝20%、P(I_F)＝20%、P(I_G)＝20%，用户P和Q的性格相似度：

\begin{matrix} {Sim}_{H_{now}} (P, Q) = 0 \times 10 % + 1 \times 10 % + 1 \times 10 % + 0.4 \times 10 % + 0.5 \times 20 % + \\ 0.875 \times 20 % + 0.393 \times 20 % = 0.5936 \end{matrix}

本发明基于性格相似度匹配计算的网络社区用户好友推荐方法，通过网络社区用户性格模型的建立，能较好地反映基于用户性格的活动特征信息，可以更好地反映网络社区用户真实的兴趣与应用趋向；以此为基础，通过用户性格相似性匹配，实现用户好友智能推荐，能很好地应用于当前网络社区用户好友关系圈的建立中，解决当前社区网站在服务效果与用户需求之间仍然存在着巨大差距的问题。

Claims

1.基于性格相似度匹配计算的网络社区用户好友推荐方法，其特征在于，该方法按照以下步骤实施：

步骤1，建立用户性格模型

步骤2，用户性格信息的获取

从用户的注册信息和交互过程中获取用户的静态特征项和动态特征项，用特征项元素所组成的结合来表示用户的性格特征；

步骤3，性格特征相相似度计算

步骤4，用户性格相似度计算

步骤5，基于性格相似度匹配的好友推荐

通过判断步骤4中计算的性格相似度Sim与阈值σ的大小关系，来判断当前的两个用户是否满足好友的条件；当Sim≥σ，说明两个用户满足好友对的条件，从而将他们记为一个好友对；否则，则说明两个用户性格不相似或者是相似度不高，将他们舍弃；将满足推荐条件的用户按照相似度由大到小的顺序依次推荐给当前的用户。

2.根据权利要求1所述的基于性格相似度匹配计算的网络社区用户好友推荐方法，其特征在于，步骤2中静态特征项的获取是从用户的注册信息中，得到体液类型、血型、星座、颜色喜好信息；动态特征项的获取是以用户发表和分享的日志作为数据来源，通过中文分词和同义词近义词处理等预处理过程得到兴趣度及其对应的频数二元组，基于该二元组，获取出兴趣集、兴趣度持续时间、兴趣集序列。

3.根据权利要求1所述的基于性格相似度匹配计算的网络社区用户好友推荐方法，其特征在于，步骤3中性格特征相相似度计算包括静态特征项相似度计算和动态特征项相似度计算，静态特征项相似度计算包括体液类型相似度、血型相似度、星座相似度和颜色喜好相似度计算；动态特征项相似度计算包括兴趣集、兴趣度持续时间和兴趣集序列计算。

4.根据权利要求3所述的基于性格相似度匹配计算的网络社区用户好友推荐方法，其特征在于，所述静态特征项相似度具体计算方法如下：

a.体液类型相似度Sim_A(P,Q)

{Sim}_{A} (P, Q) = \{\begin{matrix} 1, & A (P) = A (Q) \\ 0, & A (P) &NotEqual; A (Q) \end{matrix} - - - (1);

b.血型相似度Sim_B(P,Q)

{Sim}_{B} (P, Q) = \{\begin{matrix} 1, & B (P) = B (Q) \\ 0, & B (P) &NotEqual; B (Q) \end{matrix} - - - (2);

c.星座相似度Sim_C(P,Q)

{Sim}_{C} (P, Q) = \{\begin{matrix} 1, & C (P) = C (Q) \\ 0, & C (P) &NotEqual; C (Q) \end{matrix} - - - (3);

d.颜色喜好相似度Sim_D(P,Q)

颜色喜好集合记为D＝{D₁,D₂,...,D_n},n≥1，D(P)，D(Q)表示用户P，Q喜好的颜色集合，用户P，Q共同的颜色喜好为D_com＝D(P)∩D(Q)，size用来表示集合的元素个数，则二者喜好的最多颜色数目可以表示为：

\max (size (D (P)), size (D (Q))} = \{\begin{matrix} size (D (P), & size (D (P) &GreaterEqual; size (D (Q) \\ size (D (Q), & size (D (P) < size (D (Q) \end{matrix};

其相似度为：

{Sim}_{D} (P, Q) = \{\begin{matrix} 1 & , size (D (P) = size (D (Q)) = 0 \\ \frac{size (D_{com})}{\max {size (D (P)), size (D (Q))}} & , \max {size (D (P), size (D (Q))} &NotEqual; 0 \end{matrix} - - - (4) .

5.根据权利要求3所述的基于性格相似度匹配计算的网络社区用户好友推荐方法，其特征在于，所述动态特征项相似度计算是基于兴趣集的时间序列的，用兴趣度曲线的斜率比较函数和时间间隔函数的乘积作为序列相似度的判断依据，具体计算方法如下：

a.兴趣集相似度Sim_E(P,Q)

{Sim}_{E} (P, Q) = \{\begin{matrix} Σ_{i = 1}^{n} \frac{\min (f_{comi} (P), f_{comi} (Q))}{\max (f_{comi} (P), f_{comi} (Q))} \cdot \overset{&OverBar;}{P_{comi}}, & H_{com} &NotEqual; φ \\ 0, & H_{com} = φ \end{matrix} - - - (5)

i表示E_co中第i个元素在该兴趣集中所占的比重，

P_{comi} (Q) = f_{comi} (Q) / Σ_{i = 1}^{n} f_{comi} (Q);

b.兴趣度持续时间相似度Sim_F(P,Q)

T (T_{1} ~ T_{N}) = Σ_{i = 1}^{n} \frac{1}{n} t (h_{sumi}) * Δt - - - (6)

t_{j} (h_{sumi}) \{\begin{matrix} 1, & h_{sumi} &Element; H (T_{N}) \cap H (T_{N + 1}) \\ 0, & h_{sumi} &NotElement; H (T_{N}) \cap H (T_{N + 1}) \end{matrix} - - - (7)

由公式（6）和（7）可知，兴趣度持续时间为：

T (T_{1} ~ T_{N}) = Σ_{i = 1}^{n} \frac{1}{n} Σ_{j = 1}^{N - 1} t_{j} (h_{sumi}) \cdot Δt - - - (8)

{Sim}_{F} (P, Q) = \{\begin{matrix} \frac{\min {T_{P} (T_{1} ~ T_{N}), T_{Q} (T_{1} ~ T_{N})}}{\max ({T_{P} (T_{1} ~ T_{N}), T_{Q} (T_{1} ~ T_{N})}} & , \max ({T_{P} (T_{1} ~ T_{N}), T_{Q} (T_{1} ~ T_{N})} &NotEqual; 0 \\ 0 & , T_{P} (T_{1} ~ T_{N}) = T_{Q} (T_{1} ~ T_{N}) = 0 \end{matrix} - - - (9)

c.兴趣集序列相似度Sim_G(P,Q)

兴趣度序列相似度

若U₁(i)＝0，

s (i) = \{\begin{matrix} 1, & U_{2} [i] = U_{1} [i] \\ 0, & U_{2} [i] &NotEqual; U_{1} [i] \end{matrix} - - - (10);

若U₁(i)≠0，

s (i) = \{\begin{matrix} 1, & U_{2} [i] / U_{1} [i] &GreaterEqual; 0 \\ 0, & U_{2} [i] / U_{1} [i] < 0 \end{matrix} - - - (11);

w (i) = \frac{\min {V_{1} [i], V_{2} [i]}}{\max {V_{1} [i], V_{2} [i]}} - - - (12);

由以上的过程得出，序列S₁和S₂的相似度为：

{Sim}_{g_{i}} (S_{1}, S_{2}) = Σ_{i = 1}^{n} \frac{1}{n} s (i) * w (i) - - - (13);

设定一定的容忍限度ε，其中0＜ε≤1，当

{Sim}_{g_{i}} (P, Q) = \{\begin{matrix} 1, & {Sim}_{g_{i}} (S_{1}, S_{2}) > ϵ \\ 0, & {Sim}_{g_{i}} (S_{1}, S_{2}) \leq ϵ \end{matrix} - - - (14);

兴趣集序列相似度Sim_G(P,Q)

{Sim}_{G} (P, Q) = Σ_{i = 1}^{n} \frac{1}{n} * {Sim}_{g_{i}} (P, Q) - - - (15);

其中

6.根据权利要求1所述的基于性格相似度匹配计算的网络社区用户好友推荐方法，其特征在于，步骤4中性格相似度

{Sim}_{Hnow} (P, Q) = Σ_{i = 1}^{7} P (I_{i}) {Sim}_{I_{i}} (P, Q) - - - (16)

其中，