CN104580234A

CN104580234A - 一种社交网络中行为特征的保护方法

Info

Publication number: CN104580234A
Application number: CN201510025484.XA
Authority: CN
Inventors: 李磊; 马迪; 吴共庆; 汪萌; 吴信东
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2015-01-19
Filing date: 2015-01-19
Publication date: 2015-04-29
Anticipated expiration: 2035-01-19
Also published as: CN104580234B

Abstract

本发明公开了一种社交网络中行为特征的保护方法，其特征是按如下步骤进行：1、对信息参与者总行为集合获得目标参与者的行为特征集合与特征类别集合；2、获得参与者的总特征词语集合以及每一个参与者行为集合所属的特征类别；3、获得目标参与者的相似者集合；4、选取在相似者集合中与目标参与者不在同一特征类别的相似者所对应的行为集合，提取g个相似特征词语所对应的行为作为相似特征行为；5、将相似特征行为推荐给目标参与者。本发明能有效的保护社交网络中信息参与者的行为特征，从而保护各种隐私数据，提高数据安全性。

Description

一种社交网络中行为特征的保护方法

技术领域

本发明属于社交网络通讯信息领域，具体地说是一种社交网络中行为特征的保护方法。

背景技术

当前，我们处于一个数据大爆炸的时代，随着互联网、数据库以及计算技术的快速发展，越来越多的信息以数字的形式被记录在数据库中，运用数据挖掘技术能够有效的对这些数据进行分析和处理，从中获得具有潜在使用价值的信息。

然而，这些以数据挖掘知识发现为目的的数据在发布过程中往往都伴随着敏感的行为特征信息的泄露，会对人们生活产生负面影响。数据发布者在发布数据信息前需要对数据集进行行为特征的保护处理工作，虽然利用各种隐私保护手段可以保证个人信息不会公布在公开的平台之上，但是个人的一些行为特征仍然可以通过一些相关的背景知识被攻击者推演而获取，如受信任的朋友圈、社交圈等，这就引出了对数据发布过程中个性行为特征保护问题的研究。

现有的一些行为特征保护方法主要分为在数据挖掘中的行为特征保护和数据发布中的行为特征保护问题。这些方法在实现过程主要是通过对数据拥有者进行匿名处理，破坏了与行为特征的关联关系，会遗漏很多重要的信息，同时提高了时间复杂度。

发明内容

本发明为克服现有技术存在的不足之处，提出一种社交网络中行为特征的保护方法，以期能快速、有效、安全地保护社交网络中信息参与者的真实行为特征，从而保护各种隐私数据，提高数据安全性。

本发明为解决技术问题采用如下技术方案：

本发明一种社交网络中行为特征的保护方法，所述社交网络是由n个参与者U＝{u₁,u₂,...,u_i,...,u_n}和所述n个参与者U之间的连接关系组成的网络；u_i表示第i个参与者,1≤i≤n；定义表示目标参与者，定义所述n个参与者U在所述社交网络中的总行为集合为I＝{I₁,I₂,...,I_i,...,I_n}，I_i表示第i个参与者u_i的行为集合；表示目标参与者u的行为集合，其特点是：所述保护方法按如下步骤进行：

步骤一、对所述总行为集合I利用基于K-means和TF-IDF的方法进行聚类分析，获得所述目标参与者u的行为特征集合与所述n个参与者U的总特征类别集合P＝{p₁,p₂,...,p_j,...,p_d}；表示所述行为特征集合中目标特征词语的总数；表示所述目标参与者的行为特征集合中的第个特征词语，p_j表示第j个特征类别，d表示特征类别的总数；1≤j≤d；

步骤二、利用多个总体的马氏距离判别方法获得所述n个参与者U总行为集合I的总特征词语集合W＝{W₁,W₂,...,W_i,...,W_n}中第i个特征词语集合W_i与所述n个参与者U的总特征类别集合P中所有特征类别的平方马氏距离，如果所述第i个特征词语集合W_i与特征类别p_j的平方马氏距离最小，则所述第i个特征词语集合W_i属于第j个特征类别p_j，所述第i个参与者u_i的行为集合I_i属于第j个特征类别p_j，进而获得所述总行为集合I中每个行为集合所属的特征类别；

步骤三、利用余弦相似性计算公式分别计算出所述目标参与者的行为集合与其他参与者的行为集合的余弦值集合；以所述余弦值集合作为相似度集合并进行降序排列后，选取前k个相似度所对应的参与者构成相似者集合U′＝{u′₁,u′₂,...,u′_e,...,u′_k}；并以I′＝{I′₁，I′₂,...,I′_e,...,I′_k}中的每个元素表示所述相似者集合U′中每个相似者所对应的行为集合；I′_e表示所述相似者集合U′中第e个相似者u′_e的行为集合；1≤e≤n-1；

步骤四、选取在所述相似者集合U′＝{u′₁,u′₂,...,u′_e,...,u′_k}中与所述目标参与者不在同一特征类别的t_c个相似者所对应的行为集合t_f≤k；表示与所述目标参与者不在同一特征类别的第t_f个相似者的行为集合；利用分词工具对所述t_c个行为集合中的每个行为集合进行标注获得相似特征词语集合；在所述相似特征词语集合中选取g个相似特征词语，提取所述g个相似特征词语所对应的行为作为相似特征行为；

步骤五、将所述相似特征行为推荐给所述目标参与者使得所述目标参与者能将所述相似特征行为加入到所述行为集合中；从而形成对所述目标参与者的特征词语所表示的行为特征的保护。

本发明所述的保护方法的特点也在于：

所述步骤一是按如下步骤进行：

步骤1、利用分词工具对n个参与者U的总行为集合I中每一个行为集合进行分词和词性标注处理，获得n个具有不同词性的词语集合；从词语集合中选取动词词性和名词词性的词语，并去除名词里的停用词，构成总特征词语集合W＝{W₁,W₂,...,W_i,...,W_n}，其中W_i表示第i个行为集合I_i的特征词语集合；其中第i个特征词语集合W_i＝{ω_i1,ω_i2,...,ω_ir,...,ω_iR}，ω_ir表示在第i个特征词语集合中第r个动词词性或名词词性的特征词语，1≤r≤R；iR表示第i个特征词语集合中不同特征词语的总数；

从总特征词语集合W中选择不重复的词语构成行为特征词语集合ω＝{ω₁,ω₂,...,ω_α,...,ω_β}，ω_α表示在行为特征词语集合ω中第α个动词词性或名词词性的特征词语，1≤α≤β；β表示行为特征词语集合中不同特征词语的总数；

步骤2、利用分词工具对目标参与者的行为集合进行分词和词性标注处理，获得具有不同词性的目标词语集合；从所述目标词语集合中选取动词词性和名词词性的词语构成行为特征集合

W_{\overset{&OverBar;}{u}} = {ω_{{\overset{&OverBar;}{u}}_{1}}, ω_{{\overset{&OverBar;}{u}}_{2}}, . . ., ω_{{\overset{&OverBar;}{u}}_{δ}}, . . ., ω_{{\overset{&OverBar;}{u}}_{γ}}},

W_{\overset{&OverBar;}{u}} &Element; W;

步骤3、利用式(1)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ω_ir的词频从而获得总特征词语集合W中每一个特征词语集合W_i的词频集合

{TF}_{iω} = {{TF}_{1 ω_{1}}, {TF}_{i ω_{2}}, . . ., {TF}_{i ω_{r}}, . . ., {TF}_{i ω_{R}}};

{TF}_{i ω_{r}} = Σ_{i = 1}^{n} C_{(i ω_{r} | W_{i})} / Σ_{i = 1}^{n} C_{W_{i}} - - - (1)

式(1)中，表示总特征词语集合W中特征词语集合W_i出现特征词语ω_ir的次数，表示总特征词语集合W中所有特征词语的总数；

步骤4、利用式(2)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ω_ir的逆文档频率从而获得总特征词语集合W中每一个特征词语集合W_i的逆文档频率集合

{IDF}_{iω} = {{IDF}_{i ω_{1}}, {IDF}_{i ω_{2}}, . . ., {IDF}_{i ω_{r}}, . . ., {IDF}_{i ω_{R}}};

{IDF}_{i ω_{r}} = \log \frac{n}{Σ_{{i ω_{r} &Element; W_{i}}, i = 1}^{n} 1} - - - (2)

步骤5、利用式(3)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ω_ir的TF-IDF值

{TFIDF}_{i ω_{r}} = {TF}_{i ω_{r}} \times {IDF}_{i ω_{r}} - - - (3)

步骤6、利用式(4)得到所述总特征词语集合W中任意两个特征词语集合W_a和W_b的Euclidean距离D(W_a,W_b)：

D (W_{a}, W_{b}) = \sqrt{{({TFIDF}_{a_{1}} - {TFIDF}_{b_{1}})}^{2} + {({TFIDF}_{a_{2}} - {TFIDF}_{b_{2}})}^{2} + . . . + {({TFIDF}_{a_{m}} - {TFIDF}_{b_{m}})}^{2}} - - - (4)

式(4)中，m表示任意两个特征词语集合W_a和W_b中不重复特征词语的个数，表示特征词语集合W_a中第m个特征词语的TF-IDF值；1≤a≤n,1≤b≤n,a≠b；

步骤7、从所述行为特征词语集合ω的β个特征词语中选取d个作为质心；

步骤8、利用式(4)计算第α个特征词语ω_α与每个质心的Euclidean距离，选出Euclidean距离的最小值所对应的质心作为初始特征类；将特征词语ω_α归入初始特征类中；从而获得该特征词语ω_α的特征类别；

步骤9、重复步骤8，从而获得所有特征词语的总特征类别集合P＝{p₁,p₂,...,p_j,...,p_d}。

所述步骤二是按下列步骤进行：

步骤1、利用式(5)获得所述第j个特征类别p_j中特征词语的TF-IDF值的均值μ_j：

μ_{j} = \frac{{TFIDF}_{ω_{j 1}} + {TFIDF}_{ω_{j 2}} + . . . + {TFIDF}_{ω_{j R_{j}^{'}}}}{R_{j}^{'}} - - - (5)

式(5)中，R′_j表示所述第j个特征类别p_j中特征词语的个数，表示所述特征类别p_j中第R′_j个特征词语的TF-IDF值；

步骤2、重复步骤1，从而获得总特征类别集合P的均值向量μ＝{μ₁,μ₂,...,μ_j,...,μ_d}^T；

步骤3、利用式(6)得到第j个特征类别p_j的协方差矩阵COV(p_j)：

COV (p_{j}) = \frac{Σ_{j = 1}^{d} [{(ρ_{j} - μ_{j}) (ρ_{j} - μ_{j})}^{T}]}{d} - - - (6)

式(6)中，ρ_j表示所述第j个特征类别p_j中特征词语的TF-IDF值总和；

步骤4、初始化i＝1；

步骤5、利用式(7)获得第i个特征词语集合W_i到第j个特征类别p_j的平方马氏距离d²(W_i,p_j)：

d²(W_i,p_j)＝(ψ_i-μ_j)^TCOV(p_j)^-1(ψ_i-μ_j) (7)

式(7)中，ψ_i表示所述第i个特征词语集合W_i中特征词语的TF-IDF值总和；

从而获得第i个特征词语集合W_i到所述总特征类别集合P中每个特征类别的平方马氏距离；

步骤6、重复步骤5，从而获得总特征词语集合W中的每个特征词语集合到总特征类别集合P中每个特征类别的平方马氏距离，并构成平方马氏距离集合；

步骤7、选取所述平方马氏距离集合中的最小值，则所述最小值所对应的特征词语集合属于所述最小值所对应的特征类别；

步骤8、判断i＝n是否成立；若成立，则表示完成所述总特征词语集合W中每个特征词语集合的分类；否则，将i+1的值赋值给i；并执行步骤5；

步骤9、若所述第i个特征词语集合W_i属于所述特征类别p_j，则所述第i个行为集合I_i属于第j个特征类别p_j。

所述步骤四中g个相似特征词语是按如下步骤进行选取：

步骤1、初始化g＝1；

步骤2、将所述g个相似特征词语所对应的行为作为相似特征行为；

步骤3、将所述相似特征行为添加到所述目标参与者的行为集合中，获得判定行为集合利用分词工具对所述判定行为集合进行分词和词性标注处理，获得具有不同词性的目标词语集合；从所述目标词语集合中选取动词词性和名词词性的词语构成判定特征词语集合W′；

步骤4、利用基于K-means和TF-IDF的方法对所述判定特征词语集合W′进行聚类分析，从而获得新的总特征类别集合P_g；

步骤5、计算所述判定特征词语集合W′到所述新的总特征类别集合P_g中每个特征类别的平方马氏距离，从而得到所述判定特征词语集合W'所属的特征类别p_W′；

步骤6、判断所述特征类别p_W'是否与行为特征集合所属的特征类别相同，若相同，则将g+1的值赋值给g；否则，获得g个相似特征词语。

与已有技术相比，本发明有益效果体现在：

1、本发明利用数据挖掘技术挖掘到的目标参与者的行为特征与真实的数据有差异，通过在目标参与者的行为信息中添加与目标参与者行为信息有差异的特征行为，不仅能够有效地实现在信息发布过程真实行为特征的保护，同时也没有破坏目标参与者的真实数据，和丢失网络中的重要信息，使得本人的真实信息依然存在于网络中，从而克服现有技术中匿名处理的缺点。

2、本发明利用TF-IDF方法将所有信息参与者的行为信息进行统计分析，TF-IDF值高的词被认为是在行为信息集合中最有意义的词，将这些词作为特征词，利用K-means的聚类方法进行聚类，最终得到总特征类别集合，与传统分类方法相比，本发明能够对不同行为信息的分类进行有效融合，提高了个性化分类的精度和准确性，同时也提高了算法的时间效率。

3、本发明根据以每个个体的行为状态信息作为输入，对输入的信息进行聚类分析和判别分析，以与目标参与者特征类别不同的相似特征行为作为输出结果，对于不同的社交网站制定了一个统一的分析框架，不需要手工建立行为状态集合，从而提高算法在分类过程中的准确性。

4、本发明所提出的方法可用于各种社交网站系统中，既可以在应用于电脑网页端，同时也可以在手机App等平台上进行使用，应用范围广泛，使用方便。

具体实施方式

本实施例中，一种社交网络中行为特征的保护方法是按如下步骤进行：

步骤1、假设社交网络是由n个参与者U＝{u₁,u₂,...,u_i,...,u_n}和n个参与者U之间的连接关系组成的网络，例如新浪微博的社交网络；定义表示目标参与者，即新浪微博中微博博主；其中u_i表示第i个参与者,1≤i≤n，即新浪微博中与微博博主互相关注的朋友圈好友；定义n个参与者U在社交网络中的总行为集合为I＝{I₁,I₂,...,I_i,...,I_n}，其中I_i表示第i个参与者u_i的行为集合；表示目标参与者的行为集合，即新浪微博中博主所发状态的集合；

对总行为集合I利用基于K-means和TF-IDF的方法进行聚类分析，获得目标参与者u的行为特征集合与n个参与者U的总特征类别集合P＝{p₁,p₂,...,p_j,...,p_d}；其中表示行为特征集合中目标特征词语的总数；表示目标参与者的行为特征集合中的第个特征词语，p_j表示第j个特征类别，d表示特征类别的总数；1≤j≤d；

步骤1.1、利用分词工具，如Part-Of-Speech Tagger，对n个参与者U的总行为集合I中每一个行为集合进行分词和词性标注处理，获得n个具有不同词性的词语集合；从词语集合中选取动词词性和名词词性的词语，并去除名词里的停用词，构成总特征词语集合W＝{W₁,W₂,...,W_i,...,W_n}，其中W_i表示第i个行为集合I_i的特征词语集合；其中第i个特征词语集合W_i＝{ω_i1,ω_i2,...,ω_ir,...,ω_iR}，ω_ir表示在第i个特征词语集合中第r个动词词性或名词词性的特征词语，1≤r≤R；iR表示第i个特征词语集合中不同特征词语的总数；

步骤1.2、利用分词工具对目标参与者的行为集合进行分词和词性标注处理，获得具有不同词性的目标词语集合；从目标词语集合中选取动词词性和名词词性的词语，去除名词里的停用词，构成行为特征集合行为特征集合中的特征词语为目标参与者的重要特征，这些特征词所表示的行为特征是本发明所保护的内容。

步骤1.3、利用式(1)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ω_ir的词频从而获得总特征词语集合W中每一个特征词语集合W_i的词频集合如果某个词或短语出现的频率TF高，则认为此词或者短语具有很好的类别区分能力，适合用来分类；

{TF}_{i ω_{r}} = Σ_{i = 1}^{n} C_{(i ω_{r} | W_{i})} / Σ_{i = 1}^{n} C_{W_{i}} - - - (1)

步骤1.4、利用式(2)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ω_ir的逆文档频率从而获得总特征词语集合W中每一个特征词语集合W_i的逆文档频率集合如果包含特征词的特征词集合越少，IDF值越大，则说明特征词语具有很好的类别区分能力；

{IDF}_{i ω_{r}} = \log \frac{n}{Σ_{{i ω_{r} &Element; W_{i}}, i = 1}^{n} 1} - - - (2)

步骤1.5、利用式(3)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ω_ir的TF-IDF值

{TFIDF}_{i ω_{r}} = {TF}_{i ω_{r}} \times {IDF}_{i ω_{r}} - - - (3)

步骤1.6、利用式(4)得到总特征词语集合W中任意两个特征词语集合W_a和W_b的Euclidean距离D(W_a,W_b)，1≤a≤n,1≤b≤n,a≠b：

D (W_{a}, W_{b}) = \sqrt{{({TFIDF}_{a_{1}} - {TFIDF}_{b_{1}})}^{2} + {({TFIDF}_{a_{2}} - {TFIDF}_{b_{2}})}^{2} + . . . + {({TFIDF}_{a_{m}} - {TFIDF}_{b_{m}})}^{2}} - - - (4)

式(4)中，m表示任意两个特征词语集合W_a和W_b中不重复特征词语的个数，表示特征词语集合W_a中第m个特征词语的TF-IDF值；

步骤1.7、对特征词语进行聚类分析，聚类分析是一种静态数据分析方法，常被用于机器学习，模式识别，数据挖掘等领域。通常认为，聚类是一种无监督式的机器学习方法，它的过程是这样的：在未知样本类别的情况下，通过计算样本彼此间的距离(欧式距离,马式距离，汉明距离，余弦距离等)来估计样本所属类别。从结构性来划分，聚类方法分为自上而下和自下而上两种方法，前者的算法是先把所有样本视为一类，然后不断从这个大类中分离出小类，直到不能再分为止；后者则相反，首先所有样本自成一类，然后不断两两合并，直到最终形成几个大类。K-means聚类方法是一种自下而上的聚类方法，它的优点是简单、速度快；

从行为特征词语集合ω的β个特征词语中选取d个作为质心，d的取值通常要小于5，本实例中d取值为4；

步骤1.8、利用式(4)计算第α个特征词语ω_α与每个质心的Euclidean距离，选出Euclidean距离的最小值所对应的质心作为初始特征类；将特征词语ω_α归入初始特征类中；从而获得该特征词语ω_α的特征类别p_q；1≤q≤d；

步骤1.9、重复步骤1.8，从而获得所有特征词语的总特征类别集合P＝{p₁,p₂,...,p_j,...,p_d}；

步骤2、利用多个总体的马氏距离判别方法获得n个参与者U总行为集合I的总特征词语集合W＝{W₁,W₂,...,W_i,...,W_n}中第i个特征词语集合W_i与n个参与者U的总特征类别集合P中所有特征类别的平方马氏距离；马氏距离有很多优点，它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关，由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同；马氏距离还可以排除变量之间的相关性的干扰。

如果第i个特征词语集合W_i与特征类别p_j的平方马氏距离最小，则第i个特征词语集合W_i属于特征类别p_j，从而判定第i个参与者u_i的行为集合I_i属于特征类别p_j，进而获得总行为集合I中每个行为集合所属的特征类别；

步骤2.1、利用式(5)获得第j个特征类别p_j中特征词语的TF-IDF值的均值μ_j：

μ_{j} = \frac{{TFIDF}_{ω_{j 1}} + {TFIDF}_{ω_{j 2}} + . . . + {TFIDF}_{ω_{j R_{j}^{'}}}}{R_{j}^{'}} - - - (5)

式(5)中，R′_j表示第j个特征类别p_j中特征词语的个数，表示特征类别p_j中第R′_j个特征词语的TF-IDF值；

步骤2.2、重复步骤2.1，从而获得总特征类别集合P的均值向量μ＝{μ₁,μ₂,...,μ_j,...,μ_d}^T；

步骤2.3、利用式(6)得到第j个特征类别p_j的协方差矩阵COV(p_j)：

COV (p_{j}) = \frac{Σ_{j = 1}^{d} [{(ρ_{j} - μ_{j}) (ρ_{j} - μ_{j})}^{T}]}{d} - - - (6)

式(6)中，ρ_j表示第j个特征类别p_j中特征词语的TF-IDF值总和；

步骤2.4、初始化i＝1；

步骤2.5、利用式(7)获得第i个特征词语集合W_i到第j个特征类别p_j的平方马氏距离d²(W_i,p_j)：

d²(W_i,p_j)＝(ψ_i-μ_j)^TCOV(p_j)^-1(ψ_i-μ_j) (7)

式(7)中，ψ_i表示第i个特征词语集合W_i中特征词语的TF-IDF值总和；

从而获得第i个特征词语集合W_i到总特征类别集合P中每个特征类别的平方马氏距离；

步骤2.6、重复步骤2.5，从而获得总特征词语集合W中的每个特征词语集合到总特征类别集合P中每个特征类别的平方马氏距离，所得到的平方马氏距离构成平方马氏距离集合；

步骤2.7、选取平方马氏距离集合中的最小值，则最小值所对应的特征词语集合属于最小值所对应的特征类别；

步骤2.8、判断i＝n是否成立；若成立，则表示完成总特征词语集合W中每个特征词语集合的分类；否则，将i+1的值赋值给i；并执行步骤2.5；

步骤2.9、若第i个特征词语集合W_i属于特征类别p_j，则第i个行为集合I_i属于特征类别p_j。

步骤3、利用余弦相似性计算公式分别获得目标参与者的行为集合与其他参与者的行为集合的余弦值集合，从而得到相似者集合。

步骤3.1、提取目标参与者的行为特征集合和其他参与者特征词语集中所有不同的词语，获得词语特征序列表示词语特征序列中第h个词语，l,表示词语特征序列中词语的总数，1≤h≤l,x＝1,2,...,n-1；

步骤3.2、利用式(8)所示的余弦相似度计算方法分别获得目标参与者的行为集合与其他参与者的行为集合的余弦值集合；由于行为集合中的行为没有提取出特征词语，所以利用与行为集合相对应的特征词语来计算相似度。

Cosine

(W_{\overset{&OverBar;}{u}}, W_{i}) = \frac{Σ_{h = 1}^{l} {TFIDF}_{ω_{{h_{x}}^{'}} &Element; W_{\overset{&OverBar;}{u}}} \cdot {TFIDF}_{ω_{{h_{x}}^{'}} &Element; W_{i}}}{\sqrt{Σ_{h = 1}^{l} {({TFIDF}_{ω_{{h_{x}}^{'}} &Element; W_{\overset{&OverBar;}{u}}})}^{2}} \times \sqrt{Σ_{h = 1}^{l} {({TFIDF}_{ω_{{h_{x}}^{'}} &Element; W_{i}})}^{2}}}, W_{\overset{&OverBar;}{u}} &NotEqual; W_{i} - - - (8)

式(8)中，表示特征词语在特征词语集合W_i中的TF-IDF值；

步骤3.3、以余弦值集合作为相似度集合并进行降序排列后，选取前k个相似度所对应的参与者构成相似者集合U′＝{u′₁,u′₂,...,u′_e,...,u′_k}，k的值通常不超过参与者总数的30％，本实例中取值为总数的25％；并以I′＝{I′₁,I′₂,...,I′_e,...,I′_k}中的每个元素表示相似者集合U'中每个相似者所对应的行为集合；I′_e表示相似者集合U′中第e个相似者u′_e的行为集合；1≤e≤n-1；

步骤4、选取在相似者集合U′＝{u′₁,u′₂,...,u′_e,...,u′_k}中与目标参与者不在同一特征类别的t_c个相似者所对应的行为集合t_f≤k，t_c的值通常不超过相似者总数的20％，本实例中取值为相似者总数的15％；表示与目标参与者不在同一特征类别的第t_f个相似者的行为集合；利用分词工具对t_c个行为集合中的每个行为集合进行标注，去除停用词后获得相似特征词语集合；在相似特征词语集合中选取g个相似特征词语，提取g个相似特征词语所对应的行为作为相似特征行为；

步骤4中的g个相似特征词语是按如下步骤进行选取：

步骤4.1、初始化g＝1；

步骤4.2、将g个相似特征词语所对应的行为作为相似特征行为；

步骤4.3、将相似特征行为添加到目标参与者的行为集合中，获得判定行为集合利用分词工具对判定行为集合进行分词和词性标注处理，获得具有不同词性的目标词语集合；从目标词语集合中选取动词词性和名词词性的词语构成判定特征词语集合W′；

步骤4.4、利用基于K-means和TF-IDF的方法对判定特征词语集合W′进行聚类分析，从而获得新的总特征类别集合P_g；

步骤4.5、计算判定特征词语集合W′到新的总特征类别集合P_g中每个特征类别的平方马氏距离，从而得到判定特征词语集合W′所属特征类别p_W′；

步骤4.6、判断特征类别p_W′是否与行为特征集合所属特征类别相同，若相同，则将g+1的值赋值给g；否则，获得g个相似特征词语；

步骤5、将相似特征行为推荐给目标参与者使得目标参与者能将相似特征行为加入到行为集合中；从而形成对目标参与者行为特征所表示的行为特征的保护。

Claims

1.一种社交网络中行为特征的保护方法，所述社交网络是由n个参与者U＝{u₁,u₂,...,u_i,...,u_n}和所述n个参与者U之间的连接关系组成的网络；u_i表示第i个参与者,1≤i≤n；定义表示目标参与者，定义所述n个参与者U在所述社交网络中的总行为集合为I＝{I₁,I₂,...,I_i,...,I_n}，I_i表示第i个参与者u_i的行为集合；表示目标参与者的行为集合，其特征是：所述保护方法按如下步骤进行：

步骤一、对所述总行为集合I利用基于K-means和TF-IDF的方法进行聚类分析，获得所述目标参与者的行为特征集合与所述n个参与者U的总特征类别集合P＝{p₁,p₂,...,p_j,...,p_d}；表示所述行为特征集合中目标特征词语的总数；表示所述目标参与者的行为特征集合中的第个特征词语，p_j表示第j个特征类别，d表示特征类别的总数；1≤j≤d；

步骤三、利用余弦相似性计算公式分别计算出所述目标参与者的行为集合与其他参与者的行为集合的余弦值集合；以所述余弦值集合作为相似度集合并进行降序排列后，选取前k个相似度所对应的参与者构成相似者集合U'＝{u'₁,u'₂,...,u'_e,...,u'_k}；并以I'＝{I'₁,I'₂,...,I'_e,...,I'_k}中的每个元素表示所述相似者集合U'中每个相似者所对应的行为集合；I'_e表示所述相似者集合U'中第e个相似者u'_e的行为集合；1≤e≤n-1；

步骤四、选取在所述相似者集合U'＝{u'₁,u'₂,...,u'_e,...,u'_k}中与所述目标参与者不在同一特征类别的t_c个相似者所对应的行为集合t_f≤k；表示与所述目标参与者不在同一特征类别的第t_f个相似者的行为集合；利用分词工具对所述t_c个行为集合中的每个行为集合进行标注获得相似特征词语集合；在所述相似特征词语集合中选取g个相似特征词语，提取所述g个相似特征词语所对应的行为作为相似特征行为；

2.根据权利要求1所述的保护方法，其特征是：所述步骤一是按如下步骤进行：

W_{\overset{&OverBar;}{u}} = {ω_{{\overset{&OverBar;}{u}}_{1}}, ω_{{\overset{&OverBar;}{u}}_{2}}, . . ., ω_{{\overset{&OverBar;}{u}}_{δ}}, . . ., ω_{{\overset{&OverBar;}{u}}_{γ}}}, W_{\overset{&OverBar;}{u}} &Element; W;

{TF}_{iω} = {{TF}_{{iω}_{1}}, {TF}_{{iω}_{2}}, . . ., {TF}_{{iω}_{r}}, . . ., {TF}_{{iω}_{R}}};

{TF}_{{iω}_{r}} = Σ_{i = 1}^{n} C_{({iω}_{r} | W_{i})} / Σ_{i = 1}^{n} C_{W_{i}} - - - (1)

{IDF}_{iω} = {{IDF}_{{iω}_{1}}, {IDF}_{{iω}_{2}}, . . ., {IDF}_{{iω}_{r}}, . . ., {IDF}_{{iω}_{R}}};

{IDF}_{{iω}_{r}} = \log \frac{n}{Σ_{{{iω}_{r} &Element; W_{i}}, i = 1}^{n} 1} - - - (2)

{TFEDF}_{{iω}_{r}} = {TF}_{{iω}_{r}} \times {IDF}_{{iω}_{r}} - - - (3)

D (W_{a}, W_{b}) = \sqrt{{({TFIDF}_{a_{1}} - {TFIDF}_{b_{1}})}^{2} + {({TFIDF}_{a_{2}} - {TFIDF}_{b_{2}})}^{2} + . . . + {({TFIDF}_{a_{m}} - {TFIDF}_{b_{m}})}^{2}} - - - (4)

3.根据权利要求1或2所述的保护方法，其特征是：所述步骤二是按下列步骤进行：

μ_{j} = \frac{{TFIDF}_{ω_{j 1}} + {TFIDF}_{ω_{j 2}} + . . . + {TFIDF}_{ω_{{jR}_{j}^{'}}}}{R_{j}^{'}} - - - (5)

式(5)中，R'_j表示所述第j个特征类别p_j中特征词语的个数，表示所述特征类别p_j中第R'_j个特征词语的TF-IDF值；

步骤3、利用式(6)得到第j个特征类别p_j的协方差矩阵COV(p_j)：

COV (p_{j}) = \frac{Σ_{j = 1}^{d} [(ρ_{j} - μ_{j}) {(ρ_{j} - μ_{j})}^{T}]}{d} - - - (6)

步骤4、初始化i＝1；

d²(W_i,p_j)＝(ψ_i-μ_j)^TCOV(p_j)^-1(ψ_i-μ_j) (7)

4.根据权利要求1或2所述的保护方法，其特征是：所述步骤四中g个相似特征词语是按如下步骤进行选取：

步骤1、初始化g＝1；

步骤3、将所述相似特征行为添加到所述目标参与者的行为集合中，获得判定行为集合利用分词工具对所述判定行为集合进行分词和词性标注处理，获得具有不同词性的目标词语集合；从所述目标词语集合中选取动词词性和名词词性的词语构成判定特征词语集合W'；

步骤4、利用基于K-means和TF-IDF的方法对所述判定特征词语集合W'进行聚类分析，从而获得新的总特征类别集合P_g；

步骤5、计算所述判定特征词语集合W'到所述新的总特征类别集合P_g中每个特征类别的平方马氏距离，从而得到所述判定特征词语集合W'所属的特征类别p_W'；