CN104580234A - 一种社交网络中行为特征的保护方法 - Google Patents

一种社交网络中行为特征的保护方法 Download PDF

Info

Publication number
CN104580234A
CN104580234A CN201510025484.XA CN201510025484A CN104580234A CN 104580234 A CN104580234 A CN 104580234A CN 201510025484 A CN201510025484 A CN 201510025484A CN 104580234 A CN104580234 A CN 104580234A
Authority
CN
China
Prior art keywords
feature
words
word
behavior
omega
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510025484.XA
Other languages
English (en)
Other versions
CN104580234B (zh
Inventor
李磊
马迪
吴共庆
汪萌
吴信东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201510025484.XA priority Critical patent/CN104580234B/zh
Publication of CN104580234A publication Critical patent/CN104580234A/zh
Application granted granted Critical
Publication of CN104580234B publication Critical patent/CN104580234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社交网络中行为特征的保护方法,其特征是按如下步骤进行:1、对信息参与者总行为集合获得目标参与者的行为特征集合与特征类别集合;2、获得参与者的总特征词语集合以及每一个参与者行为集合所属的特征类别;3、获得目标参与者的相似者集合;4、选取在相似者集合中与目标参与者不在同一特征类别的相似者所对应的行为集合,提取g个相似特征词语所对应的行为作为相似特征行为;5、将相似特征行为推荐给目标参与者。本发明能有效的保护社交网络中信息参与者的行为特征,从而保护各种隐私数据,提高数据安全性。

Description

一种社交网络中行为特征的保护方法
技术领域
本发明属于社交网络通讯信息领域,具体地说是一种社交网络中行为特征的保护方法。
背景技术
当前,我们处于一个数据大爆炸的时代,随着互联网、数据库以及计算技术的快速发展,越来越多的信息以数字的形式被记录在数据库中,运用数据挖掘技术能够有效的对这些数据进行分析和处理,从中获得具有潜在使用价值的信息。
然而,这些以数据挖掘知识发现为目的的数据在发布过程中往往都伴随着敏感的行为特征信息的泄露,会对人们生活产生负面影响。数据发布者在发布数据信息前需要对数据集进行行为特征的保护处理工作,虽然利用各种隐私保护手段可以保证个人信息不会公布在公开的平台之上,但是个人的一些行为特征仍然可以通过一些相关的背景知识被攻击者推演而获取,如受信任的朋友圈、社交圈等,这就引出了对数据发布过程中个性行为特征保护问题的研究。
现有的一些行为特征保护方法主要分为在数据挖掘中的行为特征保护和数据发布中的行为特征保护问题。这些方法在实现过程主要是通过对数据拥有者进行匿名处理,破坏了与行为特征的关联关系,会遗漏很多重要的信息,同时提高了时间复杂度。
发明内容
本发明为克服现有技术存在的不足之处,提出一种社交网络中行为特征的保护方法,以期能快速、有效、安全地保护社交网络中信息参与者的真实行为特征,从而保护各种隐私数据,提高数据安全性。
本发明为解决技术问题采用如下技术方案:
本发明一种社交网络中行为特征的保护方法,所述社交网络是由n个参与者U={u1,u2,...,ui,...,un}和所述n个参与者U之间的连接关系组成的网络;ui表示第i个参与者,1≤i≤n;定义表示目标参与者,定义所述n个参与者U在所述社交网络中的总行为集合为I={I1,I2,...,Ii,...,In},Ii表示第i个参与者ui的行为集合;表示目标参与者u的行为集合,其特点是:所述保护方法按如下步骤进行:
步骤一、对所述总行为集合I利用基于K-means和TF-IDF的方法进行聚类分析,获得所述目标参与者u的行为特征集合与所述n个参与者U的总特征类别集合P={p1,p2,...,pj,...,pd};表示所述行为特征集合中目标特征词语的总数;表示所述目标参与者的行为特征集合中的第个特征词语,pj表示第j个特征类别,d表示特征类别的总数;1≤j≤d;
步骤二、利用多个总体的马氏距离判别方法获得所述n个参与者U总行为集合I的总特征词语集合W={W1,W2,...,Wi,...,Wn}中第i个特征词语集合Wi与所述n个参与者U的总特征类别集合P中所有特征类别的平方马氏距离,如果所述第i个特征词语集合Wi与特征类别pj的平方马氏距离最小,则所述第i个特征词语集合Wi属于第j个特征类别pj,所述第i个参与者ui的行为集合Ii属于第j个特征类别pj,进而获得所述总行为集合I中每个行为集合所属的特征类别;
步骤三、利用余弦相似性计算公式分别计算出所述目标参与者的行为集合与其他参与者的行为集合的余弦值集合;以所述余弦值集合作为相似度集合并进行降序排列后,选取前k个相似度所对应的参与者构成相似者集合U′={u′1,u′2,...,u′e,...,u′k};并以I′={I′1,I′2,...,I′e,...,I′k}中的每个元素表示所述相似者集合U′中每个相似者所对应的行为集合;I′e表示所述相似者集合U′中第e个相似者u′e的行为集合;1≤e≤n-1;
步骤四、选取在所述相似者集合U′={u′1,u′2,...,u′e,...,u′k}中与所述目标参与者不在同一特征类别的tc个相似者所对应的行为集合tf≤k;表示与所述目标参与者不在同一特征类别的第tf个相似者的行为集合;利用分词工具对所述tc个行为集合中的每个行为集合进行标注获得相似特征词语集合;在所述相似特征词语集合中选取g个相似特征词语,提取所述g个相似特征词语所对应的行为作为相似特征行为;
步骤五、将所述相似特征行为推荐给所述目标参与者使得所述目标参与者能将所述相似特征行为加入到所述行为集合中;从而形成对所述目标参与者的特征词语所表示的行为特征的保护。
本发明所述的保护方法的特点也在于:
所述步骤一是按如下步骤进行:
步骤1、利用分词工具对n个参与者U的总行为集合I中每一个行为集合进行分词和词性标注处理,获得n个具有不同词性的词语集合;从词语集合中选取动词词性和名词词性的词语,并去除名词里的停用词,构成总特征词语集合W={W1,W2,...,Wi,...,Wn},其中Wi表示第i个行为集合Ii的特征词语集合;其中第i个特征词语集合Wi={ωi1i2,...,ωir,...,ωiR},ωir表示在第i个特征词语集合中第r个动词词性或名词词性的特征词语,1≤r≤R;iR表示第i个特征词语集合中不同特征词语的总数;
从总特征词语集合W中选择不重复的词语构成行为特征词语集合ω={ω12,...,ωα,...,ωβ},ωα表示在行为特征词语集合ω中第α个动词词性或名词词性的特征词语,1≤α≤β;β表示行为特征词语集合中不同特征词语的总数;
步骤2、利用分词工具对目标参与者的行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从所述目标词语集合中选取动词词性和名词词性的词语构成行为特征集合 W u ‾ = { ω u ‾ 1 , ω u ‾ 2 , . . . , ω u ‾ δ , . . . , ω u ‾ γ } , W u ‾ ∈ W ;
步骤3、利用式(1)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的词频从而获得总特征词语集合W中每一个特征词语集合Wi的词频集合 TF iω = { TF 1 ω 1 , TF i ω 2 , . . . , TF i ω r , . . . , TF i ω R } ;
TF i ω r = Σ i = 1 n C ( i ω r | W i ) / Σ i = 1 n C W i - - - ( 1 )
式(1)中,表示总特征词语集合W中特征词语集合Wi出现特征词语ωir的次数,表示总特征词语集合W中所有特征词语的总数;
步骤4、利用式(2)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的逆文档频率从而获得总特征词语集合W中每一个特征词语集合Wi的逆文档频率集合 IDF iω = { IDF i ω 1 , IDF i ω 2 , . . . , IDF i ω r , . . . , IDF i ω R } ;
IDF i ω r = log n Σ { i ω r ∈ W i } , i = 1 n 1 - - - ( 2 )
步骤5、利用式(3)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的TF-IDF值
TFIDF i ω r = TF i ω r × IDF i ω r - - - ( 3 )
步骤6、利用式(4)得到所述总特征词语集合W中任意两个特征词语集合Wa和Wb的Euclidean距离D(Wa,Wb):
D ( W a , W b ) = ( TFIDF a 1 - TFIDF b 1 ) 2 + ( TFIDF a 2 - TFIDF b 2 ) 2 + . . . + ( TFIDF a m - TFIDF b m ) 2 - - - ( 4 )
式(4)中,m表示任意两个特征词语集合Wa和Wb中不重复特征词语的个数,表示特征词语集合Wa中第m个特征词语的TF-IDF值;1≤a≤n,1≤b≤n,a≠b;
步骤7、从所述行为特征词语集合ω的β个特征词语中选取d个作为质心;
步骤8、利用式(4)计算第α个特征词语ωα与每个质心的Euclidean距离,选出Euclidean距离的最小值所对应的质心作为初始特征类;将特征词语ωα归入初始特征类中;从而获得该特征词语ωα的特征类别;
步骤9、重复步骤8,从而获得所有特征词语的总特征类别集合P={p1,p2,...,pj,...,pd}。
所述步骤二是按下列步骤进行:
步骤1、利用式(5)获得所述第j个特征类别pj中特征词语的TF-IDF值的均值μj
μ j = TFIDF ω j 1 + TFIDF ω j 2 + . . . + TFIDF ω j R j ′ R j ′ - - - ( 5 )
式(5)中,R′j表示所述第j个特征类别pj中特征词语的个数,表示所述特征类别pj中第R′j个特征词语的TF-IDF值;
步骤2、重复步骤1,从而获得总特征类别集合P的均值向量μ={μ12,...,μj,...,μd}T
步骤3、利用式(6)得到第j个特征类别pj的协方差矩阵COV(pj):
COV ( p j ) = Σ j = 1 d [ ( ρ j - μ j ) ( ρ j - μ j ) T ] d - - - ( 6 )
式(6)中,ρj表示所述第j个特征类别pj中特征词语的TF-IDF值总和;
步骤4、初始化i=1;
步骤5、利用式(7)获得第i个特征词语集合Wi到第j个特征类别pj的平方马氏距离d2(Wi,pj):
d2(Wi,pj)=(ψij)TCOV(pj)-1ij)  (7)
式(7)中,ψi表示所述第i个特征词语集合Wi中特征词语的TF-IDF值总和;
从而获得第i个特征词语集合Wi到所述总特征类别集合P中每个特征类别的平方马氏距离;
步骤6、重复步骤5,从而获得总特征词语集合W中的每个特征词语集合到总特征类别集合P中每个特征类别的平方马氏距离,并构成平方马氏距离集合;
步骤7、选取所述平方马氏距离集合中的最小值,则所述最小值所对应的特征词语集合属于所述最小值所对应的特征类别;
步骤8、判断i=n是否成立;若成立,则表示完成所述总特征词语集合W中每个特征词语集合的分类;否则,将i+1的值赋值给i;并执行步骤5;
步骤9、若所述第i个特征词语集合Wi属于所述特征类别pj,则所述第i个行为集合Ii属于第j个特征类别pj
所述步骤四中g个相似特征词语是按如下步骤进行选取:
步骤1、初始化g=1;
步骤2、将所述g个相似特征词语所对应的行为作为相似特征行为;
步骤3、将所述相似特征行为添加到所述目标参与者的行为集合中,获得判定行为集合利用分词工具对所述判定行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从所述目标词语集合中选取动词词性和名词词性的词语构成判定特征词语集合W′;
步骤4、利用基于K-means和TF-IDF的方法对所述判定特征词语集合W′进行聚类分析,从而获得新的总特征类别集合Pg
步骤5、计算所述判定特征词语集合W′到所述新的总特征类别集合Pg中每个特征类别的平方马氏距离,从而得到所述判定特征词语集合W'所属的特征类别pW′
步骤6、判断所述特征类别pW'是否与行为特征集合所属的特征类别相同,若相同,则将g+1的值赋值给g;否则,获得g个相似特征词语。
与已有技术相比,本发明有益效果体现在:
1、本发明利用数据挖掘技术挖掘到的目标参与者的行为特征与真实的数据有差异,通过在目标参与者的行为信息中添加与目标参与者行为信息有差异的特征行为,不仅能够有效地实现在信息发布过程真实行为特征的保护,同时也没有破坏目标参与者的真实数据,和丢失网络中的重要信息,使得本人的真实信息依然存在于网络中,从而克服现有技术中匿名处理的缺点。
2、本发明利用TF-IDF方法将所有信息参与者的行为信息进行统计分析,TF-IDF值高的词被认为是在行为信息集合中最有意义的词,将这些词作为特征词,利用K-means的聚类方法进行聚类,最终得到总特征类别集合,与传统分类方法相比,本发明能够对不同行为信息的分类进行有效融合,提高了个性化分类的精度和准确性,同时也提高了算法的时间效率。
3、本发明根据以每个个体的行为状态信息作为输入,对输入的信息进行聚类分析和判别分析,以与目标参与者特征类别不同的相似特征行为作为输出结果,对于不同的社交网站制定了一个统一的分析框架,不需要手工建立行为状态集合,从而提高算法在分类过程中的准确性。
4、本发明所提出的方法可用于各种社交网站系统中,既可以在应用于电脑网页端,同时也可以在手机App等平台上进行使用,应用范围广泛,使用方便。
具体实施方式
本实施例中,一种社交网络中行为特征的保护方法是按如下步骤进行:
步骤1、假设社交网络是由n个参与者U={u1,u2,...,ui,...,un}和n个参与者U之间的连接关系组成的网络,例如新浪微博的社交网络;定义表示目标参与者,即新浪微博中微博博主;其中ui表示第i个参与者,1≤i≤n,即新浪微博中与微博博主互相关注的朋友圈好友;定义n个参与者U在社交网络中的总行为集合为I={I1,I2,...,Ii,...,In},其中Ii表示第i个参与者ui的行为集合;表示目标参与者的行为集合,即新浪微博中博主所发状态的集合;
对总行为集合I利用基于K-means和TF-IDF的方法进行聚类分析,获得目标参与者u的行为特征集合与n个参与者U的总特征类别集合P={p1,p2,...,pj,...,pd};其中表示行为特征集合中目标特征词语的总数;表示目标参与者的行为特征集合中的第个特征词语,pj表示第j个特征类别,d表示特征类别的总数;1≤j≤d;
步骤1.1、利用分词工具,如Part-Of-Speech Tagger,对n个参与者U的总行为集合I中每一个行为集合进行分词和词性标注处理,获得n个具有不同词性的词语集合;从词语集合中选取动词词性和名词词性的词语,并去除名词里的停用词,构成总特征词语集合W={W1,W2,...,Wi,...,Wn},其中Wi表示第i个行为集合Ii的特征词语集合;其中第i个特征词语集合Wi={ωi1i2,...,ωir,...,ωiR},ωir表示在第i个特征词语集合中第r个动词词性或名词词性的特征词语,1≤r≤R;iR表示第i个特征词语集合中不同特征词语的总数;
从总特征词语集合W中选择不重复的词语构成行为特征词语集合ω={ω12,...,ωα,...,ωβ},ωα表示在行为特征词语集合ω中第α个动词词性或名词词性的特征词语,1≤α≤β;β表示行为特征词语集合中不同特征词语的总数;
步骤1.2、利用分词工具对目标参与者的行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从目标词语集合中选取动词词性和名词词性的词语,去除名词里的停用词,构成行为特征集合 行为特征集合中的特征词语为目标参与者的重要特征,这些特征词所表示的行为特征是本发明所保护的内容。
步骤1.3、利用式(1)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的词频从而获得总特征词语集合W中每一个特征词语集合Wi的词频集合如果某个词或短语出现的频率TF高,则认为此词或者短语具有很好的类别区分能力,适合用来分类;
TF i ω r = Σ i = 1 n C ( i ω r | W i ) / Σ i = 1 n C W i - - - ( 1 )
式(1)中,表示总特征词语集合W中特征词语集合Wi出现特征词语ωir的次数,表示总特征词语集合W中所有特征词语的总数;
步骤1.4、利用式(2)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的逆文档频率从而获得总特征词语集合W中每一个特征词语集合Wi的逆文档频率集合如果包含特征词的特征词集合越少,IDF值越大,则说明特征词语具有很好的类别区分能力;
IDF i ω r = log n Σ { i ω r ∈ W i } , i = 1 n 1 - - - ( 2 )
步骤1.5、利用式(3)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的TF-IDF值
TFIDF i ω r = TF i ω r × IDF i ω r - - - ( 3 )
步骤1.6、利用式(4)得到总特征词语集合W中任意两个特征词语集合Wa和Wb的Euclidean距离D(Wa,Wb),1≤a≤n,1≤b≤n,a≠b:
D ( W a , W b ) = ( TFIDF a 1 - TFIDF b 1 ) 2 + ( TFIDF a 2 - TFIDF b 2 ) 2 + . . . + ( TFIDF a m - TFIDF b m ) 2 - - - ( 4 )
式(4)中,m表示任意两个特征词语集合Wa和Wb中不重复特征词语的个数,表示特征词语集合Wa中第m个特征词语的TF-IDF值;
步骤1.7、对特征词语进行聚类分析,聚类分析是一种静态数据分析方法,常被用于机器学习,模式识别,数据挖掘等领域。通常认为,聚类是一种无监督式的机器学习方法,它的过程是这样的:在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离,马式距离,汉明距离,余弦距离等)来估计样本所属类别。从结构性来划分,聚类方法分为自上而下和自下而上两种方法,前者的算法是先把所有样本视为一类,然后不断从这个大类中分离出小类,直到不能再分为止;后者则相反,首先所有样本自成一类,然后不断两两合并,直到最终形成几个大类。K-means聚类方法是一种自下而上的聚类方法,它的优点是简单、速度快;
从行为特征词语集合ω的β个特征词语中选取d个作为质心,d的取值通常要小于5,本实例中d取值为4;
步骤1.8、利用式(4)计算第α个特征词语ωα与每个质心的Euclidean距离,选出Euclidean距离的最小值所对应的质心作为初始特征类;将特征词语ωα归入初始特征类中;从而获得该特征词语ωα的特征类别pq;1≤q≤d;
步骤1.9、重复步骤1.8,从而获得所有特征词语的总特征类别集合P={p1,p2,...,pj,...,pd};
步骤2、利用多个总体的马氏距离判别方法获得n个参与者U总行为集合I的总特征词语集合W={W1,W2,...,Wi,...,Wn}中第i个特征词语集合Wi与n个参与者U的总特征类别集合P中所有特征类别的平方马氏距离;马氏距离有很多优点,它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关,由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同;马氏距离还可以排除变量之间的相关性的干扰。
如果第i个特征词语集合Wi与特征类别pj的平方马氏距离最小,则第i个特征词语集合Wi属于特征类别pj,从而判定第i个参与者ui的行为集合Ii属于特征类别pj,进而获得总行为集合I中每个行为集合所属的特征类别;
步骤2.1、利用式(5)获得第j个特征类别pj中特征词语的TF-IDF值的均值μj
μ j = TFIDF ω j 1 + TFIDF ω j 2 + . . . + TFIDF ω j R j ′ R j ′ - - - ( 5 )
式(5)中,R′j表示第j个特征类别pj中特征词语的个数,表示特征类别pj中第R′j个特征词语的TF-IDF值;
步骤2.2、重复步骤2.1,从而获得总特征类别集合P的均值向量μ={μ12,...,μj,...,μd}T
步骤2.3、利用式(6)得到第j个特征类别pj的协方差矩阵COV(pj):
COV ( p j ) = Σ j = 1 d [ ( ρ j - μ j ) ( ρ j - μ j ) T ] d - - - ( 6 )
式(6)中,ρj表示第j个特征类别pj中特征词语的TF-IDF值总和;
步骤2.4、初始化i=1;
步骤2.5、利用式(7)获得第i个特征词语集合Wi到第j个特征类别pj的平方马氏距离d2(Wi,pj):
d2(Wi,pj)=(ψij)TCOV(pj)-1ij)  (7)
式(7)中,ψi表示第i个特征词语集合Wi中特征词语的TF-IDF值总和;
从而获得第i个特征词语集合Wi到总特征类别集合P中每个特征类别的平方马氏距离;
步骤2.6、重复步骤2.5,从而获得总特征词语集合W中的每个特征词语集合到总特征类别集合P中每个特征类别的平方马氏距离,所得到的平方马氏距离构成平方马氏距离集合;
步骤2.7、选取平方马氏距离集合中的最小值,则最小值所对应的特征词语集合属于最小值所对应的特征类别;
步骤2.8、判断i=n是否成立;若成立,则表示完成总特征词语集合W中每个特征词语集合的分类;否则,将i+1的值赋值给i;并执行步骤2.5;
步骤2.9、若第i个特征词语集合Wi属于特征类别pj,则第i个行为集合Ii属于特征类别pj
步骤3、利用余弦相似性计算公式分别获得目标参与者的行为集合与其他参与者的行为集合的余弦值集合,从而得到相似者集合。
步骤3.1、提取目标参与者的行为特征集合和其他参与者特征词语集中所有不同的词语,获得词语特征序列 表示词语特征序列中第h个词语,l,表示词语特征序列中词语的总数,1≤h≤l,x=1,2,...,n-1;
步骤3.2、利用式(8)所示的余弦相似度计算方法分别获得目标参与者的行为集合与其他参与者的行为集合的余弦值集合;由于行为集合中的行为没有提取出特征词语,所以利用与行为集合相对应的特征词语来计算相似度。
Cosine ( W u ‾ , W i ) = Σ h = 1 l TFIDF ω h x ′ ∈ W u ‾ · TFIDF ω h x ′ ∈ W i Σ h = 1 l ( TFIDF ω h x ′ ∈ W u ‾ ) 2 × Σ h = 1 l ( TFIDF ω h x ′ ∈ W i ) 2 , W u ‾ ≠ W i - - - ( 8 )
式(8)中,表示特征词语在特征词语集合Wi中的TF-IDF值;
步骤3.3、以余弦值集合作为相似度集合并进行降序排列后,选取前k个相似度所对应的参与者构成相似者集合U′={u′1,u′2,...,u′e,...,u′k},k的值通常不超过参与者总数的30%,本实例中取值为总数的25%;并以I′={I′1,I′2,...,I′e,...,I′k}中的每个元素表示相似者集合U'中每个相似者所对应的行为集合;I′e表示相似者集合U′中第e个相似者u′e的行为集合;1≤e≤n-1;
步骤4、选取在相似者集合U′={u′1,u′2,...,u′e,...,u′k}中与目标参与者不在同一特征类别的tc个相似者所对应的行为集合tf≤k,tc的值通常不超过相似者总数的20%,本实例中取值为相似者总数的15%;表示与目标参与者不在同一特征类别的第tf个相似者的行为集合;利用分词工具对tc个行为集合中的每个行为集合进行标注,去除停用词后获得相似特征词语集合;在相似特征词语集合中选取g个相似特征词语,提取g个相似特征词语所对应的行为作为相似特征行为;
步骤4中的g个相似特征词语是按如下步骤进行选取:
步骤4.1、初始化g=1;
步骤4.2、将g个相似特征词语所对应的行为作为相似特征行为;
步骤4.3、将相似特征行为添加到目标参与者的行为集合中,获得判定行为集合利用分词工具对判定行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从目标词语集合中选取动词词性和名词词性的词语构成判定特征词语集合W′;
步骤4.4、利用基于K-means和TF-IDF的方法对判定特征词语集合W′进行聚类分析,从而获得新的总特征类别集合Pg
步骤4.5、计算判定特征词语集合W′到新的总特征类别集合Pg中每个特征类别的平方马氏距离,从而得到判定特征词语集合W′所属特征类别pW′
步骤4.6、判断特征类别pW′是否与行为特征集合所属特征类别相同,若相同,则将g+1的值赋值给g;否则,获得g个相似特征词语;
步骤5、将相似特征行为推荐给目标参与者使得目标参与者能将相似特征行为加入到行为集合中;从而形成对目标参与者行为特征所表示的行为特征的保护。

Claims (4)

1.一种社交网络中行为特征的保护方法,所述社交网络是由n个参与者U={u1,u2,...,ui,...,un}和所述n个参与者U之间的连接关系组成的网络;ui表示第i个参与者,1≤i≤n;定义表示目标参与者,定义所述n个参与者U在所述社交网络中的总行为集合为I={I1,I2,...,Ii,...,In},Ii表示第i个参与者ui的行为集合;表示目标参与者的行为集合,其特征是:所述保护方法按如下步骤进行:
步骤一、对所述总行为集合I利用基于K-means和TF-IDF的方法进行聚类分析,获得所述目标参与者的行为特征集合与所述n个参与者U的总特征类别集合P={p1,p2,...,pj,...,pd};表示所述行为特征集合中目标特征词语的总数;表示所述目标参与者的行为特征集合中的第个特征词语,pj表示第j个特征类别,d表示特征类别的总数;1≤j≤d;
步骤二、利用多个总体的马氏距离判别方法获得所述n个参与者U总行为集合I的总特征词语集合W={W1,W2,...,Wi,...,Wn}中第i个特征词语集合Wi与所述n个参与者U的总特征类别集合P中所有特征类别的平方马氏距离,如果所述第i个特征词语集合Wi与特征类别pj的平方马氏距离最小,则所述第i个特征词语集合Wi属于第j个特征类别pj,所述第i个参与者ui的行为集合Ii属于第j个特征类别pj,进而获得所述总行为集合I中每个行为集合所属的特征类别;
步骤三、利用余弦相似性计算公式分别计算出所述目标参与者的行为集合与其他参与者的行为集合的余弦值集合;以所述余弦值集合作为相似度集合并进行降序排列后,选取前k个相似度所对应的参与者构成相似者集合U'={u'1,u'2,...,u'e,...,u'k};并以I'={I'1,I'2,...,I'e,...,I'k}中的每个元素表示所述相似者集合U'中每个相似者所对应的行为集合;I'e表示所述相似者集合U'中第e个相似者u'e的行为集合;1≤e≤n-1;
步骤四、选取在所述相似者集合U'={u'1,u'2,...,u'e,...,u'k}中与所述目标参与者不在同一特征类别的tc个相似者所对应的行为集合tf≤k;表示与所述目标参与者不在同一特征类别的第tf个相似者的行为集合;利用分词工具对所述tc个行为集合中的每个行为集合进行标注获得相似特征词语集合;在所述相似特征词语集合中选取g个相似特征词语,提取所述g个相似特征词语所对应的行为作为相似特征行为;
步骤五、将所述相似特征行为推荐给所述目标参与者使得所述目标参与者能将所述相似特征行为加入到所述行为集合中;从而形成对所述目标参与者的特征词语所表示的行为特征的保护。
2.根据权利要求1所述的保护方法,其特征是:所述步骤一是按如下步骤进行:
步骤1、利用分词工具对n个参与者U的总行为集合I中每一个行为集合进行分词和词性标注处理,获得n个具有不同词性的词语集合;从词语集合中选取动词词性和名词词性的词语,并去除名词里的停用词,构成总特征词语集合W={W1,W2,...,Wi,...,Wn},其中Wi表示第i个行为集合Ii的特征词语集合;其中第i个特征词语集合Wi={ωi1i2,...,ωir,...,ωiR},ωir表示在第i个特征词语集合中第r个动词词性或名词词性的特征词语,1≤r≤R;iR表示第i个特征词语集合中不同特征词语的总数;
从总特征词语集合W中选择不重复的词语构成行为特征词语集合ω={ω12,...,ωα,...,ωβ},ωα表示在行为特征词语集合ω中第α个动词词性或名词词性的特征词语,1≤α≤β;β表示行为特征词语集合中不同特征词语的总数;
步骤2、利用分词工具对目标参与者的行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从所述目标词语集合中选取动词词性和名词词性的词语构成行为特征集合 W u ‾ = { ω u ‾ 1 , ω u ‾ 2 , . . . , ω u ‾ δ , . . . , ω u ‾ γ } , W u ‾ ∈ W ;
步骤3、利用式(1)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的词频从而获得总特征词语集合W中每一个特征词语集合Wi的词频集合 TF iω = { TF iω 1 , TF iω 2 , . . . , TF iω r , . . . , TF iω R } ;
TF iω r = Σ i = 1 n C ( iω r | W i ) / Σ i = 1 n C W i - - - ( 1 )
式(1)中,表示总特征词语集合W中特征词语集合Wi出现特征词语ωir的次数,表示总特征词语集合W中所有特征词语的总数;
步骤4、利用式(2)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的逆文档频率从而获得总特征词语集合W中每一个特征词语集合Wi的逆文档频率集合 IDF iω = { IDF iω 1 , IDF iω 2 , . . . , IDF iω r , . . . , IDF iω R } ;
IDF iω r = log n Σ { iω r ∈ W i } , i = 1 n 1 - - - ( 2 )
步骤5、利用式(3)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的TF-IDF值
TFEDF iω r = TF iω r × IDF iω r - - - ( 3 )
步骤6、利用式(4)得到所述总特征词语集合W中任意两个特征词语集合Wa和Wb的Euclidean距离D(Wa,Wb):
D ( W a , W b ) = ( TFIDF a 1 - TFIDF b 1 ) 2 + ( TFIDF a 2 - TFIDF b 2 ) 2 + . . . + ( TFIDF a m - TFIDF b m ) 2 - - - ( 4 )
式(4)中,m表示任意两个特征词语集合Wa和Wb中不重复特征词语的个数,表示特征词语集合Wa中第m个特征词语的TF-IDF值;1≤a≤n,1≤b≤n,a≠b;
步骤7、从所述行为特征词语集合ω的β个特征词语中选取d个作为质心;
步骤8、利用式(4)计算第α个特征词语ωα与每个质心的Euclidean距离,选出Euclidean距离的最小值所对应的质心作为初始特征类;将特征词语ωα归入初始特征类中;从而获得该特征词语ωα的特征类别;
步骤9、重复步骤8,从而获得所有特征词语的总特征类别集合P={p1,p2,...,pj,...,pd}。
3.根据权利要求1或2所述的保护方法,其特征是:所述步骤二是按下列步骤进行:
步骤1、利用式(5)获得所述第j个特征类别pj中特征词语的TF-IDF值的均值μj
μ j = TFIDF ω j 1 + TFIDF ω j 2 + . . . + TFIDF ω jR j ′ R j ′ - - - ( 5 )
式(5)中,R'j表示所述第j个特征类别pj中特征词语的个数,表示所述特征类别pj中第R'j个特征词语的TF-IDF值;
步骤2、重复步骤1,从而获得总特征类别集合P的均值向量μ={μ12,...,μj,...,μd}T
步骤3、利用式(6)得到第j个特征类别pj的协方差矩阵COV(pj):
COV ( p j ) = Σ j = 1 d [ ( ρ j - μ j ) ( ρ j - μ j ) T ] d - - - ( 6 )
式(6)中,ρj表示所述第j个特征类别pj中特征词语的TF-IDF值总和;
步骤4、初始化i=1;
步骤5、利用式(7)获得第i个特征词语集合Wi到第j个特征类别pj的平方马氏距离d2(Wi,pj):
d2(Wi,pj)=(ψij)TCOV(pj)-1ij)   (7)
式(7)中,ψi表示所述第i个特征词语集合Wi中特征词语的TF-IDF值总和;
从而获得第i个特征词语集合Wi到所述总特征类别集合P中每个特征类别的平方马氏距离;
步骤6、重复步骤5,从而获得总特征词语集合W中的每个特征词语集合到总特征类别集合P中每个特征类别的平方马氏距离,并构成平方马氏距离集合;
步骤7、选取所述平方马氏距离集合中的最小值,则所述最小值所对应的特征词语集合属于所述最小值所对应的特征类别;
步骤8、判断i=n是否成立;若成立,则表示完成所述总特征词语集合W中每个特征词语集合的分类;否则,将i+1的值赋值给i;并执行步骤5;
步骤9、若所述第i个特征词语集合Wi属于所述特征类别pj,则所述第i个行为集合Ii属于第j个特征类别pj
4.根据权利要求1或2所述的保护方法,其特征是:所述步骤四中g个相似特征词语是按如下步骤进行选取:
步骤1、初始化g=1;
步骤2、将所述g个相似特征词语所对应的行为作为相似特征行为;
步骤3、将所述相似特征行为添加到所述目标参与者的行为集合中,获得判定行为集合利用分词工具对所述判定行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从所述目标词语集合中选取动词词性和名词词性的词语构成判定特征词语集合W';
步骤4、利用基于K-means和TF-IDF的方法对所述判定特征词语集合W'进行聚类分析,从而获得新的总特征类别集合Pg
步骤5、计算所述判定特征词语集合W'到所述新的总特征类别集合Pg中每个特征类别的平方马氏距离,从而得到所述判定特征词语集合W'所属的特征类别pW'
步骤6、判断所述特征类别pW'是否与行为特征集合所属的特征类别相同,若相同,则将g+1的值赋值给g;否则,获得g个相似特征词语。
CN201510025484.XA 2015-01-19 2015-01-19 一种社交网络中行为特征的保护方法 Active CN104580234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510025484.XA CN104580234B (zh) 2015-01-19 2015-01-19 一种社交网络中行为特征的保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510025484.XA CN104580234B (zh) 2015-01-19 2015-01-19 一种社交网络中行为特征的保护方法

Publications (2)

Publication Number Publication Date
CN104580234A true CN104580234A (zh) 2015-04-29
CN104580234B CN104580234B (zh) 2017-08-11

Family

ID=53095414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510025484.XA Active CN104580234B (zh) 2015-01-19 2015-01-19 一种社交网络中行为特征的保护方法

Country Status (1)

Country Link
CN (1) CN104580234B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204161A (zh) * 2016-07-26 2016-12-07 郑州郑大智能科技股份有限公司 一种互联网环境下电力用户群体分析方法
CN107851277A (zh) * 2015-08-10 2018-03-27 谷歌有限责任公司 隐私一致且个性化的社交媒体内容共享推荐

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103116588A (zh) * 2011-11-17 2013-05-22 腾讯科技(深圳)有限公司 一种个性化推荐方法及系统
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116588A (zh) * 2011-11-17 2013-05-22 腾讯科技(深圳)有限公司 一种个性化推荐方法及系统
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴共庆: ""基于标签路径特征的Web新闻内容抽取研究"", 《中国博士学位论文全文数据库(电子期刊)》 *
谢飞等: ""基于语义联系的新闻网页关键词抽取"", 《广西师范大学学报:自然科学版》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107851277A (zh) * 2015-08-10 2018-03-27 谷歌有限责任公司 隐私一致且个性化的社交媒体内容共享推荐
CN106204161A (zh) * 2016-07-26 2016-12-07 郑州郑大智能科技股份有限公司 一种互联网环境下电力用户群体分析方法

Also Published As

Publication number Publication date
CN104580234B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN102012985B (zh) 一种基于数据挖掘的敏感数据动态识别方法
CN102629261B (zh) 由钓鱼网页查找目标网页的方法
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN103793503A (zh) 一种基于web文本的观点挖掘与分类的方法
Sonowal Phishing email detection based on binary search feature selection
CN105827594A (zh) 一种基于域名可读性及域名解析行为的可疑性检测方法
CN103778186A (zh) 一种“网络马甲”的检测方法
CN105630890B (zh) 基于智能问答系统会话历史的新词发现方法及系统
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
Peng et al. Astroturfing detection in social media: Using binary n-gram analysis for authorship attribution
CN113420294A (zh) 基于多尺度卷积神经网络的恶意代码检测方法
CN105389486A (zh) 一种基于鼠标行为的认证方法
Plant et al. CAPE: Context-aware private embeddings for private language learning
Adi et al. The best features selection method and relevance variable for web phishing classification
CN106844301A (zh) 一种基于二元和三元共词潜在语义信息的文献表示方法
CN110134876A (zh) 一种基于群智传感器的网络空间群体性事件感知与检测方法
Joshi et al. Political issue extraction model: A novel hierarchical topic model that uses tweets by political and non-political authors
Jones et al. Vanity fair: privacy in querylog bundles
Borkar et al. Real or fake identity deception of social media accounts using recurrent neural network
CN108268762B (zh) 基于行为建模的移动社交网络用户身份识伪方法
CN104580234A (zh) 一种社交网络中行为特征的保护方法
Ali Identifying terrorist affiliations through social network analysis using data mining techniques
CN109918939B (zh) 基于hmm的用户查询风险评估和隐私保护方法
CN114169007B (zh) 基于动态神经网络的医疗隐私数据识别方法
CN111179101A (zh) 一种基于共享网络的互联网保险营销数据处理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant