CN106598954A

CN106598954A - 基于频繁子树的社交网络马甲识别模型的方法

Info

Publication number: CN106598954A
Application number: CN201710007000.8A
Authority: CN
Inventors: 段大高; 高飒; 韩忠明
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2017-01-05
Filing date: 2017-01-05
Publication date: 2017-04-26

Abstract

本发明涉及一种基于频繁子树的社交网络马甲识别模型的方法，步骤一：获取微博文本数据。步骤二：数据预处理：步骤三：利用依存句法分析软件，对微博文本进行依存句法分析，每条微博会得到一个句法分析结果。步骤四：将步骤三得到的依存句法树采用Pre‑Order‑String方法表示。步骤五：某人的微博列表中的每个文本利用步骤四的方法得到分析结果；步骤六：将需要判断是否为马甲关系的两个账号分别按照步骤一至五，得到两个马甲账号的频繁依存句法树。本发明所提供的一种基于频繁子树的社交网络马甲识别模型的方法，通过大量的数据训练之后，可以将方法利用在社交网站对于网络安全的管理以及政府关于网络犯罪的追查，能够快速，有效地识别马甲账号。

Description

基于频繁子树的社交网络马甲识别模型的方法

技术领域

本发明涉及一种基于频繁子树的社交网络马甲识别模型的方法，它应用于社交网络中文本作者关系鉴别，属于数据挖掘技术领域。

背景技术

目前，随着科技的迅速发展，尤其是互联网技术的发展，全球互联网用户总量已超30亿，23.1亿社交媒体用户。赛迪顾问发布的《2016年1月中国移动互联网月活跃用户数监测报告》中，微信、QQ、新浪微博的月活跃数位列前三。在社交网络中，同一人拥有多个账号的情况十分常见。某人会注册一个微博ID，经常使用或者登陆的称为主ID，现在很多网友并不满足一个微博ID，会注册其它微博ID，常在不想表露主ID身份时，用非主ID的账号发言，这些非主ID账号称为马甲账号。马甲账号有其负功能的一面，例如：使用马甲账号散布谣言；在别人的文章下进行语言攻击或者诋毁，诱导不正确的价值观；使用马甲账号对主微博ID进行推广等等。这样的行为会影响网络的安全及公平性。社交网络的实名制是一个困难的问题，大部分网友没有进行实名认证，不容易知道他们的真实身份。当网友发表不和谐的言论时，例如：传播不良信息，侮辱诽谤他人甚至泄漏国家机密等等，将马甲账号规约为同一人，会有助于政府部门打击犯罪行为。

目前，基于语言风格的作者识别研究越发受到重视，本方法同样可用于微博短文本进行马甲账号的识别。依存句法是分析自然语言文档的方法之一，最先由法国语言学家LTesnier于1959年在他所著的《结构句法基础》中提出。依存句法认为句子中述语动词是支配其他成分的中心，而它本身不受其他任何成分的支配，所有受支配成分都通过某种依存关系从属于其支配者。依存句法提出后，在各研究领域中产生了巨大影响，尤其是受到了致力于语言自动处理研究的语言学家的推崇。20世纪70年代，Robinson提出了依存句法中四条关于依存关系的公理：

(1)一个语句中只有一个独立成分；

(2)其他成分直接依存于某一成分；

(3)任何一个成分都不能同时依存于两个或两个以上的成分；

(4)如果A成分直接依存于B成分，而语句中，C成分在句中位于A成分和B成分之间，那么C或者直接依存于A，或者直接依存于B，或者直接依存于A和B之间的某一成分。

随着我国对自然语言处理研究的深入，在20世纪90年代，我国学者开始把分析依存句法的方法应用到汉语语料库语言学的研究中，并且与汉语语法实践相结合，提出了依存关系的第五条公理：中心成分左右两边的成分互相不存在依存关系。本发明对微博短文本进行依存句法关系分析，采用基于模式增长的频繁子树挖掘算法得出每个用户的语言风格——依存句法树特征，分析微博账号的语言风格，并进行相似度的计算，识别微博马甲账号。

发明内容

1、目的：

本发明目的是提供一种基于频繁子树的社交网络马甲识别模型的方法，在拥有大量用户的微博中，能够快速、有效地识别马甲关系，进而有助于其它部门的下一步工作。

本发明的原理是：首先进行自然语言的处理，对某个用户的所有微博短文本进行分词，获取分词结果并分析短文本的依存句法结构，将每条微博的依存句法结构进行保存，并且将所得到的的句法分析结果构造为树型结构，采用Pre-Order-String(先序字符串)方法表示，直至这个用户的所有微博文本分析完毕。采用基于模式增长的频繁子树挖掘算法挖掘出这个用户使用依存句法结构的频繁模式，即为此用户的语言风格。对比两个用户的依存句法结构，利用编辑距离计算其相似度，进而可以判断是否为马甲关系。

2、技术方案：本发明提供的技术方案如下：

本发明是一种基于频繁子树的社交网络马甲识别模型的方法，如图1所示，该方法具体步骤如下：

步骤一：获取微博文本数据。

步骤二：数据预处理：

1)删除微博文本中的重复语句；

2)删除带有“转发微博”标记的微博和转发微博，例如：//@...；

3)删除微博文本中的网址链接，例如：http：//...；

4)删除微博文本中的话题，例如：#你好#；

5)删除微博文本中的表情，例如：[微笑]；

6)删除字数小于5的微博。

步骤三：利用依存句法分析软件，对微博文本进行依存句法分析，每条微博会得到一个句法分析结果。经过分析后每条微博的句法分析结果如下：

其中，ID为当前词在句子中的序号，以1开始；FORM为当前词语；LEMMA为当前词语的原型或者词干，在中文中，此列与FORM相同；CPOSTAG为当前词语的词性(粗粒度)；HEAD为当前词语的中心词；DEPREL为当前词语与中心词的依存关系。

该依存句法分析软件中包含的依存句法分析标注关系(共15种)及含义如下：

将得到的句法分析结果构造为树型结构。首先，取句法分析结果的ID、HEAD、DEPREL三列，利用Python语言中的字典方法，将句法分析结果转为依存句法树，结果为：

W_Si：W_Si{R₁:{R_i:{},R_n:{}}}(i∈[1,n])

其中，W_Si表示某人微博列表中第i条微博的依存句法树，R_n表示该文本的依存句法关系。

步骤四：将步骤三得到的依存句法树采用Pre-Order-String方法表示。Pre-Order-String为给定一棵树T：

(1)如果T只有一个节点r,则T的Pre-Order-String表示为S(T)＝l(r)-1,其中l(r)表示为r的节点标签，‘-1’表示为结束符；

(2)如果T中的节点数目超过1，假定T的根节点为r，r有k个儿子r_i(i＝1,2,…,k),每个以r_i为根的子树表示为则T的Pre-Order-String表示为利用Pre-Order-String表示的字典树为：W_Si：W_Si(R₁R_i-1R_n-1-1)。

步骤五：某人的微博列表中的每个文本利用步骤四的方法得到分析结果，如下：

W_S：W_S(W_S1，W_S2，...W_Si，...，W_Sn)

采用基于模式增长的频繁子树挖掘算法挖掘某人微博的常用依存句法结构。首先，用户给定一个最小支持度阈值SUP_min，最小支持度由多次实验对比实验效果得出，

最小支持度满足上述公式时效果最好。

支持度Support：

其中，A，B表示某一种句法结构，P(A∪B)表示A,B同时出现的概率。将支持度小于SUP_mi的句法结构删除。结果即为频繁一项集。将频繁一项集中的子集两两结合，进行第二次扫描，计算支持度，去除小于SUP_min的句法结构，得到频繁二项集。依次重复，直至K项集中的支持度都大于SUP_min，得到频繁K项集，即为该用户微博常用的依存句法结构。

步骤六：将需要判断是否为马甲关系的两个账号分别按照步骤一至五，得到两个马甲账号的频繁依存句法树。采用编辑距离算法计算两个用户的相似度。编辑距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

定义一个函数——edit(i,j)，它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离

·if i＝＝0且j＝＝0，edit(i,j)＝0

·if i＝＝0且j>0，edit(i,j)＝j

·if i>0且j＝＝0，edit(i,j)＝i

·if i≥1且j≥1，edit(i,j)＝＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)}，当第一个字符串的第i个字符不等于第二个字符串的第j个字符时，f(i,j)＝1；否则，f(i,j)＝0

将一个账号的每一棵依存句法树分别与另一个账号的所有依存句法树计算编辑距离，编辑距离若为0则表示两棵句法树相同，不需要编辑，即两个用户的某个句法结构相同。统计0的个数，并求出在两个用户所有句法树中出现的概率，若大于0.75，则两个用户互为马甲关系，反之，则为非马甲关系。

3、优点及功效：本发明的有益效果：本发明所提供的一种基于频繁子树的社交网络马甲识别模型的方法，通过大量的数据训练之后，可以将方法利用在社交网站对于网络安全的管理以及政府关于网络犯罪的追查，能够快速，有效地识别马甲账号。

附图说明

图1所示为本发明方法的流程图。

具体实施方式

具体实施步骤:

步骤一：抽取新浪微博中部分用户的微博内容。例如：(取两个用户的前十条微博为例)用户1：

是滴，小时候可愛摘这个吃了，还有一种黑色的，更甜，只是吃完牙齿都变黑啦。[嘻嘻]//@雄镇李:小时候路旁、田间沟坎多的是，味道好的没得说[馋嘴]

你回来啦？我明天去香港，香港气温还算高吧？需要穿几件衣服呀？[呵呵]

小琦同学，怎么微信朋友圏里看不着你昵？//@陈琦-fairy:@nanahu1997

怎么形容呢，趴趴熊，要不要趴得这么贴地啊。。@创意广告集锦

在今天这样的信息化社会，传统商业模式还不创新升级，将无路可走无处可逃。//@yying1997:你真牛[赞]

是怎样的一种浅薄虚空才能让我们的代表在做了这么无深度无价值的形为后还能引以为傲地发微博炫耀呢。[汗][汗][晕]//@华邦投资黄建国://@徐小平:八千万党员是让你们来代表他们、代表他们代表的人民议政、提案的，而不是来哭泣的。

老公生日快乐！岁月流逝，让我们携手一起慢慢变老。[蛋糕][心][亲亲]

笫34届联祥黄埔军校培训完美落幕，人力资源的各位同事们辛苦啦。@70后牛角尖儿

听着舒缓的音乐开车回家，想着有温暖的家，有亲爱的家人在等待着我回家，满满的幸福感油然而生。

亲爱的，你现在的摄影技术实在太太太好啦。[鼓掌][赞][赞][赞]

用户2：

推荐一档非常好看的节目；浙江卫视的「与卓越同行」。非常不错，视角开阔有深度。

当大仔的补习老师。。。。。一位二十一岁的在读大学生喊我阿姨的时候，我的心被强烈振撼了一下。看来这耀眼的青春是真的与我渐行渐远了。[失望]

哈哈，彼此彼此，我也是扫了半天才开出来。

听铁岭开原普渡寺的主持普渡师傅传扬佛法，收获颇多。佛法宏大，只能慢慢开悟。[太阳]家里刚才发生了煤气爆炸，我和老公正在厨房做饭，一瞬间裤子都全烧破了，万幸的是人没事，之后哭了好一气，太可怕了，差一点一家三口都没了！阿弥陀佛，佛祖保佑，感谢我带的玉佛保了全家平安！

看完电影出来时发现前面一哥们背影与@超男微博超像，于是冒着被人当神经的危险偷拍了他背影发给你，像不？[哈哈][做鬼脸]

这照片是谁帮你照的呀？腿被拉长得都不像你的腿啦。[做鬼脸][做鬼脸]

不能白去鞍山啊！有粉红河马做人工奖，我必须笑到最灿烂～[耶]

下雨了！一场秋雨一场寒！天寒！心寒！天在下雨！心也是一场雨！

开会晚归自制双皮奶解乏又解馋。[做鬼脸][馋嘴]

祝五周年快乐！未来的每天都幸福快乐！[亲亲][鼓掌]

步骤二：根据抽取新浪微博中的微博文本，进行数据预处理，删除重复语句、网址、表情、话题、转发微博和字数小于5的微博:

用户1：

是滴，小时候可愛摘这个吃了，还有一种黑色的，更甜，只是吃完牙齿都变黑啦。

你回来啦？我明天去香港，香港气温还算高吧？需要穿几件衣服呀？

小琦同学，怎么微信朋友圏里看不着你昵？

在今天这样的信息化社会，传统商业模式还不创新升级，将无路可走无处可逃。

是怎样的一种浅薄虚空才能让我们的代表在做了这么无深度无价值的形为后还能引以为傲地发微博炫耀呢。

老公生日快乐！岁月流逝，让我们携手一起慢慢变老。

亲爱的，你现在的摄影技术实在太太太好啦。

用户2：

当大仔的补习老师。。。。。一位二十一岁的在读大学生喊我阿姨的时候，我的心被强烈振撼了一下。看来这耀眼的青春是真的与我渐行渐远了。

哈哈，彼此彼此，我也是扫了半天才开出来。

听铁岭开原普渡寺的主持普渡师傅传扬佛法，收获颇多。佛法宏大，只能慢慢开悟。

看完电影出来时发现前面一哥们背影与@超男微博超像，于是冒着被人当神经的危险偷拍了他背影发给你，像不？

这照片是谁帮你照的呀？腿被拉长得都不像你的腿啦。

不能白去鞍山啊！有粉红河马做人工奖，我必须笑到最灿烂～

开会晚归自制双皮奶解乏又解馋。

祝五周年快乐！未来的每天都幸福快乐！

步骤三：分析微博的依存句法结构，利用依存句法分析软件，对微博文本进行依存句法分析，每条微博会得到一个句法分析结果；再将得到的句法分析结果构造为树型结构。得到的结果为：

用户1：

用户2：

步骤四：

用户1的微博利用Pre-Order-String表示的字典树为：

用户2的微博利用Pre-Order-String表示的字典树为：

步骤五：支持度Support：表示事件A与B同时出现的概率(A与B同时出现的次数/总事件次数)，总事件次数相同，所以将事件A与B同时出现的次数(本例中即为句法结构出现的次数)设为支持度，

已得到两个用户的10条微博的依存句法树，根据公式

最小支持度设为8。

用户1：

第一次扫描后产生的一项集为：

去除值小于SUP_min的项集，VOB -1，CMP -1,DBL -1，IOB -1，FOB -1，POB -1，LAD-1，IS -1。

第二次扫描后产生的二项集为：

去除值小于SUP_min的项集，得到的频繁二项集为HED COO -1 -1，HED ATT -1 -1，HED ADV -1-1，HED SBV -1 -1，HED RAD -1 -1，HED WP -1 -1，COO ADV -1 -1。

按照上面的方法，依次寻找频繁K项集，最终结果为：HED COO -1 ADV -1 -1。

所以用户1微博常用的句法结构为HED COO -1 ADV -1 -1。

用户2：

第一次扫描后产生的一项集为：

去除值小于SUP_min的项集,CMP -1,DBL -1，IOB -1，FOB -1，POB -1，LAD-1，IS -1。第二次扫描后产生的二项集为：

去除值小于SUP_min的项集，得到的频繁二项集为HED COO -1 -1，HED ATT -1 -1，HED ADV -1-1，HED VOB -1 -1,HED SBV -1 -1，HED RAD -1 -1，HED WP -1 -1，COO ADV -1 -1。

所以用户2微博常用的句法结构为HED COO -1 ADV -1 -1。

步骤六：得到用户1微博常用的句法结构为HED COO -1 ADV -1 -1，用户2微博常用的句法结构为HED COO -1 ADV -1 -1，计算两个句法结构的编辑距离测量相似度。

HED COO -1 ADV -1 -1与HED COO -1 ADV -1 -1相同，不需要变化，所以两个句法结构的编辑距离为0。用户1有一个句法结构，编辑距离为0的个数为1，出现的概率为

用户2有一个句法结构，编辑距离为0的个数为1，出现的概率为

因为1.0>0.75，所以用户1与用户2为马甲用户关系。

Claims

1.一种基于频繁子树的社交网络马甲识别模型的方法，特征在于：该方法步骤如下：

步骤一：获取微博文本数据；

步骤二：数据预处理：

1)删除微博文本中的重复语句；

2)删除带有“转发微博”标记的微博和转发微博；

3)删除微博文本中的网址链接；

4)删除微博文本中的话题；

5)删除微博文本中的表情；

6)删除字数小于5的微博；

步骤三：利用依存句法分析软件，对微博文本进行依存句法分析，每条微博会得到一个句法分析结果；经过分析后每条微博的句法分析结果如下：

其中，ID为当前词在句子中的序号，以1开始；FORM为当前词语；LEMMA为当前词语的原型或者词干，在中文中，此列与FORM相同；CPOSTAG为当前词语的词性；HEAD为当前词语的中心词；DEPREL为当前词语与中心词的依存关系；

该依存句法分析软件中包含的依存句法分析标注关系及含义如下：

将得到的句法分析结果构造为树型结构：首先，取句法分析结果的ID、HEAD、DEPREL三列，利用Python语言中的字典方法，将句法分析结果转为依存句法树，结果为：

W_Si：W_Si{R₁:{R_i:{},R_n:{}}}(i∈[1,n])

其中，WSi表示某人微博列表中第i条微博的依存句法树，R_n表示该文本的依存句法关系；

步骤四：将步骤三得到的依存句法树采用先序字符串方法表示；先序字符串为给定一棵树T：

(1)如果T只有一个节点r,则T的先序字符串表示为S(T)＝l(r)-1,其中l(r)表示为r的节点标签，‘-1’表示为结束符；

(2)如果T中的节点数目超过1，假定T的根节点为r，r有k个儿子r_i(i＝1,2,…,k),每个以r_i为根的子树表示为则T的先序字符串表示为利用先序字符串表示的字典树为：W_Si：W_Si(R₁R_i-1 R_n-1-1)；

W_S：W_S(WS_1，W_S2，...W_Si，...，W_Sn)

采用基于模式增长的频繁子树挖掘算法挖掘某人微博的常用依存句法结构；首先，用户给定一个最小支持度阈值SUP_min，最小支持度由多次实验对比实验效果得出，

最小支持度满足上述公式时效果最好；

支持度Support：

其中，A，B表示某一种句法结构，P(A∪B)表示A,B同时出现的概率；将支持度小于SUP_min的句法结构删除；结果即为频繁一项集；将频繁一项集中的子集两两结合，进行第二次扫描，计算支持度，去除小于SUP_min的句法结构，得到频繁二项集；依次重复，直至K项集中的支持度都大于SUP_min，得到频繁K项集，即为该用户微博常用的依存句法结构；

步骤六：将需要判断是否为马甲关系的两个账号分别按照步骤一至五，得到两个马甲账号的频繁依存句法树；采用编辑距离算法计算两个用户的相似度；

·if i＝＝0且j＝＝0，edit(i,j)＝0

·if i＝＝0且j>0，edit(i,j)＝j

·if i>0且j＝＝0，edit(i,j)＝i

将一个账号的每一棵依存句法树分别与另一个账号的所有依存句法树计算编辑距离，编辑距离若为0则表示两棵句法树相同，不需要编辑，即两个用户的某个句法结构相同；统计0的个数，并求出在两个用户所有句法树中出现的概率，若大于0.75，则两个用户互为马甲关系，反之，则为非马甲关系。