CN104239490A - 一种用于ugc网站平台的多账户检测方法及装置 - Google Patents
一种用于ugc网站平台的多账户检测方法及装置 Download PDFInfo
- Publication number
- CN104239490A CN104239490A CN201410454038.6A CN201410454038A CN104239490A CN 104239490 A CN104239490 A CN 104239490A CN 201410454038 A CN201410454038 A CN 201410454038A CN 104239490 A CN104239490 A CN 104239490A
- Authority
- CN
- China
- Prior art keywords
- user account
- account
- text
- accuracy rate
- data points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于UGC网站平台的多账户检测方法及装置,属于数据关联技术领域。本发明的方法通过一种交互式的单类分类器检测方法完成多账户检测,提取每个用户账户的文本内容并进行特征提取,形成一系列的特征向量样本点,再提取一系列特征向量样本点分别计算每个用户账户的自关联度,以及与其他用户账户的互关联度;若用户账户Di的自关联度与任意其他用户账户的互关联度的差值小于预设阈值,则认为该用户账户与用户账户Di为同一真实账户。在检测时,只需要各用户账户所生成的文本内容,不需要真实用户身份信息。基于上述方法,本发明还剔除了一种用于UGC网站平台的多账户检测方法及装置。本发明用于UGC网站平台的多账户检测,准确率高、适用性好。
Description
技术领域
本发明属于数据关联技术领域,尤其涉及一种用于UGC网站平台的多账户检测。
背景技术
UGC(User Generated Content)用户生成内容,即用户将自己原创的内容(文本、视频、语音等)通过互联网平台进行展示或者提供给其他用户。UGC(User Generated Content)网站主要是指基于用户生成内容的在线社交网站和在线论坛等,例如twitter、google+、facebook等,它们已经成为主流分享信息的网络平台。
随着UGC网站功能逐渐完善,随之带来的问题也逐渐增多,最为显著的就是“多账号攻击”,这种现象对UGC网站平台的后台管理带来了严重的困扰,在UGC网站后台的存储、计算、传输、应用等方面都带来了额外的开销,妨碍了网络资源的合理应用,严重影响了UGC网站平台的性能。因此,对UGC网站上属于同一用户的的多个帐户进行检测识别引起了广泛的关注。
在多账户检测方法选取方面,现有的研究大部分采用多类分类器的方法来检测属于同一用户的多个帐户。在训练多类分类器时,使用的训练集是由一系列标有真实用户身份的帐户组成,将一个帐户所包含的数据分成多个部分,每一部分代表一个虚拟的用户帐户,从而假设出属于同一用户的多个帐户,来训练和测试分类器。但是,在实际应用中,UGC网站后台处理“多账户攻击”时,如果使用多类分类器的方法,很难确定UGC网站中帐户的真实身份,以及UGC网站中总共含有真实用户的数量,从而很难构成真实的训练集。因此,在UGC网站平台后台管理过程中,使用多类分类器的方法对属于同一用户的多账户进行检测不可行。
另外,现有的多用户帐户检测系统有很多种,这些方法的主要区别之处在于特征和检测方法的选取不同。在特征选取方面,主要可分为以下三种:第一种是基于帐户的名字提取特征检测属于同一用户的多帐户。通过从帐户名称中抽取特征来识别名字相似的用户帐户,将帐户名字相似的帐户划分为一个集合,这样可以把UGC网站的帐户划分为若干子集,每个子集对应于一位用户,但是,这种方法有个严重的缺点:如果某个用户在注册多个帐户时刻意使用了无规则的帐户名字,那么这种方法是无效的。因此,这种方法的健壮性不能满足实际需求。第二种是基于对帐户的语言书写风格来识别多用户帐户。因为每个人都有各自的书写习惯,并且该特征比较稳定不容易改变,但是现有的研究主要是针对博客等内容较长的网站进行分析,并且现有研究中所提取的语言书写风格特征数量比较大,种类比较少,同时,准确率还不是很理想。第三种是基于对帐户公开的信息进行分析来识别多个用户帐户。除每个帐户在注册时所公布的个人资料以外,用户帐户生成的信息中往往也含有关于用户个人的信息,例如时间、性别等,通过对帐户公布的这些信息进行分析,往往可以对公开信息相似的多个帐户进行识别。然而,帐户所公布的个人信息属于用户的个人隐私,用户所公布的不一定真实,尤其对于那些不法用户来说,所以这种方法的健壮性和准确率都不能得到保障,不能投入到实际使用中。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于单类分类器的多账户检测方法识别。
本发明的一种用于UGC网站平台的多账户检测方法,包括下列步骤:
步骤1:从UGC网站平台的本地数据库中确定用户账户集D,并对所述用户账户集D中的每个用户账号,分别提取各用户账号生成的四个以上文本内容;
步骤2:对用户账户集D中的每个用户账号的各个文本内容进行特征提取,生成对应的特征向量样本点;
步骤3:分别计算用户账户集D中的每个用户账号Di的自关联相似度和互关联相似度:
步骤301:用户账号Di的自关联相似度:
每选取K个特征向量样本点组成用户账号Di的一个数据点,所述K的取值为[1,10];
对每个用户账号Di,选取两组不同数据点组成集合N1i和N2i,两个集合所包含的数据点个数均为M个,所述M大于或等于2;
以数据点集合N1i作为训练集训练单类分类器,将数据点集合N2i作为测试集,记录当前单类分类器输出的准确率为Si(N1i,N2i);以数据点集合N2i作为训练集训练单类分类器,将数据点集合N1i作为测试集,记录当前单类分类器输出的准确率为Si(N2i,N1i);
用户账号Di的自关联相似度为所述准确率Si(N1i,N2i)和准确率Si(N2i,N1i)的乘积;
步骤302:用户账号Di关于用户账号Qj的互关联相似度:
分别从用户账号Di与用户账号Qj中选取M个不同数据点,组成集合NDi和NQj,其中用户账号Qj属于用户账户集D,且与用户账号Di的账户名不同;
以数据点集合NDi作为训练集训练单类分类器,将数据点集合NQj作为测试集,记录当前单类分类器输出的准确率为Si(NDi,NQj);以数据点集合NQj作为训练集训练单类分类器,将数据点集合NDi作为测试集,记录当前单类分类器输出的准确率为Si(NQj,NDi);
用户账号Di的互关联相似度为所述准确率Si(NDi,NQj)和准确率Si(NQj,NDi)的乘积;
步骤4:基于用户账号Di的自关联相似度和互关联相似度,输出用户账号Di的相同账号:若用户账号Di的自关联相似度与关于用户账号Qj的互关联相似度的差值小于或等于预设阈值,则用户账号Qj与用户账号Di的相同账号。
在本发明的检测方法中,通过使用单类分类器完成UGC网站中属于同一用户的多帐户进行检测,解决了传统的多类分类器检测方法因需要的训练集为真实的用户身份信息而实用性低的技术问题,基于本发明所提出了一种交互式的单类分类器检测方法,在不需要用户账号的真实用户身份信息即可完成对对账户的检测和识别。
为了进一步提升检测的准确率,本发明在对每个用户账号的各个文本内容进行特征提取时,首先基于每个文本的字符数和语种对提取的多个文本内容进行初始过滤处理,再基于预设特征字符对过滤后的各个文本进行特征提取;所述初始过滤处理具体为:若文本的字符数小于预设阈值,则从用户账户集D中删除所述文本对应的用户账号;若文本内容是非英语语种的文本,则删除该文本。
为了减少现有的预设特征字符的数量,从而提高检测处理速度,本发明的预设特征字符包括:
字母特征:单个的大小写英文字母;
数字特征:从0到9的数字符号;
标点符号:‘.’、‘,’、‘’’、‘?’、‘!’、‘;’、‘:’、‘(’、‘)’;
虚词特征:“a”,“I”,“his”,“that”,“it”,“you”,“had”,“with”,“as”,“for”,“her”,“the”,“she”,“but”,“him”,“in”,“not”,“is”,“on”,“my”,“have”,“was”,“and”,“be”,“me”,“he”,“they”,“from”,“at”,“this”,“which”,“there”,“one”,“to”,“all”,“so”,“an”,“by”,“of”,“than”;
词性特征:“CC”、“CD”、“DT”、“EX”、“FW”、“IN”、“JJ”、“JJR”、“JJS”、“LS”、“MD”、“NN”、“NNS”、“NNP”、“NNPS”、“PDT”、“POS”、“PRP”、“PRP$”、“RB”、“RBR”、“RBS”、“RP”、“SYM”、“TO”、“UH”、“VB”“VBD”、“VBG”、“VBN”、“VBP”、“VBZ”、“WDT”、“WP”、“WP$”、“WRB”。
另外,在帐户特征提取方面,本发明提出了一些新特征类别(双连词、三连词以及语法关系特征在)来提高语言书写特征对帐户的识别程度。这些特征全部仅与帐户的语言书写形式相关,与账户名字、生成内容主题等均无关,而且特征数量远远小于以往类似研究中所使用的特征数量(1000多种)。所新增的特征类别分别为:
双连词字符:“I’m”、“it is”、”at the”、“you’re”、“a good”、“how to”、”have been”、“have a”、“all of”、“can be”、”I would”、“there is”、“will be”、“I’ve”、”I was”、“thank you”、“be a”、“we’re”、”it was”、“for this”。
三连词字符:“one of my”、“I'm so”、“I just liked”、“am going to”、“part of the”、“ifyou are”、“how to make”、“I will be”。
语法关系特征:“abbrev”、“acomp”、“advcl”、“advmod”、“agent”、“amod”、“appos”、“attr”、“aux”、“auxpass”“cc”、“ccomp”、“complm”、“conj”、“cop”、“csubj”、“csubjpass”、“dep”、“det”、“dobj”、“expl”、“infmod”、“iobj”、“mark”、“mwe”、“neg”、“nn”、“npadvmod”、“nsubj”、“nsubjpass”、“num”、“number”、“parataxis”、“partmod”、“pcomp”、“pobj”、“poss”、“possessive”、“preconj”、“predet”、“prep”、“prepc”、“prt”、“purpcl”、“quantmod”、“rcmod”、“ref”、“rel”、“root”、“xsubj”。
对应于本发明的检测方法,本发明还提出了一种用于UGC网站平台的多账户检测装置,其特征在于,包括:
数据采集模块:从UGC网站平台的本地数据库中确定用户账户集D,并对所述用户账户集D中的每个用户账号,分别提取各用户账号生成的四个以上文本内容;
特征提取模块:基于数据采集模块输出的用户账户和对应的文本内容信息,对用户账户集D中的每个用户账号的各个文本内容进行特征提取,生成对应的特征向量样本点;
检测处理模块:特征提取模块输出的每个用户账号所对应的特征向量样本点,分别分别计算用户账户集D中的每个用户账号Di的自关联相似度和互关联相似度:
用户账号Di的自关联相似度为:每选取K个特征向量样本点组成用户账号Di的一个数据点,所述K的取值为[1,10];对每个用户账号Di,选取两组不同数据点组成集合N1i和N2i,两个集合所包含的数据点个数均为M个,所述M大于或等于2;以数据点集合N1i作为训练集训练单类分类器,将数据点集合N2i作为测试集,记录当前单类分类器输出的准确率为Si(N1i,N2i);以数据点集合N2i作为训练集训练单类分类器,将数据点集合N1i作为测试集,记录当前单类分类器输出的准确率为Si(N2i,N1i);取所述准确率Si(N1i,N2i)和准确率Si(N2i,N1i)的乘积为用户账号Di的自关联相似度;
用户账号Di关于用户账号Qj的互关联相似度为:分别从用户账号Di与用户账号Qj中选取M个不同数据点,组成集合NDi和NQj,其中用户账号Qj属于用户账户集D,且与用户账号Di的账户名不同;以数据点集合NDi作为训练集训练单类分类器,将数据点集合NQj作为测试集,记录当前单类分类器输出的准确率为Si(NDi,NQj);以数据点集合NQj作为训练集训练单类分类器,将数据点集合NDi作为测试集,记录当前单类分类器输出的准确率为Si(NQj,NDi);取所述准确率Si(NDi,NQj)和准确率Si(NQj,NDi)的乘积为用户账号Di的互关联相似度;
查找输出模块:基于检测处理模块输出的用户账号Di的自关联相似度和互关联相似度,输出用户账号Di的相同账号:若用户账号Di的自关联相似度与关于用户账号Qj的互关联相似度的差值小于或等于预设阈值,则用户账号Qj与用户账号Di的相同账号。
综上所述,由于采用了上述技术方案,本发明的有益效果是:在对UGC网站上属于同一用户的多账户检测识别的准确率、健壮性和适用性方面较现有技术以往都有显著的提高。
附图说明
图1是本发明的检测装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
参见图1,为了实现本发明的多账户检测识别,数据采集模块首先基于UGC网站平台的本地数据库输出中确定用户账户集D,并对所述用户账户集D中的每个用户账号,分别提取各用户账号生成的四个以上文本内容;由于每个UGC网站都会将各自网站中用户帐户生成的文本内容存储在本地数据库,所以,从UGC网站本地数据库中提取每个用户帐户生成的文本内容非常方便。在UGC网站中,每个用户帐户生成的文本内容由一系列用户发布的短文本帖子组成。短文本帖子是提取特征向量的最小单位。
特征提取模块:基于数据采集模块输出的用户账户和对应的文本内容信息,对用户账户集D中的每个用户账号的各个文本内容进行特征提取,生成对应的特征向量样本点。在该模块的具体实现时,即可以基于现有的特征提取方式完成对各个文本内容的特征提取处理,也可以是基于本发明所描述的进一步优化后的特征提取处理方案。
本发明进一步优化后的特征提取处理方案具体为:
初始过滤处理:就与预设的文本内容字符数阈值,将字符数低于预设阈值的文本内容所对应的用户账户从数据采集模块所输出的用户账户集D中删除,以及非英语语种的文本从数据采集模块所输出的各个文本内容集(每个用户账号所对应的文本内容集合)也删除。因为文本内容量较少的文本内容能提取到的特征向量较少,而少量的特征向量训练单类分类器生成的模型不能充分表达该帐户的语言书写特点,从而造成同其他用户帐户进行关联检测识别时准确率较低。
由于本具体实施方式中,所提取的特征都是基于英语的,所以将使用除英语以外的其他语种所书写的文本也过滤掉。
同时,为了抑制特征提取时的噪声,对当前各文本内容集的文本内容还进行字符过滤处理:即将各个文本内容中除了‘.’、‘,’、‘’’、‘?’、‘!’、‘;’、‘:’、‘(’、‘)’以外的标点符号删除;以及除英文单词外的文本内容标识符删除。
在完成上述特征提取的优化预处理后,即可基于预设特征字符对当前的各文本内容集行语言书写特征的提取。本模块中所提取的特征仅与用户语言书写特征有关。在提取词频特征时,本发明只提取与虚词相关的词频特征,并没有提取名词等词频特征,以防止提取的特征与主题相关。同时,本发明所提取的符号特征中全部是常用的符号,不包含一些特殊的、标志性的符号,以提高处理速度。另外,本发明在传统的语言书的预设特征字符的基础上进行了扩展,提出了一些新的特征字符:由常用虚词、动词等组合的双连词和三连词、词性特征、语法关系特征。这些新的特征对提高检测识别属于同一用户的多个帐户准确率上有显著作用。因此,在本具体实施中,所涉及的预设特征字符如表1所示:
表1
表1中所描述的虚词特征、词性特征、双连词、三连词、语法关系特征具体描述如下:
虚词特征:“a”,“I”,“his”,“that”,“it”,“you”,“had”,“with”,“as”,“for”,“her”,“the”,“she”,“but”,“him”,“in”,“not”,“is”,“on”,“my”,“have”,“was”,“and”,“be”,“me”,“he”,“they”,“from”,“at”,“this”,“which”,“there”,“one”,“to”,“all”,“so”,“an”,“by”,“of”,“than”;
词性特征:“CC:(表示连词)”、“CD:(表示基数词)”、“DT:determiner(表示限定词)”、“EX:(存在量词)”、“FW:foreign word(外来词)”、“IN:preposition or conjunction,subordinating(介词或从属连词)”、“JJ:adjective or numeral,ordinal(形容词或序数词)”、“JJR:adjective,comparative(形容词比较级)”、“JJS:adjective,superlative(形容词最高级)”、“LS:list item marker(列表标识)”、“MD:modal auxiliary(情态助动词)”、“NN:(常用名词)”、“NNS:(常用名词复数)”、“NNP:(专有名词单数)”、“NNPS:(专有名词复数)”、“PDT:pre-determiner(前位限定词)”、“POS:genitive marker(所有格标记)”、“PRP:pronoun,personal(人称代词)”、“PRP$:(物主代词)”、“RB:adverb(副词)”、“RBR:adverb,comparative(副词比较级)”、“RBS:(副词最高级)”、“RP:Particle(小品词)”、“SYM:symbol(符号)”、“TO:”to”as preposition or infinitivemarker(‘to’作为介词或不定式标记)”、“UH:(感叹词)”、“VB:Verb,base form(动词,一般式)”“VBD:Verb,past tense(动词过去式)”、“VBG:Verb,gerund or presentparticiple(动词,动名词或现在分词)”、“VBN:Verb,past participle(动词,过去分词)”、“VBP:Verb,non-3rd person singular present(动词,非第三人称单数)”、“VBZ:Verb,3rd person singular present(动词,第三人称单数)”、“WDT:WH-determiner(WH限定词)”、“WP:WH-pronoun(WH代词)”、“WP$:WH-pronoun,possessive(WH所有格代词)”、“WRB:Wh-adverb(WH副词)”;
Bigrams(双连词):“I’m”、“it is”、”at the”、“you’re”、“a good”、“how to”、”have been”、“have a”、“all of”、“can be”、”I would”、“there is”、“will be”、“I’ve”、”I was”、“thank you”、“be a”、“we’re”、”it was”、“for this”;
Trigrams(三连词):“one of my”、“I'm so”、“I just liked”、“am going to”、“part of the”、“if you are”、“how to make”、“I will be”;
语法关系特征:“abbrev:abbreviation modifier,缩写修饰符”、
“acomp:adjectival complement,形容词的补充”、
“advcl:adverbial clause modifier,状语从句修饰词”、
“advmod:adverbial modifier状语”、
“agent:agent,代理,一般有by的时候出现”、
“amod:adjectival modifier形容词”、
“appos:appositional modifier,同位词”、
“attr:attributive,属性”、
“aux:auxiliary,非主要动词和助词”、
“auxpass:passive auxiliary被动词”
“cc:coordination,并列关系”
“ccomp:clausal complement从句补充”
“complm:complementizer,引导从句中的补语”
“conj:conjunct,连接两个并列的词”
“cop:copula。系动词,命题主词与谓词间的连系”
“csubj:clausal subject,从主关系”
“csubjpass:clausal passive subject主从被动关系”
“dep:dependent依赖关系”
“det:determiner决定词,如冠词等”
“dobj:direct object直接宾语”
“expl:expletive,主要是抓取there”
“infmod:infinitival modifier,动词不定式”
“iobj:indirect object,间接宾语”
“mark:marker,主要出现在包含“that”“whether”“because”“when”的语句中”
“mwe:multi-word expression,多个词的表示”
“neg:negation modifier否定词”
“nn:noun compound modifier名词组合形式”
“npadvmod:noun phrase as adverbial modifier名词作状语”
“nsubj:nominal subject,名词主语”
“nsubjpass:passive nominal subject,被动的名词主语”
“num:numeric modifier,数值修饰”
“number:element of compound number,组合数字”
“parataxis:parataxis:parataxis,并列关系”
“partmod:participial modifier动词形式的修饰”
“pcomp:prepositional complement,介词补充”
“pobj:object of a preposition,介词的宾语”
“poss:possession modifier,所有形式,所有格”
“possessive:possessive modifier,所有者修饰”
“preconj:preconjunct,结合词关系,常常是出现在‘either’‘both’,‘neither’的情况下”
“predet:predeterminer,前缀决定,常常是表示所有”
“prep:prepositional modifier,前置修饰词”
“prepc:prepositional clausal modifier,介词短语修饰子句”
“prt:phrasal verb particle,动词短语”
“purpcl:purpose clause modifier,目的从句”
“quantmod:quantifier phrase modifier,数量短语”
“rcmod:relative clause modifier相关关系”
“ref:referent,指示物,指代”
“rel:relative,相对关系”
“root:root,最重要的词,根节点”
“xsubj:controlling subject控制主题”
在多账户的检测处理中,每个用户帐户生成的文本内容由一系列用户发布的短文本帖子组成。短文本帖子是提取特征向量的最小单位。而每个短文本帖子提取各种后生成的特征向量成为特征向量样本点,对UGC网站用户帐户的文本内容集提取特征后,每个用户帐户则对应一系列特征向量样本点。检测处理模块则给予各个用户账号所对应的一系列特征向量样本点,计算每个用户账户的用户账户集D中的每个用户账号Di的自关联相似度和互关联相似度:
用户账号Di的自关联相似度Si(Di,Di):
每选取K(1≤1≤10)个特征向量样本点组成一个数据点。针对UGC网站的每个用户帐户Di,分别两次无重复选取M(M≥2)个数据点集合N1i、N2i,随着组成数据点的特征向量样本点的数量增多,每个数据点含有用户书写特征信息量越大。同时,训练单类分类器的数据点数量越多,得到的单类分类器模型越完美,能够全面表现该用户的语言书写特征。但是,每个用户帐户中含有的特征向量样本点的数量有限,使用越多的特征向量样本点组成数据点,每个账户中含有的数据点数量越少。由于每个UGC网站账户中含有的特征向量样本点数量不等,因此对于不同的UGC网站,K和M的最优值往往不同。在本具体实施中,以K=5,M=100能够较好的使组成数据点的特征向量样本点数量与帐户中含有的数据点数量达到平衡,从而使检测识别准确率达到最高。
分别利用数据点集合N1i作为训练集训练单类分类器OC-SVM,利用数据点集合N2i作为测试集,单类分类器输出的准确率记为Si(N1i,N2i)。相反,利用数据点集合N2i训练分类器,数据点集合N1i作为测试集,得到的准确率记为Si(N2i,N1i)。因此,用户帐户Di的自关联相似度可以表示为Si(Di,Di)=Si(N1i,N2i)×Si(N2i,N1i)。上述交换两个数据点集合作为训练集和测试集的过程称为交互的训练和测试单分类分类器。
用户账号Di的互关联相似度Si(Di,Qj),其中Qj∈D,Di∈D,且i≠j:
分别从用户帐户Di和用户帐户Qj中选取M个数据点得到数据点集合NDi、NQj,通过上述类似的交互的训练和测试单分类分类器后得到所对应的准确率Si(NDi,NQj)和Si(NQj,NDi)。用户帐户Di的互关联相似度可以表示为互关联相似度为:Si(Di,Qj)=Si(NDi,NQj)×Si(NQj,NDi)。
查找输出模块:基于检测处理模块输出的用户账号Di的自关联相似度和互关联相似度,输出用户账号Di的相同账号:
随机从用户账号集D中选取一个用户帐户Di,将Di与其他帐户Qj(Qj∈D,且i≠j)的互关联相似度Si(Di,Qj)同其自关联相似度相比较,如果两者的值相差不大(即|Si(Di,Di)-Si(Di,Qj)|≤ε,(0<ε≤3%),则视为用户帐户Di和用户帐户Qj属于同一真实用户。将所有与用户帐户Di属于同一真实用户的用户帐户加入集合Gi中(集合Gi表示用户帐户集合D中与帐户Di属于同一真实用户的所有帐户集合);然后,将集合Gi中的所有帐户从用户账号集D中删除,完成对用户账号集D的更新处理;
重复上述查找用户帐户Di所对应的相同账号,得到集合Gi的执行过程,在用户账号集D中查找其他用户账号所对应的相同的账号,直至用户账号集D为空。最后输出一UGC网站中每个真实用户所含有帐户列表,即输出一系列集合Gi。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (9)
1.一种用于UGC网站平台的多账户检测方法,其特征在于,包括下列步骤:
步骤1:从UGC网站平台的本地数据库中确定用户账户集D,并对所述用户账户集D中的每个用户账号,分别提取各用户账号生成的四个以上文本内容;
步骤2:对用户账户集D中的每个用户账号的各个文本内容进行特征提取,生成对应的特征向量样本点;
步骤3:分别计算用户账户集D中的每个用户账号Di的自关联相似度和互关联相似度:
步骤301:用户账号Di的自关联相似度:
每选取K个特征向量样本点组成用户账号Di的一个数据点,所述K的取值为[1,10];
对每个用户账号Di,选取两组不同数据点组成集合N1i和N2i,两个集合所包含的数据点个数均为M个,所述M大于或等于2;
以数据点集合N1i作为训练集训练单类分类器,将数据点集合N2i作为测试集,记录当前单类分类器输出的准确率为Si(N1i,N2i);以数据点集合N2i作为训练集训练单类分类器,将数据点集合N1i作为测试集,记录当前单类分类器输出的准确率为Si(N2i,N1i);
用户账号Di的自关联相似度为所述准确率Si(N1i,N2i)和准确率Si(N2i,N1i)的乘积;
步骤302:用户账号Di关于用户账号Qj的互关联相似度:
分别从用户账号Di与用户账号Qj中选取M个不同数据点,组成集合NDi和NQj,其中用户账号Qj属于用户账户集D,且与用户账号Di的账户名不同;
以数据点集合NDi作为训练集训练单类分类器,将数据点集合NQj作为测试集,记录当前单类分类器输出的准确率为Si(NDi,NQj);以数据点集合NQj作为训练集训练单类分类器,将数据点集合NDi作为测试集,记录当前单类分类器输出的准确率为Si(NQj,NDi);
用户账号Di的互关联相似度为所述准确率Si(NDi,NQj)和准确率Si(NQj,NDi)的乘积;
步骤4:基于用户账号Di的自关联相似度和互关联相似度,输出用户账号Di的相同账号:若用户账号Di的自关联相似度与关于用户账号Qj的互关联相似度的差值小于或等于预设阈值,则用户账号Qj与用户账号Di的相同账号。
2.如权利要求1所述的方法,其特征在于,所述步骤4中,预设阈值的取值范围为(0,3%]。
3.如权利要求1或2所述的方法,其特征在于,所述步骤2中,在对每个用户账号的各个文本内容进行特征提取时,首先基于每个文本的字符数和语种对提取的多个文本内容进行初始过滤处理,再基于预设特征字符对过滤后的各个文本进行特征提取;
所述初始过滤处理具体为:若文本的字符数小于预设阈值,则从用户账户集D中删除所述文本对应的用户账号;若文本内容是非英语语种的文本,则删除该文本。
4.如权利要求3所述的方法,其特征在于,所述步骤2还包括,对执行完初始过滤处理的各文本内容进行字符过滤处理:将各个文本内容中除了‘.’、‘,’、‘’’、‘?’、‘!’、‘;’、‘:’、‘(’、‘)’以外的标点符号删除;以及除英文单词外的文本内容标识符删除。
5.如权利要求3或4所述的方法,其特征在于,所述预设特征字符包括:
字母特征:单个的大小写英文字母;
数字特征:从0到9的数字符号;
标点符号:‘.’、‘,’、‘’’、‘?’、‘!’、‘;’、‘:’、‘(’、‘)’;
虚词特征:“a”,“I”,“his”,“that”,“it”,“you”,“had”,“with”,“as”,“for”,“her”,“the”,“she”,“but”,“him”,“in”,“not”,“is”,“on”,“my”,“have”,“was”,“and”,“be”,“me”,“he”,“they”,“from”,“at”,“this”,“which”,“there”,“one”,“to”,“all”,“so”,“an”,“by”,“of”,“than”;
词性特征:“CC”、“CD”、“DT”、“EX”、“FW”、“IN”、“JJ”、“JJR”、“JJS”、“LS”、“MD”、“NN”、“NNS”、“NNP”、“NNPS”、“PDT”、“POS”、“PRP”、“PRP$”、“RB”、“RBR”、“RBS”、“RP”、“SYM”、“TO”、“UH”、“VB”“VBD”、“VBG”、“VBN”、“VBP”、“VBZ”、“WDT”、“WP”、“WP$”、“WRB”。
6.如权利要求3或4所述的方法,其特征在于,所述预设特征字符还包括:
双连词字符:“I’m”、“it is”、”at the”、“you’re”、“a good”、“how to”、”have been”、“have a”、“all of”、“can be”、”I would”、“there is”、“will be”、“I’ve”、”I was”、“thank you”、“be a”、“we’re”、”it was”、“for this”。
7.如权利要求3或4所述的方法,其特征在于,所述预设特征字符还包括:
三连词字符:“one of my”、“I'm so”、“I just liked”、“am going to”、“part of the”、“ifyou are”、“how to make”、“I will be”。
8.如权利要求3或4所述的方法,其特征在于,所述预设特征字符还包括:
语法关系特征:“abbrev”、“acomp”、“advcl”、“advmod”、“agent”、“amod”、“appos”、“attr”、“aux”、“auxpass”“cc”、“ccomp”、“complm”、“conj”、“cop”、“csubj”、“csubjpass”、“dep”、“det”、“dobj”、“expl”、“infmod”、“iobj”、“mark”、“mwe”、“neg”、“nn”、“npadvmod”、“nsubj”、“nsubjpass”、“num”、“number”、“parataxis”、“partmod”、“pcomp”、“pobj”、“poss”、“possessive”、“preconj”、“predet”、“prep”、“prepc”、“prt”、“purpcl”、“quantmod”、“rcmod”、“ref”、“rel”、“root”、“xsubj”。
9.一种用于UGC网站平台的多账户检测装置,其特征在于,包括:
数据采集模块:从UGC网站平台的本地数据库中确定用户账户集D,并对所述用户账户集D中的每个用户账号,分别提取各用户账号生成的四个以上文本内容;
特征提取模块:基于数据采集模块输出的用户账户和对应的文本内容信息,对用户账户集D中的每个用户账号的各个文本内容进行特征提取,生成对应的特征向量样本点;
检测处理模块:特征提取模块输出的每个用户账号所对应的特征向量样本点,分别计算用户账户集D中的每个用户账号Di的自关联相似度和互关联相似度:
用户账号Di的自关联相似度为:每选取K个特征向量样本点组成用户账号Di的一个数据点,所述K的取值为[1,10];对每个用户账号Di,选取两组不同数据点组成集合N1i和N2i,两个集合所包含的数据点个数均为M个,所述M大于或等于2;以数据点集合N1i作为训练集训练单类分类器,将数据点集合N2i作为测试集,记录当前单类分类器输出的准确率为Si(N1i,N2i);以数据点集合N2i作为训练集训练单类分类器,将数据点集合N1i作为测试集,记录当前单类分类器输出的准确率为Si(N2i,N1i);取所述准确率Si(N1i,N2i)和准确率Si(N2i,N1i)的乘积为用户账号Di的自关联相似度;
用户账号Di关于用户账号Qj的互关联相似度为:分别从用户账号Di与用户账号Qj中选取M个不同数据点,组成集合NDi和NQj,其中用户账号Qj属于用户账户集D,且与用户账号Di的账户名不同;以数据点集合NDi作为训练集训练单类分类器,将数据点集合NQj作为测试集,记录当前单类分类器输出的准确率为Si(NDi,NQj);以数据点集合NQj作为训练集训练单类分类器,将数据点集合NDi作为测试集,记录当前单类分类器输出的准确率为Si(NQj,NDi);取所述准确率Si(NDi,NQj)和准确率Si(NQj,NDi)的乘积为用户账号Di的互关联相似度;
查找输出模块:基于检测处理模块输出的用户账号Di的自关联相似度和互关联相似度,输出用户账号Di的相同账号:若用户账号Di的自关联相似度与关于用户账号Qj的互关联相似度的差值小于或等于预设阈值,则用户账号Qj为用户账号Di的相同账号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410454038.6A CN104239490B (zh) | 2014-09-05 | 2014-09-05 | 一种用于ugc网站平台的多账户检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410454038.6A CN104239490B (zh) | 2014-09-05 | 2014-09-05 | 一种用于ugc网站平台的多账户检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104239490A true CN104239490A (zh) | 2014-12-24 |
CN104239490B CN104239490B (zh) | 2017-05-10 |
Family
ID=52227549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410454038.6A Expired - Fee Related CN104239490B (zh) | 2014-09-05 | 2014-09-05 | 一种用于ugc网站平台的多账户检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104239490B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573057A (zh) * | 2015-01-22 | 2015-04-29 | 电子科技大学 | 一种用于跨ugc网站平台的帐户关联方法 |
WO2016119275A1 (zh) * | 2015-01-30 | 2016-08-04 | 深圳市华傲数据技术有限公司 | 网络账号识别匹配方法 |
CN106034149A (zh) * | 2015-03-13 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 一种账户识别方法及装置 |
CN106126654A (zh) * | 2016-06-27 | 2016-11-16 | 中国科学院信息工程研究所 | 一种基于用户名相似度的跨网站用户关联方法 |
CN106529110A (zh) * | 2015-09-09 | 2017-03-22 | 阿里巴巴集团控股有限公司 | 一种用户数据分类的方法和设备 |
CN107018000A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 账户关联方法和装置 |
CN108985954A (zh) * | 2018-07-02 | 2018-12-11 | 武汉斗鱼网络科技有限公司 | 一种建立各标识的关联关系的方法以及相关设备 |
CN111259985A (zh) * | 2020-02-19 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 基于业务安全的分类模型训练方法、装置和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6484136B1 (en) * | 1999-10-21 | 2002-11-19 | International Business Machines Corporation | Language model adaptation via network of similar users |
US7725421B1 (en) * | 2006-07-26 | 2010-05-25 | Google Inc. | Duplicate account identification and scoring |
KR101022373B1 (ko) * | 2004-01-29 | 2011-03-22 | 주식회사 케이티 | 중복 사용자 계정을 허용하는 로그인 시스템과 사용자계정 등록 방법 및 등록된 사용자의 인증 방법 |
CN102200987A (zh) * | 2011-01-27 | 2011-09-28 | 北京开心人信息技术有限公司 | 一种基于用户账号行为分析的查找马甲账号的方法及系统 |
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN103631834A (zh) * | 2012-08-21 | 2014-03-12 | 财团法人工业技术研究院 | 发掘可疑帐号的分身群组的方法与系统 |
CN103729474A (zh) * | 2014-01-23 | 2014-04-16 | 中国科学院计算技术研究所 | 用于识别论坛用户马甲账号的方法和系统 |
CN103778186A (zh) * | 2013-12-31 | 2014-05-07 | 南京财经大学 | 一种“网络马甲”的检测方法 |
-
2014
- 2014-09-05 CN CN201410454038.6A patent/CN104239490B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6484136B1 (en) * | 1999-10-21 | 2002-11-19 | International Business Machines Corporation | Language model adaptation via network of similar users |
KR101022373B1 (ko) * | 2004-01-29 | 2011-03-22 | 주식회사 케이티 | 중복 사용자 계정을 허용하는 로그인 시스템과 사용자계정 등록 방법 및 등록된 사용자의 인증 방법 |
US7725421B1 (en) * | 2006-07-26 | 2010-05-25 | Google Inc. | Duplicate account identification and scoring |
CN102200987A (zh) * | 2011-01-27 | 2011-09-28 | 北京开心人信息技术有限公司 | 一种基于用户账号行为分析的查找马甲账号的方法及系统 |
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN103631834A (zh) * | 2012-08-21 | 2014-03-12 | 财团法人工业技术研究院 | 发掘可疑帐号的分身群组的方法与系统 |
CN103778186A (zh) * | 2013-12-31 | 2014-05-07 | 南京财经大学 | 一种“网络马甲”的检测方法 |
CN103729474A (zh) * | 2014-01-23 | 2014-04-16 | 中国科学院计算技术研究所 | 用于识别论坛用户马甲账号的方法和系统 |
Non-Patent Citations (2)
Title |
---|
张平: "海量数据相似重复记录检测的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
武晓春等: "基于语义分析的作者身份识别方法研究", 《中文信息学报》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573057A (zh) * | 2015-01-22 | 2015-04-29 | 电子科技大学 | 一种用于跨ugc网站平台的帐户关联方法 |
CN104573057B (zh) * | 2015-01-22 | 2017-10-27 | 电子科技大学 | 一种用于跨ugc网站平台的帐户关联方法 |
WO2016119275A1 (zh) * | 2015-01-30 | 2016-08-04 | 深圳市华傲数据技术有限公司 | 网络账号识别匹配方法 |
CN106034149A (zh) * | 2015-03-13 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 一种账户识别方法及装置 |
CN106034149B (zh) * | 2015-03-13 | 2019-06-18 | 阿里巴巴集团控股有限公司 | 一种账户识别方法及装置 |
CN106529110A (zh) * | 2015-09-09 | 2017-03-22 | 阿里巴巴集团控股有限公司 | 一种用户数据分类的方法和设备 |
CN107018000A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 账户关联方法和装置 |
CN106126654A (zh) * | 2016-06-27 | 2016-11-16 | 中国科学院信息工程研究所 | 一种基于用户名相似度的跨网站用户关联方法 |
CN106126654B (zh) * | 2016-06-27 | 2019-10-18 | 中国科学院信息工程研究所 | 一种基于用户名相似度的跨网站用户关联方法 |
CN108985954A (zh) * | 2018-07-02 | 2018-12-11 | 武汉斗鱼网络科技有限公司 | 一种建立各标识的关联关系的方法以及相关设备 |
CN108985954B (zh) * | 2018-07-02 | 2022-06-21 | 武汉斗鱼网络科技有限公司 | 一种建立各标识的关联关系的方法以及相关设备 |
CN111259985A (zh) * | 2020-02-19 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 基于业务安全的分类模型训练方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104239490B (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104239490B (zh) | 一种用于ugc网站平台的多账户检测方法及装置 | |
CN104573057B (zh) | 一种用于跨ugc网站平台的帐户关联方法 | |
CN102622338B (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
CN104991891B (zh) | 一种短文本特征提取方法 | |
CN104881402B (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN107153658A (zh) | 一种基于关键字加权算法的舆情热词发现方法 | |
Suba et al. | Hybrid inflectional stemmer and rule-based derivational stemmer for gujarati | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
Jain et al. | Sarcasm detection of tweets: A comparative study | |
Gao et al. | Text classification research based on improved Word2vec and CNN | |
US20150331953A1 (en) | Method and device for providing search engine label | |
US20240028650A1 (en) | Method, apparatus, and computer-readable medium for determining a data domain associated with data | |
Sembok et al. | Arabic word stemming algorithms and retrieval effectiveness | |
Saghayan et al. | Exploring the impact of machine translation on fake news detection: A case study on persian tweets about covid-19 | |
Fahrni et al. | HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013. | |
Gupta | Automatic stemming of words for Punjabi language | |
Tran et al. | Semi-supervised approach based on co-occurrence coefficient for named entity recognition on twitter | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
JP6049201B2 (ja) | 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ | |
CN113191145A (zh) | 关键词的处理方法、装置、电子设备和介质 | |
Tran et al. | Building an enhanced sentiment classification framework based on natural language processing | |
Yang et al. | Exploring word similarity to improve chinese personal name disambiguation | |
CN108427769A (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
Nguyen et al. | NLP@ UIT at SemEval-2019 task 4: The paparazzo hyperpartisan news detector | |
Kapočiūtė-Dzikienė et al. | A comparison of approaches for sentiment classification on lithuanian internet comments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170510 Termination date: 20190905 |
|
CF01 | Termination of patent right due to non-payment of annual fee |