CN104239490A

CN104239490A - 一种用于ugc网站平台的多账户检测方法及装置

Info

Publication number: CN104239490A
Application number: CN201410454038.6A
Authority: CN
Inventors: 罗绪成; 刘梦娟; 刘峤; 陈伟; 刘亚军; 张翔; 刘倩倩; 汤四见; 李伟铭; 赵鹏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-09-05
Filing date: 2014-09-05
Publication date: 2014-12-24
Anticipated expiration: 2034-09-05
Also published as: CN104239490B

Abstract

本发明公开了一种用于UGC网站平台的多账户检测方法及装置，属于数据关联技术领域。本发明的方法通过一种交互式的单类分类器检测方法完成多账户检测，提取每个用户账户的文本内容并进行特征提取，形成一系列的特征向量样本点，再提取一系列特征向量样本点分别计算每个用户账户的自关联度，以及与其他用户账户的互关联度；若用户账户D_i的自关联度与任意其他用户账户的互关联度的差值小于预设阈值，则认为该用户账户与用户账户D_i为同一真实账户。在检测时，只需要各用户账户所生成的文本内容，不需要真实用户身份信息。基于上述方法，本发明还剔除了一种用于UGC网站平台的多账户检测方法及装置。本发明用于UGC网站平台的多账户检测，准确率高、适用性好。

Description

一种用于UGC网站平台的多账户检测方法及装置

技术领域

本发明属于数据关联技术领域，尤其涉及一种用于UGC网站平台的多账户检测。

背景技术

UGC(User Generated Content)用户生成内容，即用户将自己原创的内容(文本、视频、语音等)通过互联网平台进行展示或者提供给其他用户。UGC(User Generated Content)网站主要是指基于用户生成内容的在线社交网站和在线论坛等，例如twitter、google+、facebook等，它们已经成为主流分享信息的网络平台。

随着UGC网站功能逐渐完善，随之带来的问题也逐渐增多，最为显著的就是“多账号攻击”，这种现象对UGC网站平台的后台管理带来了严重的困扰，在UGC网站后台的存储、计算、传输、应用等方面都带来了额外的开销，妨碍了网络资源的合理应用，严重影响了UGC网站平台的性能。因此，对UGC网站上属于同一用户的的多个帐户进行检测识别引起了广泛的关注。

在多账户检测方法选取方面，现有的研究大部分采用多类分类器的方法来检测属于同一用户的多个帐户。在训练多类分类器时，使用的训练集是由一系列标有真实用户身份的帐户组成，将一个帐户所包含的数据分成多个部分，每一部分代表一个虚拟的用户帐户，从而假设出属于同一用户的多个帐户，来训练和测试分类器。但是，在实际应用中，UGC网站后台处理“多账户攻击”时，如果使用多类分类器的方法，很难确定UGC网站中帐户的真实身份，以及UGC网站中总共含有真实用户的数量，从而很难构成真实的训练集。因此，在UGC网站平台后台管理过程中，使用多类分类器的方法对属于同一用户的多账户进行检测不可行。

另外，现有的多用户帐户检测系统有很多种，这些方法的主要区别之处在于特征和检测方法的选取不同。在特征选取方面，主要可分为以下三种：第一种是基于帐户的名字提取特征检测属于同一用户的多帐户。通过从帐户名称中抽取特征来识别名字相似的用户帐户，将帐户名字相似的帐户划分为一个集合，这样可以把UGC网站的帐户划分为若干子集，每个子集对应于一位用户，但是，这种方法有个严重的缺点：如果某个用户在注册多个帐户时刻意使用了无规则的帐户名字，那么这种方法是无效的。因此，这种方法的健壮性不能满足实际需求。第二种是基于对帐户的语言书写风格来识别多用户帐户。因为每个人都有各自的书写习惯，并且该特征比较稳定不容易改变，但是现有的研究主要是针对博客等内容较长的网站进行分析，并且现有研究中所提取的语言书写风格特征数量比较大，种类比较少，同时，准确率还不是很理想。第三种是基于对帐户公开的信息进行分析来识别多个用户帐户。除每个帐户在注册时所公布的个人资料以外，用户帐户生成的信息中往往也含有关于用户个人的信息，例如时间、性别等，通过对帐户公布的这些信息进行分析，往往可以对公开信息相似的多个帐户进行识别。然而，帐户所公布的个人信息属于用户的个人隐私，用户所公布的不一定真实，尤其对于那些不法用户来说，所以这种方法的健壮性和准确率都不能得到保障，不能投入到实际使用中。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于单类分类器的多账户检测方法识别。

本发明的一种用于UGC网站平台的多账户检测方法，包括下列步骤：

步骤1：从UGC网站平台的本地数据库中确定用户账户集D，并对所述用户账户集D中的每个用户账号，分别提取各用户账号生成的四个以上文本内容；

步骤2：对用户账户集D中的每个用户账号的各个文本内容进行特征提取，生成对应的特征向量样本点；

步骤3：分别计算用户账户集D中的每个用户账号D_i的自关联相似度和互关联相似度：

步骤301：用户账号D_i的自关联相似度：

每选取K个特征向量样本点组成用户账号D_i的一个数据点，所述K的取值为[1,10]；

对每个用户账号D_i，选取两组不同数据点组成集合N1_i和N2_i，两个集合所包含的数据点个数均为M个，所述M大于或等于2；

以数据点集合N1_i作为训练集训练单类分类器，将数据点集合N2_i作为测试集，记录当前单类分类器输出的准确率为S_i(N1_i,N2_i)；以数据点集合N2_i作为训练集训练单类分类器，将数据点集合N1_i作为测试集，记录当前单类分类器输出的准确率为S_i(N2_i,N1_i)；

用户账号D_i的自关联相似度为所述准确率S_i(N1_i,N2_i)和准确率S_i(N2_i,N1_i)的乘积；

步骤302：用户账号D_i关于用户账号Q_j的互关联相似度：

分别从用户账号D_i与用户账号Q_j中选取M个不同数据点，组成集合ND_i和NQ_j，其中用户账号Q_j属于用户账户集D，且与用户账号D_i的账户名不同；

以数据点集合ND_i作为训练集训练单类分类器，将数据点集合NQ_j作为测试集，记录当前单类分类器输出的准确率为S_i(ND_i,NQ_j)；以数据点集合NQ_j作为训练集训练单类分类器，将数据点集合ND_i作为测试集，记录当前单类分类器输出的准确率为S_i(NQ_j,ND_i)；

用户账号D_i的互关联相似度为所述准确率S_i(ND_i,NQ_j)和准确率S_i(NQ_j,ND_i)的乘积；

步骤4：基于用户账号D_i的自关联相似度和互关联相似度，输出用户账号D_i的相同账号：若用户账号D_i的自关联相似度与关于用户账号Q_j的互关联相似度的差值小于或等于预设阈值，则用户账号Q_j与用户账号D_i的相同账号。

在本发明的检测方法中，通过使用单类分类器完成UGC网站中属于同一用户的多帐户进行检测，解决了传统的多类分类器检测方法因需要的训练集为真实的用户身份信息而实用性低的技术问题，基于本发明所提出了一种交互式的单类分类器检测方法，在不需要用户账号的真实用户身份信息即可完成对对账户的检测和识别。

为了进一步提升检测的准确率，本发明在对每个用户账号的各个文本内容进行特征提取时，首先基于每个文本的字符数和语种对提取的多个文本内容进行初始过滤处理，再基于预设特征字符对过滤后的各个文本进行特征提取；所述初始过滤处理具体为：若文本的字符数小于预设阈值，则从用户账户集D中删除所述文本对应的用户账号；若文本内容是非英语语种的文本，则删除该文本。

为了减少现有的预设特征字符的数量，从而提高检测处理速度，本发明的预设特征字符包括：

字母特征：单个的大小写英文字母；

数字特征：从0到9的数字符号；

标点符号：‘.’、‘,’、‘’’、‘？’、‘！’、‘；’、‘:’、‘(’、‘)’；

虚词特征：“a”,“I”,“his”,“that”,“it”,“you”,“had”,“with”,“as”,“for”,“her”,“the”,“she”,“but”,“him”,“in”,“not”,“is”,“on”,“my”,“have”,“was”,“and”,“be”,“me”,“he”,“they”,“from”,“at”,“this”,“which”,“there”,“one”,“to”,“all”,“so”,“an”,“by”,“of”,“than”；

词性特征：“CC”、“CD”、“DT”、“EX”、“FW”、“IN”、“JJ”、“JJR”、“JJS”、“LS”、“MD”、“NN”、“NNS”、“NNP”、“NNPS”、“PDT”、“POS”、“PRP”、“PRP$”、“RB”、“RBR”、“RBS”、“RP”、“SYM”、“TO”、“UH”、“VB”“VBD”、“VBG”、“VBN”、“VBP”、“VBZ”、“WDT”、“WP”、“WP$”、“WRB”。

另外，在帐户特征提取方面，本发明提出了一些新特征类别(双连词、三连词以及语法关系特征在)来提高语言书写特征对帐户的识别程度。这些特征全部仅与帐户的语言书写形式相关，与账户名字、生成内容主题等均无关，而且特征数量远远小于以往类似研究中所使用的特征数量(1000多种)。所新增的特征类别分别为：

双连词字符：“I’m”、“it is”、”at the”、“you’re”、“a good”、“how to”、”have been”、“have a”、“all of”、“can be”、”I would”、“there is”、“will be”、“I’ve”、”I was”、“thank you”、“be a”、“we’re”、”it was”、“for this”。

三连词字符：“one of my”、“I'm so”、“I just liked”、“am going to”、“part of the”、“ifyou are”、“how to make”、“I will be”。

语法关系特征：“abbrev”、“acomp”、“advcl”、“advmod”、“agent”、“amod”、“appos”、“attr”、“aux”、“auxpass”“cc”、“ccomp”、“complm”、“conj”、“cop”、“csubj”、“csubjpass”、“dep”、“det”、“dobj”、“expl”、“infmod”、“iobj”、“mark”、“mwe”、“neg”、“nn”、“npadvmod”、“nsubj”、“nsubjpass”、“num”、“number”、“parataxis”、“partmod”、“pcomp”、“pobj”、“poss”、“possessive”、“preconj”、“predet”、“prep”、“prepc”、“prt”、“purpcl”、“quantmod”、“rcmod”、“ref”、“rel”、“root”、“xsubj”。

对应于本发明的检测方法，本发明还提出了一种用于UGC网站平台的多账户检测装置，其特征在于，包括：

数据采集模块：从UGC网站平台的本地数据库中确定用户账户集D，并对所述用户账户集D中的每个用户账号，分别提取各用户账号生成的四个以上文本内容；

特征提取模块：基于数据采集模块输出的用户账户和对应的文本内容信息，对用户账户集D中的每个用户账号的各个文本内容进行特征提取，生成对应的特征向量样本点；

检测处理模块：特征提取模块输出的每个用户账号所对应的特征向量样本点，分别分别计算用户账户集D中的每个用户账号D_i的自关联相似度和互关联相似度：

用户账号D_i的自关联相似度为：每选取K个特征向量样本点组成用户账号D_i的一个数据点，所述K的取值为[1,10]；对每个用户账号D_i，选取两组不同数据点组成集合N1_i和N2_i，两个集合所包含的数据点个数均为M个，所述M大于或等于2；以数据点集合N1_i作为训练集训练单类分类器，将数据点集合N2_i作为测试集，记录当前单类分类器输出的准确率为S_i(N1_i,N2_i)；以数据点集合N2_i作为训练集训练单类分类器，将数据点集合N1_i作为测试集，记录当前单类分类器输出的准确率为S_i(N2_i,N1_i)；取所述准确率S_i(N1_i,N2_i)和准确率S_i(N2_i,N1_i)的乘积为用户账号D_i的自关联相似度；

用户账号D_i关于用户账号Q_j的互关联相似度为：分别从用户账号D_i与用户账号Q_j中选取M个不同数据点，组成集合ND_i和NQ_j，其中用户账号Q_j属于用户账户集D，且与用户账号D_i的账户名不同；以数据点集合ND_i作为训练集训练单类分类器，将数据点集合NQ_j作为测试集，记录当前单类分类器输出的准确率为S_i(ND_i,NQ_j)；以数据点集合NQ_j作为训练集训练单类分类器，将数据点集合ND_i作为测试集，记录当前单类分类器输出的准确率为S_i(NQ_j,ND_i)；取所述准确率S_i(ND_i,NQ_j)和准确率S_i(NQ_j,ND_i)的乘积为用户账号D_i的互关联相似度；

查找输出模块：基于检测处理模块输出的用户账号D_i的自关联相似度和互关联相似度，输出用户账号D_i的相同账号：若用户账号D_i的自关联相似度与关于用户账号Q_j的互关联相似度的差值小于或等于预设阈值，则用户账号Q_j与用户账号D_i的相同账号。

综上所述，由于采用了上述技术方案，本发明的有益效果是：在对UGC网站上属于同一用户的多账户检测识别的准确率、健壮性和适用性方面较现有技术以往都有显著的提高。

附图说明

图1是本发明的检测装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，为了实现本发明的多账户检测识别，数据采集模块首先基于UGC网站平台的本地数据库输出中确定用户账户集D，并对所述用户账户集D中的每个用户账号，分别提取各用户账号生成的四个以上文本内容；由于每个UGC网站都会将各自网站中用户帐户生成的文本内容存储在本地数据库，所以，从UGC网站本地数据库中提取每个用户帐户生成的文本内容非常方便。在UGC网站中，每个用户帐户生成的文本内容由一系列用户发布的短文本帖子组成。短文本帖子是提取特征向量的最小单位。

特征提取模块：基于数据采集模块输出的用户账户和对应的文本内容信息，对用户账户集D中的每个用户账号的各个文本内容进行特征提取，生成对应的特征向量样本点。在该模块的具体实现时，即可以基于现有的特征提取方式完成对各个文本内容的特征提取处理，也可以是基于本发明所描述的进一步优化后的特征提取处理方案。

本发明进一步优化后的特征提取处理方案具体为：

初始过滤处理：就与预设的文本内容字符数阈值，将字符数低于预设阈值的文本内容所对应的用户账户从数据采集模块所输出的用户账户集D中删除，以及非英语语种的文本从数据采集模块所输出的各个文本内容集(每个用户账号所对应的文本内容集合)也删除。因为文本内容量较少的文本内容能提取到的特征向量较少，而少量的特征向量训练单类分类器生成的模型不能充分表达该帐户的语言书写特点，从而造成同其他用户帐户进行关联检测识别时准确率较低。

由于本具体实施方式中，所提取的特征都是基于英语的，所以将使用除英语以外的其他语种所书写的文本也过滤掉。

同时，为了抑制特征提取时的噪声，对当前各文本内容集的文本内容还进行字符过滤处理：即将各个文本内容中除了‘.’、‘,’、‘’’、‘？’、‘！’、‘；’、‘:’、‘(’、‘)’以外的标点符号删除；以及除英文单词外的文本内容标识符删除。

在完成上述特征提取的优化预处理后，即可基于预设特征字符对当前的各文本内容集行语言书写特征的提取。本模块中所提取的特征仅与用户语言书写特征有关。在提取词频特征时，本发明只提取与虚词相关的词频特征，并没有提取名词等词频特征，以防止提取的特征与主题相关。同时，本发明所提取的符号特征中全部是常用的符号，不包含一些特殊的、标志性的符号，以提高处理速度。另外，本发明在传统的语言书的预设特征字符的基础上进行了扩展，提出了一些新的特征字符：由常用虚词、动词等组合的双连词和三连词、词性特征、语法关系特征。这些新的特征对提高检测识别属于同一用户的多个帐户准确率上有显著作用。因此，在本具体实施中，所涉及的预设特征字符如表1所示：

表1

表1中所描述的虚词特征、词性特征、双连词、三连词、语法关系特征具体描述如下：

词性特征：“CC：(表示连词)”、“CD:(表示基数词)”、“DT:determiner(表示限定词)”、“EX：(存在量词)”、“FW:foreign word(外来词)”、“IN:preposition or conjunction,subordinating(介词或从属连词)”、“JJ:adjective or numeral,ordinal(形容词或序数词)”、“JJR:adjective,comparative(形容词比较级)”、“JJS:adjective,superlative(形容词最高级)”、“LS:list item marker(列表标识)”、“MD:modal auxiliary(情态助动词)”、“NN：(常用名词)”、“NNS：(常用名词复数)”、“NNP：(专有名词单数)”、“NNPS：(专有名词复数)”、“PDT:pre-determiner(前位限定词)”、“POS:genitive marker(所有格标记)”、“PRP:pronoun,personal(人称代词)”、“PRP$:(物主代词)”、“RB:adverb(副词)”、“RBR:adverb,comparative(副词比较级)”、“RBS：(副词最高级)”、“RP：Particle(小品词)”、“SYM:symbol(符号)”、“TO:”to”as preposition or infinitivemarker(‘to’作为介词或不定式标记)”、“UH：(感叹词)”、“VB：Verb,base form(动词，一般式)”“VBD：Verb,past tense(动词过去式)”、“VBG：Verb,gerund or presentparticiple(动词，动名词或现在分词)”、“VBN：Verb,past participle(动词，过去分词)”、“VBP：Verb,non-3rd person singular present(动词，非第三人称单数)”、“VBZ：Verb,3rd person singular present(动词，第三人称单数)”、“WDT:WH-determiner(WH限定词)”、“WP:WH-pronoun(WH代词)”、“WP$:WH-pronoun,possessive(WH所有格代词)”、“WRB:Wh-adverb(WH副词)”；

Bigrams(双连词)：“I’m”、“it is”、”at the”、“you’re”、“a good”、“how to”、”have been”、“have a”、“all of”、“can be”、”I would”、“there is”、“will be”、“I’ve”、”I was”、“thank you”、“be a”、“we’re”、”it was”、“for this”；

Trigrams(三连词):“one of my”、“I'm so”、“I just liked”、“am going to”、“part of the”、“if you are”、“how to make”、“I will be”；

语法关系特征：“abbrev:abbreviation modifier，缩写修饰符”、

“acomp:adjectival complement，形容词的补充”、

“advcl:adverbial clause modifier，状语从句修饰词”、

“advmod:adverbial modifier状语”、

“agent:agent，代理，一般有by的时候出现”、

“amod:adjectival modifier形容词”、

“appos:appositional modifier,同位词”、

“attr:attributive，属性”、

“aux:auxiliary，非主要动词和助词”、

“auxpass:passive auxiliary被动词”

“cc:coordination，并列关系”

“ccomp:clausal complement从句补充”

“complm:complementizer，引导从句中的补语”

“conj:conjunct，连接两个并列的词”

“cop:copula。系动词，命题主词与谓词间的连系”

“csubj:clausal subject，从主关系”

“csubjpass:clausal passive subject主从被动关系”

“dep:dependent依赖关系”

“det:determiner决定词，如冠词等”

“dobj:direct object直接宾语”

“expl:expletive，主要是抓取there”

“infmod:infinitival modifier，动词不定式”

“iobj:indirect object，间接宾语”

“mark:marker，主要出现在包含“that”“whether”“because”“when”的语句中”

“mwe:multi-word expression，多个词的表示”

“neg:negation modifier否定词”

“nn:noun compound modifier名词组合形式”

“npadvmod:noun phrase as adverbial modifier名词作状语”

“nsubj:nominal subject，名词主语”

“nsubjpass:passive nominal subject，被动的名词主语”

“num:numeric modifier，数值修饰”

“number:element of compound number，组合数字”

“parataxis:parataxis:parataxis，并列关系”

“partmod:participial modifier动词形式的修饰”

“pcomp:prepositional complement，介词补充”

“pobj:object of a preposition，介词的宾语”

“poss:possession modifier，所有形式，所有格”

“possessive:possessive modifier，所有者修饰”

“preconj:preconjunct，结合词关系，常常是出现在‘either’‘both’,‘neither’的情况下”

“predet:predeterminer，前缀决定，常常是表示所有”

“prep:prepositional modifier,前置修饰词”

“prepc:prepositional clausal modifier，介词短语修饰子句”

“prt:phrasal verb particle，动词短语”

“purpcl:purpose clause modifier，目的从句”

“quantmod:quantifier phrase modifier，数量短语”

“rcmod:relative clause modifier相关关系”

“ref:referent，指示物，指代”

“rel:relative,相对关系”

“root:root，最重要的词，根节点”

“xsubj:controlling subject控制主题”

在多账户的检测处理中，每个用户帐户生成的文本内容由一系列用户发布的短文本帖子组成。短文本帖子是提取特征向量的最小单位。而每个短文本帖子提取各种后生成的特征向量成为特征向量样本点，对UGC网站用户帐户的文本内容集提取特征后，每个用户帐户则对应一系列特征向量样本点。检测处理模块则给予各个用户账号所对应的一系列特征向量样本点，计算每个用户账户的用户账户集D中的每个用户账号D_i的自关联相似度和互关联相似度：

用户账号D_i的自关联相似度S_i(D_i,D_i)：

每选取K(1≤1≤10)个特征向量样本点组成一个数据点。针对UGC网站的每个用户帐户D_i，分别两次无重复选取M(M≥2)个数据点集合N1_i、N2_i，随着组成数据点的特征向量样本点的数量增多，每个数据点含有用户书写特征信息量越大。同时，训练单类分类器的数据点数量越多，得到的单类分类器模型越完美，能够全面表现该用户的语言书写特征。但是，每个用户帐户中含有的特征向量样本点的数量有限，使用越多的特征向量样本点组成数据点，每个账户中含有的数据点数量越少。由于每个UGC网站账户中含有的特征向量样本点数量不等，因此对于不同的UGC网站，K和M的最优值往往不同。在本具体实施中，以K＝5，M＝100能够较好的使组成数据点的特征向量样本点数量与帐户中含有的数据点数量达到平衡，从而使检测识别准确率达到最高。

分别利用数据点集合N1_i作为训练集训练单类分类器OC-SVM,利用数据点集合N2_i作为测试集，单类分类器输出的准确率记为S_i(N1_i,N2_i)。相反，利用数据点集合N2_i训练分类器，数据点集合N1_i作为测试集，得到的准确率记为S_i(N2_i,N1_i)。因此，用户帐户D_i的自关联相似度可以表示为S_i(D_i,D_i)＝S_i(N1_i,N2_i)×S_i(N2_i,N1_i)。上述交换两个数据点集合作为训练集和测试集的过程称为交互的训练和测试单分类分类器。

用户账号D_i的互关联相似度S_i(D_i,Q_j)，其中Q_j∈D,D_i∈D,且i≠j：

分别从用户帐户D_i和用户帐户Q_j中选取M个数据点得到数据点集合ND_i、NQ_j，通过上述类似的交互的训练和测试单分类分类器后得到所对应的准确率S_i(ND_i,NQ_j)和S_i(NQ_j,ND_i)。用户帐户D_i的互关联相似度可以表示为互关联相似度为：S_i(D_i,Q_j)＝S_i(ND_i,NQ_j)×S_i(NQ_j,ND_i)。

查找输出模块：基于检测处理模块输出的用户账号D_i的自关联相似度和互关联相似度，输出用户账号D_i的相同账号：

随机从用户账号集D中选取一个用户帐户D_i,将D_i与其他帐户Q_j(Q_j∈D,且i≠j)的互关联相似度S_i(D_i,Q_j)同其自关联相似度相比较，如果两者的值相差不大(即|S_i(D_i,D_i)-S_i(D_i,Q_j)|≤ε,(0＜ε≤3％)，则视为用户帐户D_i和用户帐户Q_j属于同一真实用户。将所有与用户帐户D_i属于同一真实用户的用户帐户加入集合G_i中(集合G_i表示用户帐户集合D中与帐户D_i属于同一真实用户的所有帐户集合)；然后，将集合G_i中的所有帐户从用户账号集D中删除，完成对用户账号集D的更新处理；

重复上述查找用户帐户D_i所对应的相同账号，得到集合G_i的执行过程，在用户账号集D中查找其他用户账号所对应的相同的账号，直至用户账号集D为空。最后输出一UGC网站中每个真实用户所含有帐户列表，即输出一系列集合G_i。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种用于UGC网站平台的多账户检测方法，其特征在于，包括下列步骤：

步骤301：用户账号D_i的自关联相似度：

步骤302：用户账号D_i关于用户账号Q_j的互关联相似度：

2.如权利要求1所述的方法，其特征在于，所述步骤4中，预设阈值的取值范围为(0，3％]。

3.如权利要求1或2所述的方法，其特征在于，所述步骤2中，在对每个用户账号的各个文本内容进行特征提取时，首先基于每个文本的字符数和语种对提取的多个文本内容进行初始过滤处理，再基于预设特征字符对过滤后的各个文本进行特征提取；

所述初始过滤处理具体为：若文本的字符数小于预设阈值，则从用户账户集D中删除所述文本对应的用户账号；若文本内容是非英语语种的文本，则删除该文本。

4.如权利要求3所述的方法，其特征在于，所述步骤2还包括，对执行完初始过滤处理的各文本内容进行字符过滤处理：将各个文本内容中除了‘.’、‘,’、‘’’、‘？’、‘！’、‘；’、‘:’、‘(’、‘)’以外的标点符号删除；以及除英文单词外的文本内容标识符删除。

5.如权利要求3或4所述的方法，其特征在于，所述预设特征字符包括：

字母特征：单个的大小写英文字母；

数字特征：从0到9的数字符号；

6.如权利要求3或4所述的方法，其特征在于，所述预设特征字符还包括：

7.如权利要求3或4所述的方法，其特征在于，所述预设特征字符还包括：

8.如权利要求3或4所述的方法，其特征在于，所述预设特征字符还包括：

9.一种用于UGC网站平台的多账户检测装置，其特征在于，包括：

检测处理模块：特征提取模块输出的每个用户账号所对应的特征向量样本点，分别计算用户账户集D中的每个用户账号D_i的自关联相似度和互关联相似度：

查找输出模块：基于检测处理模块输出的用户账号D_i的自关联相似度和互关联相似度，输出用户账号D_i的相同账号：若用户账号D_i的自关联相似度与关于用户账号Q_j的互关联相似度的差值小于或等于预设阈值，则用户账号Q_j为用户账号D_i的相同账号。