CN104573057A

CN104573057A - 一种用于跨ugc网站平台的帐户关联方法

Info

Publication number: CN104573057A
Application number: CN201510032702.2A
Authority: CN
Inventors: 罗绪成; 陈伟; 刘梦娟; 刘峤; 蓝天; 刘亚军; 汤四见; 赵鹏; 李伟铭
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-01-22
Filing date: 2015-01-22
Publication date: 2015-04-29
Anticipated expiration: 2035-01-22
Also published as: CN104573057B

Abstract

本发明公开了一种用于将多个UGC网站上属于同一实体用户的账户关联起来的方法，基原理是从UGC网站帐户生成的文内容中提取特征来关联不同UGC网站平台上属于同一实体用户的多个帐户。该方法数据获取、数据预处理、特征提取和逐层过滤组成。数据获取部分收集目标UGC网站用户帐户生成的文内容。数据预处理部分对文内容进行预处理。特征提取部分从文内容中提取性别特征、年龄特征、地理位置活动特征和写作风格特征。逐层过滤部分依次通过性别、年龄、地理位置活动和写作风格特征逐层过滤掉与给定用户账户不相关的账户。发明能够有效解决同一实体用户在不同UGC网站上的帐户之间不相关的问题，具有很高的实用价值。

Description

一种用于跨UGC网站平台的帐户关联方法

技术领域

本发明属于互联网账户分析领域，更为具体地讲，涉及一种用于跨UGC网站平台的针对属于同一实体用户的多帐户关联方法。

背景技术

UGC(User Generated Content)网站主要是指基于用户生成内容的在线社交网站和在线论坛等，目前比较著名的UGC网站有Facebook、Twitter、Google+、人人网、开心网、豆瓣、新浪微博、腾讯微博等，它们已经成为主流分享信息的网络平台。然而，各种UGC网站提供给网民的服务类别不同，例如Facebook、Google+、人人网主要为用户提供社交服务，Twitter、新浪微博、腾讯微博允许用户将自己的最新动态和想法分享出来，淘宝网、京东商城则主要用于电子商务。因此，在不同类别的网络中我们获取到的信息会有所不同，将某种类别UGC网站的用户行为信息通过分析处理后应用到另外一种类别的UGC网站中去，可能会收获意想不到的效果，例如我们可以将Facebook、Google+、Twitter、人人网、大众点评网这种含有社交属性网站的用户行为信息经过分析处理后应用到淘宝网、京东商城这种没有社交属性的电子商务类别的网站中，可以迅速提高网站的服务质量、商品推荐质量等。由于目前各UGC网站用户帐户之间信息相互独立，因此，对属于同一实体用户的跨UGC网站用户账户进行关联具有重要意义和价值。

同时，随着UGC网站迅速发展，有些人利用UGC网站平台发布虚假信息、散播不实言论等，来达到自己不可告人的目的。这些人主要通过匿名的方式在多个UGC网站帐户上发布消息。这些恶意行为被称为“跨网站帐户攻击”，这种现象对UGC网站平台的后台管理带来了严重的困扰，在UGC网站后台的存储、计算、传输、应用等方面都带来了额外的开销，妨碍了网络资源的合理应用，严重影响了UGC网站平台的性能，因此，对属于同一实体用户的跨UGC网站多帐户进行关联更加具有研究价值。

在对用户帐户建模方面，传统的账户关联的研究中，一部分研究通过从用户在使用UGC网站时发生的行为中抽取特征对用户帐户进行建模，这些传统研究中定义的用户特征包括用户使用UGC网站时进行的行为操作，包括鼠标停留时间、页面访问频次、检索词使用习惯等。在获得UGC网站访问量基本数据的情况下，对有关数据进行统计、分析，从中发现用户访问UGC网站的规律，从而对用户帐户进行建模，关联网站用户账户。但是，这些用户特征在UGC网站中一般不容易获取，且UGC网站服务器所统计相关数据与用户的真实行为误差比较大，因此帐户关联准确率比较低。另一部分研究通过从用户帐户名字，出生日期，教育背景等用户在注册UGC网站时所公布的个人信息中提取特征对用户帐户建模，从而实现用户帐户关联；然而，在UGC网站中，用户帐户所公布个人信息涉及用户的个人隐私，往往不真实、不全面，且随机性比较高，因此，使用此方法的准确性和健壮性均不高。

UGC逐渐成为社交网站用户互动的主要应用形式，用户经常把与自身相关的信息以UGC的形式在网站上发布，Facebook、Twitter、人人网、大众点评网等网站都可以看作是UGC的成功案例，社区网络、视频分享、博客和播客(视频分享)等都是UGC的主要应用形式。本发明在对用户帐户进行建模时所使用的用户特征与传统研究中定义的用户特征不同，主要针对用户在使用UGC网站时所生成的文本内容中提取用户特征，从而对用户帐户进行建模，实现对属于同一实体用户的跨UGC网站多帐户关联。在UGC网站中，可以从用户的文本内容中提取多个特征，例如，地理位置活动特征、写作风格特征等，对用户帐户进行建模，能够比较全面的表达出用户的特点，从而获得较高的用户帐户关联准确率。同时，用户生成的文本内容比较稳定，不易被修改，具有较高的健壮性。

在跨UGC网站用户帐户关联方法选取方面，传统的研究大部分采用单特征关联方法，即针对每个用户特征，对用户帐户进行关联一次，没有将多个用户特征组合起来对跨UGC网站多账户进行关联，因而得到的关联用户账户准确率比较低。与以往研究不同，本发明采用逐层过滤的方法对用户帐户进行关联，即依次利用用户帐户模型中的多个用户特征对目标用户帐户数据集进行筛选，逐步缩小候选集，最终获得的用户账户数据集即是相互关联的跨UGC网站的多个用户帐户。由于充分利用了用户账户模型的各个特征，采用逐层过滤方法对跨UGC网站的多个用户账户进行关联具有较高的准确率。

发明内容

本发明的目的在于：针对现有技术的不足，通过在帐户建模方面和帐户关联方法方面的改进，提出一种新的用于跨UGC网站平台的用户帐户关联方法，解决了传统帐户关联方法中用户特征不稳定，误差比较大，不能充分有效的利用用户特征等问题，从而提高了跨UGC网站平台的用户帐户关联的准确率和健壮性。

为实现上述目的，本发明包括以下步骤：

S1：根据用户需求确定需要关联的UGC网站，针对每个UGC网站，利用各网站的本地数据库或者网络爬虫获取所需要关联的用户帐户数据集G_i，其中G_i的下标“i”用于标识不同的UGC网站平台所对应的用户帐户数据集；所述用户帐户数据集G_i中的每个用户帐户g_ik由该用户生成的文本内容组成，g_ik的下标“i”和“k”用于标识第i用户帐户集数据G_i中第k个用户帐户。

S2：在获取用户帐户数据集G_i后，需要对其中每个用户帐户g_ik中的文本内容进行预处理。在UGC网站中，用户帐户g_ik的文本内容由一系列短文本帖子组成，以短文本帖子为单位进行预处理。所做预处理具体为：删除文本内容中非英文语言的内容；删除各个UGC网站自动添加而非用户生成的文本内容；删除特殊的、使用频率低的标识符和标点符号，即将用户帐户生成的文本内容中除了‘.’、‘,’、‘”、‘？’、‘！’、‘；’、‘:’、‘(’、‘)’以外的标识符和标点符号删除；若用户帐户g_ik的某条短文本帖子中所含有的英文字符数量小于预设阈值M，则将该短文本帖子删除；若用户帐户g_ik含有短文本帖子数量小于预设阈值N，则从用户帐户数据集G_i中删除该用户帐户，其中，M值和N值的选取主要依据UGC网站中用户帐户发布短文本帖子的数量和长度，针对现有的UGC网站，M＝10,N＝20能够取得较好的效果。

S3：针对每个用户帐户g_ik，通过对预处理后的文本内容进行特征提取的方式建立用户帐户模型，用户帐户g_ik的模型主要由其性别特征，年龄特征，地理位置活动特征和写作风格特征四个方面组成，则用户账户模型可以表示为<性别，年龄，地理位置活动，写作风格>，其中，性别的取值范围为{男，女}，年龄的取值范围为{童年，少年，青年，中年，老年}，地理位置活动为地点名词集合，写作风格由一系列特征向量样本点组成；同时，用户帐户模型之间是相互独立的，即某个用户帐户文本内容的改变对其他用户帐户模型没有影响；各个特征之间是相互独立的，且可以计算相同特征之间的相似度。

S4：基于每个用户帐户的模型，采用逐层过滤的方式实现跨UGC网站平台的帐户关联。针对用户帐户数据集G_i，从中抽取一个用户帐户g_ik，在用户帐户数据集G_j(i≠j)中，依次利用性别特征、年龄特征、地理位置活动特征和写作风格特征，通过计算帐户模型中特征相似度和使用分类器的方式，将与用户帐户g_ik不相关的用户账户过滤掉，从而逐步缩小候选集，经过过滤筛选后的用户帐户集合即为在用户账户数据集G_j中与用户帐户数据集G_i中的用户帐户g_ik相关联的用户帐户集合。

S5:针对用户帐户数据集G_i中的用户帐户g_ik，在用户帐户数据集G_j中采用逐层过滤的方式获得用户帐户集合后，将用户帐户集合中的用户帐户从用户帐户数据集G_j中删除，将用户帐户g_ik从用户帐户数据集G_i中删除，并将其加入用户帐户集合中，则用户帐户集合表示属于同一实体用户的跨UGC网站多账户。判断用户帐户数据集G_i是否为空，如果非空，则表示还有未被关联的用户帐户，进入步骤S4；如果为空，则表示用户帐户关联已经完成，将含有用户账户数量大于2的用户帐户集合输出，如果用户帐户集合中仅含有一个用户账户，则表示没有与该用户帐户相关联的跨UGC网站用户帐户，则不用输出。

本发明一种用于跨UGC网站平台的帐户关联方法，主要由四部分组成，即：数据获取，数据预处理、特征提取和逐层过滤。在上述步骤中，步骤S1属于数据获取部分，步骤S2属于数据预处理部分，步骤S3属于特征提取部分，步骤S4，S5属于逐层过滤部分。数据获取部分主要是根据用户需求获取目标UGC网站所对应的用户帐户数据集。数据预处理部分将用户帐户文本内容中包含的噪声数据删除，以方便用户特征的提取，使用户特征更具代表性，从而提高了检测准确率。特征提取部分主要从用户帐户生成的文本内容中提取特征对用户帐户进行建模，从而使得模型能够较好的代表用户，其中主要提取了性别特征，年龄特征，地理位置活动特征和写作风格特征；所提取的用户特征仅与用户的文本内容有关，与用户帐户名字、时间、主题等均无关。逐层过滤部分是依次利用用户帐户模型中的性别特征、年龄特征，地理位置活动特征和写作风格特征对目标UGC网站用户帐户数据集中的用户帐户进行筛选过滤，最终获得相互关联的跨UGC网站用户帐户数据集。

综上所述，本发明基于UGC网站用户帐户生成的文本内容，提取用户特征建立用户帐户模型，然后通过逐层过滤的方法实现跨UGC网站平台的帐户关联，具有以下有益效果：

(1)扩展了UGC网站中用户账户的信息。目前，还没有关联不同UGC网站上属于同一实体用户的账户的方式，因此所有账户信息仅限于其所在的UGC网站。通过本发明，能够将这些孤立的账户关联起来，从而将这些账户所生成的信息关联起来，最终扩展了用户账户所关联的信息。这些信息能够用于推荐系统，提高推荐算法的准确性。

(2)解决了跨UGC网站恶意账户追踪问题。如果一个账户在某个UGC网站被识别为恶意账户，但并不能确定其所对应的实体用户在其它UGC网站是否有账户，因此无法遏制恶意行为的继续蔓延。通过本发明，则能够发现与该恶意账户关联的其它UGC网站上的账户，从而采取有效措施。

(3)缓解了因用户帐户数据失窃，造成的相关联账户被攻击的危险。如果一个实体用户在某个UGC网站的口令被盗取，由于同一用户通常使用相同或者相近的口令，则其在其它UGC网站的账户面临威胁。通过本发明，则能及时通知相关用户修改信息，以免成为攻击的目标。

附图说明

图1是本发明一种用于跨UGC网站平台的帐户关联方法的工作流程示意图。

图2是帐户建模的工作流程图。

图3是帐户模型相似度评估的工作流程图。

具体实施方式

下面结合附图和实施方式对本发明作进一步地详细描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种用于跨UGC网站平台的帐户关联方法的工作流程示意图。如图1所示，本发明一种用于跨UGC网站平台的帐户关联方法主要包括四个阶段：目标UGC网站数据获取，数据预处理，帐户建模和帐户模型相似度输出。下面根据这四个阶段对本发明的具体实施例进行说明。

S101：目标UGC网站数据获取

用户根据需求确定需要关联的UGC网站，然后在相对应的UGC网站中获取用户帐户数据集，其中，用户帐户数据集中的数据主要以用户帐户生成的文本内容为主。

在本实施例中，首先用户根据需求确定需要关联的目标UGC网站，然后根据用户帐户的URL，利用各UGC网站平台的本地数据库或者网络爬虫获取相对应的用户帐户数据集G_i。如果UGC网站本地数据库对外开放，则直接从本地数据库中获取数据，否则，制定网络爬虫对目标UGC网站上的用户帐户信息进行爬取，从而得到用户帐户数据集G_i。在各UGC网站平台上，每个用户帐户所生成的文本内容均由一系列用户所发表的短文本帖子组成，因此，本发明均以短文本帖子为单位对用户生成的文本内容进行处理。

S102：数据预处理

在获取用户帐户数据集G_i后，需要G_i中的每个用户帐户g_ik中的文本内容进行预处理。首先，需要将非英文语言的文本内容删除，将各个UGC网站自动添加而非用户生成的文本内容删除；同时，将文本内容中特殊的、使用频率低的标识符和标点符号删除，在本实施例中，将除句号、逗号、引号、问号、叹号、分号、冒号、顿号、左括号和右括号(‘.'、‘,'、‘’'、‘？'、‘！'、‘；'、‘:'、‘('、‘)')以外的标识符和标点符号删除。然后，若文本内容中的短文本帖子所含有的英文字符数量小于预设阈值M，则将该短文本帖子删除；若用户帐户文本内容含有短文本帖子数量小于预设阈值N，则从用户帐户集G_i中删除该用户帐户。

本发明将文本内容中特殊的、使用频率低的标识符和标点符号删除，主要是因为这些字符与所提取的特征无关，并且部分字符是UGC网站平台自动生成的，非用户所写，所以这些字符在对帐户建模时制造了噪声。删除含有英文字符数量较少的短文本帖子，主要是因为本发明以短文本帖子为单位提取用户特征，在提取写作风格特征时，如果短文本帖子所含英文字符数量较少，会造成所提取的特征向量样本点比较稀疏，帐户关联效果较差。删除含有短文本帖子数量较少的用户帐户，主要是因为从这些帐户中所提取的用户特征不能充分表达出该用户的特点，从而造成同其他用户帐户进行关联时准确率较低。

S103：帐户建模

帐户建模主要由四部分构成：帐户性别特征提取，帐户年龄特征提取，地理活动特征提取和写作风格特征提取，即基于用户账户生成的文本内容，通过提取用户的性别特征，年龄特征，地理活动特征和写作风格特征对用户帐户进行建模。

图2是帐户建模的工作流程图。如图2所示，基于用户帐户文本内容对用户帐户进行建模包括以下步骤：

S201:帐户性别特征提取

基于用户帐户的文本内容判断用户账户的性别。由于性别分为男、女，现有的研究中采用训练二类分类器的方法对用户帐户进行性别判定，并且已经训练出比较成熟的判断用户性别的二类分类器模型。本发明调用该二类分类器模型，对用户帐户数据集中的每个用户帐户进行性别判定。

S202:帐户年龄特征提取

基于用户帐户的文本内容，对该用户所处于的年龄段进行判定。现有的研究将用户的年龄分为五个类别：童年，少年，青年，中年，老年；利用训练多类分类器的方法对用户帐户的年龄段进行判定，本发明调用该多类分类器模型对目标UGC网站用户帐户数据集中的用户账户进行年龄段判定。

S203:地理活动特征提取

地理活动特征提取主要是从用户帐户的文本内容中提取地点名词集合。本发明利用自然语言处理技术中实体识别的方法从文本内容中提取地点名词，然后对提取后的地点名词通过输入地址转换接口中进行验证，如果该地址转换接口能返回地址的经纬度，则认为该地点名词有效。经过验证后的地点名词形成一个集合，每个用户帐户都会提取一个地点名词集合作为该用户账户的地理活动特征。

S204:写作风格特征提取

写作风格特征包括词频特征，字母特征，数字特征，符号特征，虚词特征，双连词特征，三连词特征，词性特征，语法关系特征。由于用户帐户的文本内容由一系列短文本帖子组成，则以短文本帖子为最小单位，利用自然语言处理工具NLTK和斯坦福语法解析器等提取用户账户的写作风格特征，每个短文本帖子对应提取出一个特征向量样本点，每个用户帐户的写作风格特征则由一系列特征向量样本点组成。

由于用户在使用UGC网站平台发表帖子时，很少使用一些特殊的、生僻的、标志性的字符，具有“跨网站攻击”的帐户更是突出，基本不使用，因此本发明在选取符号特征，虚词特征，词性特征，双连词特征，三连词特征，语法关系特征时,过滤掉在用户帐户文本内容中使用频率较少的特征，避免了生成的特征向量样本点比较稀疏，从而提高了检测准确率和效率。本发明所提取的双连词特征，三连词特征均由常用虚词、代词、动词组成，与文本内容的主题无关。在本具体实施例中，所提取的写作风格特征具体包括：

词频特征：Words count(单词词频)、Character count(字母词频)、Upperwordcount(首字母大写词频)、Allupperword count(首字母小写词频)、Alllowerwordcount(全部小写词频)。

字母特征：A-Z、a-z。

数字特征：0-9。

符号特征：‘.’、‘,’、‘”、‘？’、‘！’、‘；’、‘:’、‘(’、‘)’。

虚词特征：“a”,“I”,“his”,“that”,“it”,“you”,“had”,“with”,“as”,“for”,“her”,“the”,“she”,“but”,“him”,“in”,“not”,“is”,“on”,“my”,“have”，“was”,“and”,“be”,“me”,“he”,“they”,“from”,“at”,“this”,“which”,“there”,“one”,“to”,“all”,“so”,“an”,“by”，“of”,“than”。

双连词特征：“I’m”、“it is”、”at the”、“you’re”、“a good”、“how to”、”have been”、“have a”、“all of”、“can be”、“I would”、“there is”、“will be”、“I’ve”、“I was”、“thank you”、“be a”、“we’re”、”it was”、“for this”。

三连词特征:“one of my”、“I'm so”、“I just liked”、“am going to”、“part of the”、“if you are”、“how to make”、“I will be”；

词性特征：“CC：(表示连词)”、“CD:(表示基数词)”、“DT:determiner(表示限定词)”、“EX：(存在量词)”、“FW:foreign word(外来词)”、“IN:prepositionor conjunction,subordinating(介词或从属连词)”、“JJ:adjective ornumeral,ordinal(形容词或序数词)”、“JJR:adjective,comparative(形容词比较级)”、“JJS:adjective,superlative(形容词最高级)”、“LS:listitem marker(列表标识)”、“MD:modal auxiliary(情态助动词)”、“NN：(常用名词)”、“NNS：(常用名词复数)”、“NNP：(专有名词单数)”、“NNPS：(专有名词复数)”、“PDT:pre-determiner(前位限定词)”、“POS:genitive marker(所有格标记)”、“PRP:pronoun,personal(人称代词)”、“PRP$:(物主代词)”、“RB:adverb(副词)”、“RBR:adverb,comparative(副词比较级)”、“RBS：(副词最高级)”、“RP：Particle(小品词)”、“SYM:symbol(符号)”、“TO:”to”as preposition or infinitive marker(‘to’作为介词或不定式标记)”、“UH：(感叹词)”、“VB：Verb,base form(动词，一般式)”“VBD：Verb,pasttense(动词过去式)”、“VBG：Verb,gerund or present participle(动词，动名词或现在分词)”、“VBN：Verb,past participle(动词，过去分词)”、“VBP：Verb,non-3rd person singular present(动词，非第三人称单数)”、“VBZ：Verb,3rd person singular present(动词，第三人称单数)”、“WDT:WH-determiner(WH限定词)”、“WP:WH-pronoun(WH代词)”、“WP$:WH-pronoun,possessive(WH所有格代词)”、“WRB:Wh-adverb(WH副词)”。

语法关系特征：“abbrev:abbreviation modifier，缩写修饰符”、

“acomp:adjectival complement，形容词的补充”、

“advcl:adverbial clause modifier，状语从句修饰词”、

“advmod:adverbial modifier状语”、

“agent:agent，代理，一般有by的时候出现”、

“amod:adjectival modifier形容词”、

“appos:appositional modifier,同位词”、

“attr:attributive，属性”、

“aux:auxiliary，非主要动词和助词”、

“auxpass:passive auxiliary被动词”

“cc:coordination，并列关系”

“ccomp:clausal complement从句补充”

“complm:complementizer，引导从句中的补语”

“conj:conjunct，连接两个并列的词”

“cop:copula。系动词，命题主词与谓词间的连系”

“csubj:clausal subject，从主关系”

“csubjpass:clausal passive subject主从被动关系”

“dep:dependent依赖关系”

“det:determiner决定词，如冠词等”

“dobj:direct object直接宾语”

“expl:expletive，主要是抓取there”

“infmod:infinitival modifier，动词不定式”

“iobj:indirect object，间接宾语”

“mark:marker，主要出现在包含“that”“whether”

“because”“when”的语句中”

“mwe:multi-word expression，多个词的表示”

“neg:negation modifier否定词”

“nn:noun compound modifier名词组合形式”

“npadvmod:noun phrase as adverbial modifier名词作状语”

“nsubj:nominal subject，名词主语”

“nsubjpass:passive nominal subject，被动的名词主语”

“num:numeric modifier，数值修饰”

“number:element of compound number，组合数字”

“parataxis:parataxis:parataxis，并列关系”

“partmod:participial modifier动词形式的修饰”

“pcomp:prepositional complement，介词补充”

“pobj:object of a preposition，介词的宾语”

“poss:possession modifier，所有形式，所有格”

“possessive:possessive modifier，所有者修饰”

“preconj:preconjunct，结合词关系，常常是出现在

‘either’‘both’,‘neither’的情况下”

“predet:predeterminer，前缀决定，常常是表示所有”

“prep:prepositional modifier,前置修饰词”

“prepc:prepositional clausal modifier，介词短语修饰子句”

“prt:phrasal verb particle，动词短语”

“purpcl:purpose clause modifier，目的从句”

“quantmod:quantifier phrase modifier，数量短语”

“rcmod:relative clause modifier相关关系”

“ref:referent，指示物，指代”

“rel:relative,相对关系”

“root:root，最重要的词，根节点”

“xsubj:controlling subject控制主题”

通过提取用户特征对用户帐户建模，每个用户账户模型可以表示为<性别，年龄，地理位置活动，写作风格>，其中性别的取值范围为{男，女}，年龄的取值范围为{童年，少年，青年，中年，老年}，地理位置活动为地点名词集合，写作风格由一系列特征向量样本点组成。

S104：帐户模型相似度评估

帐户模型相似度评估主要通过逐层过滤的方式，基于用户帐户模型，对目标UGC网站用户帐户集依次进行基于性别特征的过滤，基于年龄特征的过滤，基于地理特征的过滤和基于写作特征的过滤，最终将帐户模型相似的用户账户，即相互关联的跨UGC网站用户帐户，逐步过滤筛选出来。

图3是帐户模型相似度评估的工作流程图。如图3所示，基于用户帐户模型中的各个用户特征，采用逐层过滤的方法对用户账户模型进行相似度评估包括以下步骤：

S301:基于性别特征的过滤

各个不同的UGC网站对应不同的用户帐户数据集，对用户帐户数据集中的每个用户帐户建模之后，从用户帐户数据集G_i中随机抽取一个用户帐户g_ik，然后将其与用户帐户数据集G_j(i≠j)中的用户帐户进行关联。基于性别特征的过滤就是利用用户帐户模型中的性别特征对用户账户数据集G_j进行过滤，由于性别特征的取值范围为{男，女}，将用户账户数据集G_j中所有与用户帐户g_ik的性别特征相同的用户账户筛选出来组成第一子集S_m，即用户帐户数据集G_j所对应的UGC网站中与用户账户g_ik性别特征相同的所有用户帐户集合。

S302:基于年龄特征的过滤

针对基于性别特征过滤后得到的第一子集S_m中所有用户账户，将其与用户帐户g_ik模型中的年龄特征进行对比，由于年龄特征的取值范围为{童年，少年，青年，中年，老年}，筛选出与用户帐户g_ik具有相同年龄特征的用户帐户组成第二子集A_n，则第二子集A_n中所有的用户账户与用户帐户g_ik具有相同的性别特征和年龄特征。

S303:基于地理特征的过滤

用户账户模型中的地理特征表示为许多地点名词的集合，本发明通过利用Jaccard相似度来计算地点名词集合之间的相似度，即用户帐户模型的地理特征相似度。针对第二子集A_n中的所有用户帐户，计算其与用户账户g_ik之间的地理特征相似度；如果地理特征相似度值大于预设的阈值t，则认为两个用户账户模型中的地理特征相似，否则，分别属于不同的用户实体；其中,t的取值大小决定了地理位置活动特征的过滤能力，取值过大，容易出现漏选，取值过小，容易出现错选，针对现有的UGC网站，t的取值范围为[40％，60％]比较合适。将第二子集A_n中所有与用户帐户g_ik地理特征相似的用户账户过滤筛选出来组成第三子集L_p。

S304:基于写作特征的过滤

用户帐户模型中写作特征的表达形式为一系列特征向量样本点集合，本发明利用单类分类器的方法来判断用户帐户模型之间的写作特征是否相似。从第三子集L_p中随机选取一个用户账户l_q，判断其与用户账户g_ik模型中的写作特征是否相似的方法如下：

首先，计算用户帐户g_ik的自关联相似度：在用户帐户g_ik中，每选取K个特征向量样本点组成一个数据点，选取两组不同数据点组成集合N1_ik和N2_ik，所述集合N1_ik和N2_ik所包含的数据点个数均为T个，所述T大于或等于2；以数据点集合N1_ik作为训练集训练单类分类器，将数据点集合N2_ik作为测试集，记录当前单类分类器输出的准确率为S_g(N1_ik,N2_ik)；以数据点集合N2_ik作为训练集训练单类分类器，将数据点集合N1_ik作为测试集，记录当前单类分类器输出的准确率为S_g(N2_ik,N1_ik)；用户帐户g_ik的自关联相似度为所述准确率S_g(N1_ik,N2_ik)和准确率S_g(N2_ik,N1_ik)的乘积，即S_g(g_ik,g_ik)＝S_g(N1_ik,N2_ik)×S_g(N2_ik,N1_ik)。

然后，计算用户帐户g_ik与用户帐户l_q的互关联相似度：分别从用户帐户g_ik与用户帐户l_q中随机选取T个不同数据点，组成集合Ng_ik和Nl_q，以数据点集合Ng_ik作为训练集训练单类分类器，将数据点集合Nl_q作为测试集，记录当前单类分类器输出的准确率为S_gl(Ng_ik,Nl_q)；以数据点集合Nl_q作为训练集训练单类分类器，将数据点集合Ng_ik作为测试集，记录当前单类分类器输出的准确率为S_lg(Nl_q,Ng_ik)；用户帐户g_ik关于用户帐户l_q的互关联相似度为所述准确率S_gl(Ng_ik,Nl_q)和准确率S_lg(Nl_q,Ng_ik)的乘积，即S_gl(g_ik,l_q)＝S_gl(Ng_ik,Nl_q)×S_lg(Nl_q,Ng_ik)。

基于用户帐户g_ik的自关联相似度和其与用户帐户l_q的互关联相似度，判断两者的绝对差值是否小于阈值ε(0＜ε≤5％)，即如果两者绝对差值小于阈值ε，则表示用户帐户g_ik与用户帐户l_q的写作特征相似；如果两者绝对差值大于阈值ε，则认为分别属于不同实体用户。

针对第三子集L_p中的所有帐户，分别对其与用户账户g_ik的写作特征是否相似进行判定，将第三子集L_p中所有与用户账户g_ik模型中的写作特征相似的用户帐户筛选出来，组成用户帐户集合

用户帐户集合就是通过模型相似度评估后与用户帐户g_ik属于同一实体用户的用户账户集合，即在用户帐户数据集G_j中，与用户帐户g_ik在性别特征，年龄特征，地理特征和写作特征四个方面均相似的用户账户集合。在用户帐户数据集G_j中采用逐层过滤的方式获得用户帐户集合后，将用户帐户集合中的用户帐户从用户帐户数据集G_j中删除，将用户帐户g_ik从用户帐户数据集G_i中删除，并将用户帐户g_ik加入用户帐户数据集中，则用户帐户数据集表示属于同一实体用户的跨UGC网站多账户。此时，判断用户帐户数据集G_i是否为空，如果非空，则表示还有未被关联的用户帐户，进入步骤S4；如果为空，则表示用户帐户关联已经完成，将含有用户账户数量大于2的用户帐户数据集输出，如果用户帐户数据集中仅含有一个用户账户，则表示没有与该用户相关联的跨UGC网站用户帐户，则不用输出。

本发明使用单类分类器的方法来判定两个用户帐户模型中的写作特征是否相似，其优点是在不知道用户账户真实身份的情况下即可对单类分类器进行训练，相比较以往研究具有较高的实用性。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种用于跨UGC网站平台的帐户关联方法，其特征在于，包括下列步骤：

S1：根据用户需求确定需要关联的UGC网站，针对每个UGC网站，利用各网站的本地数据库或者网络爬虫获取所需要关联的用户帐户数据集G_i，其中，G_i的下标“i”用于标识不同的UGC网站平台所对应的用户帐户数据集；所述用户帐户数据集G_i中的每个用户帐户g_ik由该用户生成的文本内容组成，其中，g_ik的下标“i”和“k”用于标识第i个用户帐户数据集G_i中第k个用户帐户。

2.如权利要求1所述的方法，其特征在于，所述步骤S3中的地理位置活动特征的提取方法：

本发明中，地理位置活动特征即为从用户账户的文本内容中提取的地点名词集合，采用自然语言处理中的实体识别技术从用户帐户预处理后的文本内容中提取地点名词，然后将该地点名词输入到地址转换接口中进行验证，如果该地址转换接口能返回地址的经纬度，则认为该地点名词有效；针对每个用户帐户可以提取一个地点名词集合作为该用户帐户的地理位置活动特征。

3.如权利要求1所述的方法，其特征在于，所述步骤S3中的写作风格特征。所述预设写作风格特征包括：

字母特征：单个的大小写英文字母。

数字特征：从0到9的数字符号。

标点符号：‘.’、‘，’、‘”、‘？’、‘！’、‘；’、‘:’、‘(’、‘)’。

虚词特征:“a”，“I”，“his”，“that”，“it”，“you”，“had”，“with”，“as”，“for”，“her”，“the”，“she”，“but”，“him”，“in”，“not”，“is”，“on”，“my”，“have”，“was”，“and”，“be”，“me”，“he”，“they”，“from”，“at”，“this”，“which”，“there”，“one”，“to”，“all”，“so”，“an”，“by”，“of”，“than”。

词性特征：“CC”、“CD”、“DT”、“EX”、“FW”、“IN”、“JJ”、“JJR”、“JJS”、“LS”、“MD”、“NN”、“NNS”、“NNP”、“NNPS”、“PDT”、“POS”、“PRP”、“PRP$”、“RB”、“RBR”、“RBS”、“RP”、“SYM”、“TO”、“UH”、“VB”、“VBD”、“VBG”、“VBN”、“VBP”、“VBZ”、“WDT”、“WP”、“WP$”、“WRB”。

双连词字符特征：“I’m”、“it is”、“at the”、“you’re”、“a good”、“how to”、“have been”、“have a”、“all of”、“can be”、“I would”、“there is”、“will be”、“I’ve”、“I was”、“thank you”、“be a”、“we’re”、“it was”、“for this”。

三连词字符特征：“one of my”、“I'm so”、“I just liked”、“am going to”、“partof the”、“if you are”、“how to make”、“I will be”。

语法关系特征：“abbrev”、“acomp”、“advcl”、“advmod”、“agent”、“amod”、“appos”、“attr”、“aux”、“auxpass”、“cc”、“ccomp”、“complm”、“conj”、“cop”、“csubj”、“csubjpass”、“dep”、“det”、“dobj”、“expl”、“infmod”、“iobj”、“mark”、“mwe”、“neg”、“nn”、“npadvmod”、“nsubj”、“nsubjpass”、“num”、“number”、“parataxis”、“partmod”、“pcomp”、“pobj”、“poss”、“possessive”、“preconj”、“predet”、“prep”、“prepc”、“prt”、“purpcl”、“quantmod”、“rcmod”、“ref”、“rel”、“root”、“xsubj”。

由于用户帐户生成的文本内容由一系列短文本帖子组成，本发明在为用户帐户建模时，以短文本帖子为单位抽取写作风格特征，每个短文本帖子对应一个特征向量样本点，每个用户帐户模型中的写作风格特征由一系列特征向量样本点组成。

4.如权利要求1所述的方法，其特征在于，所述步骤S4中的逐层过滤方法：

基于用户帐户数据集G_i中用户帐户g_ik的数据模型，在用户帐户数据集G_j(i≠j)中，首先根据性别特征进行过滤，将用户帐户数据集G_j中与用户账户g_ik性别相同的用户过滤出来组成第一子集S_m；针对第一子集S_m中每个用户账户模型的年龄特征，将与用户账户g_ik的年龄特征相同的用户账户筛选出来，组成第二子集A_n；然后，基于第二子集A_n，计算其用户帐户与账户g_ik的地理位置活动特征相似度，将相似度大于阈值t的用户帐户过滤出来，组成第三子集L_p；其中,t的取值大小决定了地理位置活动特征的过滤能力，取值过大，容易出现漏选，取值过小，容易出现错选，针对现有的UGC网站，t的取值范围为[40％，60％]比较合适；最后，利用训练单类分类器的方式，对第三子集L_p中与用户帐户g_ik写作风格特征相似的用户帐户进行筛选，组成用户帐户集合。

5.如权利要求1所述的方法，其特征在于，所述步骤S4中的写作风格特征过滤方法：基于第三子集L_p中用户帐户l_q模型中的写作风格特征，其中l_q的下标“q”用于标识第三子集L_p中不同的用户帐户，分别计算用户帐户g_ik的自关联相似度以及其与用户帐户l_q的互关联相似度。

用户帐户g_ik的自关联相似度：

在用户帐户g_ik中，每选取K个特征向量样本点组成一个数据点，选取两组不同数据点组成集合N1_ik和N2_ik，所述集合N1_ik和N2_ik所包含的数据点个数均为T个，所述T大于或等于2；以数据点集合N1_ik作为训练集训练单类分类器，将数据点集合N2_ik作为测试集，记录当前单类分类器输出的准确率为S_g(N1_ik,N2_ik；)以数据点集合N2_ik作为训练集训练单类分类器，将数据点集合N1_ik作为测试集，记录当前单类分类器输出的准确率为S_g(N2_ik,N1_ik)；用户帐户g_ik的自关联相似度为所述准确率S_g(N1_ik,N2_ik)和准确率S_g(N2_ik,N1_ik)的乘积，即S_g(g_ik,g_ik)＝S_g(N1_ik,N2_ik)×S_g(N2_ik,N1_ik)。

用户帐户g_ik与用户帐户l_q的互关联相似度：

分别从用户帐户g_ik与用户帐户l_q中随机选取T个不同数据点，组成集合Ng_ik和Nl_q，以数据点集合Ng_ik作为训练集训练单类分类器，将数据点集合Nl_q作为测试集，记录当前单类分类器输出的准确率为S_gl(Ng_ik,Nl_q)；以数据点集合Nl_q作为训练集训练单类分类器，将数据点集合Ng_ik作为测试集，记录当前单类分类器输出的准确率为S_lg(Nl_q,Ng_ik)；用户帐户g_ik关于用户帐户l_q的互关联相似度为所述准确率和准确率S_lg(Nl_q,Ng_ik)的乘积，即S_gl(g_ik,l_q)＝S_gl(Ng_ik,Nl_q)×S_lg(Nl_q,Ng_ik)。

将用户帐户g_ik的自关联相似度同用户帐户g_ik与用户帐户l_q的互关联相似度进行对比，如果两者的绝对差小于阈值ε(0＜ε≤5％)，则认为用户帐户g_ik同用户帐户l_q相关联。重复执行上述步骤，即可对第三子集L_p中与用户帐户g_ik模型中的写作风格特征相似的用户帐户筛选出来，组成用户帐户集合。

6.如权利要求3所述的方法，其特征在于标点符号特征，虚词特征，词性特征，双连词字符特征，三连词字符特征和语法关系特征的选取方法：

所提取的标点符号特征，虚词特征，词性特征，双连词字符特征，三连词字符特征和语法关系特征都是在用户生成的文本内容中使用频率较高的特征，本发明通过统计所有标点符号，虚词，词性，双连词，三连词和语法关系在文本内容中出现的次数进行排名，选取排名靠前的作为对应的特征。