CN104915361A

CN104915361A - 一种数据信息的展示方法及装置

Info

Publication number: CN104915361A
Application number: CN201410097550.XA
Authority: CN
Inventors: 郑志昊; 黄俊洪; 覃冬; 尹红梅; 秦爽
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-03-14
Filing date: 2014-03-14
Publication date: 2015-09-16

Abstract

本发明适用于互联网技术领域，提供了一种数据信息的展示方法及装置，包括：采集网络社区中发布的用户生成内容UGC；在每条所述UGC中提取与预设的热点数据的匹配信息；获取发布所述UGC的用户账户的特征属性；以获取到的用户账户的特征属性为索引，将从所述UGC中提取出的所述匹配信息转化成与所述热点数据相关的结构化数据并展示。本发明对发布在网络社区中的用户生成内容进行采集和分析，提取出其中与热点数据相关的部分，并最终根据发布这些UGC的用户账户的特征属性，将提取出的数据进行结构化展示，以作为大数据分析的有效数据来源，从而提高了网络社区中发布的海量数据信息的利用率。

Description

一种数据信息的展示方法及装置

技术领域

本发明属于互联网技术领域，尤其涉及一种数据信息的展示方法及装置。

背景技术

大数据，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理为帮助企业经营决策更积极目的的资讯，其具备数据体量巨大、数据类型繁多、价值密度低、商业价值高、处理速度快等特点，依托于云计算的分布式处理、分布式数据库、云存储和虚拟化技术，基于大数据的数据分析一直被广泛应用在金融、证券、IT等领域，以为这些领域创造更多的商业价值及媒体效应。

随着网络社会化的不断发展，由一定数量的、基于共同兴趣或者彼此之间具备一定社交关系的互联网用户组成的各类网络社区越来越活跃在互联网中，这些网络社区为用户带来了丰富多彩的社会化网络服务，使得用户可以基于这些网络社区进行结交朋友、休闲娱乐、商务投资、学习探讨等一系列社交活动，享受着社会化网络所带来的乐趣。

由于网络社区对真实社交环境具备高度的拟真性，用户每天都会在网络社区中发布或者分享、转载大量信息，这部分信息充分体现着用户的个人喜好、行为特点以及关注事件，等等，具备极高的数据分析价值。然而，上述信息的来源为使用网络社区的海量用户，且发布时间离散，导致网络社区中发布的海量数据信息利用率低，无法被有效组织起来以应用于大数据分析。

发明内容

本发明实施例的目的在于提供一种数据信息的展示方法，旨在解决目前网络社区中发布的海量数据信息利用率低的问题。

本发明实施例是这样实现的，一种数据信息的展示方法，包括：

采集网络社区中发布的用户生成内容UGC；

在每条所述UGC中提取与预设的热点数据的匹配信息；

获取发布所述UGC的用户账户的特征属性；

以获取到的用户账户的特征属性为索引，将从所述UGC中提取出的所述匹配信息转化成与所述热点数据相关的结构化数据并展示。

本发明实施例的另一目的在于提供一种数据信息的展示装置，包括：

采集单元，用于采集网络社区中发布的用户生成内容UGC；

提取单元，用于在每条所述UGC中提取与预设的热点数据的匹配信息；

获取单元，用于获取发布所述UGC的用户账户的特征属性；

展示单元，用于以获取到的用户账户的特征属性为索引，将从所述UGC中提取出的所述匹配信息转化成与所述热点数据相关的结构化数据并展示。

本发明实施例对发布在网络社区中的用户生成内容进行采集和分析，提取出其中与热点数据相关的部分，并最终根据发布这些UGC的用户账户的特征属性，将提取出的数据进行结构化展示，以作为大数据分析的有效数据来源，从而提高了网络社区中发布的海量数据信息的利用率。

附图说明

图1是本发明实施例提供的数据信息展示系统的系统架构示意图；

图2是本发明实施例提供的数据信息的展示方法的实现流程图；

图3是本发明实施例提供的数据信息的展示方法S202的具体实现流程图；

图4是本发明实施例提供的数据信息的展示方法S303的具体实现流程图；

图5是本发明实施例提供的数据信息的展示方法S203的具体实现流程图；

图6是本发明另一实施例提供的数据信息的展示方法S203的具体实现流程图；

图7是本发明实施例提供的数据信息的展示装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例对发布在网络社区中的用户生成内容（User GeneratedContent，UGC）进行采集和分析，提取出其中与热点数据相关的部分，并最终根据发布这些UGC的用户账户的特征属性，将提取出的数据进行结构化展示，以作为大数据分析的有效数据来源，从而提高了网络社区中发布的海量数据信息的利用率。

图1示出了本发明实施例提供的数据信息展示系统的系统架构示意图，该系统用于实现在网络社区之中对海量UGC数据的采集、处理及展示，参照图1，该系统主要由海量的网络社区终端（以下简称终端）11以及网络社区服务端（以下简称服务端）12组成。

其中，所述终端11可以为在网络社区中注册了账号，用于通过服务端12一对一或者一对多地与同一网络社区中的其他终端11进行互动，接收或者发送文字、图片、语音或视频等海量UGC数据的终端，且所述终端包括但不限于手机、平板电脑以及其他移动互联网设备（Mobile Internet Device，MID）。

在本实施例中，当终端11连接网络，则可以基于安装在本地的网络社区客户端，通过网络数据交互实现与服务端12的通讯，进行UGC数据的发布，从而实现服务端12对UGC数据的采集。具体地，终端11与服务端12之间可以约定具体的通信协议，在这些通信协议中定义好数据单元使用的格式，信息单元应该包含的信息与含义，连接方式，信息发送和接收的时序，从而确保相关网络数据能够由终端11顺利地传送到服务端12。同时，UGC数据的发布可以遵循统一的信息发布接口，该信息发布接口为网络社区所提供的统一的软件接口，用于使终端11能够以约定的数据格式实现UCG数据的发布，且也使得服务端11能够以该约定的数据格式实现对已发布的UCG数据的采集，以为后续的数据处理过程提供统一的数据来源。

所述服务端12作为该系统功能实现的核心部分，需要具备对海量UGC数据的采集、处理及展示的数据处理能力，因此，服务端12可以由多台用于执行不同功能的服务器联网组成，且上述对海量UGC的采集、处理及展示的相关功能均分别通过多个具体的功能服务器来实现。数据信息展示过程中所涉及到的相关功能在不同功能服务器上的分布在此不用于限定本发明。

图2示出了本发明实施例提供的数据信息的展示方法的实现流程，详述如下：

在S201中，采集网络社区中发布的UGC。

在本实施例中，所述网络社区，是指包括论坛、公告栏、群组讨论、在线聊天、交友、个人空间、无线增值服务等形式在内的网上交流空间，同一主题的网络社区内集中了具有共同兴趣或者具备一定社交关系的互联网用户。而所述UGC，即为参与到网络社区内的互联网用户在该网络社区中生成的属于自己的内容，其中，包括了用户原创内容，还包括了用户分享、转载或者评论的其他用户的原创内容。

在S202中，在每条所述UGC中提取与预设的热点数据的匹配信息。

当采集并生成统一的数据来源之后，进一步地，需要针对每条UGC，提取出其中与热点数据相关的部分。其中，热点数据根据大数据分析的需求进行预先设置，可以为用于描述具备大数据分析需求的热点事件或者热点事物的关键词，且热点数据可以涉及到的包括但不限于影视、美食、旅游、歌曲、艺人、手机、相机、汽车、网络小说等各个领域。例如，对于汽车领域，可以将市场占有率较高的汽车品牌名称设置为该领域的热点数据。

作为本发明的一个实施例，如图3所示，S202具体为：

在S301中，采集与所述热点数据相关的热点词组。

例如，根据当前的大数据分析需求，预设的热点数据用于描述iOS操作系统，则首先需要网罗与iOS操作系统相关的所有热点词组，那么，可能用于描述iOS操作系统的词组如“iOS”、“iOS系统”、“苹果系统”等均会被作为与该热点数据相关的热点词组来采集。在S201中，为了保证采集到的热点词组对热点数据覆盖的全面性，需要充分考虑用户在描述该热点数据时可能会使用到的语言逻辑及输入习惯，例如，“iOS”可能会被输入成“IOS”或者“ios”，则“IOS”和“ios”需要一并被列为相关的热点词组。

在S302中，对每条所述UGC进行分词处理，得到N个分词词组，所述N为大于或等于1的整数。

对采集得到的每条UGC，均需要分别进行分词处理，将一条UGC分解成若干个特定的分词词组，其中，分词词组的长度由分词处理过程中所采用的具体分词算法或者分词处理时所参考的预置词典来确定，且尽量避免分解得到长度过长的、由过多词语组成的分词词组，以保证后续与热点词组匹配的精确性。

在S303中，若存在与所述热点词组相同的所述分词词组，将该分词词组确定为该条所述UGC中与所述热点数据匹配的关键词。

当经过S302分词得到N个分词词组之后，将这N个分词词组与S301中获取到的热点数据相关的热点词组进行一一查找匹配，以确定出其中与热点词组相同的分词词组，将这部分分词词组确定为该条UGC中与热点数据匹配的关键词，由此对该条UGC完成了其与预设的热点数据的匹配信息的提取。

例如，用户在个人主页中发表了微博“第一次使用iOS系统，感觉比Android系统方便很多”，则通过图3所示步骤，最终将该微博中的分词词组“iOS系统”提取为该条微博中与热点数据匹配的关键词。

作为本发明的一个实施例，由于同一个词组可能具备多义性，因此，为了确保提取出的关键词在语义上确实与热点数据相匹配，如图4所示，S303进一步包括：

在S401中，若存在与所述热点词组相同的所述分词词组，提取该分词词组。

同样地，在图4所示实施例中，首先将经过S302分词得到N个分词词组与S301中获取到的热点数据相关的热点词组进行一一查找匹配，以确定出其中与热点词组相同的分词词组。

在S402中，根据该分词词组与该条所述UGC中其他所述分词词组的语义关联性，判断该分词词组与所述热点数据是否相关。

在本实施例中，确定出UGC中与热点词组相同的分词词组之后，不能直接将这部分词组确定为该条UGC中与热点数据匹配的关键词，而是还需要分别针对这部分分词词组中的每一个分词词组，进一步分析该分词词组与该条UGC中其他分词词组的语义关联性，并根据分析得出的语义关联性，判断该分词词组是否确实与热点数据相关。

例如，对于热点词组“iOS”来说，除了可以表示移动操作系统，在忽略大小写区别的前提下，其还可以表示由思科公司为其网络设备开发的互联网操作系统（Internetwork Operating System，IOS），因此，在S402中，需要进一步地对与热点词组相同的分词词组进行语义关联性分析，若该条UGC中同时还存在分词词组“手机”或者“平板”，则分词词组“iOS”很大可能是在描述移动操作系统，而并非在描述互联网操作系统。

在技术实现上，对于S301中采集得到的热点数据相关的每一个热点词组，在与热点数据相关的语义上，可以分别为其匹配具备关联性的若干个词组，用于S402中的语义关联性分析，从而判断提取出的分词词组是否确实与热点数据相关。

在S403中，若该分词词组与所述热点数据相关，将该分词词组确定为该条所述UGC中与所述热点数据匹配的关键词。

若根据S402中的语义关联性分析，判断出提取的分词词组确实与热点数据相关，再将该分词词组确定为该条UGC中与热点数据匹配的关键词。通过图4所示实施例所确定出的关键词，在与热点数据的匹配精确性上更有保证。

作为本发明的一个实施例，在确定出UGC中与热点数据匹配的关键词之后，更进一步地，还可以根据每条所述UGC中除所述关键词之外的其他所述分词词组，获取该条所述UGC中对所述热点数据的态度数据，所述态度数据包括肯定数据或者否定数据。

例如，用户在个人主页中发表了微博“第一次使用iOS系统，感觉还不错”，其中，分词词组“不错”用于表达用户对iOS系统的肯定态度，则可以将“不错”确定为该条UGC中对热点数据的肯定数据；若用户在个人主页中发表的微博为“感觉iOS系统没Android系统好用”，“没”是对“好用”的否定，则可以同时参考“iOS系统”、“没”、“好用”这几个分词词组之间的先后顺序，将“没”和“好用”同时确定为该条UGC中对热点数据的否定数据。

容易想到的是，除了通过分词词组来获取到该条UGC中对热点数据的态度数据之外，若UGC中还同时发布了表情、图片等非文本内容，显然还可以通过这些非文本内容来获取态度数据。例如，微笑、大笑、得意等表情均可以被认定为肯定数据，而哭、忧伤、生气等表情均可以被认定为否定数据。

在本实施例中，能够确定为态度数据的分词词组可以通过预先采集得到，同时，确定出的态度数据便于更加精确、有针对性地生成结构化数据，方便后续实现更加符合数据分析需求的大数据分析。其中，所述结构化数据，即为具备指定数据结构的数据，其作用是将海量的、零乱繁杂的UGC数据进行过滤、整理等处理，去除冗余信息，转换成有序的数据信息。例如，根据预先指定的关键字，在每一条UGC数据中提取与该关键字对应的信息，作为该关键字的键值，并剔除掉该UGC数据中的其他信息，从而将一条包含了零乱信息的UGC数据转换成为具备“关键字－键值”的结构化数据。

在S203中，获取发布所述UGC的用户账户的特征属性。

所述用户账户的特征属性，包括但不限于所在地、学历、年龄、性别等用户在注册网络社区时所输入的基本资料。如图5所示，S203具体为：

在S501中，获取发布所述UGC的用户账户在所述网络社区中注册的基本资料。

由于用户在加入网络社区时，均需要进行用户注册，而在用户注册时，通常需要输入所在地、学历、年龄、性别、个性签名等基本资料，因此，在本实施例中，可以通过网络社区提供的数据接口，获取到发布UGC的用户账户在该网络社区中注册的基本资料。

在S502中，在获取到的所述基本资料中提取所述用户账户的特征属性。

在获取到用户账户的基本资料之后，根据大数据分析的分析需求，从中筛选出生成结构化数据所需要的特征属性。例如，当以地域为维度进行大数据分析时，则可以将用户账户在注册时填写的所在地作为特征属性，以方便后续分析得到不同地域群体对热点事件或者热点事物的关注程度。

作为本发明的一个实施例，除了利用本网络社区的数据资源来获取到发布UGC的用户账户的特征属性之外，还可以基于不同网络社区之间的平台互通性或者账号共享性，获取到用户注册在基本网络社区的基本资料，从而进一步地完善用户账户的特征属性。如图6所示，在S502之后，所述方法还包括：

在S503中，获取其他网络社区的数据授权。

具体地，可以通过其他网络社区提供的应用程序编程接口（ApplicationProgramming Interface，API），建立起与其他网络社区之间的数据通信过程，并在经过了其他网络社区的身份认证之后，获取到其他网络社区的数据授权。在获取到其他网络社区的数据授权之后，可以被授予一定的权限，以访问其他网络社区允许的全部或者部分数据。

在S504中，根据获取到的所述基本资料，利用所述数据授权在所述其他网络社区中查找所述用户账户在所述其他网络社区中注册的基本资料。

例如，目前多数网络社区均采用实名制注册，则在获取到用户账户在本网络社区注册时使用的真实姓名之后，可以通过其他网络社区的数据授权，获取到在其他网络社区使用该真实姓名注册的用户账户的基本资料。又例如，目前一些网络社区之间提供账号共享功能，即，只需在一个网络社区注册了用户账户，就能够利用该用户账户在实现账号共享的其他网络社区中进行登录，因此，可能基于其他网络社区的数据授权，获取到在其他网络社区使用同一账号登录的用户账户的基本资料。

在S505中，在查找到的所述用户账户在所述其他网络社区中注册的基本资料中提取所述用户账户的特征属性。

对于获取到的同一用户账户在其他网络社区中注册的基本资料，将其与S502中获取到的基本资料进行整合，从而完善该用户账户的特征属性，使得生成的结构化数据结构更加全面完整。

作为本发明的一个实施例，用户账户的特征属性还可以包括用户在发布该条UGC时所接入的网关的IP地址，该IP地址可以用于确定用户的上网地点。同时，用户账户的特征属性还可以包括UGC的发布时间，例如，当以时间为维度进行大数据分析时，则可以将用户账户发布热点数据相关的UGC的时间作为特征属性，以方便后续分析得到用户对同一热点事件或者热点事物的关注度变化趋势。

在S204中，以获取到的用户账户的特征属性为索引，将从所述UGC中提取出的所述匹配信息转化成与所述热点数据相关的结构化数据并展示。

经过了S201至S203，在确定了热点数据之后，针对网络空间中发布的每一条UGC，实际上形成了“多组特征属性－与热点数据的匹配信息”的对应关系。例如，其中一条UGC形成了“深圳、本科、24岁、男－iOS系统”的对应关系，则在S204中，将网络空间中发布的每条UGC所形成的对应关系进行转化，以特征属性作为索引，来对从UGC中提取出的匹配信息进行结构化，生成与热点数据相关的结构化数据并展示。

以下给出了几种结构化数据的示例，需要说明的是，在实际的转化过程中，生成的结构化数据的形式不仅局限于下述示例所提供的形式：

一、建立某预设热点数据在同一特征属性类型且不同特征属性值的用户中的关注度排行。

例如，某上映电影在不同地区用户中的关注度排行（其中，特征属性类型为用户的所在地，特征属性值包括北京、上海、广州和深圳），或者某新上市电子产品在不同年龄段用户中的关注度排行（其中，特征属性类型为用户的年龄，特征属性值包括20岁以下、20－30岁、30－40岁和40岁以上），或者某品牌汽车在深圳地区近三年来的关注度变化趋势（其中，特征属性类型为所在地及发布时间，分别对应的特征属性值为深圳及2011年、2012年、2013年）。

二、建立多个预设热点数据在某个具体特征属性值的用户中的关注度排行。

例如，当前上映的所有电影在深圳地区用户中的关注度排行（其中，特征属性值为深圳）。

基于本发明实施例的方法所最终展示出的数据信息，可以实现如下大数据分析：

一、以地域为维度，挖掘不同地域群体的行为差异，并在此基础上，针对性别、年龄、学历、职业等特征属性做细化的交叉分析；

二、以用户群体的特征属性为维度，挖掘不同特征属性群体的行为差异。

三、从时间趋势里解析热点事件变化的趋势，例如，根据某位艺人在最近三个月内的关注度变化趋势来预估其在未来半年内是否会走红。

需要说明的是，针对不同的大数据分析需求，基于展示出的结构化数据可实现的大数据分析包括但不限于以上列出的几种情况。

图7示出了本发明实施例提供的数据信息的展示装置的结构框图，该装置可以位于服务器、计算机等适于进行大规模数据采集运算的设备中，用于运行本发明图2至图6实施例所述的数据信息的展示方法。为了便于说明，仅示出了与本实施例相关的部分。

参照图7，该装置包括：

采集单元71，采集网络社区中发布的UGC。

提取单元72，在每条所述UGC中提取与预设的热点数据的匹配信息。

获取单元73，获取发布所述UGC的用户账户的特征属性。

展示单元74，以获取到的用户账户的特征属性为索引，将从所述UGC中提取出的所述匹配信息转化成与所述热点数据相关的结构化数据并展示。

可选地，所述提取单元72包括：

采集子单元，采集与所述热点数据相关的热点词组。

分词子单元，对每条所述UGC进行分词处理，得到N个分词词组，所述N为大于或等于1的整数。

确定子单元，若存在与所述热点词组相同的所述分词词组，将该分词词组确定为该条所述UGC中与所述热点数据匹配的关键词。

可选地，所述确定子单元具体用于：

若存在与所述热点词组相同的所述分词词组，提取该分词词组；

根据该分词词组与该条所述UGC中其他所述分词词组的语义关联性，判断该分词词组与所述热点数据是否相关；

若该分词词组与所述热点数据相关，将该分词词组确定为该条所述UGC中与所述热点数据匹配的关键词。

可选地，所述提取单元72还包括：

第一获取子单元，根据每条所述UGC中除所述关键词之外的其他所述分词词组，获取该条所述UGC中对所述热点数据的态度数据，所述态度数据包括肯定数据或者否定数据。

可选地，所述获取单元73包括：

第二获取子单元，获取发布所述UGC的用户账户在所述网络社区中注册的基本资料。

第一提取子单元，在获取到的所述基本资料中提取所述用户账户的特征属性。

可选地，所述获取单元73还包括：

第三获取子单元，获取其他网络社区的数据授权。

查找子单元，根据获取到的所述基本资料，利用所述数据授权在所述其他网络社区中查找所述用户账户在所述其他网络社区中注册的基本资料。

第二提取子单元，在查找到的所述用户账户在所述其他网络社区中注册的基本资料中提取所述用户账户的特征属性。

本发明实施例对发布在网络社区中的UGC进行采集和分析，提取出其中与热点数据相关的部分，并最终根据发布这些UGC的用户账户的特征属性，将提取出的数据进行结构化展示，以作为大数据分析的有效数据来源，从而提高了网络社区中发布的海量数据信息的利用率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据信息的展示方法，其特征在于，包括：

采集网络社区中发布的用户生成内容UGC；

在每条所述UGC中提取与预设的热点数据的匹配信息；

获取发布所述UGC的用户账户的特征属性；

2.如权利要求1所述的方法，其特征在于，所述在每条所述UGC中提取与预设的热点数据的匹配信息包括：

采集与所述热点数据相关的热点词组；

对每条所述UGC进行分词处理，得到N个分词词组，所述N为大于或等于1的整数；

若存在与所述热点词组相同的所述分词词组，将该分词词组确定为该条所述UGC中与所述热点数据匹配的关键词。

3.如权利要求2所述的方法，其特征在于，所述若存在与所述热点词组相同的所述分词词组，将该分词词组确定为该条所述UGC中与所述热点数据匹配的关键词包括：

4.如权利要求2或3所述的方法，其特征在于，所述在每条所述UGC中提取与预设的热点数据的匹配信息还包括：

根据每条所述UGC中除所述关键词之外的其他所述分词词组，获取该条所述UGC中对所述热点数据的态度数据，所述态度数据包括肯定数据或者否定数据。

5.如权利要求1所述的方法，其特征在于，所述获取发布所述UGC的用户账户的特征属性包括：

获取发布所述UGC的用户账户在所述网络社区中注册的基本资料；

在获取到的所述基本资料中提取所述用户账户的特征属性。

6.如权利要求5所述的方法，其特征在于，所述获取发布所述UGC的用户账户的特征属性还包括：

获取其他网络社区的数据授权；

根据获取到的所述基本资料，利用所述数据授权在所述其他网络社区中查找所述用户账户在所述其他网络社区中注册的基本资料；

在查找到的所述用户账户在所述其他网络社区中注册的基本资料中提取所述用户账户的特征属性。

7.一种数据信息的展示装置，其特征在于，包括：

采集单元，用于采集网络社区中发布的用户生成内容UGC；

获取单元，用于获取发布所述UGC的用户账户的特征属性；

8.如权利要求7所述的装置，其特征在于，所述提取单元包括：

采集子单元，用于采集与所述热点数据相关的热点词组；

分词子单元，用于对每条所述UGC进行分词处理，得到N个分词词组，所述N为大于或等于1的整数；

确定子单元，用于若存在与所述热点词组相同的所述分词词组，将该分词词组确定为该条所述UGC中与所述热点数据匹配的关键词。

9.如权利要求8所述的装置，其特征在于，所述确定子单元具体用于：

10.如权利要求8或9所述的装置，其特征在于，所述提取单元还包括：

第一获取子单元，用于根据每条所述UGC中除所述关键词之外的其他所述分词词组，获取该条所述UGC中对所述热点数据的态度数据，所述态度数据包括肯定数据或者否定数据。

11.如权利要求7所述的装置，其特征在于，所述获取单元包括：

第二获取子单元，用于获取发布所述UGC的用户账户在所述网络社区中注册的基本资料；

第一提取子单元，用于在获取到的所述基本资料中提取所述用户账户的特征属性。

12.如权利要求11所述的装置，其特征在于，所述获取单元还包括：

第三获取子单元，用于获取其他网络社区的数据授权；

查找子单元，用于根据获取到的所述基本资料，利用所述数据授权在所述其他网络社区中查找所述用户账户在所述其他网络社区中注册的基本资料；

第二提取子单元，用于在查找到的所述用户账户在所述其他网络社区中注册的基本资料中提取所述用户账户的特征属性。