CN103377258A

CN103377258A - 用于对微博信息进行分类显示的方法和设备

Info

Publication number: CN103377258A
Application number: CN2012101325139A
Authority: CN
Inventors: 康学雷; 杨智
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-04-28
Filing date: 2012-04-28
Publication date: 2013-10-30
Anticipated expiration: 2032-04-28
Also published as: CN109271518A; CN103377258B; CN109271518B

Abstract

本发明公开了一种用于对微博信息进行分类显示的方法和设备。所述用于对微博信息进行分类显示的方法包括：提取微博信息的中心词；通过计算所述中心词与预定义的分类的相关度，来获得所述微博信息与所述预定义的分类的相关度；如果所述微博信息与所述预定义的分类的相关度高于第一阀值，则将所述微博信息分类到所述预定义的分类中；以及显示所分类的微博信息。因此，本发明可以对微博发布人所发布的海量微博信息进行自动归类，使得用户能够根据分类而仅针对自己所感兴趣的某一类微博信息进行阅读，从而提供了阅读海量微博信息的新的用户体验。

Description

用于对微博信息进行分类显示的方法和设备

技术领域

本发明涉及计算机技术领域，更具体地，本发明涉及一种用于对微博信息进行分类显示的方法和设备。

背景技术

微博，即微博客(MicroBlog)的简称，是一种通过关注机制来分享简短实时信息的广播式社交网络平台，它能够基于用户关系来进行信息分享、传播以及获取。在微博平台上，用户可以通过微博服务器、网络以及各种客户端来组建个人社区，以140字左右的文字和/或图像来发布信息，并实现该信息的即时分享。

微博技术一经推出便得到迅速发展。以新浪微博网站为例，从2009年8月开始内测到2011年4月，仅20个月的时间，新浪微博的注册用户就已经到达近1.5亿人，新浪微博上的用户平均每天发布超过5000万条微博信息。

然而，伴随着微博服务使用的高速增长，它所带来的、在对海量微博信息进行浏览时无法自动归类的问题也愈发突出。具体而言，在使用现有的微博应用程序的过程中，用户都是根据不同的帐号、不同的微博类型(如评论等)来对该用户所关注的微博发布人的微博信息进行过滤和排序，这样会导致当该微博发布人的微博信息很多时，用户不知从何开始进行浏览。

例如，经常碰到的一种情况是当用户新关注某个微博发布人、但是该微博发布人所发布的微博有成百上千条时，该用户根本没有方法来了解该微博发布人所主要关注的内容的类型。

再例如，随着微博使用越来越普遍，用户有时可能希望回顾一下自己的账号或已关注的其他用户的帐号，但是目前的微博应用程序除了逐条查看之外，并没有提供任何自动归类总结的方法，从而该用户无法快速查找到自己需要回顾的某条微博信息。

这都导致了用户在浏览某个微博发布人的微博信息时，需要手动逐条浏览，并且人为地总结该微博发布人的关注点与自己是否相同，从而消耗了用户的大量时间和精力。

发明内容

为了解决上述技术问题，根据本发明的一个方面，提供了一种用于对微博信息进行分类显示的方法，其特征在于，所述方法包括：提取微博信息的中心词；通过计算所述中心词与预定义的分类的相关度，来获得所述微博信息与所述预定义的分类的相关度；如果所述微博信息与所述预定义的分类的相关度高于第一阀值，则将所述微博信息分类到所述预定义的分类中；以及显示所分类的微博信息。

此外，根据本发明的另一方面，提供了一种用于对微博信息进行分类显示的设备，其特征在于，所述设备包括：中心词提取单元，用于提取微博信息的中心词；相关度获得单元，用于通过计算所述中心词提取单元所提取的中心词与预定义的分类的相关度，来获得所述微博信息与所述预定义的分类的相关度；分类单元，用于如果所述相关度获得单元所获得的所述微博信息与所述预定义分类的相关度高于第一阀值，则将所述微博信息分类到所述预定义的分类中；以及显示处理单元，用于显示所述分类单元所分类的微博信息。

与现有技术相比，由此可见，采用根据本发明的用于对微博信息进行分类显示的方法和设备，可以对微博信息进行相关度分析，并且将与预定义分类高度相关的微博信息分类到该预定义分类中，从而最终向用户显示分类后的微博信息。因此，本发明可以对微博发布人所发布的海量微博信息进行自动归类，使得用户能够根据分类而仅针对自己所感兴趣的某一类微博信息进行阅读，从而提供了阅读海量微博信息的新的用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1图示了根据本发明的用于对微博信息进行分类显示的方法。

图2图示了根据本发明的用于对微博信息进行分类显示的设备。

图3图示了根据本发明实施例的用于对微博信息进行分类显示的方法。

图4图示了根据本发明实施例的用于对微博信息进行分类显示的分类系统和微博服务器。

图5图示了根据本发明实施例的离线数据训练阶段的流程图。

图6A到6C图示了根据本发明实施例所计算得到的中心词与预定义分类的相关度的实例。

图7图示了根据本发明实施例的在微博客户端中显示的预览显示界面。

图8图示了根据本发明实施例的在微博客户端中显示的分类显示界面。

具体实施方式

将参照附图详细描述根据本发明的各个实施例。这里，需要注意的是，在附图中，将相同的附图标记赋予基本上具有相同或类似结构和功能的组成部分，并且将省略关于它们的重复描述。

在下文中，将参考图1和2来描述根据本发明的用于对微博信息进行分类显示的方法和设备。

图1图示了根据本发明的用于对微博信息进行分类显示的方法。该方法包括：

在步骤S110中，提取微博信息的中心词；

在步骤S120中，通过计算所述中心词与预定义的分类的相关度，来获得所述微博信息与所述预定义的分类的相关度；

在步骤S130中，如果所述微博信息与所述预定义的分类的相关度高于第一阀值，则将所述微博信息分类到所述预定义的分类中；以及

在步骤S140中，显示所分类的微博信息。

图2图示了根据本发明的用于对微博信息进行分类显示的设备200。该设备200包括：

中心词提取单元210，用于提取微博信息的中心词；

相关度获得单元220，用于通过计算所述中心词提取单元210所提取的中心词与预定义的分类的相关度，来获得所述微博信息与所述预定义的分类的相关度；

分类单元230，用于如果所述相关度获得单元220所获得的所述微博信息与所述预定义分类的相关度高于第一阀值，则将所述微博信息分类到所述预定义的分类中；以及

显示处理单元240，用于显示所述分类单元230所分类的微博信息。

由此可见，采用根据本发明的用于对微博信息进行分类显示的方法和设备，可以对微博信息进行相关度分析，并且将与预定义分类高度相关的微博信息分类到该预定义分类中，从而最终向用户显示分类后的微博信息。因此，本发明可以对微博发布人所发布的海量微博信息进行自动归类，使得用户能够根据分类而仅针对自己所感兴趣的某一类微博信息进行阅读，从而提供了阅读海量微博信息的新的用户体验。

在下文中，将参考图3和图4来描述根据本发明实施例的用于对微博信息进行分类显示的方法和设备。在本发明的实施例中，将包括引擎服务器和微博客户端的分类系统作为用于对微博信息进行分类显示的设备的示例来进行说明。

需要说明的是，尽管此处通过将用于对微博信息进行分类显示的方法和设备应用于分类系统来说明本发明，但是，本领域技术人员能够理解的是，本发明不限于此。而是，还可以将本发明应用于单机设备中。例如，可以将该分类系统的各个组成单元实现在某一单机设备中，该单机设备例如是个人计算机、笔记本计算机、平板电脑、多媒体播放器、或个人数字助理等。

图3图示了根据本发明实施例的用于对微博信息进行分类显示的方法，而图4图示了根据本发明实施例的用于对微博信息进行分类显示的分类系统和微博服务器。

图3所图示的根据本发明实施例的用于对微博信息进行分类显示的方法可以应用于图4所图示的分类系统400。如图4所图示的，该用于对微博信息进行分类显示的分类系统400包括：引擎服务器410和微博客户端450。

该引擎服务器410处于网络端(云端)，与用于提供微博服务的微博服务器300连接，可以从微博服务器300上下载任一微博发布人在任一时间范围内发布的微博信息，并且对微博信息进行自动分类。该微博客户端450处于用户端(本地端)与该引擎服务器410连接，并且用于接收在引擎服务器410上进行自动分类后的微博信息，并且向用户进行显示。

显然，在处于云端的引擎服务器410上实现微博信息的自动分类操作的优势之处在于：可以减少本地端用户设备(微博客户端450)上的大量运算操作，从而降低对于该用户设备运算能力的要求，使得用户可以使用简单、低成本的用户设备来实现海量微博信息的分类浏览。

该引擎服务器410包括：中心词提取单元210、相关度获得单元220、分类单元230、和微博信息获取单元250。

该微博客户端450包括：输入信息接收单元260和显示处理单元240。

如图3所图示的，根据本发明实施例的用于对微博信息进行分类显示的方法包括：

在步骤S300中，获取微博发布人在一时间范围内所发布的所有微博信息。

具体地，当用户希望通过自动归类的方式来浏览某一微博发布人在某一时间段内发布的微博信息时，该用户激活微博客户端450(例如，移动电话)。此时，该微博客户端450中的显示处理单元240在位于微博客户端450上的一显示屏(未示出)(例如，移动电话的显示器)上向用户提示输入希望进行分类浏览的微博发布人的账号、以及时间范围。微博客户端450通过输入信息接收单元260(例如，移动电话的触摸屏或者键盘)来接收用户输入的上述信息，并然后，通过有线或者无线的方式将它们传送到引擎服务器410。

在引擎服务器410中，微博信息获取单元250根据从微博客户端450接收到的微博发布人的账号、以及时间范围，将相应的微博信息从微博服务器300上下载到引擎服务器410，以便进行后续的自动分类处理。

例如，当用户希望对姚晨在2012年1月1日到2012年3月31日这个时间段的所有微博进行分类浏览时，则微博信息获取单元250可以根据姚晨的微博账户和上述时间段来获取她所发布的所有微博，并且将这些微博保存在引擎服务器410中。

优选地，为了更准确地对所下载的微博信息进行自动分类，微博信息获取单元250在下载的过程中，除了获取在所述时间范围内所述微博发布人自身所发布的所有微博信息之外，还获取其他微博发布人对于所述微博发布人自身所发布的微博信息所做出的回复信息，从而针对微博信息的短文本特点(一般一条微博信息的字数不超过140字)，实现了短文本微博信息的长文本化，从而丰富了每条微博信息所包含的内容。

此外，可选地，如果引擎服务器410在与微博服务器300的交互过程中，发现该用户没有关注上述微博发布人，则引擎服务器410可以通过微博客户端450中的显示处理单元240向用户提示添加对于该微博发布人的关注，并且在用户添加完关注之后，该引擎服务器410继续进行该下载操作。

在步骤S310中，提取微博信息的中心词。

具体地，在引擎服务器410中，中心词提取单元210接收微博信息获取单元250从微博服务器300中获取的该用户希望分类浏览的全部微博信息，并且利用在离线数据训练阶段中产生的二元语法(Gram)模型来对这些微博文章进行实时数据解析。

下面，参考图5来描述根据本发明实施例的离线数据训练阶段。

图5图示了根据本发明实施例的离线数据训练阶段的流程图。在使用引擎服务器410进行实时数据解析的阶段之前，必须首先针对微博文本的特点来对引擎服务器410进行离线的数据训练。

具体地，由于微博文本和普通文本相比存在短句多、且评述性内容比例大于叙述性内容的特点，所以在对引擎服务器410进行离线训练时，可以采用条件随机场(CRF)进行，该CRF模型采用微博专用语料库训练得到。

如图5所图示的，该离线数据训练阶段包括：

在步骤S510中，从网络公开应用程序接口(API)(例如，从新浪微博中)随机抽取一些真实的微博信息，并且将它们批量传输到引擎服务器410中，该引擎服务器410例如可以是索尼自然语言引擎服务器。

在步骤S520中，引擎服务器410利用一个初始微博专用语料库做自动解析，例如，该初始微博专用语料库可以是由人为生成的，并且其中至少包括：细分好的词语、该词语的词性(例如，名词、动词、代词、介词等)、以及该词语可能属于的分类。

具体地，该自动解析操作包含以下步骤：将随机抽取的多个微博信息中的每一条微博信息切分为至少一个自然句；将切分后的每一个自然句细分为多个词语；对细分后的每个词语进行词性标注；在该词性标注的基础上，对切分后的自然句进行句法解析；以及根据句法解析的结果以及微博中心词词典找到候补中心词。

在步骤S530中，判断该微博专用语料库的偏差是否小于预定的阈值。

例如，在该引擎服务器410通过该初始微博专用语料库对所随机抽取的微博信息进行自动解析之后，引擎服务器410的操作员判断所得到的中心词与操作员人为判断出的该微博信息中的中心词是否一致。

如果该微博专用语料库的偏差大于预定的阈值，例如，如果该引擎服务器410通过该初始微博专用语料库而得到的中心词与操作员人为判断出的中心词存在大量的不一致之处(例如，50％)，则操作员根据人为判断的结果对该微博专用语料库进行偏差修正，同时向在该微博专用语料库中新出现的词语添加该词语可能属于的分类信息，从而得到更新后的微博专用语料库。

然后，利用该更新后的微博专用语料库来替换该初始微博专用语料库，并且返回执行步骤S510，以利用其他的真实微博信息来对微博专用语料库进行进一步的校正和更新。如此重复地执行步骤S510到S530，直到该微博专用语料库的偏差小于预定的阈值为止。

在步骤S540中，引擎服务器410根据最终生成的微博专用语料库进行二元Gram的建模。

例如，引擎服务器410根据通过CRF模型得到的分词及标注结果来建立用于实时解析微博数据的二元Gram模型，以提高自动分类的准确性。

需要说明的是，尽管此处通过条件随机场(CRF)来说明根据本发明实施例的离线数据训练阶段，但是，本领域技术人员能够理解的是，本发明不限于此。而是，还可以使用诸如马尔可夫随机场(MRF)、吉布斯随机场(GRF)、或高斯随机场之类的其他随机场来实现上述离线数据训练阶段。

返回参考图3的步骤S310，中心词提取单元210根据在离线数据训练阶段中产生的二元语法(Gram)模型，来将微博信息获取单元250从微博服务器300中获取的、该用户希望分类浏览的特定用户在特定时间段内的全部微博信息(优选地，包括回复信息)中的每一条微博信息切分为至少一个自然句；将切分后的每一个自然句细分为多个词语；对细分后的每个词语词性进行标注；根据所述词语及其词性，对该自然句建立语法树；以及提取在该自然句的语法树中处于支配关系的词语，作为所述微博信息中的该自然句的中心词。

例如，在该自然句的语法树中处于支配关系词语可以是主谓短语、动宾短语和/或名词状语短语。显然的是，也可以根据其他规则(如，选择主语、谓语或宾语等)来提取提取在该自然句的语法树中处于支配关系的词语。

下面，通过一个实例来详细说明步骤S310。

例如，微博信息获取单元250在步骤S300中获取到的五条微博信息，其中第一条微博信息的内容是“今天在黄山旅游饭店吃了一顿正宗的走地鸡，真是太美味啦，爽！”。

此时，中心词提取单元210参考在离线数据训练阶段中产生的二元语法(Gram)模型，来首先对该第一条微博信息进行自然句切分。将该微博信息切分为第一自然句“今天在黄山旅游饭店吃了一顿正宗的走地鸡”、第二自然句“真是太美味啦”、和第三自然句“爽”三个自然句。

接下来，以第一自然句为例继续说明，中心词提取单元210使用上下文无关文法来将该第一自然句细分为八个词语“今天”、“在”、“黄山旅游饭店”、“吃”、“了”、“一顿”、“正宗的”和“走地鸡”。然后，中心词提取单元210对第一自然句中的上述八个词语进行词性标注，例如，将“吃”标注为动词，将“走地鸡”标注为名词等等。随后，中心词提取单元210根据上述细分出来的词语及其词性，对该第一自然句建立语法树。通过对该语法树进行分析，可以知道在该语法树中处于支配关系的词语是由动词和名词组成的动宾结构，也就是说，可以得到第一自然句的支配性短语是作为动宾结构的短语“吃”和“走地鸡”。因此，中心词提取单元210将该动宾短语提取作为该微博信息中的第一自然句的中心词。

同理，中心词提取单元210对第一条微博信息中的第二和第三自然句进行类似的处理。其中，由于第三自然句仅仅包括一个字，显然可以知道其语法树的结构是不完整的。因此，优选地，将该第三自然句从该第一条微博信息中滤除，从而可以将过短的、不可能包含任何中心词的一些“灌水贴”(例如，“顶”、“呵呵”等)在这个阶段过滤掉，以便减轻引擎服务器410在后续相关度匹配时的数据分析负荷。

在完成对第一条微博信息中的所有自然句进行的中心词提取之后，类似地，中心词提取单元210继而开始对后续的第二条到第五条微博信息进行相似的中心词提取处理，以得到全部五条微博信息的相关中心词。

需要说明的是，尽管此处通过使用上下文无关文法来建立语法树、并将语法树中的支配性短语确定为中心词的方式来说明步骤S310，但是，本领域技术人员能够理解的是，本发明不限于此。而是，还可以使用例如通过将细分得到的词语与包括多个预定义中心词的中心词词典进行比较来确定在该微博信息中是否存在由操作员预定义的中心词的方法来实现步骤S310。

在步骤S320中，通过计算所述中心词与预定义的分类的相关度，来获得所述微博信息与所述预定义的分类的相关度。

具体地，在引擎服务器410中，相关度获得单元220从中心词提取单元210接收在上述步骤S310中提取得到的经过过滤的每一条微博信息的一个或多个中心词。而且，该相关度获得单元220从引擎服务器410的存储器(未示出)中提取多个预定义的分类，该预定义分类是人为规定的，并且用于根据它们来对各条微博信息进行自动归类。

接下来，相关度获得单元220利用预先训练得到的中心词相关度概率库，针对每一个预定义的分类，来建立所述分类的空间向量，所述空间向量中的每一个元素分别指示出所述中心词中的每一个中心词与所述预定义分类的相关度。该中心词相关度概率库由操作员预先训练得到的，它包括操作员预先设置的每一个中心词分别与每一个预定义分类的相关度，该相关度是一种概率值，用于表现该中心词与该预定义分类相关的概率，其取值范围是从0到1，其中0为完全不相关，而1为完全相关。

下面，参考图6A到6C来描述根据本发明实施例的相关度计算步骤S320。

图6A到6C图示了根据本发明实施例所计算得到的中心词与预定义分类的相关度的实例。其中，假设中心词提取单元210在步骤S310中提取到的某一条微博信息中包含的中心词是“吃”、“走地鸡”、“拍照”、“驴友”这四个中心词，并且假设引擎服务器410中的预定义的分类包括“摄影”、“美食”、和“旅行”这三个分类。

此时，相关度获得单元220利用该中心词相关度概率库来分别计算上述四个中心词中的每一个中心词与上述三个分类中的每一个分类的相关度。

针对第一预定义分类“摄影”，通过计算得到，第一中心词“吃”与该分类的相关度很低，仅为0.1；第二中心词“走地鸡”与该分类的相关度仍然很低，仅为0.1；第三中心词“拍照”与该分类的相关度极高，为表示二者完全相关的1；第四中心词“驴友”与该分类的相关度为0.3。

针对第二预定义分类“美食”，通过计算得到，第一中心词“吃”与该分类的相关度很高，为0.9；第二中心词“走地鸡”与该分类的相关度为0.8；第三中心词“拍照”与该分类的相关度很低，仅为0.1；第四中心词“驴友”与该分类的相关度为0.3。

针对第三预定义分类“旅行”，通过计算得到，第一中心词“吃”与该分类的相关度为0.3；第二中心词“走地鸡”与该分类的相关度很低，为0.1；第三中心词“拍照”与该分类的相关度为0.6；第四中心词“驴友”与该分类的相关度很高为0.9。

由此，通过上述步骤，相关度获得单元220可以利用该中心词相关度概率库来得出：所述微博信息对于第一预定义分类“摄影”的空间向量为t1＝{0.1，0.1，1，0.3}；所述微博信息对于第二预定义分类“美食”的空间向量为t2＝{0.9，0.8，0.1，0.3}；所述微博信息对于第三预定义分类“旅行”的空间向量为t3＝{0.3，0.1，0.6，0.9}，从而建立了各个中心词与预定义分类的相关度概率分布空间。

最后，相关度获得单元220通过将每一个中心词与某一预定义分类的相关度之和，作为所述微博信息与所述预定义分类的相关度。

例如，所述微博信息与第一预定义分类的相关度为0.1+0.1+1+0.3＝1.5；所述微博信息与第二预定义分类的相关度为0.9+0.8+0.1+0.3＝2.1；所述微博信息与第三预定义分类的相关度为0.3+0.1+0.6+0.9＝1.9。

显然的是，在某条微博信息只存在一个中心词时，该中心词与某一预定义分类的相关度即为所述微博信息与所述预定义分类的相关度。

返回参考图3，在步骤S330中，将所述微博信息分类到所述预定义的分类中。

在引擎服务器410中，分类单元230从相关度获得单元220接收所计算得到的各条微博信息与各个预定义分类的相关度，将所述微博信息与所述预定义分类的相关度和第一阈值进行比较。如果所述微博信息与所述预定义的分类的相关度高于第一阀值，则从高于第一阈值的相关度中选择最大的相关度，并且将所述微博信息分类到与所述最大相关度对应的预定义的分类中。而如果所述微博信息与所述预定义的分类的相关度低于第一阀值，则不将所述微博信息分类到所述预定义的分类中。

具体地，分类单元230将相关度获得单元220所计算得到的各条微博信息与各个预定义分类的相关度和第一阈值进行比较。这里，为了方便说明，将该第一阈值假设为1.8。

仍然参考图6A到6C所图示的实例，分类单元230接收到包含的中心词是“吃”、“走地鸡”、“拍照”、“驴友”这四个中心词的该条微博信息与第一预定义分类“摄影”的相关度为1.5；与第二预定义分类“美食”的相关度为2.1；与第三预定义分类“旅行”的相关度为1.9。

然后，该分类单元230将这三个相关度与第一阈值1.8进行比较。可以发现，该条微博信息与第二和第三预定义分类的相关度均大于第一阈值，并且与第二预定义分类的相关度2.1大于与第三预定义分类的相关度1.9，因此，该分类单元230将所述微博信息分类到与最大相关度2.1对应的第二预定义的分类“美食”中。

在另一示例中，如果某条微博信息与第一到第三预定义分类的相关度均小于第一阈值1.8，则该分类单元230不将该条微博信息分类到所述预定义分类中的任何一个中。并且，在步骤S330的结束时，即在完成各条微博信息到所有预定义的分类的分类操作之后，该分类单元230将没有分类到所述预定义分类中的所有微博信息分类到一个或多个新建的分类中。

例如，该分类单元230可以将与每一个预定义分类的相关度均小于第一阈值的所有微博信息归类到一个称为“其他”或者“杂项”的分类中，以避免用户在随后查看分类好的各条微博信息时，无法查看到与由操作员预定义的分类不太相关或并不相关的某些微博信息。

替换地，该分类单元230还可以优选地将其中包含的中心词比较相关(例如，中心词“钢琴”与中心词“电子琴”与中心词“手风琴”)的多条微博信息归类到一个新建的分类中，并且以距离所有微博信息的中心词的几何中心点最近的中心词(例如，中心词“钢琴”)作为所述新建分类的名称。

在步骤S340中，进行迭代聚类。

在引擎服务器410中，在将微博信息分类到各个预定义的分类中之后，分类单元230将所有分类的数目与第二阈值进行比较。如果所述分类的数目大于所述第二阈值，则使用空间聚类的方法，继续迭代聚类，直到分类的数目小于或等于所述第二阈值为止。而如果所述分类的数目小于或等于所述第二阈值，则执行随后的步骤S350。

具体地，在完成各条微博信息到所述预定义分类和/或新建分类中的全部分类操作之后，该分类单元230将目前所存在的分类的数目与一第二阈值进行比较。例如，该第二阈值是由用户设置的，并且用于表示出在用户的微博客户端的显示界面上允许同时进行显示的分类的数目。

例如，如果在第一次分类操作之后，目前存在的分类数目为8个，而该第二阈值是5个，则该分类单元230确定出需要进行迭代聚类的操作，以将分类数目逐渐缩小到5个。

在一个示例中，该分类单元230可以在所有预定义的分类中，删除其中具有最少数目的微博信息的第一预定义分类；针对所述第一预定义分类中的微博信息，重新通过计算所述微博信息的中心词与在所有预定义分类中除了所述第一预定义分类之外的其他预定义分类的相关度，来获得所述微博信息与所述其他预定义分类的相关度；以及如果所述微博信息与所述其他预定义分类的相关度高于第一阀值，则将所述微博信息重新分类到所述其他预定义的分类之一中。

例如，假设此时第一预定义分类中具有1条微博信息，第二预定义分类中具有2条微博信息，......，而第八预定义分类中具有8条微博信息。那么，该分类单元230可以删除该第一预定义分类，并且将该第一预定义分类中的这条微博信息中的中心词重新读取出来，并且返回执行步骤S320和S330。例如，优选地，可以不将所有微博信息的各个中心词在步骤S330结束后从引擎服务器410中删除，而是将它们存储在一临时存储器(未示出)中，直到完成分类操作之后再进行清除。

即，该相关度获得单元220重新计算该条微博信息的一个或多个中心词与第二预定义分类到第八预定义分类的相关度，从而获得所述微博信息与其他7个预定义分类的相关度。如上所述，该分类单元230进一步判断所述微博信息与其他7个预定义分类的相关度是否高于第一阀值。如果高于第一阈值，则该分类单元230从高于第一阈值的相关度中选择最大的相关度，并且将所述微博信息分类到与所述最大相关度对应的预定义的分类中。如果低于第一阈值，则该分类单元230将该条微博分类到例如名称为“其他”的分类中。

此时，分类单元230再次将所有分类的数目与第二阈值进行比较。由于目前的分类数目7个仍然大于第二阈值5个，所以分类单元230重复执行步骤S340，将包括2条微博信息的第二分类删除，以此类推。这样，该分类单元230使用空间聚类的方法，将相近的微博信息归为一类，直到分类的类别数少于或等于预设的数目为止。

在另一示例中，该分类单元230也可以按照预设的准则，计算各个分类中的任意两个之间的距离，并且将两者之间距离最小的两个分类合并为一个分类，以便直接将归类得到的8个分类逐渐缩小到预设的数目。

在步骤S350中，确定分类的摘要和关注热度。

在引擎服务器410中，具体地，在分类单元230将全部的微博信息都归类到预设数目的分类中之后，优选地，它还可以针对每一个预定义的分类，选择与该预定义分类的相关度最大的微博信息，并且通过将所选择的微博信息中的图片和/或中心词作为缩略图和/或摘要来表现所述预定义的分类，以便除了通过分类的名称之外，用户还可以通过该分类的缩略图和/或摘要来更加清楚地了解在这个分类中包括的微博信息的主题。

此外，优选地，该分类单元230还可以通过所述预定义分类中的微博信息数目以及丰富度，来确定微博发布人对于所述预定义分类的关注热度。

例如，该分类单元230通过具有完整语法树的句子的数量及包含词语数的乘积来确定该分类关注热度。假设某一预定义分类中包括2条微博信息，第一条微博信息包括1个具有完整语法树的句子，其字数为30字，而第二条微博信息包括2个具有完整语法树的句子，其字数分别为10字和20字。于是，该分类单元230可以将该分类的关注热度计算为1×30+1×10+1×20＝60。

从而，用户可以根据某个分类的关注热度来了解该微博发布人对于这个分类主题的感兴趣程度，以便用户更好地了解微博发布人的兴趣爱好。

在步骤S360中，显示所分类的微博信息。

具体地，在分类系统400中，在引擎服务器410完成对于微博信息的分类操作之后，该引擎服务器410可以向微博客户端450推送各条微博信息、以及它们所属的分类。

例如，微博客户端450中的显示处理单元240从引擎服务器410中的分类单元230接收分类后的微博信息，并且根据用户预先设置或者系统默认的布局信息自动排版和调整接收到的微博信息，并且按照不同的分类和时间段来向用户显示所述微博信息。

下面，参考图7和图8来描述根据本发明实施例的微博信息显示步骤S360。

图7图示了根据本发明实施例的在微博客户端450中显示的预览显示界面，而图8图示了根据本发明实施例的在微博客户端450中显示的分类显示界面。

如图7所图示的，某个用户Edwin可能希望获取自己所关注的姚晨、天奇、小s等人在不同时间段的微博信息，于是该用户预先使用根据本发明实施例的分类系统400，在上述步骤S300到S350中对上述各个微博发布人的微博信息进行了抓取和分类。

然后，用户从传统的微博浏览界面跳转到分类微博界面。在分类微博界面中的预览显示界面中，用户所关注的人的帐号会逐一显示出来，其中距上次打开至今有更新的帐号会高亮得显示出来。例如，微博客户端450(例如，移动电话)中的显示处理单元240在位于微博客户端450上的一显示屏上显示预览显示界面，如图7所图示的。其中包括该用户自己的用户名Edwin和头像、以及该用户所关注的姚晨、天奇、小s等微博发布人的用户名和相应的头像。

其后，用户选择想要分类浏览的微博发布人的帐号(例如，小s)，使得微博客户端450中的显示处理单元240在该显示屏上显示分类显示界面。如图8所图示，分类系统400已经对该微博发布人帐号中所有的微博信息将根据相关度自动进行分类，标注出热门度，并且按照年的顺序排序。在图8中，该帐号2010年微博信息的分类为5类，分别为“摄影”、“动物”、“生活”、“旅行”、“美食”，其中“摄影”热门度最高，热度值达345。

然后，该用户可以选择进入具体的某个分类(例如，摄影)进行详细的微博的阅读；或者该用户也可以选择右上角的“2010年”下面的箭头“《”或向左拖拽，来显示在2010年中以月为单位的更细的一层分类，同样该用户也可以选择右边中间的“2009年”下面的箭头“《”或向左拖拽，来显示在2009年中以月为单位的更细的一层分类。

由此可见，用户可以通过对指定时间段、指定发布人的各条微博内容的相关度分析，自动将相关度高的微博以事先定义的类别(或自动归纳的类别)进行分类并按时间或相关度顺序排序，并且分类后的信息将抽取代表图片及微博文字后自动排版显示。这样，当用户面对大量的微博信息时，该用户既可以以一览的方式来预览中心主题，同时也能进对感兴趣的主题进行进一步阅读，从而提供阅读海量微博的新的用户体验。

因此，利用本发明，用户可以直接选择要关注的对象和时间段，直观的进入感兴趣的某一类微博；可以在初始的预览顺面中看到各个分类有代表性的图片和摘要；可以以方便的方式跳转回顾以往的微博信息；并且可以在归类并计算热门程度之后，方便用户快速找到最热门的分类主题。

综上所述，本发明改变了目前传统的微博阅览的方式，从逐条信息阅读转变为快速浏览主题后只阅读自己所关心内容的新的体验，并且本发明可以容易地通过软件或者硬件的形式，容易地应用于各类消费类电子产品上，以有效改善用户的微博浏览体验。

在上面详细描述了本发明的各个实施例。然而，本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例进行各种修改，组合或子组合，并且这样的修改应落入本发明的范围内。

Claims

1.一种用于对微博信息进行分类显示的方法，其特征在于，所述方法包括：

提取微博信息的中心词；

通过计算所述中心词与预定义的分类的相关度，来获得所述微博信息与所述预定义的分类的相关度；

如果所述微博信息与所述预定义的分类的相关度高于第一阀值，则将所述微博信息分类到所述预定义的分类中；以及

显示所分类的微博信息。

2.根据权利要求1的方法，其特征在于，在所述提取微博信息的中心词的步骤之前，所述方法还包括：

根据用户所选择的微博发布人的账号以及时间范围，获取所述微博发布人在所述时间范围内所发布的所有微博信息。

3.根据权利要求2的方法，其特征在于，所述获取所述微博发布人在所述时间范围内所发布的所有微博信息的步骤包括：

获取在所述时间范围内所述微博发布人自身所发布的所有微博信息、以及其他微博发布人对于所述微博信息所做出的回复信息。

4.根据权利要求1的方法，其特征在于，所述提取微博信息的中心词的步骤包括：

将所述微博信息切分为自然句；

将所述自然句细分为词语；

对所述词语的词性进行标注；

根据所述词语及其词性，对所述自然句建立语法树；以及

提取在所述自然句的语法树中处于支配关系的词语，作为所述微博信息中的所述自然句的中心词。

5.根据权利要求4的方法，其特征在于，所述在所述自然句的语法树中处于支配关系的词语包括：

在所述自然句的语法树中处于支配关系的主谓短语、动宾短语和/或名词状语短语。

6.根据权利要求4的方法，其特征在于，在所述对所述自然句建立语法树的步骤之后，所述方法还包括：

从所述微博信息中，滤除所述语法树的结构不完整的自然句。

7.根据权利要求1的方法，其特征在于，所述计算所述中心词与预定义的分类的相关度的步骤包括：

提取多个预定义的分类；

利用预先训练得到的中心词相关度概率库，针对每一个预定义的分类，来建立所述分类的空间向量，所述空间向量中的每一个元素分别指示出所述中心词中的每一个中心词与所述预定义分类的相关度；以及

将所述每一个中心词与所述预定义分类的相关度之和，作为所述微博信息与所述预定义分类的相关度。

8.根据权利要求1的方法，其特征在于，如果所述微博信息与所述预定义的分类的相关度高于第一阀值、则将所述微博信息分类到所述预定义的分类中的步骤包括：

将所述微博信息与所述预定义分类的相关度和第一阈值进行比较；

如果所述微博信息与所述预定义的分类的相关度高于第一阀值，则从高于第一阈值的相关度中选择最大的相关度；以及

将所述微博信息分类到与所述最大相关度对应的预定义的分类中。

9.根据权利要求1的方法，其特征在于，所述方法还包括：

如果所述微博信息与所述预定义的分类的相关度低于第一阀值，则不将所述微博信息分类到所述预定义的分类中；以及

将没有分类到所述预定义分类中的所有微博信息分类到新建的分类中。

10.根据权利要求9的方法，其特征在于，在所述将没有分类到所述预定义分类中的所有微博信息分类到新建的分类中的步骤之后，所述方法还包括：

在新建的分类中，以距离所有微博信息的中心词的几何中心点最近的中心词作为所述新建分类的名称。

11.根据权利要求1的方法，其特征在于，在所述将所述微博信息分类到所述预定义的分类中之后，所述方法还包括：

将所有分类的数目与第二阈值进行比较；以及

如果所述分类的数目大于所述第二阈值，则使用空间聚类的方法，继续迭代聚类，直到分类的数目小于或等于所述第二阈值为止。

12.根据权利要求11的方法，其特征在于，所述使用空间聚类的方法、继续迭代聚类的步骤包括：

在所有预定义的分类中，删除其中具有最少数目的微博信息的第一预定义分类；

针对所述第一预定义分类中的微博信息，重新通过计算所述微博信息的中心词与在所有预定义分类中除了所述第一预定义分类之外的其他预定义分类的相关度，来获得所述微博信息与所述其他预定义分类的相关度；以及

如果所述微博信息与所述其他预定义分类的相关度高于第一阀值，则将所述微博信息重新分类到所述其他预定义的分类之一中。

13.根据权利要求1的方法，其特征在于，在所述显示所分类的微博信息的步骤之前，所述方法还包括：

针对每一个预定义的分类，选择与所述预定义分类的相关度最大的微博信息；以及

通过将所选择的微博信息中的图片和/或中心词作为缩略图和/或摘要来表现所述预定义的分类。

14.根据权利要求1的方法，其特征在于，在所述显示所分类的微博信息的步骤之前，所述方法还包括：

通过所述预定义分类中的微博信息数目以及丰富度，来确定微博发布人对于所述预定义分类的关注热度。

15.一种用于对微博信息进行分类显示的设备，其特征在于，所述设备包括：

中心词提取单元，用于提取微博信息的中心词；

相关度获得单元，用于通过计算所述中心词提取单元所提取的中心词与预定义的分类的相关度，来获得所述微博信息与所述预定义的分类的相关度；

分类单元，用于如果所述相关度获得单元所获得的所述微博信息与所述预定义分类的相关度高于第一阀值，则将所述微博信息分类到所述预定义的分类中；以及

显示处理单元，用于显示所述分类单元所分类的微博信息。