CN104361037A

CN104361037A - 微博分类方法及装置

Info

Publication number: CN104361037A
Application number: CN201410591807.7A
Authority: CN
Inventors: 杜翠兰; 李鹏霄; 孙旷怡; 刘晓辉; 赵淳璐; 翟羽佳; 段东圣; 杨博; 钮艳
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2014-10-29
Filing date: 2014-10-29
Publication date: 2015-02-18
Anticipated expiration: 2034-10-29
Also published as: CN104361037B

Abstract

本发明公开了一种微博分类方法及装置。该方法包括：步骤1，对训练语料集合进行预处理，对预处理后的训练语料进行分词，获取候选特征，并对候选特征进行权重计算，根据权重计算结果进行特征选择，获取最终的分类特征；步骤2，根据最终的分类特征，采用贝叶斯分类器进行模型训练，获取分类模型；步骤3，采用贝叶斯分类器根据分类模型对微博文档进行分类。借助于本发明的技术方案，提高了分类的召回率与准确率。

Description

微博分类方法及装置

技术领域

本发明涉及计算机网络领域，特别是涉及一种微博分类方法及装置。

背景技术

微博用户群庞大，CNNIC2014年1月份公布的，我国微博用户规模为2.81亿，网民中微博使用率为45.5％。并且活跃用户数量巨大，2013年12月新浪微博月活用用户数达到1.291亿。微博产生海量数据，但用户却感觉信息匮乏，无法找到相关信息。分类是一种有效的信息组织手段，能够辅助用户发现需要的信息。并且分类是信息推荐，数据分析的基础。

微博数据短，信息量大，信息碎片化程度高，内容口语化，传统分类流程不适用。原有分类方法首先人工选取语料、标注，训练分类器，然后对目标语料进行分类。但是，微博数据短，单条微博最多140字，数据稀疏性大，小规模标注召回率低。因此，需要设计一套针对微博信息的分类系统。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的微博分类方法及装置。

本发明提供一种微博分类方法，包括：

步骤1，对训练语料集合进行预处理，对预处理后的训练语料进行分词，获取候选特征，并对候选特征进行权重计算，根据权重计算结果进行特征选择，获取最终的分类特征；

步骤2，根据最终的分类特征，采用贝叶斯分类器进行模型训练，获取分类模型；

步骤3，采用贝叶斯分类器根据分类模型对微博文档进行分类。

优选地，训练语料包括：新闻语料。

优选地，步骤1具体包括：

对训练语料集合进行噪音去除、以及各式归一化的预处理操作；

使用通用词典对预处理后的训练语料进行分词，并进行新词的识别，获取候选特征；

对候选特征进行权重计算，其中，权重参数包括：词频、倒文档频率、以及词性；

根据权重计算结果，通过计算熵值和DF值的方法，进行特征选择，获取最终的分类特征。

优选地，上述方法还包括：

将分类后的微博文档添加到训练语料集合中，执行步骤1-2，重新进行模型训练。

优选地，进行新词的识别的方法包括：隐马尔科夫模型、基于统计特征的方法、互信息及上下文邻接种类统计信息方法。

本发明还提供了一种微博分类装置，包括：

处理模块，用于对训练语料集合进行预处理，对预处理后的训练语料进行分词，获取候选特征，并对候选特征进行权重计算，根据权重计算结果进行特征选择，获取最终的分类特征；

训练模块，用于根据最终的分类特征，采用贝叶斯分类器进行模型训练，获取分类模型；

分类模块，用于采用贝叶斯分类器根据分类模型对微博文档进行分类。

优选地，训练语料包括：新闻语料。

优选地，处理模块具体用于：

优选地，分类模块还用于：

将分类后的微博文档添加到训练语料集合中，并调用处理模块和训练模块，重新进行模型训练。

优选地，进行新词的识别的方法包括：隐马尔科夫模型方法、基于统计特征的方法、互信息及上下文邻接种类统计信息方法。

本发明有益效果如下：

借助于本发明实施例的技术方案，基于伪相关反馈的分类系统，针对微博数据的特点，解决了微博数据稀疏性大，需要标注语料集大，耗费耗时的问题。以新闻语料为种子，进行分类，采用伪相关反馈的方法，对模型进行迭代，提高分类的召回率与准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例的微博分类方法的流程图；

图2是本发明实施例的微博分类方法的详细处理的示意图；

图3是本发明实施例的微博分类装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明提供了一种微博分类方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

方法实施例

根据本发明的实施例，提供了一种微博分类方法，图1是本发明实施例的微博分类方法的流程图，如图1所示，根据本发明实施例的微博分类方法包括如下处理：

步骤101，对训练语料集合进行预处理，对预处理后的训练语料进行分词，获取候选特征，并对候选特征进行权重计算，根据权重计算结果进行特征选择，获取最终的分类特征；优选地，训练语料包括：新闻语料。

步骤101具体包括：

步骤1，对训练语料集合进行噪音去除、以及各式归一化的预处理操作；

步骤2，使用通用词典对预处理后的训练语料进行分词，并进行新词的识别，获取候选特征；

步骤3，对候选特征进行权重计算，其中，权重参数包括：词频、倒文档频率、以及词性；

步骤4，根据权重计算结果，通过计算熵值和DF值的方法，进行特征选择，获取最终的分类特征。

步骤102，根据最终的分类特征，采用贝叶斯分类器进行模型训练，获取分类模型；

步骤103，采用贝叶斯分类器根据分类模型对微博文档进行分类。

在本发明实施例中，上述方法还包括：

将分类后的微博文档添加到训练语料集合中，执行步骤101-102，重新进行模型训练。

优选地，在本发明实施例中，进行新词的识别的方法包括：隐马尔科夫模型、基于统计特征的方法、互信息及上下文邻接种类统计信息方法。

从上面描述可以看出，本发明实施例基于伪相关反馈的微博分类系统，训练语料采用新闻语料，传统新闻网页存在大量已经标注的资源，可以用来作为初始训练集。

分类器选用贝叶斯分类器，每个数据样本用一个n维特征向量X＝{x₁,x₂,..x._n}表示，分别描述对n个属性A1,A2,…An样本的n个度量。假定有m个类C1，C2，…Cm。给定一个未知的数据样本X(即没有类标号)，分类法将预测X属于具有最高后验概率(条件X下)的类。即是说，朴素贝叶斯分类将未知的样本分配给类Ci，当且仅当P(C_i/X)＞P(C_j/X),1≤j≤m,j≠i。这样，最大化P(C_i/X)。其P(C_i/X)最大的类Ci称为最大后验假定。根据贝叶斯定理

P (H / X) = \frac{P (X / H) P (H)}{P (X)},

P (C_{i} / X) = \frac{P (X / C_{i}) P (C_{i})}{P (X)} .

采用伪相关反馈方法改进分类精度。由于初始新闻语料多采用书面语形式撰写，而微博多以口语形式表现。两者之间差异性较大，一定程度上影响分类效果。所以，采用伪相关反馈的方法，将分类结果中相似度较高的文档加入到训练语料中，重新训练模型，提高准确率与召回率。

以下结合附图，对本发明实施例的上述技术方案进行详细说明。

图2是本发明实施例的微博分类方法的详细处理的示意图，如图2所示，本发明的过程包括以下四个步骤：

步骤1，对训练集合语料进行预处理，去除噪音、格式归一化等。由于训练语料采用新闻语料，多以网页形式存在，需要对网页信息进行处理，抽取文档信息。由于，网页内容中存在大量的广告、推荐等信息，简单的移除HTML标签的方法，抽取的内容还包括这些噪音信息，严重影响分类的准确性。一般广告与推荐信息文本内容较少，可以根据文本内容与HTML标签的比例去除广告与推荐信息，提高内容抽取的准确性。

步骤2，特征提取，对文档进行中文分词，权重计算，特征选择，得到特征向量。中文分词，首先使用通用词典对训练语料进行分词，并采用隐马尔科夫模型(HMM)方法识别人名、地名、机构名等未登陆词语。但是，微博词汇更新速度快，不断涌现一些新的词语，以HMM为代表的未登录词识别方法，根据字符的出现的概率，计算字符串的成词概率，来识别未登录词，对训练语料依赖性高，需要具有相关模式的字符串在训练语料中出现。可以采用基于统计特征的方法，互信息(MI)以及上下文邻接种类统计信息识别新词。

其次，需要对候选特征进行权重计算。权重计算使用多个特征综合计算。词频，词语在文档中出现的频率，词语出现次数越多，其越重要，权重越高。倒文档频率，词语在越多的文档中出现，权重越低，训练语料数据量有限，稀疏性大，因此，采用通用语料库进行倒文档频率的统计。词性，不同词性对文档的描述能力不同，名词、动词等表述意义明确，而助词等不能表述实际意义，权重低。

最后，进行特征选择。使用熵与DF等特征进行特征选择。熵用于特征选择能够选取区分度高的特征，熵表现信息的不确定性，如果一个特征在所有类中出现的概率区分度不高，则该特征不确定性高，熵值大。反之，特征在个别类别中概率高，则特征具有区分度，能够较好的区分不同的类别，熵值小。DF较高的特征在所有文档中均出现，区分度较低，会给分类带来较大的噪音。通过特征选择后得到最终分类特征。

步骤3，采用贝叶斯算法进行模型训练。

步骤4，进行文本分类，将相关度高的内容添加到语料中，重新训练模型。重复步骤1。

综上所述，借助于本发明实施例的技术方案，基于伪相关反馈的分类系统，针对微博数据的特点，解决了微博数据稀疏性大，需要标注语料集大，耗费耗时的问题。以新闻语料为种子，进行分类，采用伪相关反馈的方法，对模型进行迭代，提高分类的召回率与准确率。

装置实施例

根据本发明的实施例，提供了一种微博分类装置，图3是本发明实施例的微博分类装置的结构示意图，如图3所示，根据本发明实施例的微博分类装置包括：处理模块30、训练模块32、以及分类模块34，以下对本发明实施例的各个模块进行详细的说明。

处理模块30，用于对训练语料集合进行预处理，对预处理后的训练语料进行分词，获取候选特征，并对候选特征进行权重计算，根据权重计算结果进行特征选择，获取最终的分类特征；其中，训练语料包括：新闻语料。处理模块30具体用于：

对训练语料集合进行噪音去除、以及各式归一化的预处理操作；使用通用词典对预处理后的训练语料进行分词，并进行新词的识别，获取候选特征；对候选特征进行权重计算，其中，权重参数包括：词频、倒文档频率、以及词性；根据权重计算结果，通过计算熵值和DF值的方法，进行特征选择，获取最终的分类特征。

训练模块32，用于根据最终的分类特征，采用贝叶斯分类器进行模型训练，获取分类模型；

分类模块34，用于采用贝叶斯分类器根据分类模型对微博文档进行分类。

分类模块34还用于：

优选地，在本发明实施例中，进行新词的识别的方法包括：隐马尔科夫模型方法、基于统计特征的方法、互信息及上下文邻接种类统计信息方法。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的客户端中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个客户端中。可以把实施例中的模块组合成一个模块，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者客户端的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种微博分类方法，其特征在于，包括：

步骤1，对训练语料集合进行预处理，对预处理后的训练语料进行分词，获取候选特征，并对所述候选特征进行权重计算，根据权重计算结果进行特征选择，获取最终的分类特征；

步骤2，根据最终的所述分类特征，采用贝叶斯分类器进行模型训练，获取分类模型；

步骤3，采用贝叶斯分类器根据所述分类模型对微博文档进行分类。

2.如权利要求1所述的方法，其特征在于，所述训练语料包括：新闻语料。

3.如权利要求1所述的方法，其特征在于，步骤1具体包括：

对所述候选特征进行权重计算，其中，权重参数包括：词频、倒文档频率、以及词性；

根据所述权重计算结果，通过计算熵值和DF值的方法，进行特征选择，获取最终的分类特征。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

5.如权利要求3所述的方法，其特征在于，进行新词的识别的方法包括：隐马尔科夫模型、基于统计特征的方法、互信息及上下文邻接种类统计信息方法。

6.一种微博分类装置，其特征在于，包括：

处理模块，用于对训练语料集合进行预处理，对预处理后的训练语料进行分词，获取候选特征，并对所述候选特征进行权重计算，根据权重计算结果进行特征选择，获取最终的分类特征；

训练模块，用于根据最终的所述分类特征，采用贝叶斯分类器进行模型训练，获取分类模型；

分类模块，用于采用贝叶斯分类器根据所述分类模型对微博文档进行分类。

7.如权利要求6所述的装置，其特征在于，所述训练语料包括：新闻语料。

8.如权利要求6所述的装置，其特征在于，处理模块具体用于：

9.如权利要求6所述的装置，其特征在于，所述分类模块还用于：

将分类后的微博文档添加到训练语料集合中，并调用所述处理模块和所述训练模块，重新进行模型训练。

10.如权利要求8所述的装置，其特征在于，进行新词的识别的方法包括：隐马尔科夫模型方法、基于统计特征的方法、互信息及上下文邻接种类统计信息方法。