CN105843957A

CN105843957A - 微博深度分类方法及系统

Info

Publication number: CN105843957A
Application number: CN201610236172.8A
Authority: CN
Inventors: 赵志云; 刘春阳; 李雄; 庞琳; 张旭; 王萌; 王卿; 李建欣; 陈汉腾; 刘垚鹏; 彭浩
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2016-08-10

Abstract

本发明实施例提供一种微博深度分类方法及系统，该方法包括：将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配，确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率；将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理，并将归一化处理后的数据输入学习模型；根据所述学习模型的输出确定微博事件分类模型；根据所述微博事件分类模型对微博文本进行分类。本发明实施例提供的微博深度分类方法及系统，能够对微博文本进行深入的细化分类，提高微博文本的分类正确率。

Description

微博深度分类方法及系统

技术领域

本发明实施例涉及互联网技术领域，尤其涉及微博深度分类方法及系统。

背景技术

微博作为当下流行的社交方式之一，其短短的数十字的内容，不但描述了每个用户的所见所闻，所思所想，也真实地反映了社会上的大事小情。

近来，对于微博数据的分析方法成为了研究的热点。在此基础之上，基于微博平台的突发事件监测、热点事件分析，用户社区监测、行为建模等方向层出不穷。然而，对于微博数据分析而言，微博的语义描述和分类是其中的基础和关键。因此，如何将微博文本进行精确的语义描述和深入细化分类是当下寇待解决的问题之一。

发明内容

本发明实施例提供一种微博深度分类方法及系统，用以对微博文本进行深入细化分类，提高微博文本分类的正确率。

本发明实施例第一方面提供一种微博深度分类方法，该方法包括：

将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配，确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率；

将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理，并将归一化处理后的数据输入学习模型；

根据所述学习模型的输出确定微博事件分类模型；

根据所述微博事件分类模型对微博文本进行分类。

本发明实施例第二方面提供一种微博深度分类系统，该系统包括：

第一匹配模块，用于将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配，确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率；

处理模块，用于将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理，并将归一化处理后的数据输入学习模型；

确定模块，用于根据所述学习模型的输出确定微博事件分类模型；

执行模块，用于根据所述微博事件分类模型对微博文本进行分类。

本发明实施例提供的微博深度分类方法及系统，通过确定第一微博训练样本数据在各第一筛选词库中出现的词汇频率，并通过将第一微博训练样本数据在各第一筛选词库中出现的词汇频率进行归一化处理，生成输入数据，使得学习模型能够根据该输入数据进行模型训练，生成分类正确率较高的微博事件分类模型，从而根据该微博事件分类模型能够实现对微博文本的深入细化分类，提高微博文本的分类正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的微博深度分类方法的流程示意图；

图2为本发明又一实施例提供的微博深度分类方法的流程示意图；

图3为本发明一实施例提供的微博深度分类系统的结构示意图；

图4为本发明又一实施例提供的微博深度分类系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤的过程或结构的系统不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或系统固有的其它步骤或结构。

图1为本发明一实施例提供的微博深度分类方法的流程示意图，如图1所示，本实施例提供的方法包括以下步骤：

步骤S101、将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配，确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率。

本实施例中，第一筛选词库为多个，每个第一筛选词库中存储有对应事件类型的核心词汇或关键字。第一微博训练样本数据为预先标记好事件类型的微博样本数据。

进一步的，每个第一筛选词库均对应一个唯一的词汇匹配算法，该词汇匹配算法用于将微博文本中的词汇与对应的第一筛选词库中的核心词汇或关键字进行匹配。具体的，本实施例中词汇匹配算法优选采用哈希二进制算法，即每个第一筛选词库对应一个哈希二进制算法。

具体的，当完成第一微博训练样本数据的分词处理后，通过遍历各第一筛选词库，根据各第一筛选词库对应的哈希二进制算法将分词后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配，从而确定第一微博训练样本数据中的词汇在每一个第一筛选词库中出现的次数(即词汇频率)。

步骤S102、将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理，并将归一化处理后的数据输入学习模型。

步骤S103、根据所述学习模型的输出确定微博事件分类模型。

本实施例中优选采用支持向量机(Support Vector Machine，简称SVM)进行模型训练，采用SVM中的学习模型作为本实施例中的学习模型。当步骤102完成归一化处理后，将归一化处理后的数据输入SVM中，从而根据SVM的输出确定微博事件分类模型。

具体的，将归一化处理后的数据输入SVM后，SVM输出的事件类型为SVM根据当前的微博事件分类模型识别输出的第一微博训练样本数据的事件类型。该输出事件类型可能与预先标记的第一微博训练样本数据的事件类型一致，也可能不一致。当不一致时，则说明当前的微博事件分类模型不准确，则对当前的微博事件分类模型进行调整，直至SVM的输出事件类型与预先标记的第一微博训练样本数据的事件类型一致时，停止调整，获得分类准确度较高的微博事件分类模型，其中，SVM的模型调整方法与现有的SVM模型校正方法类似，在这里不多做赘述。

步骤S104、根据所述微博事件分类模型对微博文本进行分类。

本实施例提供的微博深度分类方法，通过确定第一微博训练样本数据在各第一筛选词库中出现的词汇频率，并通过将第一微博训练样本数据在各第一筛选词库中出现的词汇频率进行归一化处理，生成输入数据，使得学习模型能够根据该输入数据进行模型训练，生成分类正确率较高的微博事件分类模型，从而根据该微博事件分类模型能够对微博文本进行深入的细化分类，提高微博文本的分类正确率。

图2为本发明又一实施例提供的微博深度分类方法的流程示意图，如图2所示，本实施例提供的方法包括以下步骤：

步骤S201、将分词处理后的包含各类事件关键词汇的第二微博训练样本数据与预设的各第二筛选词库进行词汇匹配，从所述各第二筛选词库中确定所述各第一筛选词库。

具体的，本实施例中每个预设的第二筛选词库均对应一个事件类型。每个第二筛选词库均为人为根据对应的事件类型构建的细胞词库，加入互联网其他相关词库内容后生成的一定量的关键词集合和相关词集合。

在本实施例中，针对事件类型的划分可以是根据已有的事件分级、分类标准来进行划分的。由于不同事件类型之间的关键词或相关词可能存在重合，因此，各第二筛选词库之间可以存在重合的部分。

进一步的，为了缩小第一微博训练样本数据的词汇匹配范围，提高数据处理效率以及微博分类的准确度，本实施中将分词处理后的包含各类事件关键词汇的第二微博训练样本数据与预设的各第二筛选词库进行词汇匹配，从所述各第二筛选词库中确定所述各第一筛选词库。即将出现过第二微博训练样本数据中的词汇的各第二筛选词库挑选出来作为用于第一微博训练样本数据进行词汇匹配的筛选词库(即各第一筛选词库)。

步骤S202、将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配，确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率。

步骤S203、将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理，并将归一化处理后的数据输入学习模型。

步骤S204、根据所述学习模型的输出确定微博事件分类模型。

步骤S205、根据所述微博事件分类模型对微博文本进行分类。

本实施例中步骤S202-步骤S205的执行方式与技术效果与图1所示实施例类似，在这里不再赘述。

图3为本发明一实施例提供的微博深度分类系统的结构示意图，如图3所示，本实施例提供的系统包括以下模块：

第一匹配模块10，用于将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配，确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率；

具体的，本实施例中第一匹配模块10优选可以包括布隆过滤器，通过布隆过滤器中内置的哈希二进制算法对第一微博训练样本数据进行匹配。即一个第一筛选词库配置一个布隆过滤器，通过各第一筛选词库配置对应的布隆过滤器判断第一微博训练样本数据中的词汇是否出现在各第一筛选词库中，以及第一微博训练样本数据中的词汇在各第一筛选词库中出现的次数。

处理模块20，用于将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理，并将归一化处理后的数据输入学习模型；

确定模块30，用于根据所述学习模型的输出确定微博事件分类模型；

执行模块40，用于根据所述微博事件分类模型对微博文本进行分类。

其中，确定模块30，具体用于：

根据预先标记的所述第一微博训练样本数据的事件类型和所述学习模型输出的与所述第一微博训练样本数据对应的输出事件类型，确定当前的微博事件分类模型是否需要调整；

若需要，则对当前的微博事件分类模型进行调整，以使所述学习模型的输出事件类型与预先标记的所述第一微博训练样本数据的事件类型一致。

第一匹配模块10，具体用于：

遍历各第一筛选词库，根据所述各第一筛选词库对应的哈希二进制算法，将分词后的所述第一微博训练样本数据分别与所述各第一筛选词库进行匹配，确定所述第一微博训练样本数据中的词汇在各第一筛选词库中出现的频率。

本实施例提供的微博深度分类系统能够用于执行如图1所示的技术方法，其具体的执行方式和有益效果与图1所示实施例类似，在这里不再赘述。

图4为本发明又一实施例提供的微博深度分类系统的结构示意图，如图4所示，本实施例提供的系统与图3所示的系统的组成类似，其区别在于：

本实施例在图3所示系统的基础上还包括：第二匹配模块50，用于将分词处理后的包含各类事件关键词汇的第二微博训练样本数据与预设的各第二筛选词库进行词汇匹配，从所述各第二筛选词库中确定所述各第一筛选词库。

本实施例提供的微博深度分类系统能够用于执行如图2所示的技术方法，其具体的执行方式和有益效果与图2所示实施例类似，在这里不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种微博深度分类方法，其特征在于，包括：

根据所述学习模型的输出确定微博事件分类模型；

根据所述微博事件分类模型对微博文本进行分类。

2.根据权利要求1所述的方法，其特征在于，所述将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配，确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率之前，还包括：

将分词处理后的包含各类事件关键词汇的第二微博训练样本数据与预设的各第二筛选词库进行词汇匹配，从所述各第二筛选词库中确定所述各第一筛选词库。

3.根据权利要求1所述的方法，其特征在于，所述根据所述学习模型的输出确定微博事件分类模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配，确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率，包括：

5.一种微博深度分类系统，其特征在于，包括：

6.根据权利要求5所述的微博深度分类系统，其特征在于，还包括：第二匹配模块，用于将分词处理后的包含各类事件关键词汇的第二微博训练样本数据与预设的各第二筛选词库进行词汇匹配，从所述各第二筛选词库中确定所述各第一筛选词库。

7.根据权利要求5所述的微博深度分类系统，其特征在于，所述确定模块，具体用于：

8.根据权利要求6所述的微博深度分类系统，其特征在于，所述第一匹配模块，具体用于：