CN110442708A

CN110442708A - 一种基于粒度计算的信息分类方法

Info

Publication number: CN110442708A
Application number: CN201910547137.1A
Authority: CN
Inventors: 肖清林
Original assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Current assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-11-12

Abstract

一种基于粒度计算的信息分类方法，包括以下步骤：获取信息；进行分词处理并获得词汇集合；进行词性标注和词义标注；根据预先存储的各类别信息，从词汇集合中获得与其相匹配的类别词汇；基于粒度计算确定词汇集合中的每一个类别词汇的权重；确定词汇集合中包含的所有类别词汇所属的目标类别信息；基于粒度计算确定每一个目标类别信息的权重；根据每一个目标类别信息的权重，确定该信息所属的至少一个类目；判断该信息与各所属类目的概率是否大于预设阈值。本发明基于粒度计算来进行信息分类，优化了信息分类方法，操作简便，分类效率高，分类准确度高，省时省力。

Description

一种基于粒度计算的信息分类方法

技术领域

本发明涉及信息分类技术领域，尤其涉及一种基于粒度计算的信息分类方法。

背景技术

伴随信息技术的飞速发展，特别是移动通信技术和计算机互联网技术飞速发展，移动通信网络已经发生了革命性的变革，信息中蕴含着巨大的信息内容和价值，面对信息的数据量增长等问题，人们提出了对信息进行分类的需求，以便对分类后的信息或与信息相对应的对象进行处理和分析，现有技术中，对信息的分类方法主要是更具人工定义好特定的短信模版，然后建立正则表达式处理，结构化出所需数据项，并对模版进行数据集的分类，具体来说，对信息的分类方法主要有两种，一种是根据关键词进行判断，即首先人工的对所有信息进行归类，然后在对每类信息提取特定的关键词作为入此数据集的标识，但是上述方法中，不同数据集的信息有可能都会匹配到同一个或一组关键词，造成分类不准确，另一种方法是对每个信息定义正则表达式，并对每一条正则表达式定义数据集，即为每一个信息都进行一次分类，但是上述方法中，需要对每一个信息定义正则表达式，随着信息量的不断增加，工作量激增，分类的效率不高；

但是现有的信息分类方法操作复杂，信息分类效率低，分类准确度低。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于粒度计算的信息分类方法，基于粒度计算来进行信息分类，优化了信息分类方法，操作简便，分类效率高，分类准确度高，省时省力。

(二)技术方案

为解决上述问题，本发明提出了一种基于粒度计算的信息分类方法，包括以下步骤：

S1、获取信息；

S2、对获取的信息进行分词处理，并获得词汇集合；

S3、对词汇集合中的词语进行词性标注和词义标注；

S4、根据预先存储的各类别信息，从词汇集合中获得与其相匹配的类别词汇；

S5、基于粒度计算确定词汇集合中的每一个类别词汇的权重；

S6、根据预先存储的各类别信息中各类别词汇的关联关系，确定词汇集合中包含的所有类别词汇所属的目标类别信息；

S7、根据目标类别信息和词汇集合中每一个类别词汇的权重，基于粒度计算确定每一个目标类别信息的权重；

S8、根据每一个目标类别信息的权重，确定该信息所属的至少一个类目；

S9、判断该信息与各所属类目的概率是否大于预设阈值；

若大于预设阈值，则将该信息分入指定类目下；若不大于预设阈值，则不将该信息分入指定类目下。

优选的，在S1中，信息的获取方式为爬虫获取、网上下载或批量导入。

优选的，在S2中，通过jieba工具对信息进行分词处理。

优选的，在S5中，权重用于表示网络信息与相应类别词汇的关联程度。

优选的，在S5中，其具体步骤如下:

根据词汇集合中包含的每一类别词汇在信息中出现的次数、出现的位置以及词汇集合中所有类别词汇所属目标类别信息的个数，与预先获得的每一目标类别信息的逆向文件频率中的一个或多个来计算每一类别词汇的权重。

优选的，每一目标类别信息的逆向文件频率为待分类的信息总数与包含相应目标类别信息的信息个数的商的对数。

优选的，在S9中，若信息与多个类目的概率均大于预设阈值，则将该信息分入概率最大的类目中，即将该信息归入与其相似度最高的类目中。

本发明的上述技术方案具有如下有益的技术效果：

本发明首先通过爬虫获取、网上下载或批量导入的方式获取信息，并通过 jieba工具对获取的信息进行分词处理，获得词汇集合，再对词汇集合中的词语进行词性标注和词义标注；然后根据预先存储的各类别信息，从词汇集合中获得与其相匹配的类别词汇；之后基于粒度计算确定词汇集合中的每一个类别词汇的权重；然后根据预先存储的各类别信息中各类别词汇的关联关系，确定词汇集合中包含的所有类别词汇所属的目标类别信息；之后根据目标类别信息和词汇集合中每一个类别词汇的权重，基于粒度计算确定每一个目标类别信息的权重；然后根据每一个目标类别信息的权重，确定该信息所属的至少一个类目；最后判断该信息与各所属类目的概率是否大于预设阈值并确定最终所属类目；

本发明基于粒度计算来进行信息分类，优化了信息分类方法，操作简便，分类效率高，分类准确度高，省时省力。

附图说明

图1为本发明提出的一种基于粒度计算的信息分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于粒度计算的信息分类方法，包括以下步骤：

S1、获取信息；

S2、对获取的信息进行分词处理，并获得词汇集合；

S3、对词汇集合中的词语进行词性标注和词义标注；

S9、判断该信息与各所属类目的概率是否大于预设阈值；

在一个可选的实施例中，在S1中，信息的获取方式为爬虫获取、网上下载或批量导入。

在一个可选的实施例中，在S2中，通过jieba工具对信息进行分词处理。

在一个可选的实施例中，在S5中，权重用于表示网络信息与相应类别词汇的关联程度。

在一个可选的实施例中，在S5中，其具体步骤如下:

在一个可选的实施例中，每一目标类别信息的逆向文件频率为待分类的信息总数与包含相应目标类别信息的信息个数的商的对数。

在一个可选的实施例中，在S9中，若信息与多个类目的概率均大于预设阈值，则将该信息分入概率最大的类目中，即将该信息归入与其相似度最高的类目中。

本发明中，首先通过爬虫获取、网上下载或批量导入的方式获取信息，并通过jieba工具对获取的信息进行分词处理，获得词汇集合，再对词汇集合中的词语进行词性标注和词义标注；然后根据预先存储的各类别信息，从词汇集合中获得与其相匹配的类别词汇；之后基于粒度计算确定词汇集合中的每一个类别词汇的权重；然后根据预先存储的各类别信息中各类别词汇的关联关系，确定词汇集合中包含的所有类别词汇所属的目标类别信息；之后根据目标类别信息和词汇集合中每一个类别词汇的权重，基于粒度计算确定每一个目标类别信息的权重；然后根据每一个目标类别信息的权重，确定该信息所属的至少一个类目；最后判断该信息与各所属类目的概率是否大于预设阈值；若大于预设阈值，则将该信息分入指定类目下，若不大于预设阈值，则不将该信息分入指定类目下，若信息与多个类目的概率均大于预设阈值，则将该信息分入概率最大的类目中，即将该信息归入与其相似度最高的类目中；

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于粒度计算的信息分类方法，其特征在于，包括以下步骤：

S1、获取信息；

S2、对获取的信息进行分词处理，并获得词汇集合；

S3、对词汇集合中的词语进行词性标注和词义标注；

S9、判断该信息与各所属类目的概率是否大于预设阈值；

2.根据权利要求1所述的一种基于粒度计算的信息分类方法，其特征在于，在S1中，信息的获取方式为爬虫获取、网上下载或批量导入。

3.根据权利要求1所述的一种基于粒度计算的信息分类方法，其特征在于，在S2中，通过jieba工具对信息进行分词处理。

4.根据权利要求1所述的一种基于粒度计算的信息分类方法，其特征在于，在S5中，权重用于表示网络信息与相应类别词汇的关联程度。

5.根据权利要求1所述的一种基于粒度计算的信息分类方法，其特征在于，在S5中，其具体步骤如下:

6.根据权利要求5所述的一种基于粒度计算的信息分类方法，其特征在于，每一目标类别信息的逆向文件频率为待分类的信息总数与包含相应目标类别信息的信息个数的商的对数。

7.根据权利要求1所述的一种基于粒度计算的信息分类方法，其特征在于，在S9中，若信息与多个类目的概率均大于预设阈值，则将该信息分入概率最大的类目中，即将该信息归入与其相似度最高的类目中。