CN110413774A

CN110413774A - 一种基于遗传算法的信息分类方法

Info

Publication number: CN110413774A
Application number: CN201910542356.0A
Authority: CN
Inventors: 肖清林
Original assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Current assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-11-05

Abstract

本发明提供了一种基于遗传算法的信息分类方法，包括以下步骤：获取待分类信息；根据遗传算法训练信息分类模型，从所述待分类信息中提取关键词信息集，所述关键词信息集包括至少一个关键词信息；根据所述关键词信息集，以及预设的关键词信息集与类别信息的对应关系，匹配所述关键词信息集对应的类别信息；根据匹配出的类别信息对所述待分类信息进行分类。本发明提出一种基于遗传算法的信息分类方法，极大地提高了分类处理的效率，缩短了分析的周期。

Description

一种基于遗传算法的信息分类方法

技术领域

本发明涉及信息分类领域，尤其涉及一种基于遗传算法的信息分类方法。

背景技术

随着信息分类技术的发展，单位的信息处理部门，每天都会接收或者积累海量的信息，在一些情况下，需要从该信息中提取某一类别的信息，但是由于这些信息与类别之间并没有建立直接的对应关系，因此，无法直接用搜索引擎检索进行提取。现有的对信息归类的的方法通常是采用人工的方式进行逐条分析，这样会花费不少的人力人工。而同时随着交互信息数量的不断增加，或者每天相关工作的不断累积增加，这时，若再需要在相同的时间内将这些信息高质量地处理完，则需要提高工作人员的处理速度或者投入更多的人力资源，但是当前采用人力的方式是很难做到效率和质量的同等的要求，因为这种通过人为智慧来分类，并不能保证每个工作人员对信息的类别都有相同的认知，使得在分类时对于信息的查全率也会有一定程度的差异，导致分类的准确率较低。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于遗传算法的信息分类方法，极大地提高了分类处理的效率，缩短了分析的周期。

(二)技术方案

为解决上述问题，本发明提供了一种基于遗传算法的信息分类方法，包括以下步骤：

S1、获取待分类信息；

S2、根据遗传算法训练信息分类模型，从所述待分类信息中提取关键词信息集，所述关键词信息集包括至少一个关键词信息；

S3、根据所述关键词信息集，以及预设的关键词信息集与类别信息的对应关系，匹配所述关键词信息集对应的类别信息；

S4、根据匹配出的类别信息对所述待分类信息进行分类。

优选的，所述预设的关键词信息集与类别信息的对应关系：

对预先获取到的多个关键词信息进行分类，并提取分类后各类别中的关键词信息，组成所述关键词信息集；

将从同一个类别的信息中提取出的关键词信息集与类别信息之间建立对应关系。

优选的，通过计算训练集合中各候选词的词频-逆文档频率和互信息，筛选出若干特征词；基于各所述特征词，根据遗传算法训练信息分类模型。

优选的，所述通过计算训练文本集合中各候选词的词频-逆文档频率和互信息，筛选出若干特征词包括：

根据所述词频-逆文档频率和所述互信息计算各所述候选词的特征值，所述特征值大于预设特征值的相应候选词将作为特征词。

优选的，根据遗传算法训练信息分类模型包括：

根据各所述特征词生成若干特征词样本；

采用所述训练集和所述特征词样本构建分类模型；

采用所述训练集和验证集计算各所述特征词样本的适应度，根据各所述适应度，通过遗传算法对各所述特征词样本进行迭代训练，生成最优的信息分类模型。

优选的，采用所述训练集和验证集计算各所述特征词样本的适应度，根据各所述适应度，通过遗传算法对各所述特征词样本进行迭代训练，生成最优的信息分类模型：

S21、将包含各所述特征词样本的群体作为第一代群体，利用所述验证集和所述训练集，分别计算各所述特征词样本的适应度；

S22、根据与所述适应度成正比的概率，确定父母本，所述父母本经交叉、变异生成各子代样本；

S23、用各所述子代样本替换适应度小于第二设定值的特征词样本，并生成第二代群体；

S24、根据每一代群体的适应度平均值，计算总体标准偏差d，所述总体标准偏差d与偏差设定值比较，当小于所述偏差设定值时，停止迭代，将最终生成的群体中适应度最大的特征词样本的分类模型作为最优分类模型输出，否则重复上述步骤的迭代，d的计算公式如下：

其中，fi为一代群体的适应度的平均值，u为m代全部群体适应度的均值， m为当前迭代次数。

本发明的上述技术方案具有如下有益的技术效果：通过计算训练文本集合中各候选词的词频-逆文档频率和互信息，筛选出若干特征词，能够解决现有技术筛选的特征词准确率低下问题；进一步的，采用训练集和验证集计算各特征词样本的适应度，根据各适应度，通过遗传算法对各特征词样本进行迭代训练，生成最优的信息分类模型，能解决现有技术的分类模型的人工干预过多的问题，获得高效的分类模型训练效果；根据所述关键词信息集，以及预设的关键词信息集与类别信息的对应关系，匹配所述关键词信息集对应的类别信息，从而实现了对待分类信息的自动识别匹配，该种匹配方式只需要进行系统自动的匹配即可，极大地提高了分类处理的效率，缩短了分析的周期，并通过与固定对应关系的样本关键词信息集进行匹配的方式进行分类，降低了人工分配的误差，提高了匹配的准确度。

附图说明

图1为本发明提出的一种基于遗传算法的信息分类方法的流程示意图。

图2为本发明提出的一种基于遗传算法的信息分类方法中的生成最优的信息分类模型的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1和2所示，本发明提出的一种基于遗传算法的信息分类方法，包括以下步骤：

S1、获取待分类信息；

S4、根据匹配出的类别信息对所述待分类信息进行分类。

在一个可选的实施例中，所述预设的关键词信息集与类别信息的对应关系：

在一个可选的实施例中，通过计算训练集合中各候选词的词频-逆文档频率和互信息，筛选出若干特征词；基于各所述特征词，根据遗传算法训练信息分类模型。

在一个可选的实施例中，所述通过计算训练文本集合中各候选词的词频-逆文档频率和互信息，筛选出若干特征词包括：

在一个可选的实施例中，根据遗传算法训练信息分类模型包括：

根据各所述特征词生成若干特征词样本；

采用所述训练集和所述特征词样本构建分类模型；

在一个可选的实施例中，采用所述训练集和验证集计算各所述特征词样本的适应度，根据各所述适应度，通过遗传算法对各所述特征词样本进行迭代训练，生成最优的信息分类模型：

本发明中，通过计算训练文本集合中各候选词的词频-逆文档频率和互信息，筛选出若干特征词，能够解决现有技术筛选的特征词准确率低下问题。进一步的，采用训练集和验证集计算各特征词样本的适应度，根据各适应度，通过遗传算法对各特征词样本进行迭代训练，生成最优的信息分类模型，能解决现有技术的分类模型的人工干预过多的问题，获得高效的分类模型训练效果；根据所述关键词信息集，以及预设的关键词信息集与类别信息的对应关系，匹配所述关键词信息集对应的类别信息，从而实现了对待分类信息的自动识别匹配，该种匹配方式只需要进行系统自动的匹配即可，极大地提高了分类处理的效率，缩短了分析的周期，并通过与固定对应关系的样本关键词信息集进行匹配的方式进行分类，降低了人工分配的误差，提高了匹配的准确度。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于遗传算法的信息分类方法，其特征在于，包括以下步骤：

S1、获取待分类信息；

S4、根据匹配出的类别信息对所述待分类信息进行分类。

2.根据权利要求1所述的一种基于遗传算法的信息分类方法，其特征在于，所述预设的关键词信息集与类别信息的对应关系：

3.根据权利要求1所述的一种基于遗传算法的信息分类方法，其特征在于，通过计算训练集合中各候选词的词频-逆文档频率和互信息，筛选出若干特征词；基于各所述特征词，根据遗传算法训练信息分类模型。

4.根据权利要求1所述的一种基于遗传算法的信息分类方法，其特征在于，所述通过计算训练文本集合中各候选词的词频-逆文档频率和互信息，筛选出若干特征词包括：

5.根据权利要求1所述的一种基于遗传算法的信息分类方法，其特征在于，根据遗传算法训练信息分类模型包括：

根据各所述特征词生成若干特征词样本；

采用所述训练集和所述特征词样本构建分类模型；

6.根据权利要求1所述的一种基于遗传算法的信息分类方法，其特征在于，采用所述训练集和验证集计算各所述特征词样本的适应度，根据各所述适应度，通过遗传算法对各所述特征词样本进行迭代训练，生成最优的信息分类模型：

其中，fi为一代群体的适应度的平均值，u为m代全部群体适应度的均值，m为当前迭代次数。