CN110597996A

CN110597996A - 一种基于头脑风暴优化算法的中文网页分类方法

Info

Publication number: CN110597996A
Application number: CN201910895749.XA
Authority: CN
Inventors: 程适; 雷秀娟
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2019-09-21
Filing date: 2019-09-21
Publication date: 2019-12-20
Anticipated expiration: 2039-09-21
Also published as: CN110597996B

Abstract

本发明公开了一种基于头脑风暴优化算法的中文网页分类方法。该方法包括：对中文文档进行分词，并根据词频建立中文文档的单词索引；根据中文文档的单词索引，建立中文文档分词向量；采用头脑风暴优化算法，对中文文档分类算法的性能和参数进行优化；采用头脑风暴优化算法，对中文文档分类算法训练集的样本选择和样本数目进行优化；根据优化后的中文文档分类算法，对中文文档进行分类；并采用头脑风暴优化算法，对中文文档的分类结果和分类效率进行优化。本发明将头脑风暴优化算法和分类算法进行结合，对分类算法和数据训练集的选择进行优化，可以提高分类效率和分类正确率，从而优化了最终推荐结果。

Description

一种基于头脑风暴优化算法的中文网页分类方法

技术领域

本发明涉及计算机信息技术领域，更具体的涉及一种基于头脑风暴优化算法的中文网页分类方法。

背景技术

随着互联网的发展与进步，我们每天都会产生和接收海量的信息，虽然满足了信息时代对数据的需求，但也使得用户难以有效的利用信息，无法依靠个人之力从海量的信息中找到对自己有价值的信息，在这样一个“信息过载”的时代，对信息的筛选过滤以及针对用户个性化定制的需求便呼之欲出。此时能为用户提供个性化推荐功能的新闻推荐系统便应运而生，各类新闻推荐系统算法也不断在发展，其目的为对新闻相似性进行度量分析，实现对用户感兴趣的新闻进行精准推荐。

目前，常见的新闻分类往往不够准确，或者为用户提供不准确或者重复的新闻，例如，新闻类别错误、相同新闻重复推荐等，从而影响用户新闻软件或新闻网页的使用体验；而实际推荐系统中，用户需要更加高效准确高效的新闻推荐服务。如何针对用户进行个性化定制推荐，是现今新闻推荐系统优化和发展的方向。

发明内容

本发明实施例提供一种基于头脑风暴优化算法的中文网页分类方法，用以解决上述背景技术中提出的问题。

本发明实施例提供一种基于头脑风暴优化算法的中文网页分类方法，包括：

对中文文档进行分词，并根据词频建立中文文档的单词索引；

根据中文文档的单词索引，建立中文文档分词向量；

采用头脑风暴优化算法，对中文文档分类算法的性能和参数进行优化；

采用头脑风暴优化算法，对中文文档分类算法训练集的样本选择和样本数目进行优化；

根据优化后的中文文档分类算法，对中文文档进行分类；并采用头脑风暴优化算法，对中文文档的分类结果和分类效率进行优化。

进一步地，所述对中文文档进行分词，并根据词频建立中文文档的单词索引；具体包括：

对网页长文本信息进行预处理；去掉每个网页中无关词汇，对句子进行分词，将长文本转化为包含多个词语的词袋，每个词语为一个变量；一个网页被转化为包含词汇多个变量的链表或称为一个长向量，长向量用X＝(x₁，x₂，...，x_n)表示，其中，X为一个网页包含的所有词组的集合，x₁到x_n为单个词组。

进一步地，所述根据中文文档的单词索引，建立中文文档分词向量；具体包括：

计算词汇的出现频率，去掉无关词汇，调整其余每个词汇的权重信息；对中文文档建立词频-逆文本频率指数序列；选择部分文档进行类别标注，作为分类样例。

进一步地，所述中文文档分类算法包括：k最近邻算法、k加权最近邻算法。

进一步地，所述采用头脑风暴优化算法，对中文文档分类算法的性能和参数进行优化；具体包括：

对于k最近邻算法，中文文档分类算法的性能优化如下：

其中，y'为最大预测样本值；v是类别标记；y_i是根据最近样本得到的类别，如果分类相同I(·)为1，否则为0；x_i为第i个词组；

对于k最近邻算法，中文文档分类算法的参数优化如下：

将k作为优化决策变量，设定初步优化目标函数：

将不同的k取值作为解，将分类的错误率作为函数值。

进一步地，所述采用头脑风暴优化算法，对中文文档分类算法训练集的样本选择和样本数目进行优化；具体包括：

对于k最近邻算法，中文文档分类算法训练集的样本数目优化如下：

将k和每个类别的训练样本数目n_i作为优化决策变量，设定初步优化目标函数：

其中，N＝{n₁，...n_i，...n_m}，m为分类的总类别数，n_i为类别i的训练样本数目；将不同的k和N的取值作为解，将分类的错误率作为函数值；

对于k最近邻算法，中文文档分类算法训练集的样本选择优化如下：

将k和每个类别的训练样本X^t作为优化决策变量，设定初步优化目标函数：

其中，m为分类的总类别数，n_i为类别i的训练样本数目，X^t _i,1表示类别i的第一个训练样本；将不同的k和X^t的取值作为解，将分类的错误率作为函数值。

本发明实施例提供一种基于头脑风暴优化算法的中文网页分类方法，与现有技术相比，其有益效果如下：

由于新闻文本的分类算法的优劣影响了推荐系统的最终效果，本发明将头脑风暴优化算法和分类算法进行结合，对分类算法和数据训练集的选择进行优化，即利用头脑风暴优化算法来优化分类算法中的参数，可以提高分类效率和分类正确率，从而优化了最终推荐系统的结果，进而解决了普通优化算法数据训练集的样本代表性不足(传统方式下的训练样本集往往采用随即划分的方式，数据缺乏样本的代表性)、分类性能较低和分类结果一般的问题。

附图说明

图1为本发明实施例提供的一种基于头脑风暴优化算法的中文网页分类方法流程图；

图2为本发明实施例提供的头脑风暴优化算法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1～2，本发明实施例提供一种基于头脑风暴优化算法的中文网页分类方法，该方法具体包括：

S1、对于待分类中文文档，建立文档分类类别库。例如，对于新闻类文档，可建立体育新闻，娱乐新闻，时政新闻等类别。

S2、对中文文档进行分词，去掉文档类的无关词汇，如“停用词”(Stop Words)，对剩余有意义的词汇根据词频建立文档的单词索引。网页长文本信息预处理，每个网页去掉无意义词汇，对句子进行分词，将长文本转化为包含大量词语的词袋，每个词语为一个变量。一个网页被转化为包含大量词汇变量的链表或称为一个长向量，该向量可用X＝{x₁，x₂，...，x_n}表示，其中，X为一个网页包含的所有词组的集合，x₁到x_n为单个词组。

S3：根据文档的单词索引，对待分类的所有文档，建立中文文档分词向量。计算词汇的出现频率，去掉无关词汇(停用词)，调整其余每个词汇的权重信息；对文档建立词频-逆文本频率指数序列；选择部分文档进行类别标注，作为分类样例。

S4：使用头脑风暴优化算法，对文档分类算法，例如KNN算法，进行算法性能和参数优化的调优。下面以k最近邻(k Nearest Neighbor，KNN)算法为例，对使用头脑风暴优化算法进行性能和参数优化。在KNN算法中，算法存在着参数k，传统方法的k取值往往依赖于算法设计者的经验进行设置，难以得到最优分类参数。

对于KNN算法，目的是找到取的最大预测样本值y'，其计算公式为：

其中v是类别标记，y_i是根据最近样本得到的类别，如果分类相同I(·)为1，否则为0。

对于分类算法，难以设定合适的参数，对于KNN算法，将k作为优化决策变量，设定初步优化目标函数：

将不同的k取值作为解，将分类的错误率作为函数值。将头脑风暴优化算法应用于k的设置，可以迅速找到k的最优设置，提高计算效率。

此方法同样适用于其他具有参数的分类算法，如k加权最近邻(k weightedNearest Neighbor，KWNN)算法等。

S5、使用头脑风暴优化算法对分类时的训练集进行优化，选择最具有类别代表性的样本作为分类集合。将优化后的训练集应用于分类算法的训练，提高分类算法的分类准确率。

在分类时，测试数据分为训练样本和测试样本，对于实际中文文本分类问题，样本的种类很多，每个种类训练样本的数目较小，而测试样本的数目巨大。而对于多分类问题，针对每个类别，选择合适数目的样本进入训练样本集，是提高分类效率的有效手段。下面以基础的KNN算法为例进行说明。

对于每个分类类别，难以设定合适的样本数目和优化参数。对于KNN算法，将k和每个类别的训练样本数目n_i作为优化决策变量，设定初步优化目标函数：

其中，N＝{n₁，...n_i，...n_m}，m为分类的总类别数，n_i为类别i的训练样本数目。将不同的k和N的取值作为解，将分类的错误率作为函数值。将头脑风暴优化算法应用于k和N的设置，可以迅速找到k和和N的最优组合，提高分类正确率。

此方法同样适用于其他具有测试样本和分类样本的分类算法，如k加权最近邻(kweighted Nearest Neighbor，KWNN)算法等。

上述优化中，仅考虑了每个分类类别的训练样本数目，而对于文本分类问题，每个训练文本包含的信息不同，选择合适的训练文本，可以提高分类的效率。下面以基础的KNN算法为例进行说明。

对于每个分类类别，选择最优的样本进入训练样本集，并设定合适的优化参数，对于KNN算法，将k和每个类别的训练样本X^t作为优化决策变量，设定初步优化目标函数：

其中m为分类的总类别数，n_i为类别i的训练样本数目，X^t _i,1表示类别i的第一个训练样本。将不同的k和X^t的取值作为解，将分类的错误率作为函数值。将头脑风暴优化算法应用于k和X^t的设置，可以迅速找到k和X^t的最优组合，提高分类正确率。

S6：将基于头脑风暴优化算法和优化分类算法的结合算法应用到待分类文档，优化文档的分类结果和分类效率。

综上所述，本发明提供一种基于头脑风暴优化算法的高效中文网页分类方法，用以解决现有新闻推荐技术中存在新闻文本分类错误较多，相同新闻重复推荐，推荐大量用户不感兴趣的新闻，这些现象都影响了新闻软件的使用效率，降低了用户的使用体验评分。具体地，本发明首先通过将中文网页分类问题建模为离散优化问题；再通过头脑风暴优化算法结合文本分类算法对文本分类结果进行优化，使得分类结果更加准确；同时，通过对算法参数和优化样本选择等改进，提高了算法运行的稳定性，从而实现了文本推荐系统的高效稳定的中文网页分类。

以上公开的仅为本发明的几个具体实施例，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于头脑风暴优化算法的中文网页分类方法，其特征在于，包括：

根据中文文档的单词索引，建立中文文档分词向量；

根据优化后的中文文档分类算法，对中文文档进行分类。

2.如权利要求1所述的基于头脑风暴优化算法的中文网页分类方法，其特征在于，所述对中文文档进行分词，并根据词频建立中文文档的单词索引；具体包括：

3.如权利要求1所述的基于头脑风暴优化算法的中文网页分类方法，其特征在于，所述根据中文文档的单词索引，建立中文文档分词向量；具体包括：

4.如权利要求1所述的基于头脑风暴优化算法的中文网页分类方法，其特征在于，所述中文文档分类算法包括：k最近邻算法、k加权最近邻算法。

5.如权利要求4所述的基于头脑风暴优化算法的中文网页分类方法，其特征在于，所述采用头脑风暴优化算法，对中文文档分类算法的性能和参数进行优化；具体包括：

对于k最近邻算法，中文文档分类算法的性能优化如下：

对于k最近邻算法，中文文档分类算法的参数优化如下：

将k作为优化决策变量，设定初步优化目标函数：

将不同的k取值作为解，将分类的错误率作为函数值。

6.如权利要求4所述的基于头脑风暴优化算法的中文网页分类方法，其特征在于，所述采用头脑风暴优化算法，对中文文档分类算法训练集的样本选择和样本数目进行优化；具体包括：