CN105354184B

CN105354184B - 一种使用优化的向量空间模型实现文档自动分类的方法

Info

Publication number: CN105354184B
Application number: CN201510707947.0A
Authority: CN
Inventors: 邓剑波; 赵京升; 刘晓雄; 马润宇; 倪显见
Original assignee: Gansu Zhicheng Network Technology Co Ltd
Current assignee: Gansu Zhicheng Network Technology Co Ltd
Priority date: 2015-10-28
Filing date: 2015-10-28
Publication date: 2018-04-20
Anticipated expiration: 2035-10-28
Also published as: CN105354184A

Abstract

本发明涉及一种使用优化的向量空间模型实现文档自动分类的方法，该方法包括以下步骤：⑴对已知文章进行预处理：去除无意义字符并判断标题；⑵对已知文章进行词频优化处理；⑶对已知文章关键词进行关联度优化；⑷获得已知文章的主轴：根据优化后的关键词及其权重得到已知文章的主轴；⑸获得类的主轴：手动整理出多个类的训练文档，对每一篇训练文章按照步骤⑴~⑷获得训练文档的内容主轴，然后按向量的加法将其整理成多个类的主轴；⑹对未知文章分类：计算未知文章的主轴与多个类的主轴之间的相似度；ⅱ分类：当相似度大于设定的阈值时，则判定该未知文章属于该多个类中的某个类或某几个类。本发明可对大量文档信息进行分类并剔除一些不准确检索内容。

Description

一种使用优化的向量空间模型实现文档自动分类的方法

技术领域

本发明涉及一种文档自动分类的方法，尤其涉及一种使用优化的向量空间模型实现文档自动分类的方法。

背景技术

随着信息技术的发展，特别是互联网大量普及的今天，人们每天能够获取大量的信息，例如邮件、新闻等等，为了能够高效地处理这些信息，必须实现文档的自动分类。

文档自动分类的关键问题是如何构建一个分类模型，并通过这个模型将文档内容映射到类空间上。分类模型的构造有很多种方法，主要有统计方法、机器学习方法和神经网络方法。在结合统计方法和机器学习方法基础上，向量空间模型和Native Bayes模型是近几年应用最多且效果较好的两种模型。

《基于向量空间模型的文本自动分类系统的研究与实现》（计算机应用研究，庞剑锋等，2001年）中对文本分类中所涉及的关键技术，包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨，并提出了基于向量空间模型的文本分类系统的结构，给出了评估方法和实验结果。

《一种基于向量空间模型的多层次文本分类方法》（中文信息学报，刘少辉等，2001年第16卷第3期）研究和改进了经典的向量空间模型（VSM）的词语权重计算方法，并在此基础上提出了一种基于向量空间模型的多层次文本分类方法，也就是把各类按照一定的层次关系组织成树状结构，并将一个类中的所有训练文档合并为一个类文档，在提取各类模型时只在同层同一结点下的类文档之间进行比较；而对文档进行自动分类时，首先从根结点开始找到对应的大类，然后递归往下直到找到对应的叶子子类。该方法具有较高的正确率和召回率。

中国专利《一种使用文体进行文本文档自动分类的方法》（专利号201010210107.0）所公开的方法是指：首先，使用带权重的关键词集合表示文本文档的特征信息；然后，使用经过本体消歧和本体扩展处理后的本体来表示分类目录的特征信息，并通过分析本体结构特征将本体被转化为带权重的词义集合；最后，使用Earth Mover’sDistance方法计算文本文档的关键词集合和本体权重词义集合之间的语义相似值，并进一步计算文本文档和分类目录之间的相似值，根据文本文档和分类目录之间的相似值来进行文本文档的分类和排序。

但目前已有的基于向量空间模型的文档分类主要侧重于对分类器的处理，而忽略在汉语写作中的一些用词习惯，即，对文档本身的特征提取优化做的不够。

发明内容

本发明所要解决的技术问题是提供一种可对大量文档信息进行分类并剔除一些不准确检索内容的使用优化的向量空间模型实现文档自动分类的方法。

为解决上述问题，本发明所述的一种使用优化的向量空间模型实现文档自动分类的方法，包括以下步骤：

⑴对已知文章进行预处理：

①去除无意义字符：先将已知文章中的标点和换行符替换为自定义的符号，再去除空白字符；

②判断标题：当两个换行符之间字符数量不多，且后一个换行符之前紧邻的字符不是标点，则可判断两换行符之间的内容为标题和子标题；

⑵对已知文章进行词频优化处理：

对于中文使用现有的分词模块对已知文章进行分词，扫描全文，统计全文词频、综合词性信息，使用关键词生成模块选出名词性的高频词，得到关键词；

采用词频词典并运用词频优化模块中的权重因子对所述关键词的权重进行优化，即：降低高频无意义词和低频无意义较长词的权重，增加低频有意义词的权重；

其中：权重因子是指，式中表示词频词典中最大的频率数；n表示词的字节数；表示词的词频；

⑶对已知文章关键词进行关联度优化：

将所述关键词的关联度从关键词关联库中读取，并设定关键词B相对于关键词A的关联度为h21，关键词 A相对于关键词B的关联度为h12，即若一个句子中包含关键词A和关键词B，且其原来的权重分别为r1和r2，则计入B相对于A的关键词关联度后A的权重将从r1变到 r1+r2×h21，计入A相对于B的关键词关联度后B的权重将从r2变为r2+r1×h12；

⑷获得已知文章的主轴：

根据所述步骤⑵和所述步骤⑶所得的优化后的关键词及其权重得到已知文章的主轴；

⑸获得类的主轴：

手动整理出多个类的训练文档，对每一篇训练文章按照所述步骤⑴~⑷获得训练文档的内容主轴，然后按向量的加法将其整理成多个类的主轴；

⑹对未知文章分类：

ⅰ计算未知文章的主轴与所述多个类的主轴之间的相似度：

设定关键词1对应k₁，关键词2对应k₂，关键词3对应k₃，……，关键词n对应k_n；

未知文章的主轴对应A*，所述多个类的主轴对应T；

关键词1在未知文章中的权重为a₁，关键词2在未知文章中的权重为a₂，……，关键词n在未知文章中的权重为a_n；

关键词1在所述多个类中的权重为b₁，关键词2在所述多个类中的权重为b₂，……，关键词n在所述多个类中的权重为b_n；……

则令

A*=(a₁×k₁,a₂×k₂,a₃×k₃,……,a_n×k_n)；

T=(b₁×k₁,b₂×k₂,b₃×k₃,……,b_n×k_n)；

定义为A*和T的相似度；

ⅱ分类：

当未知文章的主轴与所述多个类的主轴的相似度大于设定的阈值0.15~0.20时，则判定该未知文章属于该多个类中的某个类或某几个类。

本发明与现有技术相比具有以下优点：

1、本发明结合汉语写作的用词习惯首先引入词频词典，用词频优化模块和关联度优化模块对文档的内容主轴做了一系列的优化，目的是剔除一些不准确的检索内容，降低高频无意义词、低频无意义词对文章内容主轴的影响，提高低频有意义词对文章内容主轴的影响。

2、本发明引入关键词关联库，即根据汉语中每个词在关联词词库中的关联度信息去调整文章关键词的权重，从而使得到的文章内容主轴更加准确，使分类结果更加可靠。

3、本发明通过对文章关键字的提取、文章主题的分析，将文章的主题通过一个或者一组向量表示出来，再将该向量或者该组向量分别与类的内容主轴做相似度计算得到与测试文章内容主轴相似度最大的那个类，即文章所属的类，从而实现对大量文档信息的分类整理。

4、本发明通过构建类主轴的方法对未知文档分类，得到它所属的类，并且它与该类的主轴大于设定的阈值时，将该文档的内容主轴加到它所属类的主轴上面，从而在使用中不断优化类的主轴，使分类随着使用次数的增多而越来越准确。

具体实施方式

一种使用优化的向量空间模型实现文档自动分类的方法，包括以下步骤：

⑴对已知文章进行预处理：

②判断标题：当两个换行符之间字符数量不多，且后一个换行符之前紧邻的字符不是标点，则可判断两换行符之间的内容为标题和子标题。

⑵对已知文章进行词频优化处理：

对于中文使用现有的分词模块对已知文章进行分词，扫描全文，统计全文词频、综合词性信息，使用关键词生成模块选出名词性的高频词，得到关键词。

采用词频词典【词频词典是指根据大量文档统计出来的记录一些常用词的词频信息】，运用词频优化模块中的权重因子对关键词的权重进行优化，即：降低高频无意义词和低频无意义较长词的权重，增加低频有意义词的权重。

其中：权重因子是指，式中表示词频词典中最大的频率数；n表示词的字节数；表示词的词频。

在汉语写作中，有一些常用词经常出现，虽然它在文章中词频较高，但是其对于文章主题的影响很小，所以必须降低该词的权重；而在一篇文章中有些词虽然出现次数不多，但是却对整个文章主题影响很大，所以必须提高该词的权重。从公式中可以看出，词频越高的话该权重因子就会越低，甚至小于1。也就是说，对于词频词典中越高词频的词，权重因子会越小，进而其权重就会变小；当词频较小时，该权重因子会比较大，进而达到增加其的目的。同时，在汉语写作中有一些词频较低并且对文章主题没有重要影响的词，比如一些俗语、成语等等，而这些俗语的字节比较长，所以该因子也会比较小，进而使其权重降低，以达到准确的内容主轴。

⑶对已知文章关键词进行关联度优化：

将关键词的关联度从关键词关联库中读取，并设定关键词B相对于关键词A的关联度为h21，关键词 A相对于关键词B的关联度为h12，即若一个句子中包含关键词A和关键词B，且其原来的权重分别为r1和r2，则计入B相对于A的关键词关联度后A的权重将从r1变到r1+r2×h21,计入A相对于B的关键词关联度后B的权重将从r2变为r2+r1×h12。

关联词的关联度为一一对应。一般意义下，计算机识别的关键词其意义是相互独立的，引入关键词的关联度优化后，某些关键词之间就建立起了关联。很多关键词自身相互之间所表达的意思也是有一定程度的重合的，即关键词本身并不独立。这样，计算机识别的关键词应该是其本身和与其有关联的关键词的意义的叠加。这将使文章原意的表达更为准确，在理论上文章主题也更加明确。

⑷获得已知文章的主轴：

根据步骤⑵和步骤⑶所得的优化后的关键词及其权重得到已知文章的主轴。

⑸获得类的主轴：

手动整理出多个类的训练文档，对每一篇训练文章按照步骤⑴~⑷获得训练文档的内容主轴，然后按向量的加法将其整理成多个类的主轴，从而达到方便实时、快速更新类的内容主轴的目的。

⑹对未知文章分类：

ⅰ计算未知文章的主轴与多个类的主轴之间的相似度：

设定关键词1对应k₁,关键词2对应k₂,关键词3对应k₃,……,关键词n对应k_n；

未知文章的主轴对应A*，多个类的主轴对应T；

关键词1在未知文章中的权重为a₁,关键词2在未知文章中的权重为a₂,……,关键词n在未知文章中的权重为a_n；

关键词1在多个类中的权重为b₁,关键词2在多个类中的权重为b₂,……,关键词n在多个类中的权重为b_n；……

则令

A*=(a₁×k₁,a₂×k₂,a₃×k₃,……,a_n×k_n)；

T=(b₁×k₁,b₂×k₂,b₃×k₃,……,b_n×k_n)；

定义为A*和T的相似度；

ⅱ分类：

当未知文章的主轴与多个类的主轴的相似度大于设定的阈值0.15~0.20时，则判定该未知文章属于该多个类中的某个类或某几个类。

Claims

1.一种使用优化的向量空间模型实现文档自动分类的方法，包括以下步骤：

⑴对已知文章进行预处理：

⑵对已知文章进行词频优化处理：

其中：权重因子是指，式中表示词频词典中最大的频率数；n 表示词的字节数；表示词的词频；

⑶对已知文章关键词进行关联度优化：

将所述关键词的关联度从关键词关联库中读取，并设定关键词B相对于关键词A的关联度为h21，关键词 A相对于关键词B的关联度为h12，即若一个句子中包含关键词A和关键词B，且其原来的权重分别为r1和r2，则计入B相对于A的关键词关联度后A的权重将从r1变到r1+r2×h21，计入A相对于B的关键词关联度后B的权重将从r2变为r2+r1×h12；

⑷获得已知文章的主轴：

⑸获得类的主轴：

⑹对未知文章分类：

ⅰ计算未知文章的主轴与所述多个类的主轴之间的相似度：

设定关键词1对应k₁，关键词2对应k₂，关键词3对应k₃，…，关键词n对应k_n；

未知文章的主轴对应A*，所述多个类的主轴对应T；

关键词1在所述多个类中的权重为b₁，关键词2在所述多个类中的权重为b₂，……，关键词n在所述多个类中的权重为b_n；

则令

A*=(a₁×k₁,a₂×k₂,a₃×k₃,……,a_n×k_n)；

T=(b₁×k₁,b₂×k₂,b₃×k₃,……,b_n×k_n)；

定义为A*和T的相似度；

ⅱ分类：