CN101937445B

CN101937445B - 一种文件自动分类系统

Info

Publication number: CN101937445B
Application number: CN2010101797075A
Authority: CN
Inventors: 张晓丹; 乔晓东; 朱礼军; 梁冰
Original assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Current assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date: 2010-05-24
Filing date: 2010-05-24
Publication date: 2011-12-07
Anticipated expiration: 2030-05-24
Also published as: CN101937445A

Abstract

本发明涉及一种文件自动分类系统，属于数据挖掘领域。本发明提供的文件自动分类系统包括：输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块。本发明系统通过信息抽取模块对文件中的文本信息、图像信息、视频信息、音频信息进行抽取，分别通过文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块的预处理后，分别进入到文本分类模块、图像分类模块、视频分类模块、音频分类模块中进行分类，再采通过融合模块对各分类结果进行综合处理得到最终分类结果。本发明方法可以得到更高准确率的文本分类结果。

Description

一种文件自动分类系统

技术领域

本发明涉及一种文件自动分类系统，属于数据挖掘领域，适用于资源自动归类、网络内容监管、垃圾邮件过滤、数字图书馆等。

背景技术

文件自动分类是数据挖掘领域较为热点的研究问题。其目的是训练一个分类函数或分类器，该函数或分类器能把待分文件映射到给定的相应类别中。其目标是找到分类速度更快、更准确的管理文本信息的方法。

目前，大量的研究集中于文本文件分类的研究，如张晓丹等人在文献《一种决策级文本自动分类融合方法》(国家专利，专利申请号：2009100878443)中公开了一种决策级文本自动分类融合方法，其分类模型如图1所示。该方法以信息融合为理论基础，以分类精度较高的SVM、KNN、贝叶斯等文件自动分类算法为研究对象，采用多层融合结构，串、并联混和的形式，建立了决策级的文件自动分类融合模型。这种方法的缺点是：由于其仅处理文件中的本文信息，而没有对待分类文件中的图像、视频、音频等信息进行处理，导致分类的准确率不理想。这主要是由于目前网络数据中包含大量的多媒体数据，如视频、图像、音频等，因此基于文本的分类技术已无法满足人们的需要。

从已公开的文献和实际应用中，还未见到同时处理多种媒体的文件分类方法。

发明内容

本发明针对目前已有文本自动分类系统存在准确度不高的缺点，在已有的决策级文本自动分类融合模型的基础上，提出一种基于多种媒体(图像、音频、视频和文本信息)的文件自动分类系统，得到准确率更高的分类结果。

本发明是通过以下技术方案实现的。

一种文件自动分类系统，包括：输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块；

其连接关系为：输入模块分别与信息抽取模块、文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接；信息抽取模块的输出端分别与文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接；文本预处理模块的输出端与文本分类模块的输入端连接；图像预处理模块的输出端与图像分类模块的输入端连接；音频预处理模块的输出端与音频分类模块的输入端连接；视频预处理模块的输出端与视频分类模块的输入端连接；文本分类模块、图像分类模块、音频分类模块、视频分类模块的输出端与融合模块的输入端连接；融合模块的输出端与输出模块连接。

其主要模块的功能为：

所述输入模块的主要功能是：提供数据的输入接口；

所述信息抽取模块的主要功能是：从输入的待分类文件中抽取出文本信息、图像信息、视频信息、音频信息；

所述文本预处理模块的主要功能是：对文本信息进行分词、特征提取、权重计算等预处理；

所述图像预处理模块的主要功能是：对图像信息进行图像变换、增强、边缘检测、恢复、分割等预处理；

所述视频预处理模块的主要功能是：对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理；

所述音频预处理模块的主要功能是：对音频信息进行前端预处理、特征提取、识别等预处理；

所述文本分类模块的主要功能是：在系统训练阶段使用文本训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的文本信息进行分类；所述文本分类模块可以是但不限于以下设备中的一种：KNN分类器、SVM分类器、贝叶斯分类器；

所述图像分类模块的主要功能是：在系统训练阶段使用图像训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的图像信息进行分类；所述图像分类模块可以是但不限于以下设备中的一种：SVM分类器、基于贝叶斯网络算法的分类器、基于BP神经网络算法的分类器；

所述视频分类模块的主要功能是：在系统训练阶段使用视频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的视频信息进行分类；所述视频分类模块可以是但不限于以下设备中的一种：KNN分类器、SVM分类器、基于Boosting算法的分类器；

所述音频分类模块的主要功能是：在系统训练阶段使用音频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的音频信息进行分类；所述音频分类模块可以是但不限于以下设备中的一种：SVM分类器、基于GMM算法的分类器；

所述融合模块的主要功能是采用决策级融合算法对输入的分类结果进行推理计算，得到最终的分类结果；所述决策级融合算法包括但不限于：贝叶斯网络算法、D-S证据理论算法、投票算法；

所述输出模块的主要功能是：提供数据的输出功能。所述输出模块可以是但不限于以下设备中的一种或者多种的组合：显示器、投影仪、打印机。

其工作过程分为系统训练阶段和系统分类阶段：

系统训练阶段的工作过程为：

第1步：将文本训练语料通过输入模块输入到文本预处理模块，文本预处理模块对文本信息进行预处理，包括分词、特征提取、权重计算；然后，将经过预处理的文本信息传输到文本分类模块；

第2步：该步骤可与第1步同步操作：将图像训练语料通过输入模块输入到图像预处理模块，图像预处理模块对图像信息进行预处理，包括图像变换、增强、边缘检测、恢复、分割；然后，将经过预处理的图像信息传输到图像分类模块；

第3步：该步骤可与第1步同步操作：将视频训练语料通过输入模块输入到视频预处理模块，视频预处理模块对视频信息进行预处理，包括特征提取、建视频库、对视频数据进行多维分析；然后，将经过预处理的视频信息传输到视频分类模块；

第4步：该步骤可与第1步同步操作：将音频训练语料通过输入模块输入到音频预处理模块，音频预处理模块对音频信息进行预处理，包括前端预处理、特征提取、识别；然后，将经过预处理的音频信息传输到音频分类模块；

第5步：文本分类模块对经过预处理后的文本信息提取类别特征；图像分类模块对经过预处理后的图像信息提取类别特征；视频分类模块对经过预处理后的视频信息提取类别特征；音频分类模块对经过预处理后的音频信息提取类别特征；

第6步：训练结束，输出模块输出系统训练完成提示信息。

系统分类阶段的工作过程为：

第1步：将待分类文件通过输入模块输入到信息抽取模块；

第2步：信息抽取模块从待分类文件中抽取出文本信息、图像信息、视频信息、音频信息，分别输入到对应的文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块；

第3步：在第2步的基础上，文本预处理模块对文本信息进行预处理，包括分词、特征提取、权重计算；

第4步：在第2步的基础上，图像预处理模块对图像信息进行预处理，包括图像变换、增强、边缘检测、恢复、分割；

第5步：在第2步的基础上，视频预处理模块对视频信息进行预处理，包括特征提取、建视频库、对视频数据进行多维分析；

第6步：在第2步的基础上，音频预处理模块对音频信息进行预处理，包括前端预处理、特征提取、识别；

第7步：在第3步的基础上，文本分类模块对经过预处理后的文本信息进行分类并将分类结果输出至融合模块；

第8步：在第4步的基础上，图像分类模块对经过预处理后的图像信息进行分类并将分类结果输出至融合模块；

第9步：在第5步的基础上，视频分类模块对经过预处理后的视频信息进行分类并将分类结果输出至融合模块；

第10步：在第6步的基础上，音频分类模块对经过预处理后的音频信息进行分类并将分类结果输出至融合模块；

第11步：融合模块采用决策级融合算法对输入的分类结果进行推理计算，得到最终的分类结果。

第12步：分类结果经输出模块输出。

有益效果

1.本发明系统对文件中的文本信息、图像信息、视频信息、音频信息分别进行分类，然后采用决策级融合算法对分类结果进行综合处理，可以得到更高准确率的文本分类效果；

2.本发明系统不仅可以保证各个局部分类的正确性，还可以适应分类目标的改变，保证分类系统的效率及准确度。

附图说明

图1为已有技术的决策级文本自动分类融合模型示意图；

图2为关于本发明的文件自动分类系统的一种具体实施方式的结构示意图。

具体实施方式

根据上述技术方案，下面结合实施例对本发明进行详细说明。

本发明系统采用JAVA开发平台，Oracle数据库。本发明的文件自动分类系统包括：输入模块、信息抽取模块、文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块、文本分类模块(采用KNN算法)、图像分类模块(采用SVM算法)、音频分类模块(GMM算法)、视频分类模块(SVM算法)、融合模块(D-S证据理论算法)、输出模块(显示器和打印机)。

采用该系统对21000篇语料进行分类，其中6000篇为文本训练语料、5000篇为图像训练语料、3000篇为视频训练语料、3000篇为音频训练语料、4000篇为测试语料，共分6个类别。

其工作流程为分别系统训练阶段和系统分类阶段：

系统训练阶段的工作过程为：

第1步：将6000篇文本训练语料通过输入模块输入到文本预处理模块，文本预处理模块对文本信息进行预处理，包括分词、特征提取、权重计算；

第2步：将5000篇图像训练语料通过输入模块输入到图像预处理模块，图像预处理模块对图像信息进行预处理，包括图像变换、增强、边缘检测、恢复、分割；

第3步：将3000篇视频训练语料通过输入模块输入到视频预处理模块，视频预处理模块对视频信息进行预处理，包括特征提取、建视频库、对视频数据进行多维分析；

第4步：将3000篇音频训练语料通过输入模块输入到音频预处理模块，音频预处理模块对音频信息进行预处理，包括前端预处理、特征提取、识别；

第5步：文本分类模块采用KNN算法对经过预处理后的文本信息提取类别特征；图像分类模块采用SVM对经过预处理后的图像信息提取类别特征；视频分类模块采用SVM算法对经过预处理后的视频信息提取类别特征；音频分类模块采用GMM算法对经过预处理后的音频信息提取类别特征；

第6步：训练结束，输出模块输出训练完成提示信息。

系统分类阶段，具体为：

第1步：将4000篇测试语料通过输入模块输入到信息抽取模块；

第2步：信息抽取模块从4000篇测试语料中抽取出文本信息、图像信息、视频信息、音频信息，分别输入到对应的文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块；

第3步：文本预处理模块对文本信息进行预处理，包括分词、特征提取、权重计算；

第4步：图像预处理模块对图像信息进行预处理，包括图像变换、增强、边缘检测、恢复、分割；

第5步：视频预处理模块对视频信息进行预处理，包括特征提取、建视频库、对视频数据进行多维分析；

第6步：音频预处理模块对音频信息进行预处理，包括前端预处理、特征提取、识别；

第7步：在第3步的基础上，文本分类模块采用KNN算法对经过预处理后的文本信息进行分类并将分类结果输出至融合模块；

第8步：在第4步的基础上，图像分类模块采用SVM算法对经过预处理后的图像信息进行分类并将分类结果输出至融合模块；

第9步：在第5步的基础上，视频分类模块采用SVM算法对经过预处理后的视频信息进行分类并将分类结果输出至融合模块；

第10步：在第6步的基础上，音频分类模块采用GMM算法对经过预处理后的音频信息进行分类并将分类结果输出至融合模块；

第11步：融合模块采用D-S证据理论算法对输入的分类结果进行推理计算，得到最终的分类结果。

经过以上操作，得到试验结果如表1所示。

同时，为说明本发明的分类效果，本实验是在同等条件下，以相同的训练语料、测试语料以及相同的分类体系分别采用KNN、SVM以及文献《一种决策级文本自动分类融合方法》(国家专利，专利申请号：2009100878443)中公开的一种决策级文本自动分类融合方法进行分类，分类效果如表1所示：

表1三种算法分类效果比较

结论：本发明提出的文件自动分类方法采用了多种媒体的方式，发挥了多种分类器的优势，得到了高于文献方法和其他单分类器的准确率和召回率，验证了其有效性。

需要强调的是，对于本领域技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些也应视为属于本发明的保护范围。

Claims

1.一种文件自动分类系统，其特征在于：包括：输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块；

其主要模块的功能为：

所述输入模块的主要功能是：提供数据的输入接口；

所述图像预处理模块的主要功能是：对图像信息图像变换、增强、边缘检测、恢复、分割等预处理；

所述文本分类模块的主要功能是：在系统训练阶段使用文本训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的文本信息进行分类；

所述图像分类模块的主要功能是：在系统训练阶段使用图像训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的图像信息进行分类；

所述视频分类模块的主要功能是：在系统训练阶段使用视频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的视频信息进行分类；

所述音频分类模块的主要功能是：在系统训练阶段使用音频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的音频信息进行分类；

所述融合模块的主要功能是：采用决策级融合算法对输入的分类结果进行推理计算，得到最终的分类结果；

所述输出模块的主要功能是：提供数据的输出功能；

其工作过程分为系统训练阶段和系统分类阶段：

其系统训练阶段的工作过程为：

第5步：文本分类模块对经过预处理后的文本信息提取类别特征；图像分类模块队经过预处理后的图像信息提取类别特征；视频分类模块对经过预处理后的视频信息提取类别特征；音频分类模块对经过预处理后的音频信息提取类别特征；

第6步：训练结束，输出模块输出系统训练完成提示信息；

系统分类阶段的工作过程为：

第1步：将待分类文件通过输入模块输入到信息抽取模块；

第2步：信息抽取模块从待分类文件中抽取出文本信息、图像信息、音频信息、视频信息，分别输入到对应的文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块；

第11步：融合模块采用决策级融合算法对输入的分类结果进行推理计算，得到最终的分类结果；

第12步：分类结果经输出模块输出。

2.如权利要求1所述的一种文件自动分类系统，其特征在于：所述文本分类模块是以下装置中的一种：KNN分类器、SVM分类器、贝叶斯分类器。

3.如权利要求1或2所述的一种文件自动分类系统，其特征在于：所述图像分类模块是以下装置中的一种：SVM分类器、基于贝叶斯网络算法的分类器、基于BP神经网络算法的分类器。

4.如权利要求1或2所述的一种文件自动分类系统，其特征在于：所述视频分类模块是以下装置中的一种：KNN分类器、SVM分类器、基于Boosting算法的分类器。

5.如权利要求1或2所述的一种文件自动分类系统，其特征在于：所述音频分类模块是以下装置中的一种：SVM分类器、基于GMM算法的分类器。

6.如权利要求1或2所述的一种文件自动分类系统，其特征在于：所述决策级融合算法包括贝叶斯网络算法、D-S证据理论算法、投票算法。