CN101937445B - 一种文件自动分类系统 - Google Patents

一种文件自动分类系统 Download PDF

Info

Publication number
CN101937445B
CN101937445B CN2010101797075A CN201010179707A CN101937445B CN 101937445 B CN101937445 B CN 101937445B CN 2010101797075 A CN2010101797075 A CN 2010101797075A CN 201010179707 A CN201010179707 A CN 201010179707A CN 101937445 B CN101937445 B CN 101937445B
Authority
CN
China
Prior art keywords
module
classification
image
information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101797075A
Other languages
English (en)
Other versions
CN101937445A (zh
Inventor
张晓丹
乔晓东
朱礼军
梁冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Original Assignee
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA filed Critical INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority to CN2010101797075A priority Critical patent/CN101937445B/zh
Publication of CN101937445A publication Critical patent/CN101937445A/zh
Application granted granted Critical
Publication of CN101937445B publication Critical patent/CN101937445B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文件自动分类系统,属于数据挖掘领域。本发明提供的文件自动分类系统包括:输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块。本发明系统通过信息抽取模块对文件中的文本信息、图像信息、视频信息、音频信息进行抽取,分别通过文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块的预处理后,分别进入到文本分类模块、图像分类模块、视频分类模块、音频分类模块中进行分类,再采通过融合模块对各分类结果进行综合处理得到最终分类结果。本发明方法可以得到更高准确率的文本分类结果。

Description

一种文件自动分类系统
技术领域
本发明涉及一种文件自动分类系统,属于数据挖掘领域,适用于资源自动归类、网络内容监管、垃圾邮件过滤、数字图书馆等。
背景技术
文件自动分类是数据挖掘领域较为热点的研究问题。其目的是训练一个分类函数或分类器,该函数或分类器能把待分文件映射到给定的相应类别中。其目标是找到分类速度更快、更准确的管理文本信息的方法。
目前,大量的研究集中于文本文件分类的研究,如张晓丹等人在文献《一种决策级文本自动分类融合方法》(国家专利,专利申请号:2009100878443)中公开了一种决策级文本自动分类融合方法,其分类模型如图1所示。该方法以信息融合为理论基础,以分类精度较高的SVM、KNN、贝叶斯等文件自动分类算法为研究对象,采用多层融合结构,串、并联混和的形式,建立了决策级的文件自动分类融合模型。这种方法的缺点是:由于其仅处理文件中的本文信息,而没有对待分类文件中的图像、视频、音频等信息进行处理,导致分类的准确率不理想。这主要是由于目前网络数据中包含大量的多媒体数据,如视频、图像、音频等,因此基于文本的分类技术已无法满足人们的需要。
从已公开的文献和实际应用中,还未见到同时处理多种媒体的文件分类方法。
发明内容
本发明针对目前已有文本自动分类系统存在准确度不高的缺点,在已有的决策级文本自动分类融合模型的基础上,提出一种基于多种媒体(图像、音频、视频和文本信息)的文件自动分类系统,得到准确率更高的分类结果。
本发明是通过以下技术方案实现的。
一种文件自动分类系统,包括:输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块;
其连接关系为:输入模块分别与信息抽取模块、文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;信息抽取模块的输出端分别与文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;文本预处理模块的输出端与文本分类模块的输入端连接;图像预处理模块的输出端与图像分类模块的输入端连接;音频预处理模块的输出端与音频分类模块的输入端连接;视频预处理模块的输出端与视频分类模块的输入端连接;文本分类模块、图像分类模块、音频分类模块、视频分类模块的输出端与融合模块的输入端连接;融合模块的输出端与输出模块连接。
其主要模块的功能为:
所述输入模块的主要功能是:提供数据的输入接口;
所述信息抽取模块的主要功能是:从输入的待分类文件中抽取出文本信息、图像信息、视频信息、音频信息;
所述文本预处理模块的主要功能是:对文本信息进行分词、特征提取、权重计算等预处理;
所述图像预处理模块的主要功能是:对图像信息进行图像变换、增强、边缘检测、恢复、分割等预处理;
所述视频预处理模块的主要功能是:对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理;
所述音频预处理模块的主要功能是:对音频信息进行前端预处理、特征提取、识别等预处理;
所述文本分类模块的主要功能是:在系统训练阶段使用文本训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的文本信息进行分类;所述文本分类模块可以是但不限于以下设备中的一种:KNN分类器、SVM分类器、贝叶斯分类器;
所述图像分类模块的主要功能是:在系统训练阶段使用图像训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的图像信息进行分类;所述图像分类模块可以是但不限于以下设备中的一种:SVM分类器、基于贝叶斯网络算法的分类器、基于BP神经网络算法的分类器;
所述视频分类模块的主要功能是:在系统训练阶段使用视频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的视频信息进行分类;所述视频分类模块可以是但不限于以下设备中的一种:KNN分类器、SVM分类器、基于Boosting算法的分类器;
所述音频分类模块的主要功能是:在系统训练阶段使用音频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的音频信息进行分类;所述音频分类模块可以是但不限于以下设备中的一种:SVM分类器、基于GMM算法的分类器;
所述融合模块的主要功能是采用决策级融合算法对输入的分类结果进行推理计算,得到最终的分类结果;所述决策级融合算法包括但不限于:贝叶斯网络算法、D-S证据理论算法、投票算法;
所述输出模块的主要功能是:提供数据的输出功能。所述输出模块可以是但不限于以下设备中的一种或者多种的组合:显示器、投影仪、打印机。
其工作过程分为系统训练阶段和系统分类阶段:
系统训练阶段的工作过程为:
第1步:将文本训练语料通过输入模块输入到文本预处理模块,文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;然后,将经过预处理的文本信息传输到文本分类模块;
第2步:该步骤可与第1步同步操作:将图像训练语料通过输入模块输入到图像预处理模块,图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;然后,将经过预处理的图像信息传输到图像分类模块;
第3步:该步骤可与第1步同步操作:将视频训练语料通过输入模块输入到视频预处理模块,视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分析;然后,将经过预处理的视频信息传输到视频分类模块;
第4步:该步骤可与第1步同步操作:将音频训练语料通过输入模块输入到音频预处理模块,音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;然后,将经过预处理的音频信息传输到音频分类模块;
第5步:文本分类模块对经过预处理后的文本信息提取类别特征;图像分类模块对经过预处理后的图像信息提取类别特征;视频分类模块对经过预处理后的视频信息提取类别特征;音频分类模块对经过预处理后的音频信息提取类别特征;
第6步:训练结束,输出模块输出系统训练完成提示信息。
系统分类阶段的工作过程为:
第1步:将待分类文件通过输入模块输入到信息抽取模块;
第2步:信息抽取模块从待分类文件中抽取出文本信息、图像信息、视频信息、音频信息,分别输入到对应的文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块;
第3步:在第2步的基础上,文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;
第4步:在第2步的基础上,图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;
第5步:在第2步的基础上,视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分析;
第6步:在第2步的基础上,音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;
第7步:在第3步的基础上,文本分类模块对经过预处理后的文本信息进行分类并将分类结果输出至融合模块;
第8步:在第4步的基础上,图像分类模块对经过预处理后的图像信息进行分类并将分类结果输出至融合模块;
第9步:在第5步的基础上,视频分类模块对经过预处理后的视频信息进行分类并将分类结果输出至融合模块;
第10步:在第6步的基础上,音频分类模块对经过预处理后的音频信息进行分类并将分类结果输出至融合模块;
第11步:融合模块采用决策级融合算法对输入的分类结果进行推理计算,得到最终的分类结果。
第12步:分类结果经输出模块输出。
有益效果
1.本发明系统对文件中的文本信息、图像信息、视频信息、音频信息分别进行分类,然后采用决策级融合算法对分类结果进行综合处理,可以得到更高准确率的文本分类效果;
2.本发明系统不仅可以保证各个局部分类的正确性,还可以适应分类目标的改变,保证分类系统的效率及准确度。
附图说明
图1为已有技术的决策级文本自动分类融合模型示意图;
图2为关于本发明的文件自动分类系统的一种具体实施方式的结构示意图。
具体实施方式
根据上述技术方案,下面结合实施例对本发明进行详细说明。
本发明系统采用JAVA开发平台,Oracle数据库。本发明的文件自动分类系统包括:输入模块、信息抽取模块、文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块、文本分类模块(采用KNN算法)、图像分类模块(采用SVM算法)、音频分类模块(GMM算法)、视频分类模块(SVM算法)、融合模块(D-S证据理论算法)、输出模块(显示器和打印机)。
采用该系统对21000篇语料进行分类,其中6000篇为文本训练语料、5000篇为图像训练语料、3000篇为视频训练语料、3000篇为音频训练语料、4000篇为测试语料,共分6个类别。
其工作流程为分别系统训练阶段和系统分类阶段:
系统训练阶段的工作过程为:
第1步:将6000篇文本训练语料通过输入模块输入到文本预处理模块,文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;
第2步:将5000篇图像训练语料通过输入模块输入到图像预处理模块,图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;
第3步:将3000篇视频训练语料通过输入模块输入到视频预处理模块,视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分析;
第4步:将3000篇音频训练语料通过输入模块输入到音频预处理模块,音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;
第5步:文本分类模块采用KNN算法对经过预处理后的文本信息提取类别特征;图像分类模块采用SVM对经过预处理后的图像信息提取类别特征;视频分类模块采用SVM算法对经过预处理后的视频信息提取类别特征;音频分类模块采用GMM算法对经过预处理后的音频信息提取类别特征;
第6步:训练结束,输出模块输出训练完成提示信息。
系统分类阶段,具体为:
第1步:将4000篇测试语料通过输入模块输入到信息抽取模块;
第2步:信息抽取模块从4000篇测试语料中抽取出文本信息、图像信息、视频信息、音频信息,分别输入到对应的文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块;
第3步:文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;
第4步:图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;
第5步:视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分析;
第6步:音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;
第7步:在第3步的基础上,文本分类模块采用KNN算法对经过预处理后的文本信息进行分类并将分类结果输出至融合模块;
第8步:在第4步的基础上,图像分类模块采用SVM算法对经过预处理后的图像信息进行分类并将分类结果输出至融合模块;
第9步:在第5步的基础上,视频分类模块采用SVM算法对经过预处理后的视频信息进行分类并将分类结果输出至融合模块;
第10步:在第6步的基础上,音频分类模块采用GMM算法对经过预处理后的音频信息进行分类并将分类结果输出至融合模块;
第11步:融合模块采用D-S证据理论算法对输入的分类结果进行推理计算,得到最终的分类结果。
经过以上操作,得到试验结果如表1所示。
同时,为说明本发明的分类效果,本实验是在同等条件下,以相同的训练语料、测试语料以及相同的分类体系分别采用KNN、SVM以及文献《一种决策级文本自动分类融合方法》(国家专利,专利申请号:2009100878443)中公开的一种决策级文本自动分类融合方法进行分类,分类效果如表1所示:
表1三种算法分类效果比较
Figure GSA00000133523800071
结论:本发明提出的文件自动分类方法采用了多种媒体的方式,发挥了多种分类器的优势,得到了高于文献方法和其他单分类器的准确率和召回率,验证了其有效性。
需要强调的是,对于本领域技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些也应视为属于本发明的保护范围。

Claims (6)

1.一种文件自动分类系统,其特征在于:包括:输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块;
其连接关系为:输入模块分别与信息抽取模块、文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;信息抽取模块的输出端分别与文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;文本预处理模块的输出端与文本分类模块的输入端连接;图像预处理模块的输出端与图像分类模块的输入端连接;音频预处理模块的输出端与音频分类模块的输入端连接;视频预处理模块的输出端与视频分类模块的输入端连接;文本分类模块、图像分类模块、音频分类模块、视频分类模块的输出端与融合模块的输入端连接;融合模块的输出端与输出模块连接。
其主要模块的功能为:
所述输入模块的主要功能是:提供数据的输入接口;
所述信息抽取模块的主要功能是:从输入的待分类文件中抽取出文本信息、图像信息、视频信息、音频信息;
所述文本预处理模块的主要功能是:对文本信息进行分词、特征提取、权重计算等预处理;
所述图像预处理模块的主要功能是:对图像信息图像变换、增强、边缘检测、恢复、分割等预处理;
所述视频预处理模块的主要功能是:对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理;
所述音频预处理模块的主要功能是:对音频信息进行前端预处理、特征提取、识别等预处理;
所述文本分类模块的主要功能是:在系统训练阶段使用文本训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的文本信息进行分类;
所述图像分类模块的主要功能是:在系统训练阶段使用图像训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的图像信息进行分类;
所述视频分类模块的主要功能是:在系统训练阶段使用视频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的视频信息进行分类;
所述音频分类模块的主要功能是:在系统训练阶段使用音频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的音频信息进行分类;
所述融合模块的主要功能是:采用决策级融合算法对输入的分类结果进行推理计算,得到最终的分类结果;
所述输出模块的主要功能是:提供数据的输出功能;
其工作过程分为系统训练阶段和系统分类阶段:
其系统训练阶段的工作过程为:
第1步:将文本训练语料通过输入模块输入到文本预处理模块,文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;然后,将经过预处理的文本信息传输到文本分类模块;
第2步:该步骤可与第1步同步操作:将图像训练语料通过输入模块输入到图像预处理模块,图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;然后,将经过预处理的图像信息传输到图像分类模块;
第3步:该步骤可与第1步同步操作:将视频训练语料通过输入模块输入到视频预处理模块,视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分析;然后,将经过预处理的视频信息传输到视频分类模块;
第4步:该步骤可与第1步同步操作:将音频训练语料通过输入模块输入到音频预处理模块,音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;然后,将经过预处理的音频信息传输到音频分类模块;
第5步:文本分类模块对经过预处理后的文本信息提取类别特征;图像分类模块队经过预处理后的图像信息提取类别特征;视频分类模块对经过预处理后的视频信息提取类别特征;音频分类模块对经过预处理后的音频信息提取类别特征;
第6步:训练结束,输出模块输出系统训练完成提示信息;
系统分类阶段的工作过程为:
第1步:将待分类文件通过输入模块输入到信息抽取模块;
第2步:信息抽取模块从待分类文件中抽取出文本信息、图像信息、音频信息、视频信息,分别输入到对应的文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块;
第3步:在第2步的基础上,文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;
第4步:在第2步的基础上,图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;
第5步:在第2步的基础上,视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分析;
第6步:在第2步的基础上,音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;
第7步:在第3步的基础上,文本分类模块对经过预处理后的文本信息进行分类并将分类结果输出至融合模块;
第8步:在第4步的基础上,图像分类模块对经过预处理后的图像信息进行分类并将分类结果输出至融合模块;
第9步:在第5步的基础上,视频分类模块对经过预处理后的视频信息进行分类并将分类结果输出至融合模块;
第10步:在第6步的基础上,音频分类模块对经过预处理后的音频信息进行分类并将分类结果输出至融合模块;
第11步:融合模块采用决策级融合算法对输入的分类结果进行推理计算,得到最终的分类结果;
第12步:分类结果经输出模块输出。
2.如权利要求1所述的一种文件自动分类系统,其特征在于:所述文本分类模块是以下装置中的一种:KNN分类器、SVM分类器、贝叶斯分类器。
3.如权利要求1或2所述的一种文件自动分类系统,其特征在于:所述图像分类模块是以下装置中的一种:SVM分类器、基于贝叶斯网络算法的分类器、基于BP神经网络算法的分类器。
4.如权利要求1或2所述的一种文件自动分类系统,其特征在于:所述视频分类模块是以下装置中的一种:KNN分类器、SVM分类器、基于Boosting算法的分类器。
5.如权利要求1或2所述的一种文件自动分类系统,其特征在于:所述音频分类模块是以下装置中的一种:SVM分类器、基于GMM算法的分类器。
6.如权利要求1或2所述的一种文件自动分类系统,其特征在于:所述决策级融合算法包括贝叶斯网络算法、D-S证据理论算法、投票算法。
CN2010101797075A 2010-05-24 2010-05-24 一种文件自动分类系统 Expired - Fee Related CN101937445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101797075A CN101937445B (zh) 2010-05-24 2010-05-24 一种文件自动分类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101797075A CN101937445B (zh) 2010-05-24 2010-05-24 一种文件自动分类系统

Publications (2)

Publication Number Publication Date
CN101937445A CN101937445A (zh) 2011-01-05
CN101937445B true CN101937445B (zh) 2011-12-07

Family

ID=43390778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101797075A Expired - Fee Related CN101937445B (zh) 2010-05-24 2010-05-24 一种文件自动分类系统

Country Status (1)

Country Link
CN (1) CN101937445B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509545A (zh) * 2011-09-21 2012-06-20 哈尔滨工业大学 一种实时声学事件检测系统及检测方法
CN103440248A (zh) * 2013-07-22 2013-12-11 西南交通大学 基于动态关联规则的网络视频事件挖掘框架
CN104731979A (zh) * 2015-04-16 2015-06-24 广东欧珀移动通信有限公司 一种保存特定人所有专属信息资源的方法及装置
CN104811864B (zh) * 2015-04-20 2018-11-13 深圳市冠旭电子股份有限公司 一种自适应调节音效的方法及系统
CN105260398A (zh) * 2015-09-17 2016-01-20 中国科学院自动化研究所 一种基于海报与剧情介绍的电影类型的快速分类方法
CN106055557A (zh) * 2015-12-25 2016-10-26 中国科学技术信息研究所 一种互联网环境下大数据分类预处理方法及系统
WO2017113232A1 (zh) * 2015-12-30 2017-07-06 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
CN106250934B (zh) * 2016-08-12 2019-11-01 南方电网科学研究院有限责任公司 一种缺陷数据的分类方法及装置
CN106897454B (zh) * 2017-02-15 2020-07-03 北京时间股份有限公司 一种文件分类方法及装置
CN107818182A (zh) * 2017-11-30 2018-03-20 安徽汇鑫电子有限公司 嵌入式音频网络传输监测设备
CN108280487A (zh) * 2018-02-05 2018-07-13 深圳天琴医疗科技有限公司 一种结节良恶性的确定方法及装置
KR102012758B1 (ko) * 2018-02-28 2019-10-21 주식회사 크레펀 소셜 플랫폼 기반하에서의 모바일 애플리케이션을 이용한 농축수산 가공물의 전자 상거래 시스템
CN111428088B (zh) * 2018-12-14 2022-12-13 腾讯科技(深圳)有限公司 视频分类方法、装置及服务器
CN111209970B (zh) * 2020-01-08 2023-04-25 Oppo(重庆)智能科技有限公司 视频分类方法、装置、存储介质及服务器
CN112214603A (zh) * 2020-10-26 2021-01-12 Oppo广东移动通信有限公司 图文资源分类方法、装置、终端及存储介质
JP7217905B1 (ja) 2022-03-08 2023-02-06 17Live株式会社 ライブストリーミングデータを分類するためのシステム、方法、及びコンピュータ可読媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1438592A (zh) * 2003-03-21 2003-08-27 清华大学 一种文本自动分类方法
US7287012B2 (en) * 2004-01-09 2007-10-23 Microsoft Corporation Machine-learned approach to determining document relevance for search over large electronic collections of documents
CN1588879A (zh) * 2004-08-12 2005-03-02 复旦大学 一种互联网内容过滤系统及过滤方法
CN101604322B (zh) * 2009-06-24 2011-09-07 北京理工大学 一种决策级文本自动分类融合方法

Also Published As

Publication number Publication date
CN101937445A (zh) 2011-01-05

Similar Documents

Publication Publication Date Title
CN101937445B (zh) 一种文件自动分类系统
CN101604322B (zh) 一种决策级文本自动分类融合方法
CN101923561A (zh) 一种文件自动分类方法
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN110598800A (zh) 一种基于人工智能的垃圾分类识别方法
CN101329734B (zh) 基于k-l变换和ls-svm的车牌字符识别方法
CN101516071B (zh) 垃圾短消息的分类方法
CN106203492A (zh) 一种图像隐写分析的系统及方法
CN110689085B (zh) 基于深度跨连接网络及损失函数设计的垃圾分类方法
CN102915453B (zh) 一种实时反馈更新的车辆检测方法
CN108764302B (zh) 一种基于颜色特征和词袋特征的票据图像分类方法
CN110399606B (zh) 一种无监督电力文档主题生成方法及系统
CN103310179A (zh) 一种基于人脸识别技术的最优姿态检测方法及系统
CN110717426A (zh) 基于域自适应学习的垃圾分类方法、电子设备及存储介质
CN113362299B (zh) 一种基于改进YOLOv4的X光安检图像检测方法
CN110442842A (zh) 合同内容的提取方法及装置、计算机设备、存储介质
CN105516941A (zh) 一种垃圾短信的拦截方法及装置
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN201796362U (zh) 一种文件自动分类系统
CN110414409A (zh) 一种小区垃圾自动分类智能垃圾桶
CN112328792A (zh) 一种基于dbscan聚类算法识别信用事件的优化方法
CN113407644A (zh) 一种基于深度学习算法的企业行业二级行业多标签分类器
CN104866606A (zh) 一种MapReduce并行化大数据文本分类方法
CN101719924B (zh) 基于群件理解的不良彩信过滤方法
CN105337842B (zh) 一种与内容无关的垃圾邮件过滤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111207

CF01 Termination of patent right due to non-payment of annual fee