CN107729520A - 文件分类方法、装置、计算机设备及计算机可读介质 - Google Patents
文件分类方法、装置、计算机设备及计算机可读介质 Download PDFInfo
- Publication number
- CN107729520A CN107729520A CN201711023891.2A CN201711023891A CN107729520A CN 107729520 A CN107729520 A CN 107729520A CN 201711023891 A CN201711023891 A CN 201711023891A CN 107729520 A CN107729520 A CN 107729520A
- Authority
- CN
- China
- Prior art keywords
- file
- file type
- sorted
- probability
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 39
- 230000015654 memory Effects 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 208000001613 Gambling Diseases 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 101100517651 Caenorhabditis elegans num-1 gene Proteins 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005194 fractionation Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文件分类方法、装置、计算机设备及计算机可读介质,其中文件分类方法,包括:获取待分类文件的文本信息,对文本信息进行预处理,确定至少一个特征词汇;确定各特征词汇在各文件类型中的统计数据;基于费舍尔分类器和统计数据,确定待分类文件属于各文件类型的概率,根据各文件类型的概率确定待分类文件的目标文件类型;若待分类文件属于目标文件类型的概率大于第一预设阈值,则根据待分类文件更新目标文件类型的样本集。本发明实施例提供的一种文件分类方法、装置、计算机设备及计算机可读介质,采用费舍尔方法对文件进行分类,并根据分类结果动态更新样本集,提高了文件分类准确率以及分类效率。
Description
技术领域
本发明实施例涉及文件分类技术,尤其涉及一种文件分类方法、装置、计算机设备及计算机可读介质。
背景技术
随着互联网时代、大数据信息时代到来,人们每天都要通过互联网通信接收大量信息,其中,电子邮件已成为互联网通信的重要手段。然而,大量垃圾邮件在互联网上的传播,给用户查看阅读所需邮件带来了极大的困扰。
基于文件内容的文件分类方法,可以应用于垃圾邮件分类中去。目前,贝叶斯方法是基于文件内容的文件分类方法之一。贝叶斯方法基于统计学的概率计算方法,计算待分类文件分别属于每个类别的概率,并从中选择概率最大的类别作为该文件的类别。
采用该方法前提条件为,假设文件中的每个特征概率是彼此独立的,此前提条件一般不能满足。并且,采用该方法所计算的概率值不具有归一性,难以设置文件类型的分类阈值,影响文件分类准确率。此外,贝叶斯方法首先需要通过文件样本训练分类器,然后根据该分类器对待分类文件进行分类。然而,贝叶斯方法分类器一旦完成就无法更改,难以适应文件的动态变化,影响文件分类效率。
发明内容
有鉴于此,本发明实施例提供了一种文件分类方法、装置、计算机设备及计算机可读介质,采用费舍尔方法对文件进行分类,并根据分类结果动态更新样本集,提高了文件分类准确率以及分类效率。
第一方面,本发明实施例提供了一种文件分类方法,包括:
获取待分类文件的文本信息,对所述文本信息进行预处理,确定至少一个特征词汇,其中,预处理包括对所述文本信息进行去重处理、分词处理和错误修正处理;
确定每一个特征词汇在各文件类型中的统计数据,所述统计数据包括所述特征词汇在各文件类型对应样本集的词频和所述对应样本集的样本数;
基于费舍尔分类器和所述统计数据,确定所述待分类文件属于各文件类型的概率,根据各文件类型的概率确定所述待分类文件的目标文件类型;
若待分类文件属于目标文件类型的概率大于第一预设阈值,则根据所述待分类文件更新所述目标文件类型的样本集。
第二方面,本发明实施例提供了一种文件分类装置,包括:
文本信息获取模块,用于获取待分类文件的文本信息;
特征词汇确定模块,配置为与所述文本信息获取模块相连,用于对所述文本信息进行预处理,确定至少一个特征词汇,其中,预处理包括对所述文本信息进行去重处理、分词处理和错误修正处理;用于确定每一个特征词汇在各文件类型中的统计数据并发送至所述文本信息获取模块,所述统计数据包括所述特征词汇在各文件类型对应样本集的词频和所述对应样本集的样本数;
文件类型确定模块,配置为与所述文本信息获取模块相连,用以基于所述统计数据确定所述待分类文件属于各文件类型的概率,根据各文件类型的概率确定所述待分类文件的目标文件类型,并发送至所述文本信息获取模块;
样本集更新模块,配置为与所述文本信息获取模块以及所述特征词汇确定模块相连,用于若待分类文件属于目标文件类型的概率大于第一预设阈值,则根据所述待分类文件更新所述目标文件类型的样本集。
第三方面,本发明实施例提供了一种计算机设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任一实施例所述的文件分类方法。
第四方面,本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例所述的文件分类方法。
本发明实施例提供的一种文件分类方法、装置、计算机设备及计算机可读介质,采用费舍尔方法对文件进行分类,并根据分类结果动态更新样本集,提高了文件分类准确率以及分类效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种文件分类方法流程图;
图2是本发明实施例二提供的一种文件分类装置结构示意图;
图3是本发明实施例三提供的一种计算机设备结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例中的附图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是本发明实施例一提供的一种文件分类方法流程图,本实施例可适用于文件分类,例如,已存储的文本文件分类、邮件分类等,该方法可以由文件分类装置实现,例如可以是计算机设备,具体可以通过计算机设备中的软件和/或硬件来实现。参见图1,本实施例中一种文件分类方法包括如下步骤:
S110、获取待分类文件的文本信息,对文本信息进行预处理,确定至少一个特征词汇,其中,预处理包括对文本信息进行去重处理、分词处理和错误修正处理。
其中,待分类文件为文本文件,可以存储在预设存储单元中,也可以存储于其他存储模块中。当待分类文件为电子邮件时,可以解析邮件生成文本文件进行存储,也可以将电子邮件集成到应用程序中直接进行调用。其中,获取待分类文件的文本信息包括获取文本文件的文本标题、文本正文等所有文件内文字信息。
其中,对文本信息进行预处理,包括对文本信息进行去重处理,即去除重复词汇,示例性的,若“赌博”一词在文本信息中出现了3次,则去除重复的两次,只保留其中的一次,可以保留第一次出现的“赌博”,也可以保留最后一次出现的“赌博”,还可以随机保留任意一次出现的“赌博”。去重处理可以简化文本信息的内容,提高了待分类文件进行文件分类效率。
可选的,若对文本信息中的中文文本进行预处理,还可以包括对文本信息进行去除非中文字符的处理,以获取更加准确的分词结果。示例性的,若文本信息为“!@赌¥A博b*”,去除非中文字符后得到的文本信息为“赌博”。去除非中文字符处理,可以只保留中文文本,使中文文本信息分词更加准确。
其中,对文本信息进行预处理,包括对文本信息进行分词处理,以获取至少一个分词。可选的,可以调用预设词表对文本信息进行分词处理,其中,所使用的预设词表可以有多个,可以根据不同语言文本调用不同语言预设词表进行分词处理。可选的,分词词表可以预先加载入文件分类装置,并且可以进行替换与升级。优选的,可以对文本信息进行去重处理和/或去除非中文字符处理后,再根据预设词表对文本信息进行分词处理,以提高文本信息分词效率。
其中,对文本信息进行预处理,包括对分词处理后的至少一个分词进行错误修正处理,以获取至少一个特征词汇。可选的,对至少一个分词进行错误修正处理包括,根据停用词表删除至少一个分词中的停用词和/或根据单字词表删除至少一个分词中的单字词。删除停用词,即删除常用的中性词,例如“我们”、“你们”、“的”、“了”等。删除单字词,即删除单音节词。停用词与单字词的删除,进一步地简化了文本信息的内容,提高了待分类文件进行文件分类效率。
其中,停用词表和单字词表可以有多个,可以根据不同语言文本调用不同语言停用词表和单字词表进行删除处理。可选的,停用词表和单字词表可以预先加载入文件分类装置,并且可以进行替换与升级。
优选的,在进行错误修正处理时,在根据停用词表删除至少一个分词中的停用词和/或根据单字词表删除至少一个分词中的单字词之后,还可以包括,检测是否存在失败分词,即是否存在根据预设词表分词后,出现分词错误的情况。
若不存在失败分词,则将删除停用词和/或单字词后的至少一个分词确定为特征词汇;若存在失败分词,则将失败分词与至少一个相邻分词进行组合,形成组合词,或者将所述识别分词进行拆分,形成拆分词,或者将拆分词进行二次组合,形成拆分组合词。若组合词、拆分词或者拆分组合词为正确分词,则将该正确分词确定为特征词汇,并将该正确分词添加至预设词表。将正确的组合词、拆分词或者拆分组合词添加至预设词表,使预设词表不断更新,可以使文本信息根据更新后预设词表进行分词时,提高分词正确率,从而提高文件分类准确率以及分类效率。
可选的,识别组合词是否为正确分词,可以通过人工识别也可以通过神经网络识别等其他智能识别方式识别。
S120、确定每一个特征词汇在各文件类型中的统计数据,统计数据包括特征词汇在各文件类型对应样本集的词频和对应样本集的样本数。
其中,文件类型可以通过用户自定义添加或删除,例如文件类型可以设置为普通文件和垃圾文件,还可以是设置为工作文件和娱乐文件等。当待分类文件为电子邮件时,文件类型还可以设置为普通邮件和垃圾邮件,其中垃圾邮件还可以进行进一步分类,例如可以划分为培训类邮件、赌博类邮件、发票类邮件等。
其中,每一种文件类型都对应一个样本集。其中,样本集可以有多种形式,可以是文本文件形式,还可以是表格形式,表格中记载有该文件类型样本集的词频,以及样本集的样本数。其中,词频是指对该文件类型样本集中所有文本文件的文本信息进行分词后,各分词出现的次数。
其中,特征词汇在各文件类型对应样本集的词频,即每一个特征词汇在各文件类型对应样本集中出现的次数。当样本集为文件形式时,可以首先对各文件类型中文件文本进行分词,并统计每一文件类型中各分词词频,若分词与特征词汇一致,则该分词词频即为特征词汇在该文件类型中出现的次数;当样本集为表格形式时,可以直接比对特征词汇与表格中分词是否一致,若一致则该分词词频即为特征词汇在该文件类型中出现的次数。
S130、基于费舍尔分类器和统计数据,确定待分类文件属于各文件类型的概率,根据各文件类型的概率确定待分类文件的目标文件类型。
可选的,费舍尔分类器获取到待分类文件的统计数据后,首先获取每一个特征词汇在各文件类型中的概率。
示例性的,若待分类文件特征词汇有A、B、C三个,文件类型为1、2两类。则需分别计算特征词汇A在文件类型1、2中的概率RA1、RA2;特征词汇B在文件类型1、2中的概率RB1、RB2;特征词汇C在文件类型1、2中的概率RC1、RC2。
示例性的,若待分类特征词汇A在文件类型1对应样本集中词频为NumA1,文件类型1对应样本集的样本数为Num1,则可选的,可以通过公式RA1=NumA1/Num1计算求得特征词汇A在文件类型1中的概率。可选的,还可以通过公式RA1=(NumA1+1)/(Num1+2)计算求得特征词汇A在文件类型1中的概率,该公式中分子加1,分母加2可以使计算概率进行平滑处理,避免了词频为0时,出现特征词汇在各文件类型中概率为0的情况。可选的,分子、分母所加数值还可以为其他值。可选的,分子、分母加上用户定义数值后还可以乘以相应权值。可以理解的是,上述公式仅是示例性举例,而并非对概率计算公式的限定。
可选的,获取每一个特征词汇在各文件类型中的概率后,还包括:
基于费舍尔算法和每一个特征词汇在各文件类型的概率确定待分类文件属于各文件类型的概率。
其中,可以基于费舍尔算法将每一个特征词汇在各文件类型的概率进行组合,以确定待分类文件属于各文件类型的概率。基于费舍尔算法计算出的属于各文件类型的概率值为介于数值0-1的精确预测结果,在此基础上,可以通过设置文件类型分类阈值,提高文件分类的准确率。
可选的,可以基于费舍尔算法将每一个特征词在各类文件类型的概率相乘,然后取自然对数,再将结果乘以-2,将计算结果传给倒置对数卡方函数,得到一组随机概率中的最大值即为待分类文件在各类文件类型的概率。
示例性的,假设待分类文件特征词汇有A、B、C三个,文件类型为1、2两类。已知,特征词汇A在文件类型1、2中的概率RA1、RA2;特征词汇B在文件类型1、2中的概率RB1、RB2;特征词汇C在文件类型1、2中的概率RC1、RC2。若计算待分类文件在文件类型1中的概率,则需要将RA1、RB1、RC1进行组合,以确定待分类文件属于文件类型1的概率R1;若计算待分类文件在文件类型2中的概率,则需要将RA2、RB2、RC2进行组合,以确定待分类文件属于文件类型2的概率R2。
可选的,确定待分类文件属于各文件类型的概率后,还包括:
检测是否存在目标文件类型,其中,待分类文件属于目标文件类型的概率与属于其他文件类型概率的差值均大于第二预设阈值,若是,则确定目标文件类型为待分类文件的文件类型。
示例性的,假设文件类型为1、2、3三类,待分类文件属于文件类型1、2、3的概率分别为R1、R2、R3,第二预设阈值为X2。若R1-R2>X2,且R1-R3>X2,则目标文件类型为文件类型1。其中,第二预设阈值可以预留设置入口,供用户自定义设置。通过第二预设阈值的设置,可以提高文件分类的准确率。
可选的,若不存在目标文件类型,可以将待分类文件标记为无法识别,还可以将待分类文件属于各文件类型的概率进行排序,筛选预设排序范围的文件类型,确定为待分类文件的候选文件类型供用户选择。示例性的,若包括5种文件类型,将属于各文件类型的概率进行大小排序,将排序中第一概率和第二概率对应的文件类型确定为候选文件类型供用户选择。
S140、若待分类文件属于目标文件类型的概率大于第一预设阈值,则根据待分类文件更新目标文件类型的样本集。
其中,第一预设阈值可以预留设置入口,供用户自定义设置。理论上,第一预设阈值设置数值越大,当待分类文件属于目标文件类型概率大于第一预设阈值时,目标文件必然属于目标文件类型的概率越高。若待分类文件属于目标文件类型概率大于第一预设阈值,则将待分类文件加入目标文件类型的样本集,以使目标文件类型的样本集不断更新优化,以提高邮件分类准确率及分类效率。
其中,根据待分类文件更新目标文件类型样本集,可以根据样本集的形式进行更新。当样本集是文本文件形式时,可以将待分类文件直接添加进目标文件类型样本集;当样本集是表格形式时,可以将待分类文件中特征词汇对应的分词词频加一,以及样本集的样本数加一。
可选的,当根据用户的反馈信息确定得到待分类文件的目标文件类型时,还可以根据用户反馈信息确定是否根据待分类文件更新目标文件类型的样本集。示例性的,假设文件类型为1、2、3三类,待分类文件属于文件类型1、2、3的概率分别为0.9、0.5、0.4,第二预设阈值为0.5时,属于文件类型1的概率与属于文件类型2、3的概率差值并不大于0.5,则无法确定目标文件类型,此时将各文件类型对应概率排序,供用户选择目标文件类型。若用户反馈信息为文件类型1为目标文件类型,且将待分类文件加入文件类型1训练集,则可以根据此待分类文件更新文件类型1的训练集。根据用户反馈更新目标文件类型训练集,使训练集更新方式更加灵活,有助于提高文件分类效率。
本实施例提供的一种文件分类方法,对待分类文件文本信息进行预处理获取特征词汇,利用费舍尔方法根据特征词汇在各文件类型样本集的统计数据计算得待分类文件属于各文件类型的概率值,以确定待分类文件类型,并通过设置第一预设阈值,利用待分类文件动态更新目标文件类型样本集,提高了文件分类准确率以及分类效率。
实施例二
图2是本发明实施例二提供的一种文件分类装置结构示意图,本实施例可适用于文件分类,例如,已存储的文本文件分类、邮件分类等。
参见图2,本实施例中文件分类装置包括:
文本信息获取模块210,用于获取待分类文件的文本信息。
特征词汇确定模块220,配置为与文本信息获取模块210相连,用于对文本信息进行预处理,确定至少一个特征词汇,其中,预处理包括对文本信息进行去重处理、分词处理和错误修正处理;用于确定每一个特征词汇在各文件类型中的统计数据并发送至文本信息获取模块210,统计数据包括特征词汇在各文件类型对应样本集的词频和对应样本集的样本数。
文件类型确定模块230,配置为与文本信息获取模块210相连,用以基于统计数据确定待分类文件属于各文件类型的概率,根据各文件类型的概率确定待分类文件的目标文件类型,并发送至文本信息获取模块210。
样本集更新模块240,配置为与文本信息获取模块210以及特征词汇确定模块220相连,用于若待分类文件属于目标文件类型的概率大于第一预设阈值,则根据待分类文件更新目标文件类型的样本集。
其中,样本集可以存储于特征词汇确定模块220中。
可选的,特征词汇确定模块220,用于对文本信息进行预处理,确定至少一个特征词汇,包括:
对文本信息进行去重处理,根据预设词表对去重后的文本信息进行分词处理,获取至少一个分词;
删除所述至少一个分词中的停用词和单字词;
检测是否存在失败分词;
若是,则将所述失败分词与至少一个相邻分词进行组合,形成组合词,或将所述失败分词进行拆分,形成拆分词,将所述组合词或所述拆分词中的正确分词确定为特征词汇,并将所述正确分词添加至所述预设词表;
若否,则将删除停用词和单字词后的所述至少一个分词确定为特征词汇。
可选的,文件类型确定模块230,用以基于统计数据确定待分类文件属于各文件类型的概率,根据各文件类型的概率确定待分类文件的目标文件类型,包括:
基于统计数据,获取每一个特征词汇在各文件类型中的概率;
基于费舍尔算法和每一个特征词汇在各文件类型的概率确定待分类文件属于各文件类型的概率;
检测是否存在目标文件类型,其中,待分类文件属于目标文件类型的概率与属于其他文件类型概率的差值均大于第二预设阈值,若是,则确定目标文件类型为待分类文件的文件类型。
可选的,文件类型确定模块230,还用于若不存在目标文件类型,则将待分类文件属于各文件类型的概率进行排序,筛选预设排序范围的文件类型,确定为待分类文件的候选文件类型供用户选择;
对应的,样本集更新模块240,根据用户的反馈信息确定得到待分类文件的目标文件类型,并根据待分类文件更新目标文件类型的样本集。
本实施例与实施例一提出的文件分类方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见实施例一,并且本实施例与实施例一具有相同的有益效果。
实施例三
本实施例提供了一种计算机设备,可以用于文件分类。图3是本发明实施例三提供的一种计算机设备结构示意图。
参见图3,该计算机设备包括:
一个或多个处理器310;
存储器320,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器310执行,使得一个或多个处理器310实现如实施例一提出的文件分类方法。
图3中以一个处理器为例;处理器和存储器可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中计算机设备的文件分类方法对应的程序指令/模块。处理器通过运行存储在存储器中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的文件分类方法。
存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
另外,根据计算机设备的不同形式,除了处理器和存储器,计算机设备还可以包括其他模块或结构,例如,计算机设备可以是具有显示功能的设备,则包括显示屏幕,用于显示文件文本信息;又如,计算机设备可以是具有输入功能的设备,则还包括鼠标、键盘,用于用户确定待分类文件的候选文件类型。
本实施例提出的计算机设备与实施例一提出的文件分类方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见实施例一,并且本实施例与实施例一具有相同的有益效果。
实施例四
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一提出的文件分类方法。
本实施例提出的计算机可读存储介质与实施例一提出的文件分类方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见实施例一,并且本实施例与实施例一具有相同的有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种文件分类方法,其特征在于,包括:
获取待分类文件的文本信息,对所述文本信息进行预处理,确定至少一个特征词汇,其中,预处理包括对所述文本信息进行去重处理、分词处理和错误修正处理;
确定每一个特征词汇在各文件类型中的统计数据,所述统计数据包括所述特征词汇在各文件类型对应样本集的词频和所述对应样本集的样本数;
基于费舍尔分类器和所述统计数据,确定所述待分类文件属于各文件类型的概率,根据各文件类型的概率确定所述待分类文件的目标文件类型;
若待分类文件属于目标文件类型的概率大于第一预设阈值,则根据所述待分类文件更新所述目标文件类型的样本集。
2.根据权利要求1所述的方法,其特征在于,对所述文本信息进行预处理,确定至少一个特征词汇,包括:
对文本信息进行去重处理,根据预设词表对去重后的文本信息进行分词处理,获取至少一个分词;
删除所述至少一个分词中的停用词和单字词;
检测是否存在失败分词;
若是,则将所述失败分词与至少一个相邻分词进行组合,形成组合词,或将所述失败分词进行拆分,形成拆分词,将所述组合词或所述拆分词中的正确分词确定为特征词汇,并将所述正确分词添加至所述预设词表;
若否,则将删除停用词和单字词后的所述至少一个分词确定为特征词汇。
3.根据权利要求1所述的方法,其特征在于,基于费舍尔分类器和所述统计数据,确定所述待分类文件属于各文件类型的概率,根据各文件类型的概率确定所述待分类文件的目标文件类型,包括:
基于费舍尔分类器和所述统计数据,获取每一个所述特征词汇在各文件类型中的概率;
基于费舍尔算法和每一个所述特征词汇在各文件类型的概率确定所述待分类文件属于各文件类型的概率;
检测是否存在目标文件类型,其中,待分类文件属于所述目标文件类型的概率与属于其他文件类型概率的差值均大于第二预设阈值,若是,则确定目标文件类型为所述待分类文件的文件类型。
4.根据权利1所述的方法,其特征在于,所述方法还包括:
若不存在所述目标文件类型,则将所述待分类文件属于各文件类型的概率进行排序,筛选预设排序范围的文件类型,确定为所述待分类文件的候选文件类型供用户选择;
根据用户的反馈信息确定得到待分类文件的目标文件类型,并根据所述待分类文件更新所述目标文件类型的样本集。
5.一种文件分类装置,其特征在于,包括:
文本信息获取模块,用于获取待分类文件的文本信息;
特征词汇确定模块,配置为与所述文本信息获取模块相连,用于对所述文本信息进行预处理,确定至少一个特征词汇,其中,预处理包括对所述文本信息进行去重处理、分词处理和错误修正处理;用于确定每一个特征词汇在各文件类型中的统计数据并发送至所述文本信息获取模块,所述统计数据包括所述特征词汇在各文件类型对应样本集的词频和所述对应样本集的样本数;
文件类型确定模块,配置为与所述文本信息获取模块相连,用以基于所述统计数据确定所述待分类文件属于各文件类型的概率,根据各文件类型的概率确定所述待分类文件的目标文件类型,并发送至所述文本信息获取模块;
样本集更新模块,配置为与所述文本信息获取模块以及所述特征词汇确定模块相连,用于若待分类文件属于目标文件类型的概率大于第一预设阈值,则根据所述待分类文件更新所述目标文件类型的样本集。
6.根据权利要求5所述的装置,其特征在于,所述特征词汇确定模块,用于对所述文本信息进行预处理,确定至少一个特征词汇,包括:
对文本信息进行去重处理,根据预设词表对去重后的文本信息进行分词处理,获取至少一个分词;
删除所述至少一个分词中的停用词和单字词;
检测是否存在失败分词;
若是,则将所述失败分词与至少一个相邻分词进行组合,形成组合词,或将所述失败分词进行拆分,形成拆分词,将所述组合词或所述拆分词中的正确分词确定为特征词汇,并将所述正确分词添加至所述预设词表;
若否,则将删除停用词和单字词后的所述至少一个分词确定为特征词汇。
7.根据权利要求5所述的装置,其特征在于,所述文件类型确定模块,用以基于所述统计数据,确定所述待分类文件属于各文件类型的概率,根据各文件类型的概率确定所述待分类文件的目标文件类型,包括:
基于所述统计数据,获取每一个所述特征词汇在各文件类型中的概率;
基于费舍尔算法和每一个所述特征词汇在各文件类型的概率确定所述待分类文件属于各文件类型的概率;
检测是否存在目标文件类型,其中,待分类文件属于所述目标文件类型的概率与属于其他文件类型概率的差值均大于第二预设阈值,若是,则确定目标文件类型为所述待分类文件的文件类型。
8.根据权利要求5所述的装置,其特征在于,所述文件类型确定模块,
还用于若不存在所述目标文件类型,则将所述待分类文件属于各文件类型的概率进行排序,筛选预设排序范围的文件类型,确定为所述待分类文件的候选文件类型供用户选择;
对应的,所述样本集更新模块,根据用户的反馈信息确定得到待分类文件的目标文件类型,并根据所述待分类文件更新所述目标文件类型的样本集。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的文件分类方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的文件分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711023891.2A CN107729520B (zh) | 2017-10-27 | 2017-10-27 | 文件分类方法、装置、计算机设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711023891.2A CN107729520B (zh) | 2017-10-27 | 2017-10-27 | 文件分类方法、装置、计算机设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107729520A true CN107729520A (zh) | 2018-02-23 |
CN107729520B CN107729520B (zh) | 2020-12-01 |
Family
ID=61202754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711023891.2A Expired - Fee Related CN107729520B (zh) | 2017-10-27 | 2017-10-27 | 文件分类方法、装置、计算机设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107729520B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536800A (zh) * | 2018-04-03 | 2018-09-14 | 有米科技股份有限公司 | 文本分类方法、系统、计算机设备和存储介质 |
CN108845560A (zh) * | 2018-05-30 | 2018-11-20 | 国网浙江省电力有限公司宁波供电公司 | 一种电力调度日志故障分类方法 |
CN109146395A (zh) * | 2018-06-29 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据处理的方法、装置及设备 |
CN109492110A (zh) * | 2018-11-28 | 2019-03-19 | 南京中孚信息技术有限公司 | 文档分类方法及装置 |
CN110990577A (zh) * | 2019-12-25 | 2020-04-10 | 北京亚信数据有限公司 | 一种文本分类方法和装置 |
CN112612888A (zh) * | 2020-12-25 | 2021-04-06 | 航天信息股份有限公司 | 一种用于对文本文件进行智能聚类的方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100080450A1 (en) * | 2008-09-30 | 2010-04-01 | Microsoft Corporation | Classification via semi-riemannian spaces |
CN103514174A (zh) * | 2012-06-18 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种文本分类方法和装置 |
CN105718573A (zh) * | 2016-01-20 | 2016-06-29 | 电子科技大学 | 一种针对用户兴趣的关注关系提取及标注方法 |
CN105868781A (zh) * | 2016-03-29 | 2016-08-17 | 国云科技股份有限公司 | 一种基于朴素贝叶斯分类算法的电脑文件分类处理方法 |
CN106156163A (zh) * | 2015-04-15 | 2016-11-23 | 株式会社日立制作所 | 文本分类方法以及装置 |
-
2017
- 2017-10-27 CN CN201711023891.2A patent/CN107729520B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100080450A1 (en) * | 2008-09-30 | 2010-04-01 | Microsoft Corporation | Classification via semi-riemannian spaces |
CN103514174A (zh) * | 2012-06-18 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种文本分类方法和装置 |
CN106156163A (zh) * | 2015-04-15 | 2016-11-23 | 株式会社日立制作所 | 文本分类方法以及装置 |
CN105718573A (zh) * | 2016-01-20 | 2016-06-29 | 电子科技大学 | 一种针对用户兴趣的关注关系提取及标注方法 |
CN105868781A (zh) * | 2016-03-29 | 2016-08-17 | 国云科技股份有限公司 | 一种基于朴素贝叶斯分类算法的电脑文件分类处理方法 |
Non-Patent Citations (1)
Title |
---|
范仕伦 等: "基于贝叶斯算法和费舍尔算法的垃圾邮件过滤系统设计与实现", 《信息网络安全》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536800A (zh) * | 2018-04-03 | 2018-09-14 | 有米科技股份有限公司 | 文本分类方法、系统、计算机设备和存储介质 |
CN108845560A (zh) * | 2018-05-30 | 2018-11-20 | 国网浙江省电力有限公司宁波供电公司 | 一种电力调度日志故障分类方法 |
CN108845560B (zh) * | 2018-05-30 | 2021-07-13 | 国网浙江省电力有限公司宁波供电公司 | 一种电力调度日志故障分类方法 |
CN109146395A (zh) * | 2018-06-29 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据处理的方法、装置及设备 |
CN109146395B (zh) * | 2018-06-29 | 2022-04-05 | 创新先进技术有限公司 | 一种数据处理的方法、装置及设备 |
CN109492110A (zh) * | 2018-11-28 | 2019-03-19 | 南京中孚信息技术有限公司 | 文档分类方法及装置 |
CN110990577A (zh) * | 2019-12-25 | 2020-04-10 | 北京亚信数据有限公司 | 一种文本分类方法和装置 |
CN112612888A (zh) * | 2020-12-25 | 2021-04-06 | 航天信息股份有限公司 | 一种用于对文本文件进行智能聚类的方法及系统 |
CN112612888B (zh) * | 2020-12-25 | 2023-06-16 | 航天信息股份有限公司 | 一种用于对文本文件进行智能聚类的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107729520B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729520A (zh) | 文件分类方法、装置、计算机设备及计算机可读介质 | |
US10387455B2 (en) | On-the-fly pattern recognition with configurable bounds | |
Abdelhamid et al. | Associative classification approaches: review and comparison | |
CN107944718A (zh) | 一种企业政策评估系统及方法 | |
CN101021838A (zh) | 文本处理方法和系统 | |
CN106815369A (zh) | 一种基于Xgboost分类算法的文本分类方法 | |
CN107169059A (zh) | 一种基于相似变精度粗糙集模型的知识推送规则提取方法 | |
CN110991456A (zh) | 票据识别方法及装置 | |
CN106156163B (zh) | 文本分类方法以及装置 | |
US7702145B2 (en) | Adapting a neural network for individual style | |
JP2020520609A5 (zh) | ||
CN106997367A (zh) | 程序文件的分类方法、分类装置和分类系统 | |
CN108897754A (zh) | 基于大数据的工单类型的识别方法、系统和计算设备 | |
CN110738033A (zh) | 报告模板生成方法、装置及存储介质 | |
CN111460806A (zh) | 基于损失函数的意图识别方法、装置、设备及存储介质 | |
CN108536868A (zh) | 社交网络上短文本数据的数据处理方法及应用 | |
CN111309855A (zh) | 一种文本信息的处理方法及系统 | |
CN108509492A (zh) | 基于房地产行业的大数据处理及系统 | |
CN106339481A (zh) | 基于最大置信度的中文复合新词发现方法 | |
CN115358340A (zh) | 一种信贷催收短信判别方法、系统、设备及存储介质 | |
CN103514168B (zh) | 数据处理方法和设备 | |
CN104899310B (zh) | 信息排序方法、用于生成信息排序模型的方法及装置 | |
CN111143560B (zh) | 一种短文本分类方法、终端设备及存储介质 | |
CN110968685B (zh) | 商品名称的归集方法和装置 | |
JP2005115628A (ja) | 定型表現を用いた文書分類装置・方法・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201201 |