CN105956031A - 文本分类方法和装置 - Google Patents
文本分类方法和装置 Download PDFInfo
- Publication number
- CN105956031A CN105956031A CN201610262036.6A CN201610262036A CN105956031A CN 105956031 A CN105956031 A CN 105956031A CN 201610262036 A CN201610262036 A CN 201610262036A CN 105956031 A CN105956031 A CN 105956031A
- Authority
- CN
- China
- Prior art keywords
- text
- sorted
- key word
- weighted value
- contrasted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本分类方法,所述方法包括:获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;获取所述预处理后的待分类文本中的关键词,以生成关键词集合;根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。本发明还公开了一种文本分类装置。本发明实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本分类方法和装置。
背景技术
随着网络技术的快速发展,海量的信息资源以文本的形式存在。人们迫切的希望从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。
文本分类技术在很多领域都有应用,例如,将文本进行分类,分类后的文本用于指导机器翻译中翻译模型的训练。可见,文本分类的精度很重要,精度高的分类文本,可以在其应用领域带来有益效果,而如果文本分类的精度不够,就会给使用这些分类文本的应用带来不利影响。
在现有的文本分类方法中,通常都是采用训练语料进行分类器训练,然后用训练后的分类器对文本进行分类的方式进行,分类效率低。
发明内容
本发明的主要目的在于提供一种文本分类方法和装置,旨在解决现有文本分类效率低下的技术问题。
为实现上述目的,本发明提供的一种文本分类方法,所述文本分类方法包括:
获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;
获取所述预处理后的待分类文本中的关键词,以生成关键词集合;
根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。
优选地,所述根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别步骤包括:
按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;
将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;
根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。
优选地,所述按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值的步骤之后,还包括:
确定所述权重值小于或者等于所述预设阈值所对应的关键词;
将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。
优选地,所述根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别的步骤之后,还包括:
将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。
优选地,所述获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本的步骤包括:
获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。
此外,为实现上述目的,本发明还提供一种文本分类装置,所述文本分类装置包括:
预处理模块,用于获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;
获取模块,用于获取所述预处理后的待分类文本中的关键词,以生成关键词集合;
计算模块,用于根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。
优选地,所述计算模块包括:
计算单元,用于按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;
对比单元,用于将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;
确定单元,用于根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。
优选地,所述确定单元,还用于确定所述权重值小于或者等于所述预设阈值所对应的关键词;
所述计算模块还包括:
第一删除单元,用于将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。
优选地,所述文本分类装置还包括:
存储模块,用于将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。
优选地,所述预处理模块包括:
第二删除单元,用于获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
分词处理单元,用于通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。
本发明通过对所获取的待分类文本进行预处理,在预处理后的待分类文本中获取关键词集合,根据预设算法计算所述关键词集合中各个关键词所对应的权重值,根据关键词的权重值确定所述待分类文本所属类别。实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。
附图说明
图1为本发明文本分类方法的第一实施例的流程示意图;
图2为本发明实施例中根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别的一种流程示意图;
图3为本发明文本分类方法的第二实施例的流程示意图;
图4为本发明文本分类装置的第一实施例的功能模块示意图;
图5为本发明实施例中计算模块的一种功能模块示意图;
图6为本发明文本分类装置的第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本分类方法。
参照图1,图1为本发明文本分类方法第一实施例的流程示意图。
在本实施例中,所述文本分类方法包括:
步骤S10,获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;
获取待分类文本,所述获取待分类文本的方法包括但不限于从所储存文本的数据库获取,或者从其它终端,如手机、个人计算机中获取等,所述待分类文本包括但不限于word文本、excel文本、PDF(Portable Document Format,便携式文档格式)文本等。当获取到所述待分类文本时,解析所述待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本。
进一步地,所述步骤S10包括:
步骤a,获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
当获取到所述待分类文本后,解析所述待分类文本,得到所述待分类文本中非相关文本和停用词,所述待分类文本的非相关文本包括但不限于word文本中的照片、数学公式、数字等,所述待分类文本的停用词是在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,如“一个”、“三天两头”、“不再”、“么”、“今天”、“具体来说”、“大多数”等。当得到所述待分类文本中的非相关文本和停用词之后,删除所述待分类文本中的非相关文本和停用词。
步骤b,通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。
当将所述待分类文本中的非相关文本和停用词删除后,通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。所述分词算法就是将连续的字序列按照一定的规范重新组合成词序列的过程,现有的分词算法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法;而按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
进一步地,当得到所述预处理后的待分类文本时,获取所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等,将所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等删除。如得到的所述预处理后的待分类文本中某句话为“小明/朋友/湖南/凤凰古城/旅游”,则删除该句话中的“小明/湖南/凤凰古城”,得到的这句话为“朋友/旅游”。
步骤S20,获取所述预处理后的待分类文本中的关键词,以生成关键词集合;
当得到所述预处理后的待分类文本时,获取所述预处理后的待分类文本中的关键词,以生成关键词集合。如在所述预处理后的待分类文本中所获取的关键词集合为“上班族/社会/发展/生力军/身体状况/健康/保健/关注/养生/故事/专版/指导/作用”。
步骤S30,根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。
当得到所述关键词集合时,根据预设算法计算所述关键词集合各个关键词对应的权重值,并根据所述权重值确定所述待分类文本所属类别。
具体地,参照图2,图2为本发明实施例中根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别的一种流程示意图。
,所述步骤S30包括:
步骤S31,按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;
当得到所述关键词集合时,按照TF-IDF(Term Frequency–InverseDocument Frequency)算法计算所述关键词集合中的各个关键词对应的权重值,所述TF-IDF是一种统计算法,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度,权重值越大,该关键词对所述待分类文本越重要。所述TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF(Term Frequency,词频)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。所述TF-IDF实际上是:TF*IDF,TF词频,IDF(Inverse Document Frequency,逆向文件频率)。所述TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
当得到所述关键词集合中各个关键词所对应的权重值时,判断各个关键词所对应的权重值是否大于预设阈值。若所述关键词的权重值大于所述预设阈值,则将权重值大于所述预设阈值所对应的关键词记为待对比关键词。所述预设阈值可以根据具体需要而设置,若想将所述待分类文本进行一个简单的分类,则可以将所述预设阈值设置小一点,反之,可以将所述预设阈值设置大一点。
步骤S32,将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;
步骤S33,根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。
当得到所述待对比关键词时,将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度,根据所述待对比关键词与预设的分类参数之间的相关程度确定所述待分类文本所属类别。根据所述待对比关键词与所述预设的分类参数之间的相关程度确定所述待分类文本所属类别有两种方式,第一种为:当得到所述待对比关键词与所述预设的分类参数之间的相关程度时,将所述待对比关键词与所述预设的分类参数之间相关程度按照从大到小的顺序排列,确定与所述预设的分类参数相关程度最大的待对比关键词,则该待对比关键词所对应的所述预设的分类参数所在的类别为所述待分类文本所属类别;第二种为:当得到所述待对比关键词与所述预设的分类参数之间的相关程度时,将所述待对比关键词与所述预设的分类参数之间相关程度按照从大到小的顺序排列,确定与所述预设的分类参数相关程度大于某个设定值所对应的待对比关键词,将所述待对比关键词与所述预设的分类参数之间相关程度大于所述设定值所对应的关键词记为分类关键词,所述分类关键词所对应的所述预设的分类参数所在的类别为所述待分类文本所属类别,即所述待分类文本可能会属于多个类别。
需要说明的是,可以通过K最邻近分类算法确定所述待对比关键词与所述预设的分类参数之间的相关程度,所述K最邻近分类算法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
进一步地,在所述按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值的步骤之后,还包括:
步骤c,确定所述权重值小于或者等于所述预设阈值所对应的关键词;
步骤d,将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。
当所述权重值小于或者等于所述预设阈值时,确定所述权重值小于或者等于所述预设阈值所对应的关键词,将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。
本实施例通过对所获取的待分类文本进行预处理,在预处理后的待分类文本中获取关键词集合,根据预设算法计算所述关键词集合中各个关键词所对应的权重值,根据关键词的权重值确定所述待分类文本所属类别。实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。
参照图3,图3为本发明文本分类方法的第二实施例的流程示意图,基于第一实施例提出本发明文本分类方法的第二实施例。
在本实施例中,所述文本分类方法还包括:
步骤S40,将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。
当确定所述待分类文本所属类别后,获取属于同一类别的待分类文本,将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引,进一步地,还可以根据所述待分类文本中的待对比关键词所对应的分类参数,以及所述分类参数所对应的类别为所述待分类文本建立索引,以供用户根据所建立的索引管理和查找所述待分类文本。如将属于“菜谱”这一类别的待分类文本存储于同一个文件夹中。如菜谱”这一类别中某个待分类文本的待对比关键词为“青瓜/鸡蛋/油/盐”,所对应的分类参数为“青瓜/鸡蛋”,且该分类参数所对应的类别为“菜谱”,则为该待分类文本建立的索引为“青瓜”、“鸡蛋”、“菜谱”。
本实施例通过将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引,方便了用户对待分类文本的管理和查看。
本发明进一步提供一种文本分类装置。
参照图4,图4为本发明文本分类装置的第一实施例的功能模块示意图。
在本实施例中,所述文本分类装置包括:
预处理模块10,用于获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;
获取待分类文本,所述获取待分类文本的方法包括但不限于从所储存文本的数据库获取,或者从其它终端,如手机、个人计算机中获取等,所述待分类文本包括但不限于word文本、excel文本、PDF(Portable Document Format,便携式文档格式)文本等。当获取到所述待分类文本时,解析所述待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本。
进一步地,所述预处理模块10包括:
第二删除单元,用于获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
当获取到所述待分类文本后,解析所述待分类文本,得到所述待分类文本中非相关文本和停用词,所述待分类文本的非相关文本包括但不限于word文本中的照片、数学公式、数字等,所述待分类文本的停用词是在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,如“一个”、“三天两头”、“不再”、“么”、“今天”、“具体来说”、“大多数”等。当得到所述待分类文本中的非相关文本和停用词之后,删除所述待分类文本中的非相关文本和停用词。
分词处理单元,用于通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。
当将所述待分类文本中的非相关文本和停用词删除后,通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。所述分词算法就是将连续的字序列按照一定的规范重新组合成词序列的过程,现有的分词算法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法;而按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
进一步地,当得到所述预处理后的待分类文本时,获取所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等,将所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等删除。如得到的所述预处理后的待分类文本中某句话为“小明/朋友/湖南/凤凰古城/旅游”,则删除该句话中的“小明/湖南/凤凰古城”,得到的这句话为“朋友/旅游”。
获取模块20,用于获取所述预处理后的待分类文本中的关键词,以生成关键词集合;
当得到所述预处理后的待分类文本时,获取所述预处理后的待分类文本中的关键词,以生成关键词集合。如在所述预处理后的待分类文本中所获取的关键词集合为“上班族/社会/发展/生力军/身体状况/健康/保健/关注/养生/故事/专版/指导/作用”。
计算模块30,用于根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。
当得到所述关键词集合时,根据预设算法计算所述关键词集合各个关键词对应的权重值,并根据所述权重值确定所述待分类文本所属类别。
具体地,参照图5,图5为本发明实施例中计算模块的一种功能模块示意图。
所述计算模块30包括:
计算单元31,用于按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;
当得到所述关键词集合时,按照TF-IDF(Term Frequency–InverseDocument Frequency)算法计算所述关键词集合中的各个关键词对应的权重值,所述TF-IDF是一种统计算法,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度,权重值越大,该关键词对所述待分类文本越重要。所述TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF(Term Frequency,词频)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。所述TF-IDF实际上是:TF*IDF,TF词频,IDF(Inverse Document Frequency,逆向文件频率)。所述TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
当得到所述关键词集合中各个关键词所对应的权重值时,判断各个关键词所对应的权重值是否大于预设阈值。若所述关键词的权重值大于所述预设阈值,则将权重值大于所述预设阈值所对应的关键词记为待对比关键词。所述预设阈值可以根据具体需要而设置,若想将所述待分类文本进行一个简单的分类,则可以将所述预设阈值设置小一点,反之,可以将所述预设阈值设置大一点。
对比单元32,用于将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;
确定单元33,用于根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。
当得到所述待对比关键词时,将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度,根据所述待对比关键词与预设的分类参数之间的相关程度确定所述待分类文本所属类别。根据所述待对比关键词与所述预设的分类参数之间的相关程度确定所述待分类文本所属类别有两种方式,第一种为:当得到所述待对比关键词与所述预设的分类参数之间的相关程度时,将所述待对比关键词与所述预设的分类参数之间相关程度按照从大到小的顺序排列,确定与所述预设的分类参数相关程度最大的待对比关键词,则该待对比关键词所对应的所述预设的分类参数所在的类别为所述待分类文本所属类别;第二种为:当得到所述待对比关键词与所述预设的分类参数之间的相关程度时,将所述待对比关键词与所述预设的分类参数之间相关程度按照从大到小的顺序排列,确定与所述预设的分类参数相关程度大于某个设定值所对应的待对比关键词,将所述待对比关键词与所述预设的分类参数之间相关程度大于所述设定值所对应的关键词记为分类关键词,所述分类关键词所对应的所述预设的分类参数所在的类别为所述待分类文本所属类别,即所述待分类文本可能会属于多个类别。
需要说明的是,可以通过K最邻近分类算法确定所述待对比关键词与所述预设的分类参数之间的相关程度,所述K最邻近分类算法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
进一步地,所述确定单元33,还用于确定所述权重值小于或者等于所述预设阈值所对应的关键词;
所述计算模块还包括:
第一删除单元,用于将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。
当所述权重值小于或者等于所述预设阈值时,确定所述权重值小于或者等于所述预设阈值所对应的关键词,将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。
本实施例通过对所获取的待分类文本进行预处理,在预处理后的待分类文本中获取关键词集合,根据预设算法计算所述关键词集合中各个关键词所对应的权重值,根据关键词的权重值确定所述待分类文本所属类别。实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。
参照图6,图6为本发明文本分类装置的第二实施例的功能模块示意图,基于第一实施例提出本发明文本分类装置的第二实施例。
在本实施例中,所述文本分类装置还包括:
存储模块40,用于将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。
当确定所述待分类文本所属类别后,获取属于同一类别的待分类文本,将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引,进一步地,还可以根据所述待分类文本中的待对比关键词所对应的分类参数,以及所述分类参数所对应的类别为所述待分类文本建立索引,以供用户根据所建立的索引管理和查找所述待分类文本。如将属于“菜谱”这一类别的待分类文本存储于同一个文件夹中。如菜谱”这一类别中某个待分类文本的待对比关键词为“青瓜/鸡蛋/油/盐”,所对应的分类参数为“青瓜/鸡蛋”,且该分类参数所对应的类别为“菜谱”,则为该待分类文本建立的索引为“青瓜”、“鸡蛋”、“菜谱”。
本实施例通过将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引,方便了用户对待分类文本的管理和查看。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本分类方法,其特征在于,所述文本分类方法包括:
获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;
获取所述预处理后的待分类文本中的关键词,以生成关键词集合;
根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。
2.如权利要求1所述的文本分类方法,其特征在于,所述根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别步骤包括:
按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;
将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;
根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。
3.如权利要求2所述的文本分类方法,其特征在于,所述按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值的步骤之后,还包括:
确定所述权重值小于或者等于所述预设阈值所对应的关键词;
将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。
4.如权利要求2所述的文本分类方法,其特征在于,所述根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别的步骤之后,还包括:
将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。
5.如权利要求1至4任一项所述的文本分类方法,其特征在于,所述获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本的步骤包括:
获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。
6.一种文本分类装置,其特征在于,所述文本分类装置包括:
预处理模块,用于获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;
获取模块,用于获取所述预处理后的待分类文本中的关键词,以生成关键词集合;
计算模块,用于根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。
7.如权利要求6所述的文本分类装置,其特征在于,所述计算模块包括:
计算单元,用于按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;
对比单元,用于将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;
确定单元,用于根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。
8.如权利要求7所述的文本分类装置,其特征在于,所述确定单元,还用于确定所述权重值小于或者等于所述预设阈值所对应的关键词;
所述计算模块还包括:
第一删除单元,用于将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。
9.如权利要求7所述的文本分类装置,其特征在于,所述文本分类装置还包括:
存储模块,用于将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。
10.如权利要求6至9任一项所述的文本分类装置,其特征在于,所述预处理模块包括:
第二删除单元,用于获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
分词处理单元,用于通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610262036.6A CN105956031A (zh) | 2016-04-25 | 2016-04-25 | 文本分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610262036.6A CN105956031A (zh) | 2016-04-25 | 2016-04-25 | 文本分类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105956031A true CN105956031A (zh) | 2016-09-21 |
Family
ID=56916191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610262036.6A Pending CN105956031A (zh) | 2016-04-25 | 2016-04-25 | 文本分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105956031A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943791A (zh) * | 2017-11-24 | 2018-04-20 | 北京奇虎科技有限公司 | 一种垃圾短信的识别方法、装置和移动终端 |
CN108009157A (zh) * | 2017-12-27 | 2018-05-08 | 北京嘉和美康信息技术有限公司 | 一种语句归类方法及装置 |
CN108228563A (zh) * | 2017-12-29 | 2018-06-29 | 广州品唯软件有限公司 | 一种用户评论分析方法和装置 |
CN108491535A (zh) * | 2018-03-29 | 2018-09-04 | 北京小米移动软件有限公司 | 信息的分类存储方法及装置 |
CN109408639A (zh) * | 2018-10-31 | 2019-03-01 | 广州虎牙科技有限公司 | 一种弹幕分类方法、装置、设备和存储介质 |
CN110313001A (zh) * | 2017-04-19 | 2019-10-08 | Oppo广东移动通信有限公司 | 照片处理方法、装置及计算机设备 |
CN110390094A (zh) * | 2018-04-20 | 2019-10-29 | 伊姆西Ip控股有限责任公司 | 对文档进行分类的方法、电子设备和计算机程序产品 |
CN110941714A (zh) * | 2018-09-21 | 2020-03-31 | 武汉安天信息技术有限责任公司 | 分类规则库构建方法、应用分类方法及装置 |
CN111723229A (zh) * | 2020-06-24 | 2020-09-29 | 重庆紫光华山智安科技有限公司 | 数据比对方法、装置、计算机可读存储介质和电子设备 |
CN112380350A (zh) * | 2021-01-14 | 2021-02-19 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本分类方法和装置 |
CN112487194A (zh) * | 2020-12-17 | 2021-03-12 | 平安消费金融有限公司 | 文档分类规则的更新方法、装置、设备以及存储介质 |
CN112784047A (zh) * | 2021-01-25 | 2021-05-11 | 重庆邮电大学 | 一种基于自注意力机制的可控可解释司法文本分类方法 |
CN112836045A (zh) * | 2020-12-25 | 2021-05-25 | 中科恒运股份有限公司 | 基于文本数据集的数据处理方法、装置及终端设备 |
CN113434677A (zh) * | 2021-06-28 | 2021-09-24 | 京东城市(北京)数字科技有限公司 | 用于提取文本关键词的方法、装置、电子设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN102033919A (zh) * | 2010-12-07 | 2011-04-27 | 北京新媒传信科技有限公司 | 文本关键词提取方法及系统 |
CN103902570A (zh) * | 2012-12-27 | 2014-07-02 | 腾讯科技(深圳)有限公司 | 一种文本分类特征提取方法、分类方法及装置 |
CN104102651A (zh) * | 2013-04-07 | 2014-10-15 | 华东师范大学 | 云计算环境下基于语义的自适应文本分类方法 |
CN104978354A (zh) * | 2014-04-10 | 2015-10-14 | 中电长城网际系统应用有限公司 | 文本分类方法和装置 |
CN105260356A (zh) * | 2015-10-10 | 2016-01-20 | 西安交通大学 | 基于多任务学习的中文交互文本情感与话题识别方法 |
-
2016
- 2016-04-25 CN CN201610262036.6A patent/CN105956031A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN102033919A (zh) * | 2010-12-07 | 2011-04-27 | 北京新媒传信科技有限公司 | 文本关键词提取方法及系统 |
CN103902570A (zh) * | 2012-12-27 | 2014-07-02 | 腾讯科技(深圳)有限公司 | 一种文本分类特征提取方法、分类方法及装置 |
CN104102651A (zh) * | 2013-04-07 | 2014-10-15 | 华东师范大学 | 云计算环境下基于语义的自适应文本分类方法 |
CN104978354A (zh) * | 2014-04-10 | 2015-10-14 | 中电长城网际系统应用有限公司 | 文本分类方法和装置 |
CN105260356A (zh) * | 2015-10-10 | 2016-01-20 | 西安交通大学 | 基于多任务学习的中文交互文本情感与话题识别方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110313001A (zh) * | 2017-04-19 | 2019-10-08 | Oppo广东移动通信有限公司 | 照片处理方法、装置及计算机设备 |
CN107943791A (zh) * | 2017-11-24 | 2018-04-20 | 北京奇虎科技有限公司 | 一种垃圾短信的识别方法、装置和移动终端 |
CN108009157B (zh) * | 2017-12-27 | 2021-04-27 | 北京嘉和海森健康科技有限公司 | 一种语句归类方法及装置 |
CN108009157A (zh) * | 2017-12-27 | 2018-05-08 | 北京嘉和美康信息技术有限公司 | 一种语句归类方法及装置 |
CN108228563A (zh) * | 2017-12-29 | 2018-06-29 | 广州品唯软件有限公司 | 一种用户评论分析方法和装置 |
CN108491535A (zh) * | 2018-03-29 | 2018-09-04 | 北京小米移动软件有限公司 | 信息的分类存储方法及装置 |
CN108491535B (zh) * | 2018-03-29 | 2023-04-07 | 北京小米移动软件有限公司 | 信息的分类存储方法及装置 |
CN110390094A (zh) * | 2018-04-20 | 2019-10-29 | 伊姆西Ip控股有限责任公司 | 对文档进行分类的方法、电子设备和计算机程序产品 |
CN110390094B (zh) * | 2018-04-20 | 2023-05-23 | 伊姆西Ip控股有限责任公司 | 对文档进行分类的方法、电子设备和计算机程序产品 |
CN110941714A (zh) * | 2018-09-21 | 2020-03-31 | 武汉安天信息技术有限责任公司 | 分类规则库构建方法、应用分类方法及装置 |
CN109408639A (zh) * | 2018-10-31 | 2019-03-01 | 广州虎牙科技有限公司 | 一种弹幕分类方法、装置、设备和存储介质 |
CN111723229A (zh) * | 2020-06-24 | 2020-09-29 | 重庆紫光华山智安科技有限公司 | 数据比对方法、装置、计算机可读存储介质和电子设备 |
CN112487194A (zh) * | 2020-12-17 | 2021-03-12 | 平安消费金融有限公司 | 文档分类规则的更新方法、装置、设备以及存储介质 |
CN112836045A (zh) * | 2020-12-25 | 2021-05-25 | 中科恒运股份有限公司 | 基于文本数据集的数据处理方法、装置及终端设备 |
CN112380350A (zh) * | 2021-01-14 | 2021-02-19 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本分类方法和装置 |
CN112784047A (zh) * | 2021-01-25 | 2021-05-11 | 重庆邮电大学 | 一种基于自注意力机制的可控可解释司法文本分类方法 |
CN112784047B (zh) * | 2021-01-25 | 2023-02-28 | 重庆邮电大学 | 一种基于自注意力机制的可控可解释司法文本分类方法 |
CN113434677A (zh) * | 2021-06-28 | 2021-09-24 | 京东城市(北京)数字科技有限公司 | 用于提取文本关键词的方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105956031A (zh) | 文本分类方法和装置 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN105893606A (zh) | 文本分类方法和装置 | |
CN105512311B (zh) | 一种基于卡方统计的自适应特征选择方法 | |
CN102662952B (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
CN105389349B (zh) | 词典更新方法及装置 | |
Basavaraju et al. | A novel method of spam mail detection using text based clustering approach | |
Ahmed et al. | Sms classification based on naive bayes classifier and apriori algorithm frequent itemset | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
US20150142760A1 (en) | Method and device for deduplicating web page | |
CN103577462B (zh) | 一种文档分类方法及装置 | |
CN108763348B (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
US20150356091A1 (en) | Method and system for identifying microblog user identity | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN103838798B (zh) | 页面分类系统及页面分类方法 | |
CN105760493A (zh) | 一种电力营销服务热点95598工单自动分类方法 | |
CN103294778A (zh) | 一种推送资讯信息的方法及系统 | |
CN102945246B (zh) | 网络信息数据的处理方法及装置 | |
EP2577521A2 (en) | Detection of junk in search result ranking | |
Rajalakshmi et al. | Web page classification using n-gram based URL features | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
CN109271517A (zh) | Ig tf-idf文本特征向量生成及文本分类方法 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN110990676A (zh) | 一种社交媒体热点主题提取方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402 Applicant after: Yongxing Shenzhen Polytron Technologies Inc Address before: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402 Applicant before: Shenzhen Longrise Technology Co., Ltd. |
|
COR | Change of bibliographic data | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160921 |
|
RJ01 | Rejection of invention patent application after publication |