CN105893606A - 文本分类方法和装置 - Google Patents

文本分类方法和装置 Download PDF

Info

Publication number
CN105893606A
CN105893606A CN201610260819.0A CN201610260819A CN105893606A CN 105893606 A CN105893606 A CN 105893606A CN 201610260819 A CN201610260819 A CN 201610260819A CN 105893606 A CN105893606 A CN 105893606A
Authority
CN
China
Prior art keywords
text
sorted
key word
correlation degree
degree value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610260819.0A
Other languages
English (en)
Inventor
张锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Longrise Technology Co Ltd
Original Assignee
Shenzhen Longrise Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Longrise Technology Co Ltd filed Critical Shenzhen Longrise Technology Co Ltd
Priority to CN201610260819.0A priority Critical patent/CN105893606A/zh
Publication of CN105893606A publication Critical patent/CN105893606A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法,所述方法包括:获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。本发明还公开了一种文本分类装置。本发明实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。

Description

文本分类方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本分类方法和装置。
背景技术
随着网络技术的快速发展,海量的信息资源以文本的形式存在。人们迫切的希望从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。
文本分类技术在很多领域都有应用,例如,将文本进行分类,分类后的文本用于指导机器翻译中翻译模型的训练。可见,文本分类的精度很重要,精度高的分类文本,可以在其应用领域带来有益效果,而如果文本分类的精度不够,就会给使用这些分类文本的应用带来不利影响。
在现有的文本分类方法中,通常都是采用训练语料进行分类器训练,然后用训练后的分类器对文本进行分类的方式进行,分类效率低。
发明内容
本发明的主要目的在于提供一种文本分类方法和装置,旨在解决现有文本分类效率低下的技术问题。
为实现上述目的,本发明提供的一种文本分类方法,所述文本分类方法包括:
获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;
对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;
计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。
优选地,所述获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合的步骤包括:
获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本;
在预处理后的所述待分类文本中提取关键词,以生成关键词集合。
优选地,所述获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本的步骤包括:
获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的所述待分类文本。
优选地,所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别的步骤包括:
根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值;
将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。
优选地,所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别的步骤之后,还包括:
将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。
此外,为实现上述目的,本发明还提供一种文本分类装置,所述文本分类装置包括:
提取模块,用于获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;
分类模块,用于对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;
计算模块,用于计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。
优选地,所述提取模块包括:
预处理单元,用于获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本;
提取单元,用于在预处理后的所述待分类文本中提取关键词,以生成关键词集合。
优选地,所述提取模块还包括:
删除单元,用于获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
分词处理单元,用于通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的所述待分类文本。
优选地,所述计算模块包括:
计算单元,用于根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值;
处理单元,用于将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。
优选地,所述文本分类装置包括:
存储模块,用于将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。
本发明通过在获取的待分类文本中提取关键词集合,对关键词集合中的关键词进行分类以得到关键词词组,并确定各关键词词组在所述关键词集合中所占的比例,根据所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值确定待分类文本所属类别。实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。
附图说明
图1为本发明文本分类方法的第一实施例的流程示意图;
图2为本发明实施例中获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合的一种流程示意图;
图3为本发明文本分类方法的第二实施例的流程示意图;
图4为本发明文本分类装置的第一实施例的功能模块示意图;
图5为本发明实施例中提取模块的一种功能模块示意图;
图6为本发明文本分类装置的第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本分类方法。
参照图1,图1为本发明文本分类方法第一实施例的流程示意图。
在本实施例中,所述文本分类方法包括:
步骤S10,获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;
获取待分类文本,所述获取待分类文本的方法包括但不限于从所储存文本的数据库获取,或者从其它终端,如手机、个人计算机中获取等,所述待分类文本包括但不限于word文本、excel文本、PDF(Portable Document Format,便携式文档格式)文本等。当获取到所述待分类文本时,在所述待分类文本中提取关键词,以生成所述待分类文本的关键词集合。如当获取的待分类文本是名为“上班族保健养生知识”word文本时,在所述“上班族保健养生知识”word文本中提取的关键词集合为“上班族/社会/发展/生力军/身体状况/健康/保健/养生/久坐成疾/运动/颈椎疾病/腰背痛/驼背/肥胖/脂肪/血液循环”。在具体实施例中,所述“上班族保健养生知识”word文本中的关键词集合中的关键词不限制于上述所列举的词语。
步骤S20,对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;
当获取到所述待分类文本中的关键词集合时,对所述关键词集合中的关键词进行分类,确定所述关键词集合中各关键词的类别,以得到多组关键词词组,并计算每组关键词词组在所述关键词集合所占的比例。如当获取到所述“上班族保健养生知识”word文本的关键词集合为“上班族/社会/发展/生力军/身体状况/健康/保健/养生/久坐成疾/运动/颈椎疾病/腰背痛/驼背/肥胖/脂肪/血液循环”时,将所述“上班族保健养生知识”word文本中关键词集合的关键词分为(1)“上班族”,(2)“社会/发展”,(3)“生力军”,(4)“身体状况/健康/保健/养生/运动”,(5)“久坐成疾/颈椎疾病/腰背痛/驼背/肥胖/脂肪/血液循环”这5组关键词词组,确定这5组关键词词组在所述“上班族保健养生知识”word文本的关键词集合中所占比例分别为(1)1/16*100%=6.25%;(2)2/16*100%=12.5%;(3)1/16*100%=6.25%;(4)5/16*100%=31.25%;(5)7/16*100%=43.75%。
步骤S30,计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。
当确定各关键词词组在所述关键词集合中所占的比例时,判断所述各关键词词组在所述关键词集合中所占的比例是否大于预设阈值。若某种关键词词组在所述关键词集合中所占的比例小于或者等于所述预设阈值,则将该关键词词组从所述关键词集合中移除;若某种关键词词组在所述关键词集合中所占的比例大于所述预设阈值,则计算所述比例大于所述预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述比例大于所述预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值的大小确定所述待分类文本所属类别。所述预设阈值根据所述关键词集合中关键词的个数和所述关键词集合中关键词词组的组数确定。如当所述“上班族保健养生知识”word文本所对应的预设阈值为20%时,则只计算所述“上班族保健养生知识”word文本中第(4)组和第(5)组的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据第(4)组和第(5)组中的各个关键词与预设的分类参数的相关程度值确定所述待分类文本所属类别。
进一步地,所述步骤S30包括:
步骤a,根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值;
步骤b,将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。
当确定各关键词词组在所述关键词集合中所占的比例时,确定所述关键词集合中所述比例大于预设阈值的各关键词词组,根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属的类别。所述预设相关程度值可以根据具体需要而设置,若想将所述待分类文本进行一个简单的分类,则可以将所述预设相关程度值设置小一点,反之,可以将所述预设相关程度值设置大一点。所述K最邻近分类算法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
需要说明的是,所述待分类文本可能只属于一个类别,也可能属于多个类别。如所述“上班族保健养生知识”word文本可以属于“养生”类别,也可以属于“生活”类别。
进一步地,当根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值时,可以将计算所得的相关程度值按照从大到小排序,将最大的相关程度值所对应的分类参数所属类别作为所述待分类文本的所属类别,此时,所述待分类文本只属于一个类别。
本实施例通过在获取的待分类文本中提取关键词集合,对关键词集合中的关键词进行分类以得到关键词词组,并确定各关键词词组在所述关键词集合中所占的比例,根据所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值确定待分类文本所属类别。实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。
参照图2,图2为本发明实施例中获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合的一种流程示意图。
在本实施例中,所述步骤S10包括:
步骤S11,获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本;
当获取到所述待分类文本时,解析所述待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本。
进一步地,所述步骤S11包括:
步骤c,获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
当获取到所述待分类文本后,解析所述待分类文本,得到所述待分类文本中的非相关文本和停用词,所述待分类文本的非相关文本包括但不限于word文本中的照片、数学公式、数字等,所述待分类文本的停用词是在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,如“一个”、“三天两头”、“不再”、“么”、“今天”、“具体来说”、“大多数”等。当得到所述待分类文本中的非相关文本和停用词之后,删除所述待分类文本中的非相关文本和停用词。
步骤d,通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的所述待分类文本。
当将所述待分类文本中的非相关文本和停用词删除后,通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。所述分词算法就是将连续的字序列按照一定的规范重新组合成词序列的过程,现有的分词算法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法;而按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
进一步地,当得到所述预处理后的待分类文本时,获取所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等,将所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等删除。如得到的所述预处理后的待分类文本中某句话为“小明/朋友/湖南/凤凰古城/旅游”,则删除该句话中的“小明/湖南/凤凰古城”,得到的这句话为“朋友/旅游”。
步骤S12,在预处理后的所述待分类文本中提取关键词,以生成关键词集合。
当得到预处理后的所述待分类文本时,在预处理后的所述待分类文本中提取关键词,将从预处理后的所述待分类文本中所提取的关键词组合成关键词集合。
本实施例通过获取到待分类文本时,对该待分类文本进行预处理操作,删除所述待分类文本中的非相关文本和停用词,进一步提高文本分类的效率。
参照图3,图3为本发明文本分类方法的第二实施例的流程示意图,基于第一实施例提出本发明文本分类方法的第二实施例。
在本实施例中,所述文本分类方法还包括:
步骤S40,将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。
当确定所述待分类文本所属类别后,获取属于同一类别的待分类文本,将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引,进一步地,还可以根据所述待分类文本所属类别所对应的分类参数,以及所述待分类文本所属类别为所述待分类文本建立索引,以供用户根据所建立的索引管理和查找所述待分类文本。如将属于“菜谱”这一类别的待分类文本存储于同一个文件夹中。如属于“菜谱”这一类别中某个待分类文本所对应的分类参数为“青瓜/鸡蛋”,则为该待分类文本建立的索引为“青瓜”、“鸡蛋”、“菜谱”。
本实施例通过将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引,方便了用户对待分类文本的管理和查看。
本发明进一步提供一种文本分类装置。
参照图4,图4为本发明文本分类装置的第一实施例的功能模块示意图。
在本实施例中,所述文本分类装置包括:
提取模块10,用于获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;
获取待分类文本,所述获取待分类文本的方法包括但不限于从所储存文本的数据库获取,或者从其它终端,如手机、个人计算机中获取等,所述待分类文本包括但不限于word文本、excel文本、PDF(Portable Document Format,便携式文档格式)文本等。当获取到所述待分类文本时,在所述待分类文本中提取关键词,以生成所述待分类文本的关键词集合。如当获取的待分类文本是名为“上班族保健养生知识”word文本时,在所述“上班族保健养生知识”word文本中提取的关键词集合为“上班族/社会/发展/生力军/身体状况/健康/保健/养生/久坐成疾/运动/颈椎疾病/腰背痛/驼背/肥胖/脂肪/血液循环”。在具体实施例中,所述“上班族保健养生知识”word文本中的关键词集合中的关键词不限制于上述所列举的词语。
分类模块20,用于对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;
当获取到所述待分类文本中的关键词集合时,对所述关键词集合中的关键词进行分类,确定所述关键词集合中各关键词的类别,以得到多组关键词词组,并计算每组关键词词组在所述关键词集合所占的比例。如当获取到所述“上班族保健养生知识”word文本的关键词集合为“上班族/社会/发展/生力军/身体状况/健康/保健/养生/久坐成疾/运动/颈椎疾病/腰背痛/驼背/肥胖/脂肪/血液循环”时,将所述“上班族保健养生知识”word文本中关键词集合的关键词分为(1)“上班族”,(2)“社会/发展”,(3)“生力军”,(4)“身体状况/健康/保健/养生/运动”,(5)“久坐成疾/颈椎疾病/腰背痛/驼背/肥胖/脂肪/血液循环”这5组关键词词组,确定这5组关键词词组在所述“上班族保健养生知识”word文本的关键词集合中所占比例分别为(1)1/16*100%=6.25%;(2)2/16*100%=12.5%;(3)1/16*100%=6.25%;(4)5/16*100%=31.25%;(5)7/16*100%=43.75%。
计算模块30,用于计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。
当确定各关键词词组在所述关键词集合中所占的比例时,判断所述各关键词词组在所述关键词集合中所占的比例是否大于预设阈值。若某种关键词词组在所述关键词集合中所占的比例小于或者等于所述预设阈值,则将该关键词词组从所述关键词集合中移除;若某种关键词词组在所述关键词集合中所占的比例大于所述预设阈值,则计算所述比例大于所述预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述比例大于所述预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值的大小确定所述待分类文本所属类别。所述预设阈值根据所述关键词集合中关键词的个数和所述关键词集合中关键词词组的组数确定。如当所述“上班族保健养生知识”word文本所对应的预设阈值为20%时,则只计算所述“上班族保健养生知识”word文本中第(4)组和第(5)组的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据第(4)组和第(5)组中的各个关键词与预设的分类参数的相关程度值确定所述待分类文本所属类别。
进一步地,所述计算模块30包括:
计算单元,用于根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值;
处理单元,用于将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。
当确定各关键词词组在所述关键词集合中所占的比例时,确定所述关键词集合中所述比例大于预设阈值的各关键词词组,根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属的类别。所述预设相关程度值可以根据具体需要而设置,若想将所述待分类文本进行一个简单的分类,则可以将所述预设相关程度值设置小一点,反之,可以将所述预设相关程度值设置大一点。所述K最邻近分类算法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
需要说明的是,所述待分类文本可能只属于一个类别,也可能属于多个类别。如所述“上班族保健养生知识”word文本可以属于“养生”类别,也可以属于“生活”类别。
进一步地,当根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值时,可以将计算所得的相关程度值按照从大到小排序,将最大的相关程度值所对应的分类参数所属类别作为所述待分类文本的所属类别,此时,所述待分类文本只属于一个类别。
本实施例通过在获取的待分类文本中提取关键词集合,对关键词集合中的关键词进行分类以得到关键词词组,并确定各关键词词组在所述关键词集合中所占的比例,根据所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值确定待分类文本所属类别。实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。
参照图5,图5为本发明本发明实施例中提取模块的一种功能模块示意图。
在本实施例中,所述提取模块10包括:
预处理单元11,用于获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本;
当获取到所述待分类文本时,解析所述待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本。
进一步地,所述提取模块10还包括:
删除单元,用于获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
当获取到所述待分类文本后,解析所述待分类文本,得到所述待分类文本中的非相关文本和停用词,所述待分类文本的非相关文本包括但不限于word文本中的照片、数学公式、数字等,所述待分类文本的停用词是在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,如“一个”、“三天两头”、“不再”、“么”、“今天”、“具体来说”、“大多数”等。当得到所述待分类文本中的非相关文本和停用词之后,删除所述待分类文本中的非相关文本和停用词。
分词处理单元,用于通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的所述待分类文本。
当将所述待分类文本中的非相关文本和停用词删除后,通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。所述分词算法就是将连续的字序列按照一定的规范重新组合成词序列的过程,现有的分词算法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法;而按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
进一步地,当得到所述预处理后的待分类文本时,获取所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等,将所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等删除。如得到的所述预处理后的待分类文本中某句话为“小明/朋友/湖南/凤凰古城/旅游”,则删除该句话中的“小明/湖南/凤凰古城”,得到的这句话为“朋友/旅游”。
提取单元12,用于在预处理后的所述待分类文本中提取关键词,以生成关键词集合。
当得到预处理后的所述待分类文本时,在预处理后的所述待分类文本中提取关键词,将从预处理后的所述待分类文本中所提取的关键词组合成关键词集合。
本实施例通过获取到待分类文本时,对该待分类文本进行预处理操作,删除所述待分类文本中的非相关文本和停用词,进一步提高文本分类的效率。
参照图6,图6为本发明文本分类装置的第二实施例的功能模块示意图,基于第一实施例提出本发明文本分类装置的第二实施例。
在本实施例中,所述文本分类装置还包括:
存储模块40,用于将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。
当确定所述待分类文本所属类别后,获取属于同一类别的待分类文本,将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引,进一步地,还可以根据所述待分类文本所属类别所对应的分类参数,以及所述待分类文本所属类别为所述待分类文本建立索引,以供用户根据所建立的索引管理和查找所述待分类文本。如将属于“菜谱”这一类别的待分类文本存储于同一个文件夹中。如属于“菜谱”这一类别中某个待分类文本所对应的分类参数为“青瓜/鸡蛋”,则为该待分类文本建立的索引为“青瓜”、“鸡蛋”、“菜谱”。
本实施例通过将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引,方便了用户对待分类文本的管理和查看。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本分类方法,其特征在于,所述文本分类方法包括:
获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;
对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;
计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。
2.如权利要求1所述的文本分类方法,其特征在于,所述获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合的步骤包括:
获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本;
在预处理后的所述待分类文本中提取关键词,以生成关键词集合。
3.如权利要求2所述的文本分类方法,其特征在于,所述获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本的步骤包括:
获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的所述待分类文本。
4.如权利要求1所述的文本分类方法,其特征在于,所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别的步骤包括:
根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值;
将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。
5.如权利要求1至4任一项所述的文本分类方法,其特征在于,所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别的步骤之后,还包括:
将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。
6.一种文本分类装置,其特征在于,所述文本分类装置包括:
提取模块,用于获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;
分类模块,用于对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;
计算模块,用于计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。
7.如权利要求6所述的文本分类装置,其特征在于,所述提取模块包括:
预处理单元,用于获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本;
提取单元,用于在预处理后的所述待分类文本中提取关键词,以生成关键词集合。
8.如权利要求7所述的文本分类装置,其特征在于,所述提取模块还包括:
删除单元,用于获取待分类文本,删除所述待分类文本中的非相关文本和停用词;
分词处理单元,用于通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的所述待分类文本。
9.如权利要求6所述的文本分类装置,其特征在于,所述计算模块包括:
计算单元,用于根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值;
处理单元,用于将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。
10.如权利要求6至9任一项所述的文本分类装置,其特征在于,所述文本分类装置包括:
存储模块,用于将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。
CN201610260819.0A 2016-04-25 2016-04-25 文本分类方法和装置 Pending CN105893606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610260819.0A CN105893606A (zh) 2016-04-25 2016-04-25 文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610260819.0A CN105893606A (zh) 2016-04-25 2016-04-25 文本分类方法和装置

Publications (1)

Publication Number Publication Date
CN105893606A true CN105893606A (zh) 2016-08-24

Family

ID=56705307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610260819.0A Pending CN105893606A (zh) 2016-04-25 2016-04-25 文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN105893606A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951511A (zh) * 2017-03-17 2017-07-14 福建中金在线信息科技有限公司 一种文本聚类方法及装置
CN106960040A (zh) * 2017-03-27 2017-07-18 北京神州绿盟信息安全科技股份有限公司 一种url的类别确定方法及装置
CN107679153A (zh) * 2017-09-27 2018-02-09 国家电网公司信息通信分公司 一种专利分类方法及装置
WO2018040343A1 (zh) * 2016-08-31 2018-03-08 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质
CN108491535A (zh) * 2018-03-29 2018-09-04 北京小米移动软件有限公司 信息的分类存储方法及装置
CN108614860A (zh) * 2018-03-27 2018-10-02 成都律云科技有限公司 一种律师信息处理方法和系统
CN112069324A (zh) * 2020-08-27 2020-12-11 北京灵汐科技有限公司 一种分类标签添加方法、装置、设备及存储介质
CN112328788A (zh) * 2020-11-04 2021-02-05 上海豹云网络信息服务有限公司 一种文章的分类方法、装置及计算机系统
CN112836045A (zh) * 2020-12-25 2021-05-25 中科恒运股份有限公司 基于文本数据集的数据处理方法、装置及终端设备
CN113033198A (zh) * 2021-03-25 2021-06-25 平安国际智慧城市科技股份有限公司 相似文本推送方法、装置、电子设备及计算机存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
CN1441930A (zh) * 2000-07-26 2003-09-10 皇家菲利浦电子有限公司 通过时间分片进行文本的自动化分类的系统和方法
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法
CN103577423A (zh) * 2012-07-23 2014-02-12 阿里巴巴集团控股有限公司 关键词分类方法及系统
CN103678275A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于主客观语义的双层次文本相似度计算方法
CN103838886A (zh) * 2014-03-31 2014-06-04 辽宁四维科技发展有限公司 基于代表词知识库的文本内容分类方法
CN104504024A (zh) * 2014-12-11 2015-04-08 中国科学院计算技术研究所 基于微博内容的关键词挖掘方法及系统
CN104866573A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种文本分类的方法
CN105095223B (zh) * 2014-04-25 2018-09-11 阿里巴巴集团控股有限公司 文本分类方法及服务器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
CN1441930A (zh) * 2000-07-26 2003-09-10 皇家菲利浦电子有限公司 通过时间分片进行文本的自动化分类的系统和方法
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法
CN103577423A (zh) * 2012-07-23 2014-02-12 阿里巴巴集团控股有限公司 关键词分类方法及系统
CN103678275A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于主客观语义的双层次文本相似度计算方法
CN103838886A (zh) * 2014-03-31 2014-06-04 辽宁四维科技发展有限公司 基于代表词知识库的文本内容分类方法
CN105095223B (zh) * 2014-04-25 2018-09-11 阿里巴巴集团控股有限公司 文本分类方法及服务器
CN104504024A (zh) * 2014-12-11 2015-04-08 中国科学院计算技术研究所 基于微博内容的关键词挖掘方法及系统
CN104866573A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种文本分类的方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11281860B2 (en) 2016-08-31 2022-03-22 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for recognizing text type
CN107797982B (zh) * 2016-08-31 2021-05-07 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
WO2018040343A1 (zh) * 2016-08-31 2018-03-08 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
CN107797982A (zh) * 2016-08-31 2018-03-13 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
CN106951511A (zh) * 2017-03-17 2017-07-14 福建中金在线信息科技有限公司 一种文本聚类方法及装置
CN106960040B (zh) * 2017-03-27 2019-09-17 北京神州绿盟信息安全科技股份有限公司 一种url的类别确定方法及装置
CN106960040A (zh) * 2017-03-27 2017-07-18 北京神州绿盟信息安全科技股份有限公司 一种url的类别确定方法及装置
CN107679153A (zh) * 2017-09-27 2018-02-09 国家电网公司信息通信分公司 一种专利分类方法及装置
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质
CN108614860A (zh) * 2018-03-27 2018-10-02 成都律云科技有限公司 一种律师信息处理方法和系统
CN108491535A (zh) * 2018-03-29 2018-09-04 北京小米移动软件有限公司 信息的分类存储方法及装置
CN108491535B (zh) * 2018-03-29 2023-04-07 北京小米移动软件有限公司 信息的分类存储方法及装置
CN112069324A (zh) * 2020-08-27 2020-12-11 北京灵汐科技有限公司 一种分类标签添加方法、装置、设备及存储介质
CN112328788A (zh) * 2020-11-04 2021-02-05 上海豹云网络信息服务有限公司 一种文章的分类方法、装置及计算机系统
CN112836045A (zh) * 2020-12-25 2021-05-25 中科恒运股份有限公司 基于文本数据集的数据处理方法、装置及终端设备
CN113033198A (zh) * 2021-03-25 2021-06-25 平安国际智慧城市科技股份有限公司 相似文本推送方法、装置、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN105893606A (zh) 文本分类方法和装置
CN105956031A (zh) 文本分类方法和装置
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN107193801B (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
US7689531B1 (en) Automatic charset detection using support vector machines with charset grouping
US20190278864A2 (en) Method and device for processing a topic
CN103218444B (zh) 基于语义的藏文网页文本分类方法
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
US7711673B1 (en) Automatic charset detection using SIM algorithm with charset grouping
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
US8560466B2 (en) Method and arrangement for automatic charset detection
CN112100365A (zh) 双阶段文本摘要方法
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN107526792A (zh) 一种中文问句关键词快速提取方法
CN110910175A (zh) 一种旅游门票产品画像生成方法
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
CN109214445A (zh) 一种基于人工智能的多标签分类方法
Campbell et al. Content+ context networks for user classification in twitter
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
CN108710650B (zh) 一种针对论坛文本的主题挖掘方法
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402

Applicant after: Yongxing Shenzhen Polytron Technologies Inc

Address before: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402

Applicant before: Shenzhen Longrise Technology Co., Ltd.

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication

Application publication date: 20160824

RJ01 Rejection of invention patent application after publication