CN104750833A - 一种文本分类方法及装置 - Google Patents

一种文本分类方法及装置 Download PDF

Info

Publication number
CN104750833A
CN104750833A CN201510155599.0A CN201510155599A CN104750833A CN 104750833 A CN104750833 A CN 104750833A CN 201510155599 A CN201510155599 A CN 201510155599A CN 104750833 A CN104750833 A CN 104750833A
Authority
CN
China
Prior art keywords
text
word
sorted
dimension
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510155599.0A
Other languages
English (en)
Inventor
孙镜涛
甄教明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510155599.0A priority Critical patent/CN104750833A/zh
Publication of CN104750833A publication Critical patent/CN104750833A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本分类方法及装置,方法包括:将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,学习与各个行业分别相关的专业词汇存入词库,获取待分类的文本;针对待分类的文本中的每一个文本,利用Mahout贝叶斯算法中用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配;根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理;针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值;根据每一个词组的词频反词频统计值,对待分类的文本进行分类操作。根据上述方案,提高了文本分类的准确率。

Description

一种文本分类方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种文本分类方法及装置。
背景技术
随着计算机技术的不断发展,文本分类技术的应用领域也越来越广。传统的文本分类技术是通过人工的方式,按照每一个文本的具体内容将其归纳为某一类别,这种方式在文本的数量极大时,文本分类效率就会降低。
目前,可以使用Mahout贝叶斯算法实现对海量文本的分类,该分类过程可以包括如下两个步骤:1、自动分词;2自动分类。
然而,Mahout贝叶斯算法针对文本的自动分词,只能实现单个中文文字的分词,例如,“核磁共振”,Mahout贝叶斯算法所实现的分词结果包括:“核”“磁”“共”“振”,由于对文本的分类可以通过每个文本所分词的含义实现分类,如果将每个文本所分词后的结果包括多个单个文字,无法利用单个文字的含义实现分类,因此,文本分类的准确性较低。
发明内容
有鉴于此,本发明提供一种文本分类方法及装置,以解决现有技术方案中文本分类的准确性较低的问题。
本发明提供了一种文本分类方法,将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词,学习与各个行业分别相关的专业词汇,并将与每个行业相关的专业词汇分别存入相应的词库中,还包括:
获取待分类的文本;
针对所述待分类的文本中的每一个文本,利用Mahout贝叶斯算法中所述用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配;
根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理;
针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值;
根据每一个词组的词频反词频统计值,对所述待分类的文本进行分类操作。
优选地,
进一步包括:存储每一个词组的词频反词频统计值;
进一步包括:在所述待分类的文本中发生文本删除操作或文本增加操作时,根据文本删除操作或文本增加操作所对应的文本,对存储的每一词组的词频反词频统计值进行更新。
优选地,
进一步包括:预先设定维度阈值;
所述对所述待分类的文本进行分类操作,包括:
确定每个文本分别对应的多维向量;
根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获取每个文本分别对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于所述维度阈值;
根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述待分类的文本所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等的第二维度向量;
在所述待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到所述待分类的文本均被分类完毕。
优选地,
进一步包括:设定统计个数阈值;
所述确定每个文本分别对应的多维向量,包括:在文本中获取与所述统计个数阈值相等个数的值最大的词频反词频统计值;将获取的值最大的词频反词频统计值作为该文本的多维向量,其中,该文本的多维向量的维度个数与所述统计个数阈值相等;
或,
所述获取每个文本分别对应的第一维度向量,包括:针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接,以将所述待分类的文本均统一到一个多维空间中;将统一到的该多维空间进行主成分分析降维,得到每个文本分别对应的第一维度向量;
或,
通过下式计算所述余弦相似度:
similarity = cos ( θ ) = A · B | | A | | | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2
其中,similarity用于表征所述余弦相似度,cos(θ)用于表征向量A与向量B之间夹角的余弦值,A用于表征所选择的文本所对应的第一维度向量,B用于表征其中一个第二维度向量,i用于表征向量A或向量B的第i个列值,n用于表征向量A或向量B的列值的最大个数,其中,i是大于等于1且小于等于n的整数。
优选地,所述对所述待分类的文本进行分类操作,包括:
利用Mahout贝叶斯算法对所述待分类的文本中的每一个文本进行训练,以获取到所述待分类的文本中多组主题的分类文本,其中,每一组主题对应具有相关特征的多个文本;
针对每一组主题的分类文本进行相关特征的校验,在校验通过时,根据所述每一组主题对应的具有相关特征的多个文本,将所述待分类的文本进行分类。
本发明还提供了一种文本分类装置,包括:
替换单元,用于将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词,学习与各个行业分别相关的专业词汇;
存储单元,用于将与每个行业相关的专业词汇分别存入相应的词库中;
获取单元,用于获取待分类的文本;
匹配单元,用于针对所述待分类的文本中的每一个文本,利用Mahout贝叶斯算法中所述用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配;
分词单元,用于根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理;
计算单元,用于针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值;
分类单元,用于根据每一个词组的词频反词频统计值,对所述待分类的文本进行分类操作。
优选地,
所述存储单元,用于存储每一个词组的词频反词频统计值;
进一步包括:更新单元,用于在所述待分类的文本中发生文本删除操作或文本增加操作时,根据文本删除操作或文本增加操作所对应的文本,对存储的每一词组的词频反词频统计值进行更新。
优选地,
所述存储单元,用于预先保存维度阈值;
所述分类单元,用于确定每个文本分别对应的多维向量;根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获取每个文本分别对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于所述维度阈值;根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述待分类的文本所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等的第二维度向量;在所述待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到所述待分类的文本均被分类完毕。
优选地,
所述存储单元,用于保存统计个数阈值;
所述确定单元,包括:在文本中获取与所述统计个数阈值相等个数的值最大的词频反词频统计值;将获取的值最大的词频反词频统计值作为该文本的多维向量,其中,该文本的多维向量的维度个数与所述统计个数阈值相等;
或,
所述获取单元,包括:针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接,以将所述待分类的文本均统一到一个多维空间中;将统一到的该多维空间进行主成分分析降维,得到每个文本分别对应的第一维度向量;
或,
所述计算单元,用于通过下式计算所述余弦相似度:
similarity = cos ( θ ) = A · B | | A | | | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2
其中,similarity用于表征所述余弦相似度,cos(θ)用于表征向量A与向量B之间夹角的余弦值,A用于表征所选择的文本所对应的第一维度向量,B用于表征其中一个第二维度向量,i用于表征向量A或向量B的第i个列值,n用于表征向量A或向量B的列值的最大个数,其中,i是大于等于1且小于等于n的整数。
优选地,所述分类单元,用于利用Mahout贝叶斯算法对所述待分类的文本中的每一个文本进行训练,以获取到所述待分类的文本中多组主题的分类文本,其中,每一组主题对应具有相关特征的多个文本;针对每一组主题的分类文本进行相关特征的校验,在校验通过时,根据所述每一组主题对应的具有相关特征的多个文本,将所述待分类的文本进行分类。
本发明实施例提供了一种文本分类方法及装置,通过学习各个行业的专业词汇,并将学习的专业词汇存入相应的词库中,在进行分词处理时,需要根据所有的词库进行分词,以保证将文本中出现的专业词汇被划分为一个词组,从而保证分词处理的正确性,利用该分词处理后的文本进行文本分类,进而提高了文本分类的准确率。
附图说明
图1是本发明实施例提供的方法流程图;
图2是本发明另一实施例提供的方法流程图;
图3是本发明实施例提供的装置所在设备的赢家架构图;
图4是本发明实施例提供的装置结构示意图;
图5是本发明另一实施例提供的装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种文本分类方法,将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词,学习与各个行业分别相关的专业词汇,并将与每个行业相关的专业词汇分别存入相应的词库中,该方法可以包括以下步骤:
步骤101:获取待分类的文本。
步骤102:针对待分类的文本中的每一个文本,利用Mahout贝叶斯算法中用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配。
步骤103:将每句文字中所包括的位于词库中的词组划分为同一个词组,以实现待分类的文本的分词处理。
步骤104:针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值。
步骤105:根据每一个词组的词频反词频统计值,对待分类的文本进行分类操作。
根据上述方案,通过学习各个行业的专业词汇,并将学习的专业词汇存入相应的词库中,在进行分词处理时,需要根据所有的词库进行分词,以保证将文本中出现的专业词汇被划分为一个词组,从而保证分词处理的正确性,利用该分词处理后的文本进行文本分类,进而提高了文本分类的准确率。
由于在进行文本分类时,需要根据文本中每一个词组的词频反词频统计值进行分类,当待分类的文本中发生文本删除操作或文本增加操作时,现有技术需要针对文本删除操作或文本增加操作之后的所有待分类的文本进行分词处理,并在分词处理之后,再次计算每一个词组的词频反词频统计值,降低了文本分类的效率,因此,本实施例在计算完成待分类的文本中每一个词组的词频反词频统计值后,将每一个词组的词频反词频统计值进行存储,当发生文本删除操作或文本增加操作时,只需根据文本删除操作或文本增加操作所针对的文本对存储的词频反词频统计值进行更新即可,从而提高了文本分类的效率。
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作进一步地详细描述。
如图2所示,本发明实施例提供了一种文本分类方法,该方法可以包括以下步骤:
步骤201:将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词。
在本实施例中,由于Mahout贝叶斯算法中包括的分词算法只能够实现对中文文本中的单个字进行划分,由于对文本的分类可以通过每个文本所分词的含义实现分类,如果将每个文本所分词后的结果包括多个单个文字,无法利用单个文字的含义实现分类,因此,本实施例可以将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,来实现Mahout贝叶斯算法对文本词组的分词。
其中,该用于实现文本词组分词的分词算法可以是Ansj分词算法或者IK分词算法。
步骤202:学习与各个行业分别相关的专业词汇,并将与每个行业相关的专业词汇分别存入相应的词库中。
由于Ansj分词算法或IK分词算法在进行文本分词处理时,可能无法识别一些领域的专业词汇,从而将其进行错误划分。例如,医学领域的“核磁共振”,由于这个词是一个专业词汇,因此分词算法可能会划分为“核”“磁”“共”“振”四个字,或者划分为“核磁”“共振”两个词,而这种专业词汇可以成为其所属领域的代表,如果对专业词汇划分错误,可能导致后续过程中文本分类的准确性,因此,本实施例中,可是通过学习与各个行业分别相关的专业词汇,并将与每个行业相关的专业词汇分布存入相应的词库中。例如,学习医学行业的专业词汇可以存入医学词库,可以包括:人工呼吸、心电复苏、低密度胆固醇、突发性心肌梗死等等。学习体育行业的专业词汇可以存入体育词库,可以包括:姚明、防守运球、撞人犯规等等。
步骤203:获取待分类的文本,针对待分类的文本中的每一个文本,利用Mahout贝叶斯算法中用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配。
步骤204:根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理。
其中,本实施例所提到的最匹配是指:在这一句文字中所包含的词组与该最匹配的词库中的一个或一个以上专业词汇相同,且该词库所包含的专业词汇与这一句文字中所包含的词组个数最多,那么该词库为最匹配的词库。
在本实施例中,由于分词算法需要根据词库中的专业词汇实现对每个文本的分词处理,因此需要将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配。例如,遍历到文本中的一句文字包括:“对突发性心肌梗死患者应采取怎样的急救措施”,需要将这句文字与每一个词库进行匹配,例如,首先与体育词库进行匹配,结果体育词库中不包括这句文字中的任何一个词组,因此,又与医学词库进行匹配,匹配到医学词库中包括这句文字中的“突发性心肌梗死”,因此,医学词库为与这句文字最匹配的词库。
需要说明的是,如果在多个词库与这句文字的匹配词组的个数相同,那么就需要根据前后文进行识别,具体这句文字应该如何划分。
其中,可以通过下述代码实现Ansj的分词处理:
或,可以通过下述代码实现IK的分词处理:
context.write(key,document);
步骤205:针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值。
在本实施例中,在对每个文本实现了分词处理之后,还需要计算每一个词组的词频反词频统计值,即TF-IDF值。
例如,对于文本1中,包括a、b、c、……等200个词语,其中,词语a在文本1中的词频值为词语a在文本1中出现的次数除以文本1中的200个词语,而词语a的反词频值为词语在1万个文本中出现的文本个数为5,例如,词语a仅出现在了文本1、文本2、文本3、文本4和文本5中,那么词语a的反词频值为5除以1万。那么根据词语a在文本1中的词频值以及词语a在这1万个文本中的反词频,确定词语a的TF-IDF值。
步骤206:根据每一个词组的词频反词频统计值,对待分类的文本进行分类操作。
在本实施例中,可以通过如下两种方式实现对海量文本的分类:
1、确定每个文本分别对应的多维向量;根据预先设定的维度阈值,和,每个文本分别对应的多维向量,获取每个文本分别对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于维度阈值;根据预先设定的维度阈值以及待分类的文本,分析得到待分类的文本所对应的多类主题,其中,每类主题分别对应一个维度与维度阈值相等的第二维度向量;在待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到待分类的文本均被分类完毕。
其中,该方法可以具体包括:
1-1:在每个文本中对TF-IDF值进行从大到小的顺序排序,并获取最大的N个IF-IDF值,将每个文本获得的N个词语作为文本向量的基底,并将IF-IDF值作为该文本向量在相应维度上的数值,即每个文本转换为一个N维向量。
以文本1中获取的N个词语为例,其中,该N值可以是大于等于5小于等于20的整数,例如,N=10,那么获取的10个词语可以是:词语a、词语b、词语c、词语d、词语e、词语f、词语g、词语h、词语i和词语j。例如,词语a的TF-IDF值为0.7,那么文本1在词语a所对应的维度的数值为0.7。即每一个文本都转换为了一个10维向量。
1-2:针对1万个文本中每个文本分别对应的10维向量进行维度拼接,以将待分类的文本均统一到一个多维空间中。
由于每一个文本的多维向量是由TF-IDF值计算出来的,所以不同的文本所对应的10维基底完全独立,即,无法简单的将这1万个文本规划到同一个多维空间中(基底不同)。
因此,在本实施例中,可以利用维度拼接将这1万个文本中每个文本分别对应的10维向量统一到同一个多维空间中,该统一的原理可以包括:将相同的维度基底值拼接在一起,不同的基底值拼接成新的维度基底。
本实施例的维度拼接过程可以包括如下步骤:将文本1进行10维向量的排列,即第1行中的第1列-第10列;将文本2进行10维向量的排列,文本2对应第2行,文本2中的10个基底值与第1行中相同的基底值,写入第2行中与第1行具有相同基底值的那一列,例如,文本2中包括2个基底值与文本1中的两个基底值相同,文本2中剩余的8个基底值位于第2行的第11列-第18列上;将文本3进行10维向量的排列,文本3对应第3行,文本3中与已经排列了的文本1和文本2中具有相同的基底值写入相对应的那一列。依次类推,如果除去写入相同列的基底值,不相同的基底值包括90000个,那么目前维度拼接之后,这1万个文本对应了1万行90000列的多维空间。
1-3:将统一到的该多维空间进行主成分分析降维,得到每个文本分别对应的F维的第一维度向量。
在本发明一优选实施例中,为了便于后续计算,可以对步骤204中进行维度拼接后的多维空间进行主成分分析降维,即PCA降维,将原来多维空间内的所有文本向量映射到F维空间内。这样就将所有的文本控制在了一个合理可控的空间内。
其中,该F维空间可以是10维空间。即将多维空间中的90000列降维到10列。其中,该PCA降维的方式可以采用现有技术方案。
在进行PCA降维后,每个文本对应了一个10维度的向量,在此可以命名为第一维度向量,该第一维度向量包括10个维度。
1-4:利用LDA方式对这1万个文本进行分析,可以得到C类主题,每类主题分别对应F维的第二维度向量。
在本实施例中,可以使用LDA(Latent Dirichlet Allocation,文本主题生成模型)通过反复试验等方式确定这1万个文本可以包括的C类主题。例如,8类主题,其中,每一类主题均对应10维的维度向量,将该维度向量称之为第二维度向量。其中,使用LDA方式分析这1万个文本的C类主题可以采用现有技术方案。
1-5:在1万个文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到待分类的文本均被分类完毕。
其中,可以通过下述公式(1)计算余弦相似度:
similarity = cos ( θ ) = A · B | | A | | | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 - - - ( 1 )
其中,similarity用于表征余弦相似度,cos(θ)用于表征向量A与向量B之间夹角的余弦值,A用于表征所选择的文本所对应的第一维度向量,B用于表征其中一个第二维度向量,i用于表征向量A或向量B的第i个列值,n用于表征向量A或向量B的列值的最大个数,其中,i是大于等于1且小于等于n的整数。
通过利用上述式(1)计算出每个文本与每个第二维度向量的余弦相似度,从而确定除每个文本所属的分类主题。
2、利用Mahout贝叶斯算法对待分类的文本中的每一个文本进行训练,以获取到待分类的文本中多组主题的分类文本,其中,每一组主题对应具有相关特征的多个文本;针对每一组主题的分类文本进行相关特征的校验,在校验通过时,根据每一组主题对应的具有相关特征的多个文本,将待分类的文本进行分类。
其中,Mahout贝叶斯算法对海量文本的分类可以通过现有技术方案实现。
如图3、图4所示,本发明实施例提供了一种文本分类装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例文本分类装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的文本分类装置40包括:
替换单元401,用于将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词,学习与各个行业分别相关的专业词汇;
存储单元402,用于将与每个行业相关的专业词汇分别存入相应的词库中;
获取单元403,用于获取待分类的文本;
匹配单元404,用于针对所述待分类的文本中的每一个文本,利用Mahout贝叶斯算法中所述用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配;
分词单元405,用于根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理;
计算单元406,用于针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值;
分类单元407,用于根据每一个词组的词频反词频统计值,对所述待分类的文本进行分类操作。
进一步地,
所述存储单元,用于存储每一个词组的词频反词频统计值;
在本发明一个实施例中,如图5所示,计算装置可以进一步包括:
更新单元501,用于在所述待分类的文本中发生文本删除操作或文本增加操作时,根据文本删除操作或文本增加操作所对应的文本,对存储的每一词组的词频反词频统计值进行更新。
进一步地,
所述存储单元,用于预先保存维度阈值;
所述分类单元,用于确定每个文本分别对应的多维向量;根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获取每个文本分别对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于所述维度阈值;根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述待分类的文本所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等的第二维度向量;在所述待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到所述待分类的文本均被分类完毕。
进一步地,
所述存储单元,用于保存统计个数阈值;
所述确定单元,包括:在文本中获取与所述统计个数阈值相等个数的值最大的词频反词频统计值;将获取的值最大的词频反词频统计值作为该文本的多维向量,其中,该文本的多维向量的维度个数与所述统计个数阈值相等;
或,
所述获取单元,包括:针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接,以将所述待分类的文本均统一到一个多维空间中;将统一到的该多维空间进行主成分分析降维,得到每个文本分别对应的第一维度向量;
或,
所述计算单元,用于通过下式计算所述余弦相似度:
similarity = cos ( θ ) = A · B | | A | | | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2
其中,similarity用于表征所述余弦相似度,cos(θ)用于表征向量A与向量B之间夹角的余弦值,A用于表征所选择的文本所对应的第一维度向量,B用于表征其中一个第二维度向量,i用于表征向量A或向量B的第i个列值,n用于表征向量A或向量B的列值的最大个数,其中,i是大于等于1且小于等于n的整数。
进一步地,所述分类单元,用于利用Mahout贝叶斯算法对所述待分类的文本中的每一个文本进行训练,以获取到所述待分类的文本中多组主题的分类文本,其中,每一组主题对应具有相关特征的多个文本;针对每一组主题的分类文本进行相关特征的校验,在校验通过时,根据所述每一组主题对应的具有相关特征的多个文本,将所述待分类的文本进行分类。
本发明实施例至少可以实现如下有益效果:
1、通过学习各个行业的专业词汇,并将学习的专业词汇存入相应的词库中,在进行分词处理时,需要根据所有的词库进行分词,以保证将文本中出现的专业词汇被划分为一个词组,从而保证分词处理的正确性,利用该分词处理后的文本进行文本分类,进而提高了文本分类的准确率。
上述设备内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种文本分类方法,其特征在于,将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词,学习与各个行业分别相关的专业词汇,并将与每个行业相关的专业词汇分别存入相应的词库中,还包括:
获取待分类的文本;
针对所述待分类的文本中的每一个文本,利用Mahout贝叶斯算法中所述用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配;
根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理;
针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值;
根据每一个词组的词频反词频统计值,对所述待分类的文本进行分类操作。
2.根据权利要求1所述的方法,其特征在于,
进一步包括:存储每一个词组的词频反词频统计值;
进一步包括:在所述待分类的文本中发生文本删除操作或文本增加操作时,根据文本删除操作或文本增加操作所对应的文本,对存储的每一词组的词频反词频统计值进行更新。
3.根据权利要求1所述的方法,其特征在于,
进一步包括:预先设定维度阈值;
所述对所述待分类的文本进行分类操作,包括:
确定每个文本分别对应的多维向量;
根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获取每个文本分别对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于所述维度阈值;
根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述待分类的文本所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等的第二维度向量;
在所述待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到所述待分类的文本均被分类完毕。
4.根据权利要求3所述的方法,其特征在于,
进一步包括:设定统计个数阈值;
所述确定每个文本分别对应的多维向量,包括:在文本中获取与所述统计个数阈值相等个数的值最大的词频反词频统计值;将获取的值最大的词频反词频统计值作为该文本的多维向量,其中,该文本的多维向量的维度个数与所述统计个数阈值相等;
或,
所述获取每个文本分别对应的第一维度向量,包括:针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接,以将所述待分类的文本均统一到一个多维空间中;将统一到的该多维空间进行主成分分析降维,得到每个文本分别对应的第一维度向量;
或,
通过下式计算所述余弦相似度:
similarity = cos ( θ ) = A · B | | A | | | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2
其中,similarity用于表征所述余弦相似度,cos(θ)用于表征向量A与向量B之间夹角的余弦值,A用于表征所选择的文本所对应的第一维度向量,B用于表征其中一个第二维度向量,i用于表征向量A或向量B的第i个列值,n用于表征向量A或向量B的列值的最大个数,其中,i是大于等于1且小于等于n的整数。
5.根据权利要求1所述的方法,其特征在于,所述对所述待分类的文本进行分类操作,包括:
利用Mahout贝叶斯算法对所述待分类的文本中的每一个文本进行训练,以获取到所述待分类的文本中多组主题的分类文本,其中,每一组主题对应具有相关特征的多个文本;
针对每一组主题的分类文本进行相关特征的校验,在校验通过时,根据所述每一组主题对应的具有相关特征的多个文本,将所述待分类的文本进行分类。
6.一种文本分类装置,其特征在于,包括:
替换单元,用于将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词,学习与各个行业分别相关的专业词汇;
存储单元,用于将与每个行业相关的专业词汇分别存入相应的词库中;
获取单元,用于获取待分类的文本;
匹配单元,用于针对所述待分类的文本中的每一个文本,利用Mahout贝叶斯算法中所述用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配;
分词单元,用于根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理;
计算单元,用于针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值;
分类单元,用于根据每一个词组的词频反词频统计值,对所述待分类的文本进行分类操作。
7.根据权利要求6所述的装置,其特征在于,
所述存储单元,用于存储每一个词组的词频反词频统计值;
进一步包括:更新单元,用于在所述待分类的文本中发生文本删除操作或文本增加操作时,根据文本删除操作或文本增加操作所对应的文本,对存储的每一词组的词频反词频统计值进行更新。
8.根据权利要求6所述的装置,其特征在于,
所述存储单元,用于预先保存维度阈值;
所述分类单元,用于确定每个文本分别对应的多维向量;根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获取每个文本分别对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于所述维度阈值;根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述待分类的文本所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等的第二维度向量;在所述待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到所述待分类的文本均被分类完毕。
9.根据权利要求8所述的装置,其特征在于,
所述存储单元,用于保存统计个数阈值;
所述确定单元,包括:在文本中获取与所述统计个数阈值相等个数的值最大的词频反词频统计值;将获取的值最大的词频反词频统计值作为该文本的多维向量,其中,该文本的多维向量的维度个数与所述统计个数阈值相等;
或,
所述获取单元,包括:针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接,以将所述待分类的文本均统一到一个多维空间中;将统一到的该多维空间进行主成分分析降维,得到每个文本分别对应的第一维度向量;
或,
所述计算单元,用于通过下式计算所述余弦相似度:
similarity = cos ( θ ) = A · B | | A | | | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2
其中,similarity用于表征所述余弦相似度,cos(θ)用于表征向量A与向量B之间夹角的余弦值,A用于表征所选择的文本所对应的第一维度向量,B用于表征其中一个第二维度向量,i用于表征向量A或向量B的第i个列值,n用于表征向量A或向量B的列值的最大个数,其中,i是大于等于1且小于等于n的整数。
10.根据权利要求6所述的装置,其特征在于,所述分类单元,用于利用Mahout贝叶斯算法对所述待分类的文本中的每一个文本进行训练,以获取到所述待分类的文本中多组主题的分类文本,其中,每一组主题对应具有相关特征的多个文本;针对每一组主题的分类文本进行相关特征的校验,在校验通过时,根据所述每一组主题对应的具有相关特征的多个文本,将所述待分类的文本进行分类。
CN201510155599.0A 2015-04-03 2015-04-03 一种文本分类方法及装置 Pending CN104750833A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510155599.0A CN104750833A (zh) 2015-04-03 2015-04-03 一种文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510155599.0A CN104750833A (zh) 2015-04-03 2015-04-03 一种文本分类方法及装置

Publications (1)

Publication Number Publication Date
CN104750833A true CN104750833A (zh) 2015-07-01

Family

ID=53590517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510155599.0A Pending CN104750833A (zh) 2015-04-03 2015-04-03 一种文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN104750833A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101541A1 (zh) * 2015-12-16 2017-06-22 华为技术有限公司 文本聚类方法、装置及计算设备
WO2017117781A1 (zh) * 2016-01-07 2017-07-13 马岩 网络信息的分类方法及系统
CN107368592A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种用于网络安全报告的文本特征模型建模方法及装置
CN107729917A (zh) * 2017-09-14 2018-02-23 北京奇艺世纪科技有限公司 一种标题的分类方法及装置
CN109033212A (zh) * 2018-07-01 2018-12-18 东莞市华睿电子科技有限公司 一种基于相似度匹配的文本分类方法
CN109146395A (zh) * 2018-06-29 2019-01-04 阿里巴巴集团控股有限公司 一种数据处理的方法、装置及设备
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110223206A (zh) * 2019-06-11 2019-09-10 广州蓝鸽软件有限公司 课文专业方向确定方法及系统和解析课件匹配方法及系统
CN111324737A (zh) * 2020-03-23 2020-06-23 中国电子科技集团公司第三十研究所 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
WO2020140620A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及存储介质
CN112069288A (zh) * 2019-05-23 2020-12-11 中国移动通信集团河南有限公司 数据的处理方法、装置和电子设备
CN112101018A (zh) * 2020-08-05 2020-12-18 中国工业互联网研究院 一种基于词频矩阵特征向量计算文本中新词的方法及系统
CN112256566A (zh) * 2020-09-28 2021-01-22 建信金融科技有限责任公司 一种测试案例的保鲜方法和装置
CN112925903A (zh) * 2019-12-06 2021-06-08 农业农村部信息中心 文本分类的方法、装置、电子设备及介质
CN113609295A (zh) * 2021-08-11 2021-11-05 平安科技(深圳)有限公司 文本分类方法、装置及相关设备
WO2022095637A1 (zh) * 2020-11-06 2022-05-12 苏州浪潮智能科技有限公司 一种故障日志分类方法、系统、设备以及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198447A1 (en) * 2006-02-23 2007-08-23 Microsoft Corporation Classifying text in a code editor using multiple classifiers
CN101097570A (zh) * 2006-06-29 2008-01-02 上海唯客网广告传播有限公司 一种自动识别分类广告类型的广告分类方法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN101976270A (zh) * 2010-11-29 2011-02-16 南京师范大学 基于不确定推理的文本层次分类方法与装置
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198447A1 (en) * 2006-02-23 2007-08-23 Microsoft Corporation Classifying text in a code editor using multiple classifiers
CN101097570A (zh) * 2006-06-29 2008-01-02 上海唯客网广告传播有限公司 一种自动识别分类广告类型的广告分类方法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN101976270A (zh) * 2010-11-29 2011-02-16 南京师范大学 基于不确定推理的文本层次分类方法与装置
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄瑜青: ""基于支持向量机的文本自动分类器研究与应用"", 《中国优秀硕士学位论文全文数据库,信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101541A1 (zh) * 2015-12-16 2017-06-22 华为技术有限公司 文本聚类方法、装置及计算设备
WO2017117781A1 (zh) * 2016-01-07 2017-07-13 马岩 网络信息的分类方法及系统
CN107368592B (zh) * 2017-07-26 2020-09-25 成都科来网络技术有限公司 一种用于网络安全报告的文本特征模型建模方法及装置
CN107368592A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种用于网络安全报告的文本特征模型建模方法及装置
CN107729917A (zh) * 2017-09-14 2018-02-23 北京奇艺世纪科技有限公司 一种标题的分类方法及装置
CN109146395B (zh) * 2018-06-29 2022-04-05 创新先进技术有限公司 一种数据处理的方法、装置及设备
CN109146395A (zh) * 2018-06-29 2019-01-04 阿里巴巴集团控股有限公司 一种数据处理的方法、装置及设备
CN109033212A (zh) * 2018-07-01 2018-12-18 东莞市华睿电子科技有限公司 一种基于相似度匹配的文本分类方法
CN109033212B (zh) * 2018-07-01 2021-09-07 上海新诤信知识产权服务股份有限公司 一种基于相似度匹配的文本分类方法
WO2020140620A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及存储介质
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110021439B (zh) * 2019-03-07 2023-01-24 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN112069288A (zh) * 2019-05-23 2020-12-11 中国移动通信集团河南有限公司 数据的处理方法、装置和电子设备
CN110223206A (zh) * 2019-06-11 2019-09-10 广州蓝鸽软件有限公司 课文专业方向确定方法及系统和解析课件匹配方法及系统
CN110223206B (zh) * 2019-06-11 2023-12-08 广州蓝鸽软件有限公司 课文专业方向确定方法及系统和解析课件匹配方法及系统
CN112925903B (zh) * 2019-12-06 2024-03-29 农业农村部信息中心 文本分类的方法、装置、电子设备及介质
CN112925903A (zh) * 2019-12-06 2021-06-08 农业农村部信息中心 文本分类的方法、装置、电子设备及介质
CN111324737A (zh) * 2020-03-23 2020-06-23 中国电子科技集团公司第三十研究所 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
CN112101018A (zh) * 2020-08-05 2020-12-18 中国工业互联网研究院 一种基于词频矩阵特征向量计算文本中新词的方法及系统
CN112101018B (zh) * 2020-08-05 2024-03-12 北京工联科技有限公司 一种基于词频矩阵特征向量计算文本中新词的方法及系统
CN112256566B (zh) * 2020-09-28 2024-03-05 中国建设银行股份有限公司 一种测试案例的保鲜方法和装置
CN112256566A (zh) * 2020-09-28 2021-01-22 建信金融科技有限责任公司 一种测试案例的保鲜方法和装置
WO2022095637A1 (zh) * 2020-11-06 2022-05-12 苏州浪潮智能科技有限公司 一种故障日志分类方法、系统、设备以及介质
CN113609295A (zh) * 2021-08-11 2021-11-05 平安科技(深圳)有限公司 文本分类方法、装置及相关设备

Similar Documents

Publication Publication Date Title
CN104750833A (zh) 一种文本分类方法及装置
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
Lee et al. Learning binary code with deep learning to detect software weakness
Schneider et al. Sketch classification and classification-driven analysis using fisher vectors
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN104965819B (zh) 一种基于句法词向量的生物医学事件触发词识别方法
CN108920445A (zh) 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN107766324A (zh) 一种基于深度神经网络的文本一致性分析方法
CN109657230A (zh) 融合词向量和词性向量的命名实体识别方法及装置
CN110334357A (zh) 一种命名实体识别的方法、装置、存储介质及电子设备
CN105389583A (zh) 图像分类器的生成方法、图像分类方法和装置
CN109299269A (zh) 一种文本分类方法和装置
CN107665248A (zh) 基于深度学习混合模型的文本分类方法和装置
CN106021572A (zh) 二元特征词典的构建方法和装置
CN109684476A (zh) 一种文本分类方法、文本分类装置及终端设备
CN104750835A (zh) 一种文本分类方法及装置
CN110472049A (zh) 疾病筛查文本分类方法、计算机设备和可读存储介质
CN103020167A (zh) 一种计算机中文文本分类方法
CN103473308B (zh) 基于最大间隔张量学习的高维多媒体数据分类方法
CN104537280A (zh) 基于文本关系相似性的蛋白质交互关系识别方法
CN110633456A (zh) 语种识别方法、装置、服务器及存储介质
CN110019821A (zh) 文本类标训练方法和识别方法、相关装置及存储介质
CN106446117A (zh) 基于泊松‑伽玛置信网络主题模型的文本分析方法
Kobylinski PoliTa: A multitagger for Polish.
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150701

WD01 Invention patent application deemed withdrawn after publication