CN111666407A - 一种文本分类方法及装置 - Google Patents
一种文本分类方法及装置 Download PDFInfo
- Publication number
- CN111666407A CN111666407A CN202010332603.7A CN202010332603A CN111666407A CN 111666407 A CN111666407 A CN 111666407A CN 202010332603 A CN202010332603 A CN 202010332603A CN 111666407 A CN111666407 A CN 111666407A
- Authority
- CN
- China
- Prior art keywords
- classification
- text
- classified
- type
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 40
- 238000007635 classification algorithm Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 81
- 238000012549 training Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种文本分类方法及装置,该方法至少包括如下步骤:基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;将属于同一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;对所述M种分类类型的最终评分Tm进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型,该方法基于预先设置的分类类型,通过多种算法相融合的方式获得一种准确度较高的文本分类结果。
Description
技术领域
本发明涉及计算机数据处理领域,特别涉及一种文本分类方法及装置。
背景技术
文本分类,就在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。
然而,现有技术中至少存在如下问题:现有的文本分类方法存在分类不准确以及效率不高等问题。如已授权中国专利CN102073704A中公开的文本分类处理方法:其通过网络侧设备提供的分类参数,在用户设备上通过预先设置的模型进行分类,获取多个分类特征与分类参数的相关程度,并将文本存储在相关程度最高的文本信息主体中,实际上为根据文本特征与分类参数相关性进行分类的技术方案,其采用的算法较为单一,分类过程可能存在片面性较大的问题,最终获取的分类结果准确度不够高。
发明内容
为解决上述技术问题,本发明提供了一种文本分类方法及装置,其基于预先设定的分类类型,通过多种算法相融合的方法获得一种准确度较高的文本分类结果。
本发明提供的技术方案如下:
第一方面,提供一种文本分类方法,所述方法至少包括如下步骤:
基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;
将属于同一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;
对所述M种分类类型的最终评分Tm进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。
在一些较佳的实施方式中,所述分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn之前,还包括:获取训练文本集;
所述基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,包括:
分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率;
获取待分类文本的特征向量;
利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分tn。
在一些较佳的实施方式中,获取训练文本集具体包括如下子步骤:
将样本集中的每一文本样本进行分词获得第一分词结果,并对每一文本样本进行预分类;
基于所述第一分词结果生成样本集词列表;
将每一文本样本的第一分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类,将所述样本集表示成向量形式,并作为训练文本集。
在一些较佳的实施方式中,所述获取待分类文本的特征向量,包括:
对所述待分类文本进行分词获得第二分词结果;
将所述第二分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第二分词结果中的分词进行分类,获得所述待分类文本的特征向量。
在一些较佳的实施方式中,对所述条件概率的值进行策略增加,以使每一个分词的每一类型的条件概率均大于0,且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。
在一些较佳的实施方式中,所述分类算法至少包括贝叶斯算法及TFIDF算法。
在一些较佳的实施方式中,所述采用TFIDF算法计算每一种分类类型的评分tn时,至少包括如下子步骤:
根据所述训练文本集及TFIDF算法得出TFIDF的向量;
将所述TFIDF的向量作为输入,通过神经网络计算每一种分类类型的评分tn。
第二方面,提供一种文本分类装置,所述装置至少包括:
第一计算模块,用于基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;
第二计算模块,用于将属于同一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;
排序筛选模块,用于对所述M种分类类型的最终评分Tm进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。
在一些较佳的实施方式中,所述装置还包括:训练文本集获取模块;
所述第一计算模块至少包括:
第一计算子模块,用于分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率;
特征向量获取子模块,用于获取待分类文本的特征向量;
第二计算子模块,利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分tn。
在一些较佳的实施方式中,所述训练文本集获取模块至少包括:
第一分词子模块,用于将样本集中的每一文本样本进行分词获得第一分词结果;
预分类子模块,用于对所述每一文本样本进行预分类;
生成子模块,用于基于所述第一分词结果生成样本集词列表;
第一处理子模块,用于将每一文本样本的第一分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类,将所述样本集表示成向量形式,并作为训练文本集。
在一些较佳的实施方式中,所述特征向量获取子模块至少包括:
第一分词单元,用于对所述待分类文本进行分词获得第二分词结果;
第一处理单元,用于将所述第二分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第二分词结果中的分词进行分类,获得所述待分类文本的特征向量。
在一些较佳的实施方式中,所述第二计算子模块至少包括策略增加单元,用于对所述条件概率的值进行策略增加,以使每一个分词的每一类型的条件概率均大于0,且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。
在一些较佳的实施方式中,所述第二计算子模块还包括:贝叶斯算法单元与TFIDF算法单元。
在一些较佳的实施方式中,所述采用贝叶斯算法计算每一种分类类型的评分tn时,获取对数贝叶斯评分。
在一些较佳的实施方式中,所述TFIDF算法单元至少包括:
第一计算子单元,用于根据所述训练文本集及TFIDF算法得出TFIDF的向量;
第二计算子单元,用于将所述TFIDF的向量作为输入,通过神经网络计算每一种分类类型的评分tn。
第三方面,还提供一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;
将每一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;
对所述M种分类类型的最终评分TM进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。
本发明相比现有技术而言的有益效果在于:
本发明提供一种文本分类方法,该方法至少包括如下步骤:基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;将属于同一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;对所述M种分类类型的最终评分Tm进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型,该方法基于预先设置的分类类型,通过多种算法相融合的方式获得准确度较高且速度较快的文本分类结果;
所述分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn之前,还包括:获取训练文本集,利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本的每一种分类类型在每一种分类算法下的评分tn,通过基于已有并完成分类的样本获取的训练文本集,作为分类参照,并参与后续评分tn的计算,能进一步提高该文本分类方法的准确性;
本申请的方案只要实现其中任一技术效果即可。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一中的一种文本分类方法的流程图;
图2是本发明实施例二中的一种文本分类装置的结构图;
图3是本申请实施例三提供的计算机系统架构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种文本分类方法及装置,该文本分类方法基于预先获取的训练文本集以及预先设置的多种分类类型计算待分类文本就每一种分类类型的评分,并将评分最高的一类认定为该待分类文本的类型。另外,该文本分类方法还利用所述训练文本集与待分类文本计算所述待分类文本的每一种分类类型的评分tn,如此,评分tn是基于已进行分类的样本基础上得出的,进一步提高了文本分类的准确性。
下面将结合具体实施例对该文本分类方法及装置作进一步说明。
实施例一
结合图1所示,本实施例提供一种文本分类方法,其至少包括如下步骤:
S1、基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N。
其中,M种文本分类类型可基于目前掌握的已分类样本集所包括的全部或部分类型确定,为了避免类型的缺失,本实施例中优选基于预先设置M种分类类型所包括的全部分类类型。
作为一种优选,在步骤S1之前,还包括步骤S0:获取训练文本集。并在获取训练文本集之后,利用训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本的每一种分类类型的评分tn。
具体地,该步骤S0至少包括如下子步骤:
S01、将样本集中的每一文本样本进行分词获得第一分词结果,并对每一文本样本进行预分类。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。本实施例中的分词适用于中文分词及任一种外文分词,为了便于描述,本实施例以中文分词为例。中文分词通常采用基于词典分词算法或基于统计的机器学习算法获得,为本领域技术人员所公知,且并非本实施例核心技术,在此不再加以详述。示例性地:将样本“我想要开发票”分词后获得的分词结果为:“我”“想要”“开”“发票”。
在完成分词之后,对每一样本都预先完成分类,并将每一个第一分词结果按照分类结果表示成向量的形式。
如,目前样本集中包括如下5条样本:
1、我想要开发票;
2、请问货什么时候到;
3、发票抬头写苏宁;
4、支持送货上门;
5、我们物流非常快。
故分词后样本列表表示为:
postingList=[
['我','想要','开','发票'],
['请问','货','什么','时候','到'],
['发票','抬头','写','苏宁'],
['支持','送货','上门'],
['我们','物流','非常','快']
]。
本示例以M=2为例,但并不以此为限。上述分词后的样本列表中的1、3为开票相关,类型定为0;2、4、5为物流相关,类型定为1。如此可将其预设为标记向量:classVec=[0,1,0,1,1]。
S02、基于第一分词结果生成样本集词列表。样本集词列表包括所有文本样本中的分词,且无重复。如基于上述5条样本中生成的样本集词列表为:
trainVec=['我','想要','开','发票','请问','货','什么','时候','到','抬头','写','苏宁','支持','送货','上门','我们','物流','非常','快']。
S03、将每一文本样本的第一分词结果与样本集词列表对比,并以样本集词列表中是否存在第一分词结果中的分词进行分类,将样本集表示成向量形式,并作为训练文本集。
优选地,将每一文本样本的第一分词结果与样本集词列表对比,若是在样本集词列表中存在该分词,则记为1,若是不存在,则即为0。
示例性地,如该步骤将样本集向量化后为:
trainVecNum=
[
[1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],
[0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0],
[0,0,0,1,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0],
[0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0],
[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1]
]。
上述得到的trainVecNum即为训练文本集,其为文本样本向量化后的向量集。
在获取训练文本集之后,执行步骤S1,步骤S1至少包括如下子步骤:
S11、分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率。
S12、获取待分类文本的特征向量。
具体地,步骤S12至少包括如下子步骤:
S121、对待分类文本进行分词获得第二分词结果;
S122、将第二分词结果与样本集词列表对比,并以样本集词列表中是否存在第二分词结果中的分词进行分类,获得待分类文本的特征向量。
S13、利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分tn。
示例性地,针对训练文本集中分类为“1”和“0”分别计算条件概率:训练文本集中分类为“0”的条件概率可以为:
[0,0,1/8,1/8,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
训练文本集中分类为“1”的条件概率可以为:
[0,0,0,0,1/12,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。
作为一种优选,本实施例中在获得条件概率后,可对条件概率的值进行策略增加,以使每一个分词的每一类型的条件概率均大于0,且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。
策略增加具体采用的手段可以是:为每一个分词的每一个类型的条件概率数值中分子加上一个较小的统一数值,分母加上一个较大的统一数值,由此实现在基本不改变条件概率的前提下避免出现0的情况,以避免当待分类文本中的分词不属于样本集而出现结果为0,从而使最终结果为0的情况。
需要说明的是,本实施例对于策略增加时分子与分子统一增加的数值并不限制,仅要求统一增加后的,每一类型的各项条件概率之和为1。
示例性地,将上述每一条件概率在现有数值基础上,分子都加上1,分母都加上19,如此,其条件概率的矩阵就变化为:
[1/27,1/27,2/27,2/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27]
[1/31,1/31,1/31,1/31,2/31,3/31,3/31,3/31,2/31,2/31,2/31,1/31,1/31,1/31,1/31,2/31,2/31,2/31,2/31]。
接着,获取待分类文本的特征向量。待分类文本为:请问可以开发票。其分词结果为:'请问','可以','开','发票'。然后,将该分词结果与前述的样本及词列表对比并转化为特征向量表示为:
predVecNum=[0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。
然后,基于该特征向量及训练文本集中每一个分词的每一种类型的条件概率,分别采用N种分类算法计算每一种分类类型的评分tn。
本实施例中对于分类算法的具体类型及分类算法的数量(N)并不加以限定,数量可以是两种或两种以上。作为一种优选,本实施例中的分类算法至少包括贝叶斯算法及TFIDF算法。
需要说明的是,贝叶斯算法及TFIDF算法为本领域的常规技术手段且并非本发明的重点,故此处不作详述。
作为一种优选,当采用贝叶斯算法计算每一种分类类型的评分tn时,考虑到计算获得的贝叶斯评分数值很小,不利于后续计算,故优选对贝叶斯算法结果取对数后获得对数贝叶斯值作为贝叶斯算法评分tn,以便于后续计算,使计算更方便,且能提高该分类方法的分类速度。
本实施例中,当采用TFIDF算法计算每一种分类类型的评分tn时,至少包括如下子步骤:
根据训练文本集及TFIDF算法得出TFIDF的向量;
将TFIDF的向量作为输入,通过神经网络计算每一种分类类型的评分tn。
S2、将属于同一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm。
本实施例包括两种类型:0、1,采用两种算法计算评分:贝叶斯算法及TFIDF算法。针对0类:采用贝叶斯算法获得的评分为t1,采用TFIDF算法获得的评分为t2,且每一算法相应的加权系数分别为a1、b1。故0类的最终评分T0=a1*t1+b1*t2,且a1+b1=1。同样地,1类的最终评分T1=a1'*t1'+b1'*t2',且a1'+b1'=1。
本实施例中的加权系数a、b的实际大小可以根据每一算法的分类准确性进行动态调整,由此能进一步提高该分类方法的准确性。示例性的,经计算:
为0类的最终评分是:P(0|“请问,可以,开,发票”)=P(请问|0)P(可以|0)P(开|0)P(发票|0)P(0)/P(“请问,可以,开,发票”)=2/27*2/27*1/27*1/27*2/5/P(“请问,可以,开,发票”)。
为1类的最终评分是:P(1|“请问,可以,开,发票”)=P(请问|1)P(可以|1)P(开|1)P(发票|1)P(1)/P(“请问,可以,开,发票”)=2/31*1/31*1/31*1/31*3/5/P(“请问,可以,开,发票”)。
S3、对M种分类类型的最终评分Tm进行排序,并选出最终评分Tm最高的类型作为待分类文本的最终分类类型。
具体地,将Tm升序或降序设置,并选出最大的最终评分所对应的类型,作为该待分类文本的文本类型。本实施例中优雅的结合了贝叶斯算法和神经网络算法两种分类算法,使该方法更加适合文本分类的场景,相比于现有技术,仅增加了一种算法不至于对分类的速度产生明显的影响,而采用两种算法相结合,则可以在一定程度上提高文本分类的准确性;
本实施例还通过基于已有并完成分类的样本获取的训练文本集,作为分类参照,并参与后续评分tn的计算,能进一步提高该文本分类方法的准确性。
实施例二
为执行上述实施例一中的一种文本分类方法,本实施例提供一种与之对应的文本分类装置100,如图2所示,该装置100至少包括:
第一计算模块1,用于基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;
第二计算模块2,用于将属于同一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;
排序筛选模块3,用于对所述M种分类类型的最终评分Tm进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。
所述装置100还包括:训练文本集获取模块4;
所述第一计算模块1至少包括:
第一计算子模块11,用于分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率;
特征向量获取子模块12,用于获取待分类文本的特征向量;
第二计算子模块13,利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分tn。
所述训练文本集获取模块4至少包括:
第一分词子模块41,用于将样本集中的每一文本样本进行分词获得第一分词结果;
预分类子模块42,用于对所述每一文本样本进行预分类;
生成子模块43,用于基于所述第一分词结果生成样本集词列表;
第一处理子模块44,用于将每一文本样本的第一分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类,将所述样本集表示成向量形式,并作为训练文本集。
所述特征向量获取子模块12至少包括:
第一分词单元121,用于对所述待分类文本进行分词获得第二分词结果;
第一处理单元122,用于将所述第二分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第二分词结果中的分词进行分类,获得所述待分类文本的特征向量。
所述第二计算子模块13至少包括策略增加单元131,用于对所述条件概率的值进行策略增加,以使每一个分词的每一类型的条件概率均大于0,且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。
所述第二计算子模块13还包括:贝叶斯算法单元132与TFIDF算法单元133。
在一些较佳的实施方式中,所述采用贝叶斯算法计算每一种分类类型的评分tn时,获取对数贝叶斯评分。
在一些较佳的实施方式中,所述TFIDF算法单元133至少包括:
第一计算子单元,用于根据所述训练文本集及TFIDF算法得出TFIDF的向量;
第二计算子单元,用于将所述TFIDF的向量作为输入,通过神经网络计算每一种分类类型的评分tn。
需要说明的是:上述实施例提供的文本分类装置在触发文本分类装置业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的一种文本分类装置与实施例一提供的一种文本分类装置方法的实施例属于同一构思,即该装置是基于该方法的,其具体实现过程详见方法实施例,这里不再赘述。
实施例三
对应上述方法和装置,本申请实施例五提供一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本的每一种分类类型的评分tn,M≥2,N≥2;
将每一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;
对所述M种分类类型的最终评分TM进行排序,并选出最终评分TM最高的类型作为所述待分类文本的最终分类类型。
其中,图3示例性的展示出了计算机系统的架构,具体可以包括处理器1510,视频显示适配器1511,磁盘驱动器1512,输入/输出接口1513,网络接口1514,以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520之间可以通过通信总线1530进行通信连接。
其中,处理器1510可以采用通用的CXU(Central Xrocessing Unit,中央处理器)、微处理器、应用专用集成电路(AXXlication SXecific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器1520可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521,用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器1523,数据存储管理系统1524,以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器1520中,并由处理器1510来调用执行。
输入/输出接口1513用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口1514用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1530包括一通路,在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520)之间传输信息。
另外,该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,存储器1520,总线1530等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的数据下,即可以理解并实施。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法至少包括如下步骤:
基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;
将属于同一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;
对所述M种分类类型的最终评分Tm进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。
2.根据权利要求1所述的方法,其特征在于,所述分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn之前,还包括:获取训练文本集;
所述基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,包括:
分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率;
获取待分类文本的特征向量;
利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分tn。
3.根据权利要求2所述的方法,其特征在于,获取训练文本集具体包括如下子步骤:
将样本集中的每一文本样本进行分词获得第一分词结果,并对每一文本样本进行预分类;
基于所述第一分词结果生成样本集词列表;
将每一文本样本的第一分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类,将所述样本集表示成向量形式,并作为训练文本集。
4.根据权利要求3所述的方法,其特征在于,所述获取待分类文本的特征向量,包括:
对所述待分类文本进行分词获得第二分词结果;
将所述第二分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第二分词结果中的分词进行分类,获得所述待分类文本的特征向量。
5.根据权利要求4所述的方法,其特征在于,对所述条件概率的值进行策略增加,以使每一个分词的每一类型的条件概率均大于0,且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。
6.根据权利要求1~5任意一项所述的方法,其特征在于,所述分类算法至少包括贝叶斯算法及TFIDF算法。
7.一种文本分类装置,其特征在于,所述装置至少包括:
第一计算模块,用于基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;
第二计算模块,用于将属于同一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;
排序筛选模块,用于对所述M种分类类型的最终评分Tm进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:训练文本集获取模块;
所述第一计算模块至少包括:
第一计算子模块,用于分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率;
特征向量获取子模块,用于获取待分类文本的特征向量;
第二计算子模块,利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分tn。
9.根据权利要求8所述的装置,其特征在于,所述训练文本集获取模块至少包括:
第一分词子模块,用于将样本集中的每一文本样本进行分词获得第一分词结果;
预分类子模块,用于对所述每一文本样本进行预分类;
生成子模块,用于基于所述第一分词结果生成样本集词列表;
第一处理子模块,用于将每一文本样本的第一分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类,将所述样本集表示成向量形式,并作为训练文本集。
10.一种计算机系统,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;
将每一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;
对所述M种分类类型的最终评分TM进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332603.7A CN111666407A (zh) | 2020-04-24 | 2020-04-24 | 一种文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332603.7A CN111666407A (zh) | 2020-04-24 | 2020-04-24 | 一种文本分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111666407A true CN111666407A (zh) | 2020-09-15 |
Family
ID=72383016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010332603.7A Pending CN111666407A (zh) | 2020-04-24 | 2020-04-24 | 一种文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666407A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947939A (zh) * | 2019-01-30 | 2019-06-28 | 中兴飞流信息科技有限公司 | 文本分类方法、电子设备和计算机可读存储介质 |
US20190303435A1 (en) * | 2018-03-30 | 2019-10-03 | Blackboiler Llc | Method and system for suggesting revisions to an electronic document |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
-
2020
- 2020-04-24 CN CN202010332603.7A patent/CN111666407A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190303435A1 (en) * | 2018-03-30 | 2019-10-03 | Blackboiler Llc | Method and system for suggesting revisions to an electronic document |
CN109947939A (zh) * | 2019-01-30 | 2019-06-28 | 中兴飞流信息科技有限公司 | 文本分类方法、电子设备和计算机可读存储介质 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI718422B (zh) | 對模型預測值進行融合的方法、裝置和設備 | |
CN109471945B (zh) | 基于深度学习的医疗文本分类方法、装置及存储介质 | |
CN109446430B (zh) | 产品推荐的方法、装置、计算机设备及可读存储介质 | |
CN109582956B (zh) | 应用于句子嵌入的文本表示方法和装置 | |
US20220284327A1 (en) | Resource pushing method and apparatus, device, and storage medium | |
CN108076154A (zh) | 应用信息推荐方法、装置及存储介质和服务器 | |
CN106774975B (zh) | 输入方法和装置 | |
JP2022512065A (ja) | 画像分類モデルの訓練方法、画像処理方法及び装置 | |
CN112241715A (zh) | 模型训练方法、表情识别方法、装置、设备及存储介质 | |
CN108629608A (zh) | 用户数据处理方法及装置 | |
CN114419509A (zh) | 一种多模态情感分析方法、装置及电子设备 | |
CN111831826A (zh) | 跨领域的文本分类模型的训练方法、分类方法以及装置 | |
CN112785005A (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN113407854A (zh) | 一种应用推荐方法、装置、设备及计算机可读存储介质 | |
CN114419378B (zh) | 图像分类的方法、装置、电子设备及介质 | |
CN111459992A (zh) | 信息推送方法、电子设备和计算机可读介质 | |
CN111178082A (zh) | 一种句向量生成方法、装置及电子设备 | |
KR102059017B1 (ko) | 지식 공유 플랫폼의 제어 방법, 장치 및 시스템 | |
CN111666407A (zh) | 一种文本分类方法及装置 | |
CN111026973A (zh) | 一种商品兴趣度预测方法、装置及电子设备 | |
CN113486260B (zh) | 互动信息的生成方法、装置、计算机设备及存储介质 | |
CN113704471B (zh) | 语句的分类方法、装置、设备和存储介质 | |
WO2022166811A1 (zh) | 信息处理方法、装置、电子设备和存储介质 | |
CN111159558B (zh) | 一种推荐列表的生成方法、装置和电子设备 | |
CN114092608A (zh) | 表情的处理方法及装置、计算机可读存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200915 |