CN111723206A - 文本分类方法、装置、计算机设备和存储介质 - Google Patents
文本分类方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111723206A CN111723206A CN202010568354.1A CN202010568354A CN111723206A CN 111723206 A CN111723206 A CN 111723206A CN 202010568354 A CN202010568354 A CN 202010568354A CN 111723206 A CN111723206 A CN 111723206A
- Authority
- CN
- China
- Prior art keywords
- text
- texts
- topic
- probability
- word frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 109
- 238000011156 evaluation Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文本分类方法、装置、计算机设备和存储介质,该方法包括:生成多个主题数;针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。本申请能够提供对文本进行分类的分类结果的准确度。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种文本分类方法、装置、计算机设备和存储介质。
背景技术
将文本信息按照相应的主题进行文本聚类在文本处理领域有着非常重要的应用,然而由于文本信息覆盖面非常广,每天产生的文本信息数目也非常巨大,因此,开展大规模文本聚类分析有着非常重要的意义。
现有的文本聚类分析在主题个数增大的情况下,如果限制主题数量,则在不同主题下的文本将会混杂在一起,最终得到的分类结果的准确度比较低。
发明内容
有鉴于此,本申请的目的在于提供一种文本分类方法、装置、计算机设备和存储介质,用以提高文本分类结果的准确度。
第一方面,本申请实施例提供了一种文本分类方法,该方法包括:
生成多个主题数;
针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;
针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;
基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。
在一种实施方式中,针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率,包括:
根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵;所述词频矩阵包括每个文本中表征词汇重要性的词汇权重;
针对每个主题数,基于每个文本属于该主题数个主题的初始概率,以及每个文本在每个主题下的初始系数,生成所述多个文本对应的生成矩阵;
按照生成矩阵与词频矩阵之间的距离最小原则,调整每个文本属于该主题数个主题的初始概率,得到每个文本属于该主题数个主题的校准概率。
在一种实施方式中,针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数,包括:
基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类的分类结果,以及预设的分类结果和评估系数之间的计算关系,得到该主题数对应的评估系数;
将最大评估系数对应的主题数作为所述目标主题数。
在一种实施方式中,基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果,包括:
针对每个文本,基于该文本属于所述目标主题数个主题的校准概率,从所述目标主题数个主题中,确定该文本所属的主题;
将属于同一个主题的文本确定为一个分类。
在一种实施方式中,根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵,包括:
针对多个文本中的每个文本,对该文本进行分词处理,得到该文本的词汇集合;
基于该词汇集合中包括的各个词汇在该文本中的词频,确定该文本对应的词频向量;所述词频向量中包括文本中包括的各个词汇的词频;
基于各文本的词频向量,以及所述文本的总数,确定所述多个文本对应的词频矩阵。
第二方面,本申请实施例提供了一种文本分类装置,该装置包括:
生成模块,用于生成多个主题数;
校准模块,用于针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;
选择模块,用于针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;
分类模块,用于基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。
在一种实施方式中,所述校准模块用于根据以下步骤得到每个文本属于该主题数个主题的校准概率:
根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵;所述词频矩阵包括每个文本中表征词汇重要性的词汇权重;
针对每个主题数,基于每个文本属于该主题数个主题的初始概率,以及每个文本在每个主题下的初始系数,生成所述多个文本对应的生成矩阵;
按照生成矩阵与词频矩阵之间的距离最小原则,调整每个文本属于该主题数个主题的初始概率,得到每个文本属于该主题数个主题的校准概率。
在一种实施方式中,所述选择模块用于根据以下步骤选择目标主题数:
基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类的分类结果,以及预设的分类结果和评估系数之间的计算关系,得到该主题数对应的评估系数;
将最大评估系数对应的主题数作为所述目标主题数。
第三方面,本申请实施例提供了一种计算机设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述文本分类方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述文本分类方法的步骤。
本申请实施例提供的文本分类方法,生成多个主题数,针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率,针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对多个文本进行预分类处理的分类结果,从多个主题数中,选择目标主题数,基于所述目标主题数,对多个文本进行分类处理,得到多个文本的分类结果,这样,通过在多个主题数中选择最佳主题数,利用最佳主题数对多个文本进行聚类,相比任意选择主题数目对本文进行分类,提高了分类结果的准确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种文本分类方法的流程示意图;
图2示出了本申请实施例提供的一种文本分类装置的结构示意图;
图3示出了本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
本申请实施例的文本分类方法可以应用于服务器,也可以应用于其它任意具有处理功能的计算设备。在一些实施例中,上述服务器或计算设备可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据,以执行本申请中描述的一个或多个功能。
相关技术中,在对大量文本进行聚类分析时,例如公安的案件描述信息,可以使用非负矩阵分解(Nonnegative Matrix Factorization,NMF)算法,在使用NMF算法对文本进行聚类分析时,一般任意设置分类数目,当设置好分类数目后,大量文本被分为上述分类数目个聚类,不同于传统的K-means与LDA,NMF对文本的假设分类数目容易满足,结果可解释性高,总体聚类表现更佳,但是当设置的分类数目不合理时,得到的聚类结果的准确度也会比较低。
为了便于描述,本申请生成多个主题数,针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率,针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对多个文本进行预分类处理的分类结果,从多个主题数中,选择目标主题数,基于所述目标主题数,对多个文本进行分类处理,得到多个文本的分类结果,这样,通过在多个主题数中选择最佳主题数,利用最佳主题数对多个文本进行聚类,相比任意选择主题数目对本文进行分类,提高了分类结果的准确度。
本申请实施例提供了一种文本分类方法,如图1所示,该方法可以包括以下步骤:
S101,生成多个主题数。
具体地,主题数表征文本所属分类的数目,该主题数可以是任意生成的随机数,也可以为根据历史时间段对大量文本进行分类确定的,例如,主题数可以为2、5、8、10等,可以根据实际情况确定。
S102,针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率。
这里,文本可以为文章、案例描述信息、新闻等信息,文本可以为通过爬虫工具从各个平台爬取的,本申请不限制文本所属的领域,文本所属的领域可以为通信领域、医疗领域、娱乐领域、天气领域等领域;词汇一般为文章中包括的中文词汇,例如,证件、伤害、生命、气温等;词频表征词汇在文章中出现的次数;初始概率为预先针对文本生成的概率,该概率表征文本属于某一主题的初始概率,初始概率可以为0,也可以为介于0到1之间的小数;校准概率为文本属于某一个主题的概率,校准概率越高,说明文本属于某一个主题的可能性越大,该校准概率相比初始概率的准确度更高。
在执行S102时,可以根据以下步骤得到每个文本属于该主题数个主题的校准概率:
根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵;所述词频矩阵包括每个文本中表征词汇重要性的词汇权重;针对每个主题数,基于每个文本属于该主题数个主题的初始概率,以及每个文本在每个主题下的初始系数,生成所述多个文本对应的生成矩阵;按照生成矩阵与词频矩阵之间的距离最小原则,调整每个文本属于该主题数个主题的初始概率,得到每个文本属于该主题数个主题的校准概率。
这里,词频矩阵中的行可以为文本标识,不同行对应不同的文本;词频矩阵中的列可以为词汇在对应文本中的词汇权重,该权重表示词汇在文章中的重要程度,权重越大表征词汇的重要程度越高,反之则越小;初始系数为预先生成的系数,该词汇系数表示词汇在主题下的重要性,比如,在主题为科技时,“移动通信技术”的重要性较高;词汇在每个主题下的初始概率对应一个初始系数,初始系数越大表示词汇的重要性越高;生成矩阵与词频矩阵之间的距离越小表示生成矩阵与词频矩阵之间的相似度越高,当生成矩阵和词频矩阵之间的距离最小时,表示生成矩阵与词频矩阵的相似度最高,相似度最高时,得到生成矩阵的校准概率的准确度越高。
在生成词频矩阵时,针对多个文本中的每个文本,对该文本进行分词处理,得到该文本的词汇集合;基于该词汇集合中包括的各个词汇在该文本中的词频,确定该文本对应的词频向量;所述词频向量中包括文本中包括的各个词汇的词频;基于各文本的词频向量,以及所述文本的总数,确定所述多个文本对应的词频矩阵。
这里,在对文本进行分词处理时,可以通过结巴分词、LTP分词、NLP分词等工具实现,词频向量中的每个维度表示词汇在文本中的出现的次数;
在具体实施过程中,针对每个文本,利用分词工具对该文本进行分词处理,可以从处理得到的词汇中去除停用词、英文词等无用词,从而得到处理后的词汇集合。
在得到每个文本对应的词汇集合后,可以统计词汇集合中每个词汇在文本中出现的次数,将该次数作为当前词汇的词频,进而得到该文本对应的词频向量,词频向量的维度为词汇,词频向量中的值为词汇的出现次数。
对不同文本对应的词频向量进行组合得到初始词频矩阵,考虑到不同文本中可能包括部分相同的词汇,也包括不同的词汇,因此,在组合得到初始词频矩阵时,初始词频矩阵的列数可以为所有文本包括的全部词汇的总数目,当文本中未包括某一词汇时,初始词频矩阵中词汇的词频可以为0。
在得到初始词频矩阵后,考虑出现频次高的词汇的重要性未必高,比如,“其它”,因此需要将初始词频矩阵转换为TF-IDF矩阵,利用以下公式将初始词频矩阵转换为最终的词频矩阵:
TF-IDFwi=TFiw*IDFw
其中,TFwi表示第i个文本中的w词汇在该文本中出现的频率;Nwi为w词汇在第i个文本中出现的次数;Mi表示第i个文本中包括的词汇的总数;C表示文本的总数目;Cw为包括w词汇的文本的数目;TF-IDFwi为w词汇在第i个文本中的重要程度;IDFw表示w词汇的逆向文件频率。
针对初始词频矩阵中的每个值,通过如上公式得到该词汇的TF-IDFwi,最终得到多个文本对应的词频矩阵。
在得到多个文本对应的最终的词频矩阵后,针对每个主题数,为每个文本中的每个词汇生成属于该主题数个主题的初始概率,得到初始概率矩阵,初始概率矩阵的行可以为文本,列表示不同的主题,初始概率矩阵中的值表示文本属于主题的初始概率。其中,初始概率为通过随机数生成器生成的,可以根据实际情况确定。
在生成初始概率矩阵后,可以生成每个文本在每个主题下的系数,得到初始系数矩阵,初始系数矩阵的行表示主题,列表示文本,初始系数矩阵中的值表示词汇在主题下的重要性。
例如,词频矩阵为5×4的矩阵,主题数为2,那么初始概率矩阵为5×2的矩阵,初始系数矩阵为2×4的矩阵。
在得到初始概率矩阵和初始系数矩阵后,可以计算初始概率矩阵和初始系数矩阵的乘积,得到多个文本对应的生成矩阵,利用欧式距离或者KL散度计算生成矩阵和词频矩阵之间的距离,按照距离最小原则调整概率矩阵,若距离不是最小,则进行下一次调整计算,直到距离最小为止,最小距离对应的概率矩阵中的概率为文本在对应主题下的校准概率。
在调整概率矩阵中的概率时,当计算距离的算法不同时,调整概率的公式不同,在距离算法为欧式距离时,可以通过以下公式调整概率:
其中,Hαμ为当前次计算对应的系数矩阵中第α行第μ列的系数;hαμ为上一次计算对应的系数矩阵中第α行第μ列的系数;V为多个文本对应的词频矩阵;W为上一次计算对应的概率矩阵;H为上一次计算对应的概率矩阵;Wiα为当前次计算对应的概率矩阵中的第i行第α列的概率;wiα为上一次计算对应的概率矩阵中的第i行第α列的概率。
在距离算法为KL散度时,可以通过以下公式调整概率:
其中,Hαμ为当前次计算对应的系数矩阵中第α行第μ列的系数;hαμ为上一次计算对应的系数矩阵中第α行第μ列的系数;Wiα为上一次计算对应的概率矩阵中的第i行第α列的值;Viα为多个文本对应的词频矩阵中的第i行第α列的TF-IDF值;Wkα为上一次计算对应的概率矩阵中的第k行第α列的值;Wiα为当前次计算对应的概率矩阵中的第i行第α列的概率;wiα为上一次次计算对应的概率矩阵中的第i行第α列的概率,Hαμ为上一次计算对应的系数矩阵中第α行第μ列的值;Hαv为上一次计算对应的系数矩阵中第α行第v列的值。
S103,针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数。
这里,分类结果可以通过不同文本被分为同一类的概率表示,即不同文本属于同一主题的概率;目标主题数表征对文本进行分类时的最优分类数目。
在执行S103时,可以基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类的分类结果,以及预设的分类结果和评估系数之间的计算关系,得到该主题数对应的评估系数;将最大评估系数对应的主题数作为所述目标主题数。
分类结果和评估系数之间的计算关系可以通过以下公式表示:
其中,ρk为第k个主题数对应的评估系数,Bk(i,j)为在第k个主题数下的文本分类矩阵中第i行第j列的值;n为文本的总数。
在具体实施过程中,针对每个主题数,利用该主题数对文本进行预分类时,在每个主题数下利用预设数目个初始概率矩阵和预设数目个初始系数矩阵进行调整计算,得到预设数目个最终的概率矩阵,预设数目可以根据实际需求设定,此处不进行限制。其中,不同初始概率矩阵中包括的概率不同,初始系数矩阵中包括的系数不同,这样,最终可以得到预设数目个不同的最终的概率矩阵,也就是,预设数目个概率矩阵中包括的校准概率不同。
在对多个文本进行预处理之前,可以预先生成一个n×n的初始分类矩阵(n为全部文本的数目),初始分类矩阵中的每个值均为0,针对每个主题数对应的预设数目个概率矩阵中的每个概率矩阵,将该概率矩阵中的每一行中的最大概率所属的主题确定为该行对应的文本的主题,将属于同一主题的文本确定为同一个分类,并将初始分类矩阵中对应该分类的值修改为1(表示对应的文本属于同一个主题),得到修改分类矩阵,例如,第i个文本和第j个文本属于同一个主题,则初始分类矩阵中第i行第j列的值为1。
对于每个主题数而言,最终得到预设数目个修改分类矩阵,对预设数目个修改分类矩阵进行求平均,以修改分类矩阵中的第i行第j列的值为例说明,计算全部修改分类矩阵中第i行第j列的值的和值,计算该和值和预设数目的比值,将该比值作为最终的文本分类矩阵中第i行第j列的值,最终得到每个主题数对应的最终的文本分类矩阵,将最终的文本分类矩阵中的数值输入到分类结果和评估系数之间的计算关系(上述计算关系公式)中,得到每个主题数对应的评估系数。
在得到每个主题数对应的评估系数后,可以从多个评估系数中选择最大的评估系数,将该评估系数对应的主题数确定目标主题数。
在得到目标主题数后,可以取出每个主题对应前五个最重要的词,检验一下聚类效果,即,利用目标主题数对应的校准概率对预设的多个文本样本进行分类,比对该分类结果和文本样本的实际分类结果,目标主题数目对应的分类结果和实际分类结果越接近,说明利用目标主题数进行分类的结果的准确度越高。
S104,基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。
在得到目标主题数后,针对每个文本,基于该文本属于所述目标主题数个主题的校准概率,从所述目标主题数个主题中,确定该文本所属的主题,将属于同一个主题的文本确定为一个分类,也就是,从该文本在目标主题数个主题下的校准概率中,选择最大校准概率,最大校准概率所对应的主题确定为该文本的主题,最终,将属于同一个主题的文本确定为一个分类,完成对多个文本的分类,分类结果中包括的分类的数目与目标主题数相同,例如,目标主题数为5,那么多个文本最终被划分为5个分类。其中,目标主题数个主题中的每个主题对应多个校准概率,可以随机选择校准概率。
在得到目标主题数个分类结果后,可以通过人工方式确定每个分类结果对应的主题,也可以通过预设的主题识别模型识别文本的主题,可以根据实际情况确定。
本申请实施例提供了一种文本分类装置,如图2所示,该装置包括:
生成模块21,用于生成多个主题数;
校准模块22,用于针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;
选择模块23,用于针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;
分类模块24,用于基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。
在一种实施方式中,所述校准模块22用于根据以下步骤得到每个文本属于该主题数个主题的校准概率:
根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵;所述词频矩阵包括每个文本中表征词汇重要性的词汇权重;
针对每个主题数,基于每个文本属于该主题数个主题的初始概率,以及每个文本在每个主题下的初始系数,生成所述多个文本对应的生成矩阵;
按照生成矩阵与词频矩阵之间的距离最小原则,调整每个文本属于该主题数个主题的初始概率,得到每个文本属于该主题数个主题的校准概率。
在一种实施方式中,所述选择模块23用于根据以下步骤选择目标主题数:
基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类的分类结果,以及预设的分类结果和评估系数之间的计算关系,得到该主题数对应的评估系数;
将最大评估系数对应的主题数作为所述目标主题数。
在一种实施方式中,所述分类模块24用于根据以下步骤得到所述多个文本的分类结果,包括:
针对每个文本,基于该文本属于所述目标主题数个主题的校准概率,从所述目标主题数个主题中,确定该文本所属的主题;
将属于同一个主题的文本确定为一个分类。
在一种实施方式中,所述校准模块22用于根据以下步骤为所述多个文本生成词频矩阵:
针对多个文本中的每个文本,对该文本进行分词处理,得到该文本的词汇集合;
基于该词汇集合中包括的各个词汇在该文本中的词频,确定该文本对应的词频向量;所述词频向量中包括文本中包括的各个词汇的词频;
基于各文本的词频向量,以及所述文本的总数,确定所述多个文本对应的词频矩阵。
本申请实施例还提供了一种计算机设备30,如图3所示,为本申请实施例提供的计算机设备30结构示意图,包括:处理器31、存储器32、和总线33。所述存储器32存储有所述处理器31可执行的机器可读指令(比如,图2中的装置中生成模块21、校准模块22、选择模块23和分类模块24对应的执行指令等),当计算机设备30运行时,所述处理器31与所述存储器32之间通过总线33通信,所述机器可读指令被所述处理器31执行时执行如下处理:
生成多个主题数;
针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;
针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;
基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。
一种可能的实施方式中,处理器31执行的指令中,针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率,包括:
根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵;所述词频矩阵包括每个文本中表征词汇重要性的词汇权重;
针对每个主题数,基于每个文本属于该主题数个主题的初始概率,以及每个文本在每个主题下的初始系数,生成所述多个文本对应的生成矩阵;
按照生成矩阵与词频矩阵之间的距离最小原则,调整每个文本属于该主题数个主题的初始概率,得到每个文本属于该主题数个主题的校准概率。
一种可能的实施方式中,处理器31执行的指令中,针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数,包括:
基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类的分类结果,以及预设的分类结果和评估系数之间的计算关系,得到该主题数对应的评估系数;
将最大评估系数对应的主题数作为所述目标主题数。
一种可能的实施方式中,处理器31执行的指令中,基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果,包括:
针对每个文本,基于该文本属于所述目标主题数个主题的校准概率,从所述目标主题数个主题中,确定该文本所属的主题;
将属于同一个主题的文本确定为一个分类。
一种可能的实施方式中,处理器31执行的指令中,根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵,包括:
针对多个文本中的每个文本,对该文本进行分词处理,得到该文本的词汇集合;
基于该词汇集合中包括的各个词汇在该文本中的词频,确定该文本对应的词频向量;所述词频向量中包括文本中包括的各个词汇的词频;
基于各文本的词频向量,以及所述文本的总数,确定所述多个文本对应的词频矩阵。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述文本分类方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述文本分类方法,用于解决现有技术中文本分类结果准确度低的问题,本申请生成多个主题数,针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率,针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对多个文本进行预分类处理的分类结果,从多个主题数中,选择目标主题数,基于所述目标主题数,对多个文本进行分类处理,得到多个文本的分类结果,这样,通过在多个主题数中选择最佳主题数,利用最佳主题数对多个文本进行聚类,相比任意选择主题数目对本文进行分类,提高了分类结果的准确度。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文本分类方法,其特征在于,该方法包括:
生成多个主题数;
针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;
针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;
基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。
2.如权利要求1所述的方法,其特征在于,针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率,包括:
根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵;所述词频矩阵包括每个文本中表征词汇重要性的词汇权重;
针对每个主题数,基于每个文本属于该主题数个主题的初始概率,以及每个文本在每个主题下的初始系数,生成所述多个文本对应的生成矩阵;
按照生成矩阵与词频矩阵之间的距离最小原则,调整每个文本属于该主题数个主题的初始概率,得到每个文本属于该主题数个主题的校准概率。
3.如权利要求1所述的方法,其特征在于,针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数,包括:
基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类的分类结果,以及预设的分类结果和评估系数之间的计算关系,得到该主题数对应的评估系数;
将最大评估系数对应的主题数作为所述目标主题数。
4.如权利要求1所述的方法,其特征在于,基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果,包括:
针对每个文本,基于该文本属于所述目标主题数个主题的校准概率,从所述目标主题数个主题中,确定该文本所属的主题;
将属于同一个主题的文本确定为一个分类。
5.如权利要求2所述的方法,其特征在于,根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵,包括:
针对多个文本中的每个文本,对该文本进行分词处理,得到该文本的词汇集合;
基于该词汇集合中包括的各个词汇在该文本中的词频,确定该文本对应的词频向量;所述词频向量中包括文本中包括的各个词汇的词频;
基于各文本的词频向量,以及所述文本的总数,确定所述多个文本对应的词频矩阵。
6.一种文本分类装置,其特征在于,该装置包括:
生成模块,用于生成多个主题数;
校准模块,用于针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;
选择模块,用于针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;
分类模块,用于基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。
7.如权利要求6所述的装置,其特征在于,所述校准模块用于根据以下步骤得到每个文本属于该主题数个主题的校准概率:
根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵;所述词频矩阵包括每个文本中表征词汇重要性的词汇权重;
针对每个主题数,基于每个文本属于该主题数个主题的初始概率,以及每个文本在每个主题下的初始系数,生成所述多个文本对应的生成矩阵;
按照生成矩阵与词频矩阵之间的距离最小原则,调整每个文本属于该主题数个主题的初始概率,得到每个文本属于该主题数个主题的校准概率。
8.如权利要求6所述的装置,其特征在于,所述选择模块用于根据以下步骤选择目标主题数:
基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类的分类结果,以及预设的分类结果和评估系数之间的计算关系,得到该主题数对应的评估系数;
将最大评估系数对应的主题数作为所述目标主题数。
9.一种计算机设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-5任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-5任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010568354.1A CN111723206B (zh) | 2020-06-19 | 2020-06-19 | 文本分类方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010568354.1A CN111723206B (zh) | 2020-06-19 | 2020-06-19 | 文本分类方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723206A true CN111723206A (zh) | 2020-09-29 |
CN111723206B CN111723206B (zh) | 2024-01-19 |
Family
ID=72568376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010568354.1A Active CN111723206B (zh) | 2020-06-19 | 2020-06-19 | 文本分类方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723206B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765970A (zh) * | 2021-01-14 | 2021-05-07 | 深圳前海微众银行股份有限公司 | 文本主题确定方法、设备及可读存储介质 |
CN112836490A (zh) * | 2021-01-25 | 2021-05-25 | 浙江工业大学 | 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001024060A2 (en) * | 1999-09-30 | 2001-04-05 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
CN102609721A (zh) * | 2012-02-01 | 2012-07-25 | 北京师范大学 | 遥感影像的聚类方法 |
CN102902700A (zh) * | 2012-04-05 | 2013-01-30 | 中国人民解放军国防科学技术大学 | 基于在线增量演化主题模型的软件自动分类方法 |
EP2624149A2 (en) * | 2012-02-02 | 2013-08-07 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
CN103678599A (zh) * | 2013-12-13 | 2014-03-26 | 北京奇虎科技有限公司 | 基于plsa算法判断文档相关性的方法及装置 |
CN108763539A (zh) * | 2018-05-31 | 2018-11-06 | 华中科技大学 | 一种基于词性分类的文本分类方法和系统 |
-
2020
- 2020-06-19 CN CN202010568354.1A patent/CN111723206B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001024060A2 (en) * | 1999-09-30 | 2001-04-05 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
US6990238B1 (en) * | 1999-09-30 | 2006-01-24 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
CN102609721A (zh) * | 2012-02-01 | 2012-07-25 | 北京师范大学 | 遥感影像的聚类方法 |
EP2624149A2 (en) * | 2012-02-02 | 2013-08-07 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
CN102902700A (zh) * | 2012-04-05 | 2013-01-30 | 中国人民解放军国防科学技术大学 | 基于在线增量演化主题模型的软件自动分类方法 |
CN103678599A (zh) * | 2013-12-13 | 2014-03-26 | 北京奇虎科技有限公司 | 基于plsa算法判断文档相关性的方法及装置 |
CN108763539A (zh) * | 2018-05-31 | 2018-11-06 | 华中科技大学 | 一种基于词性分类的文本分类方法和系统 |
Non-Patent Citations (2)
Title |
---|
HENG ZHANG等: "Improving short text classification by learning vector representations of both words and hidden topics", 《KNOWLEDGE-BASED SYSTEMS》, vol. 102, pages 76 - 86, XP029520254, DOI: 10.1016/j.knosys.2016.03.027 * |
康丽萍;孙显;许光銮;: "加权KNN的图文数据融合分类", no. 07, pages 854 - 864 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765970A (zh) * | 2021-01-14 | 2021-05-07 | 深圳前海微众银行股份有限公司 | 文本主题确定方法、设备及可读存储介质 |
CN112836490A (zh) * | 2021-01-25 | 2021-05-25 | 浙江工业大学 | 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 |
CN112836490B (zh) * | 2021-01-25 | 2024-05-10 | 浙江工业大学 | 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111723206B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11449673B2 (en) | ESG-based company evaluation device and an operation method thereof | |
Aghdam et al. | Feature selection using particle swarm optimization in text categorization | |
Xu et al. | Document clustering by concept factorization | |
Haque et al. | Non-functional requirements classification with feature extraction and machine learning: An empirical study | |
CN112464638B (zh) | 一种基于改进谱聚类算法的文本聚类方法 | |
Zhu et al. | Effective supervised discretization for classification based on correlation maximization | |
CN108038208B (zh) | 上下文信息识别模型的训练方法、装置和存储介质 | |
WO2006095853A1 (ja) | 学習処理方法、学習処理装置、および、プログラム | |
CN109829154B (zh) | 基于语义的人格预测方法、用户设备、存储介质及装置 | |
CN111723206B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN111522953B (zh) | 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质 | |
CN110347833B (zh) | 一种多轮对话的分类方法 | |
CN114925702A (zh) | 文本相似度识别方法、装置、电子设备及存储介质 | |
CN117763126A (zh) | 知识检索方法、设备、存储介质及装置 | |
CN110096708B (zh) | 一种定标集确定方法及装置 | |
CN114996446B (zh) | 一种文本分类方法、装置及存储介质 | |
JP2005182696A (ja) | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム | |
CN116910599A (zh) | 数据聚类方法、系统、电子设备及存储介质 | |
Serrao et al. | Active Stream Learning with an Oracle of Unknown Availability for Sentiment Prediction. | |
Riyanto et al. | Comparative Analysis using Various Performance Metrics in Imbalanced Data for Multi-class Text Classification | |
Toko et al. | Generalization for Improvement of the Reliability Score for Autocoding. | |
CN112182211B (zh) | 文本分类方法及装置 | |
CN111859947B (zh) | 一种文本处理装置、方法、电子设备及存储介质 | |
Karahan et al. | Combining classifiers for spoken language understanding | |
CN108154179B (zh) | 一种数据的检错方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |