CN115774854B - 一种文本分类方法、装置、电子设备和存储介质 - Google Patents

一种文本分类方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115774854B
CN115774854B CN202310044272.0A CN202310044272A CN115774854B CN 115774854 B CN115774854 B CN 115774854B CN 202310044272 A CN202310044272 A CN 202310044272A CN 115774854 B CN115774854 B CN 115774854B
Authority
CN
China
Prior art keywords
sample
samples
data sample
training data
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310044272.0A
Other languages
English (en)
Other versions
CN115774854A (zh
Inventor
郭振涛
梁金千
崔培升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Original Assignee
BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD filed Critical BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Priority to CN202310044272.0A priority Critical patent/CN115774854B/zh
Publication of CN115774854A publication Critical patent/CN115774854A/zh
Application granted granted Critical
Publication of CN115774854B publication Critical patent/CN115774854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法、装置、电子设备和存储介质,涉及数据处理技术领域,包括:获取初始训练数据样本和初始测试数据样本,进行向量化处理得到训练数据样本和测试数据样本;判断是否存在增量学习数据样本;若存在所述增量学习数据样本,判断训练数据样本和增量学习样本的样本总数是否大于增量学习阈值;若大于增量学习阈值,基于样本选择策略从训练数据样本中选择代表性样本,将代表性样本与增量学习数据样本进行合并,组成增量训练数据样本;通过增量训练数据样本对文本分类模型进行训练,得到训练后的文本分类模型;根据测试数据样本对训练后的文本分类模型进行测试,并根据测试结果调整模型参数。

Description

一种文本分类方法、装置、电子设备和存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本分类方法、装置、电子设备和存储介质。
背景技术
传统文本分类方法的训练数据往往是不做更新的静态全局数据,而随着人工智能的快速发展,文本数据量不断增大,传统文本分类方法在面对动态不断增长的文本数据时其效果往往差强人意,具体表现在一旦有新数据就必须重新训练模型以使得模型对新数据有较好的性能。然而,发明人在实现本发明的过程中发现,真实业务场景中,这种处理方式耗时耗力不切实际,因为数据是以流式源源不断的产生和到来的,同时因存储容量和隐私安全等原因无法长期存储,这就要求文本分类模型具有连续、长期学习的能力,以解决面对新数据时的灾难性遗忘问题,因此增量学习文本分类方法就显得尤为重要了。
发明内容
为了解决上述技术问题或者至少部分的解决上述技术问题,本发明实施例提供了一种文本分类方法、装置、电子设备和存储介质,能够在原始训练数据样本中选择代表性样本并结合增量学习数据样本对文本分类模型进行更新训练,以解决面对新数据时的灾难性遗忘问题,减少内存占有率和训练耗时,从而在面对新输入文本时,能够提高文本分类的准确率。
本发明实施例提供了一种文本分类方法,包括:
获取初始训练数据样本和初始测试数据样本,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本;判断是否存在增量学习数据样本;若存在所述增量学习数据样本,则判断所述训练数据样本和所述增量学习样本的样本总数是否大于增量学习阈值;若大于所述增量学习阈值,基于样本选择策略从所述训练数据样本中选择代表性样本,将所述代表性样本与所述增量学习数据样本进行合并,组成增量训练数据样本;通过所述增量训练数据样本对文本分类模型进行训练,得到训练后的所述文本分类模型;根据所述测试数据样本对所述训练后的所述文本分类模型进行测试,并根据测试结果调整所述训练后的所述文本分类模型的模型参数。
本发明实施例还提供了一种文本分类装置,包括:
处理模块,用于获取初始训练数据样本和初始测试数据样本,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本;第一判断模块,用于判断是否存在增量学习数据样本;第二判断模块,用于若存在所述增量学习数据样本,则判断所述训练数据样本和所述增量学习样本的样本总数是否大于增量学习阈值;选择模块,用于若大于所述增量学习阈值,基于样本选择策略从所述训练数据样本中选择代表性样本,将所述代表性样本与所述增量学习数据样本进行合并,组成增量训练数据样本;训练模块,用于通过所述增量训练数据样本对文本分类模型进行训练,得到训练后的所述文本分类模型;测试模块,用于根据所述测试数据样本对所述训练后的所述文本分类模型进行测试,并根据测试结果调整所述训练后的所述文本分类模型的模型参数。
本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的文本分类方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文本分类方法。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上所述的文本分类方法。
本发明实施例提供的技术方案与现有技术相比至少具有如下优点:本发明实施例提供的文本分类方法、装置、电子设备及存储介质,在有增量学习数据样本且需要增量学习时,可以在训练数据样本中通过样本选择策略选择出代表性样本,并与增量学习数据样本组合成增量训练数据样本共同训练优化文本分类模型,可以有效解决“灾难性遗忘”问题,减少内存占有率和训练耗时,提高分类精确率和召回率,具有较高的使用价值。
附图说明
结合附图并参考以下具体实施方式,本发明各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本发明实施例中的一种文本分类方法的流程图;
图2为本发明又一实施例中的一种文本分类方法的流程图;
图3本发明实施例中的一种文本分类装置的结构示意图;
图4本发明实施例中的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细的描述本发明的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整的理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分的基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
参考图1所示,本发明实施例提供了一种文本分类方法的流程图。
步骤S101,获取初始训练数据样本和初始测试数据样本,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本。
由于初始训练数据样本和初始测试数据样本均为文本,而每篇文本都是由词来构成的,可以预先构建文本词汇表,在文本词汇表中每个词对应有唯一编号,那么文本向量的具体属性值即为该词在文本词汇表中的编号。在本步骤中,可以对每个初始训练数据样本进行分词处理,将得到的所有分词放在一起组成分词集合,针对分词集合中的每个分词,在文本词汇表中查找该分词对应的编号,逐一查找完分词集合中的所有分词后,即完成了对该初始训练数据样本的向量化处理,得到分词集合对应的编号集合向量,将编号集合向量作为初始训练数据样本的训练数据样本。
同理,根据上述方案对初始测试数据样本进行向量化处理,得到测试数据样本。
进一步的,由于每个样本的文本长度不尽相同,故采用截断法构建文本向量,即固定编号集合向量的维数,当编号集合向量的维度大于一定维数后就截断,当编号集合向量的维度小于该维数时就用0进行补齐。
可选的,所述对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本包括:
对所述初始训练数据样本和所述初始测试数据样本进行分词,得到多个第一分词;对所述第一分词进行去重处理后得到多个第二分词;对每个第二分词进行编号处理,生成文本词典,文本词典中每个编号为每个所述第二分词的唯一标识;根据各所述初始训练数据样本和所述初始测试数据样本分别包括的所述第一分词,在所述文本词典中查找各所述第一分词对应的编号;基于各所述第一分词对应的编号,确定所述初始训练数据样本包括的编号和所述初始测试数据样本包括的编号;将所述初始训练数据样本包括的编号和所述初始测试数据样本包括的编号分别进行组合,生成向量化后的训练数据样本和测试数据样本。
具体的,获取初始训练数据文本和初始测试数据文本,分别对其进行文本数据预处理操作,包括但不限于分词、去停用词等操作,得到多个第一分词,将第一分词经过去重后得到多个第二分词,再将所有第二分词放在一起构建文本词典。在文本词典中,对每个第二分词从1进行标号,使得每个第二分词在文本词典具有唯一标识。
针对每个初始训练数据样本或每个初始测试数据样本,查找其包括的每个第一分词在文本词典中查找对应的编号,将所有编号进行组合,得到向量化后的训练数据样本和测试数据样本。
步骤S102,判断是否存在增量学习数据样本。
在本步骤中,如果存在所述增量学习数据样本,则执行步骤S130;如果不存在增量学习数据样本,则直接使用已学习出的文本分类模型对测试数据进行测试以评估模型的优劣,该文本分类模型采用文本卷积神经网络 (TextCNN,Text Convolutional NeuralNetworks)算法进行训练得到。
步骤S103,判断所述训练数据样本和所述增量学习样本的样本总数是否大于增量学习阈值。
如果所述训练数据样本和所述增量学习样本的样本总数小于或等于增量学习阈值,则将所述训练数据样本和所述增量学习样本进行合并,组成所述增量训练数据样本。
如果所述训练数据样本和所述增量学习样本的样本总数大于阈值,则执行步骤S104。
步骤S104,基于样本选择策略从所述训练数据样本中选择代表性样本,将所述代表性样本与所述增量学习数据样本进行合并,组成增量训练数据样本。
由于可能存在相似的训练数据样本,因此可以利用相似性度量方法来衡量所有训练样本数据之间的关系,将关系比较密切(即相似度比较高)的样本划分到一个集合中,从该集合中选择出一个代表性样本,与所述增量学习数据样本进行合并,组成增量训练数据样本。
具体的,样本选择策略包括多种,每种样本选择策略对应一种聚类方法,按照每种样本选择策略被从训练数据样本中选择目标样本,将不同策略选择的目标样本进行混合去重组成最终的代表性样本。
可选的,所述样本选择策略包括类中心策略和类内K均值聚类策略;所述基于样本选择策略从所述训练数据样本中选择代表性样本,包括:
基于类中心策略从所述训练数据样本中选择第一代表性样本;基于类内K均值聚类策略从所述训练数据样本中选择第二代表性样本;对所述第一代表性样本和所述第二代表性样本进行混合去重,得到所述代表性样本。
其中,类中心策略采用类中心分类算法,是一种典型的应用代表类别特点的特征项来表示类别的算法,具有容易理解、思路清晰、分类效果好等优点。类内K均值聚类策略采用KMeans算法,是一种典型的基于划分的聚类算法,该算法具有运算速度快、执行过程简单的优点,在很多大数据处理领域得到了广泛的应用。
步骤S105,通过所述增量训练数据样本对文本分类模型进行训练,得到训练后的所述文本分类模型。
这里,采用增量训练数据样本对上述文本分类模型进行训练,使得模型能够充分学习增量训练数据的特点。
步骤S106,根据所述测试数据样本对所述训练后的所述文本分类模型进行测试,并根据测试结果调整所述训练后的所述文本分类模型的模型参数。
在本步骤中,将每个测试数据样本输入经过步骤S106训练后的文本分类模型,基于文本分类模型预测的测试结果与测试数据样本中的真实结果进行计算,若计算结果不小于预设损失阈值,说明训练后的文本模型还存在问题,则根据计算结果对该模型的参数进行调整。
可选的,所述根据测试结果调整所述训练后的所述文本分类模型的模型参数,包括:计算精确率、召回率、准确率和混淆矩阵;确定所述精确率、召回率、准确率和混淆矩阵是否小于预设阈值;若不小于所述预设阈值,根据所述精确率、召回率、准确率和混淆矩阵对所述文本分类模型的模型参数进行调整。
具体的,预测的测试结果(Predicted Condition)与测试数据样本中的真实结果(True Condition)之间存在四种不同的组合(如下表1所示),构成混淆矩阵。
表1 混淆矩阵组合
测试结果 测试结果
正例 假例
真实结果 正例 TP FN
真实结果 假例 FP TN
其中,TP(True Positives),表示实际为正例且被文本分类模型判定为正例的样本数;FP(False Positives),表示实际为负例且被文本分类模型判定为正例的样本数;FN(False Negatives),表示实际为正例但被文本分类模型判定为负例的样本数;TN(TrueNegatives),表示实际为负例且被文本分类模型判定为负例的样本数。
精确率P定义为查准率,即文本分类模型正确预测为正类的占全部测试数据样本预测为正类的比例,其中P=TP/(TP+FP);召回率R定义为查全率,即文本分类模型正确预测为正类的占全部测试数据样本实际为正类的比例,其中R=TP/(TP+FN)。一般情况下,精确率和召回率均在预设阈值0.95以上时,模型可以达到比较好的效果。
本发明实施例提供的技术方案,在有增量学习数据样本且需要增量学习时,可以在训练数据样本中通过样本选择策略选择出代表性样本,并与增量学习数据样本组合成增量训练数据样本共同训练优化文本分类模型,可以有效解决“灾难性遗忘”问题,减少内存占有率和训练耗时,提高分类精确率和召回率,具有较高的使用价值。
作为本发明的一些可选实施方式,所述基于类中心策略从所述训练数据样本中选择第一代表性样本,包括:
基于所述训练数据样本确定多个类别;针对每个类别,基于该类别下样本的样本数量、各所述样本的特征,确定该类别的类中心,计算每个所述样本与所述类中心之间的欧式距离;按照每个所述样本的欧式距离进行降序排序,选择排序在前预设数量的所述样本作为代表该类别的第一代表性样本。
具体的,可以根据训练数据样本的类型、属性等确定类别的数量。本实施例以四个类别为例,假设给定的训练数据样本为{(x1,y1),(x2,y2), …,(xn,yn)},yi∈{0,1,2,3},首先通过如下公式确定类别中心:
Figure SMS_1
Figure SMS_2
其中
Figure SMS_3
为第i类样本的类中心,i=0,1,2,3,
Figure SMS_4
,L为样本特征数量,
Figure SMS_5
为第i类样本的数量,
Figure SMS_6
为第i类中第k个样本的第
Figure SMS_7
个特征。
在根据上述公式确定了每个类别的类别中心之后,再计算每个类别下各样本与类 中心之间的欧式距离。例如,
Figure SMS_8
类中第j个样本
Figure SMS_9
与类中心
Figure SMS_10
的欧氏距离,通过如下公式计 算:
Figure SMS_11
其中,
Figure SMS_12
,j∈{1,2,3,…,
Figure SMS_13
}。
最后,按照每个类别的类内每个样本与类中心的欧氏距离对所有类内样本进行降序排序,选择排序在前预设数量的样本作为代表该类别的第一代表性样本,可选的,选排序在前20%样本作为该类别的代表样本。
作为本发明实施例的一些可选实施方式,所述基于类内K均值聚类策略从所述训练数据样本中选择第二代表性样本,包括:
从所述训练数据样本的样本中选择K个初始化聚类中心;计算每个所述样本分别到各所述初始化聚类中心的距离,将所述样本分到距离聚类中心最近的簇中,响应所有所述样本都完成划分,形成K个簇;重新计算每个所述簇包括的样本的均值,将所述均值作为新的聚类中心;计算每个所述样本到各所述新的聚类中心的距离,更新K个所述簇;重复上述步骤来更新每个所述簇的聚类中心,直到所有的所述样本无法更新到其他的所述簇中;针对每个所述簇,计算该簇中各所述样本到该簇的聚类中心的欧氏距离,按照每个所述样本的欧式距离进行降序排序,选择排序在前预设数量的所述样本作为代表该簇的所述第二代表性样本。
具体的,KMeans算法首先需要选择K个初始化聚类中心,本实施例中,优选通过如下方式选择KMeans聚类的簇数K值,计算公式如下所示,
Figure SMS_14
其中,
Figure SMS_15
为第i个簇,
Figure SMS_16
是簇
Figure SMS_17
中的某个样本,
Figure SMS_18
是簇
Figure SMS_19
的质心,SSE为误差平方 和,是所有样本的聚类误差,代表了聚类效果的好坏。
确定了初始化聚类中心之后,计算每个样本分别到K个初始化聚类中心的距离,将样本分到距离聚类中心最近的那个簇中,当所有样本都划分好以后,就形成了K个簇;接下来重新计算每个簇包括的样本的均值,将均值作为新的聚类中心;最后计算每个样本到新的K个初始化聚类中心的距离,再按照之前的逻辑,将样本分到距离聚类中心最近的那个簇中,完成样本到K个簇的重新划分。每次划分以后,都需要重新计算初始化聚类中心,一直重复这个过程,直到所有的样本无法更新到其他的簇中。
针对每个簇,计算簇内样本到簇中心的欧氏距离,对簇内样本按照欧氏距离降序排序,选择排序在前预设数量的样本作为代表该簇的第二代表性样本,可选的,选排序在前20%样本作为该簇的代表样本。
作为本发明实施例的一些可选实施方式,如图2所示,公开了一种文本分类方法,每个步骤的具体方案参见图1所示的实施例,在此不在赘述,包括如下步骤:
步骤S201,获取初始训练数据样本和初始测试数据样本,对初始训练数据样本和初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本。
其中,训练集和测试机均来自公开的数据集的子集。
步骤S202,使用训练数据样本进行训练学习文本分类模型。
步骤S203,判断有无增量学习数据样本。
如果没有增量学习文本数据,则依次执行步骤S201和步骤S207;如果有增量学习文本数据,则执行步骤S204。
步骤S204,获取增量学习文本数据样本。
步骤S205,判断训练数据样本和增量学习文本数据的样本总和是否大于增量学习阈值。
如果样本数总和大于该阈值,则进行步骤S206;如果样本数总和不大于该阈值,则进行步骤S207。
步骤S206,通过样本选择策略选择代表性样本。
本步骤之后,执行步骤S208。
步骤S207,训练数据样本和增量学习数据样本进行合并组成增量训练数据样本;
步骤S208,代表性样本与增量学习数据样本进行合并组成增量训练数据样本。
步骤S209,使用增量训练数据样本再次训练学习文本分类模型。
步骤S210,使用文本分类模型对测试数据样本进行测试以评估模型并进行参数调节。
本发明实施例提供的技术方案,在有增量学习数据样本且需要增量学习时,可以在训练数据样本中通过样本选择策略选择出代表性样本,并与增量学习数据样本组合成增量训练数据样本共同训练优化文本分类模型,可以有效解决灾难性遗忘问题,减少内存占有率和训练耗时,提高分类精确率和召回率,具有较高的使用价值。
在一个实施例中,参考图3所示,提供了一种文本分类装置的结构示意图。该装置可用于执行图1-图2任一所示的文本分类方法,该装置包括:处理模块310、第一判断模块320、第二判断模块330、选择模块340、训练模块350和测试模块360;其中,
处理模块310,用于获取初始训练数据样本和初始测试数据样本,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本;第一判断模块320,用于判断是否存在增量学习数据样本;第二判断模块330,用于若存在所述增量学习数据样本,则判断所述训练数据样本和所述增量学习样本的样本总数是否大于增量学习阈值;选择模块340,用于若大于所述增量学习阈值,基于样本选择策略从所述训练数据样本中选择代表性样本,将所述代表性样本与所述增量学习数据样本进行合并,组成增量训练数据样本;训练模块350,用于通过所述增量训练数据样本对文本分类模型进行训练,得到训练后的所述文本分类模型;测试模块360,用于根据所述测试数据样本对所述训练后的所述文本分类模型进行测试,并根据测试结果调整所述训练后的所述文本分类模型的模型参数。
可选的,处理模块310进一步用于,对所述初始训练数据样本和所述初始测试数据样本进行分词,得到多个第一分词;对所述第一分词进行去重处理后得到多个第二分词;对每个第二分词进行编号处理,生成文本词典,文本词典中每个编号为每个所述第二分词的唯一标识;根据各所述初始训练数据样本和所述初始测试数据样本分别包括的所述第一分词,在所述文本词典中查找各所述第一分词对应的编号;基于各所述第一分词对应的编号,确定所述初始训练数据样本包括的编号和所述初始测试数据样本包括的编号;将所述初始训练数据样本包括的编号和所述初始测试数据样本包括的编号分别进行组合,生成向量化后的训练数据样本和测试数据样本。
可选的,所述样本选择策略包括类中心策略和类内K均值聚类策略;选择模块340进一步用于,基于类中心策略从所述训练数据样本中选择第一代表性样本;基于类内K均值聚类策略从所述训练数据样本中选择第二代表性样本;对所述第一代表性样本和所述第二代表性样本进行混合去重,得到所述代表性样本。
可选的,选择模块340进一步用于,基于所述训练数据样本确定多个类别;针对每个类别,基于该类别下样本的样本数量、各所述样本的特征,确定该类别的类中心,计算每个所述样本与所述类中心之间的欧式距离,按照每个所述样本的欧式距离进行降序排序,选择排序在前预设数量的所述样本作为代表该类别的第一代表性样本。
可选的,选择模块340进一步用于,从所述训练数据样本的样本中选择K个初始化聚类中心;计算每个所述样本分别到各所述初始化聚类中心的距离,将所述样本分到距离聚类中心最近的簇中,响应所有所述样本都完成划分,形成K个簇;重新计算每个所述簇包括的样本的均值,将所述均值作为新的聚类中心;计算每个所述样本到各所述新的聚类中心的距离,更新K个所述簇;重复上述步骤来更新每个所述簇的聚类中心,直到所有的所述样本无法更新到其他的所述簇中;针对每个所述簇,计算该簇中各所述样本到该簇的聚类中心的欧氏距离,按照每个所述样本的欧式距离进行降序排序,选择排序在前预设数量的所述样本作为代表该簇的所述第二代表性样本。
可选的,测试模块360进一步用于,计算精确率、召回率、准确率和混淆矩阵;确定所述精确率、召回率、准确率和混淆矩阵是否小于预设阈值;若不小于所述预设阈值,根据所述精确率、召回率、准确率和混淆矩阵对所述文本分类模型的模型参数进行调整。
进一步的,选择模块340进一步用于,若小于或等于所述增量学习阈值,将所述训练数据样本和所述增量学习样本进行合并,组成所述增量训练数据样本。
需要说明的是,本发明实施例所提供的文本分类装置对应的可用于执行上述各方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图4为本发明实施例中的一种电子设备的结构示意图。下面具体参考图4,其示出了适于用来实现本发明实施例中的电子设备400的结构示意图。本发明实施例中的电子设备400可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理以实现如本发明所述的实施例的方法。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代的实施或具备更多或更少的装置。
特别的,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码,从而实现如上所述的方法。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM402被安装。在该计算机程序被处理装置401执行时,执行本发明实施例的方法中限定的上述功能。
需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,终端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
获取初始训练数据样本和初始测试数据样本,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本;判断是否存在增量学习数据样本;若存在所述增量学习数据样本,则判断所述训练数据样本和所述增量学习样本的样本总数是否大于增量学习阈值;若大于所述增量学习阈值,基于样本选择策略从所述训练数据样本中选择代表性样本,将所述代表性样本与所述增量学习数据样本进行合并,组成增量训练数据样本;通过所述增量训练数据样本对文本分类模型进行训练,得到训练后的所述文本分类模型;根据所述测试数据样本对所述训练后的所述文本分类模型进行测试,并根据测试结果调整所述训练后的所述文本分类模型的模型参数。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (7)

1.一种文本分类方法,其特征在于,所述方法包括:
获取初始训练数据样本和初始测试数据样本,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本;
判断是否存在增量学习数据样本;
若存在所述增量学习数据样本,则判断所述训练数据样本和所述增量学习数据样本的样本总数是否大于增量学习阈值;
若大于所述增量学习阈值,基于所述训练数据样本确定多个类别,针对每个类别,基于该类别下样本的样本数量、各所述样本的特征,确定该类别的类中心,计算每个所述样本与所述类中心之间的欧式距离,按照每个所述样本的欧式距离进行降序排序,选择排序在前预设数量的所述样本作为代表该类别的第一代表性样本;从所述训练数据样本的样本中选择K个初始化聚类中心,计算每个所述样本分别到各所述初始化聚类中心的距离,将所述样本分到距离聚类中心最近的簇中,响应所有所述样本都完成划分,形成K个簇,重新计算每个所述簇包括的样本的均值,将所述均值作为新的聚类中心,计算每个所述样本到各所述新的聚类中心的距离,更新K个所述簇,重复上述步骤来更新每个所述簇的聚类中心,直到所有的所述样本无法更新到其他的所述簇中,针对每个所述簇,计算该簇中各所述样本到该簇的聚类中心的欧氏距离,按照每个所述样本的欧式距离进行降序排序,选择排序在前预设数量的所述样本作为代表该簇的第二代表性样本;对所述第一代表性样本和所述第二代表性样本进行混合去重,得到代表性样本,将所述代表性样本与所述增量学习数据样本进行合并,组成增量训练数据样本;
通过所述增量训练数据样本对文本分类模型进行训练,得到训练后的所述文本分类模型;
根据所述测试数据样本对所述训练后的所述文本分类模型进行测试,并根据测试结果调整所述训练后的所述文本分类模型的模型参数。
2.根据权利要求1所述的一种文本分类方法,其特征在于,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本的步骤,包括:
对所述初始训练数据样本和所述初始测试数据样本进行分词,得到多个第一分词;
对所述第一分词进行去重处理后得到多个第二分词;
对每个第二分词进行编号处理,生成文本词典,文本词典中每个编号为每个所述第二分词的唯一标识;
根据各所述初始训练数据样本和所述初始测试数据样本分别包括的所述第一分词,在所述文本词典中查找各所述第一分词对应的编号;
基于各所述第一分词对应的编号,确定所述初始训练数据样本包括的编号和所述初始测试数据样本包括的编号;
将所述初始训练数据样本包括的编号和所述初始测试数据样本包括的编号分别进行组合,生成向量化后的训练数据样本和测试数据样本。
3.根据权利要求1所述的一种文本分类方法,其特征在于,所述根据测试结果调整所述训练后的所述文本分类模型的模型参数的步骤包括:
计算精确率、召回率、准确率和混淆矩阵;
确定所述精确率、召回率、准确率和混淆矩阵是否小于预设阈值;
若不小于所述预设阈值,根据所述精确率、召回率、准确率和混淆矩阵对所述文本分类模型的模型参数进行调整。
4.根据权利要求1所述的一种文本分类方法,其特征在于,还包括:
若小于或等于所述增量学习阈值,将所述训练数据样本和所述增量学习数据样本进行合并,组成所述增量训练数据样本。
5.一种文本分类装置,其特征在于,包括:
处理模块,被配置为获取初始训练数据样本和初始测试数据样本,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本;
第一判断模块,被配置为判断是否存在增量学习数据样本;
第二判断模块,被配置为若存在所述增量学习数据样本,则判断所述训练数据样本和所述增量学习数据样本的样本总数是否大于增量学习阈值;
选择模块,被配置为若大于所述增量学习阈值,基于所述训练数据样本确定多个类别,针对每个类别,基于该类别下样本的样本数量、各所述样本的特征,确定该类别的类中心,计算每个所述样本与所述类中心之间的欧式距离,按照每个所述样本的欧式距离进行降序排序,选择排序在前预设数量的所述样本作为代表该类别的第一代表性样本;从所述训练数据样本的样本中选择K个初始化聚类中心,计算每个所述样本分别到各所述初始化聚类中心的距离,将所述样本分到距离聚类中心最近的簇中,响应所有所述样本都完成划分,形成K个簇,重新计算每个所述簇包括的样本的均值,将所述均值作为新的聚类中心,计算每个所述样本到各所述新的聚类中心的距离,更新K个所述簇,重复上述步骤来更新每个所述簇的聚类中心,直到所有的所述样本无法更新到其他的所述簇中,针对每个所述簇,计算该簇中各所述样本到该簇的聚类中心的欧氏距离,按照每个所述样本的欧式距离进行降序排序,选择排序在前预设数量的所述样本作为代表该簇的第二代表性样本;对所述第一代表性样本和所述第二代表性样本进行混合去重,得到代表性样本,将所述代表性样本与所述增量学习数据样本进行合并,组成增量训练数据样本;
训练模块,被配置为通过所述增量训练数据样本对文本分类模型进行训练,得到训练后的所述文本分类模型;
测试模块,被配置为根据所述测试数据样本对所述训练后的所述文本分类模型进行测试,并根据测试结果调整所述训练后的所述文本分类模型的模型参数。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4任意一项所述的方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-4任意一项所述的方法。
CN202310044272.0A 2023-01-30 2023-01-30 一种文本分类方法、装置、电子设备和存储介质 Active CN115774854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310044272.0A CN115774854B (zh) 2023-01-30 2023-01-30 一种文本分类方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310044272.0A CN115774854B (zh) 2023-01-30 2023-01-30 一种文本分类方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115774854A CN115774854A (zh) 2023-03-10
CN115774854B true CN115774854B (zh) 2023-06-02

Family

ID=85393728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310044272.0A Active CN115774854B (zh) 2023-01-30 2023-01-30 一种文本分类方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115774854B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235270B (zh) * 2023-11-16 2024-02-02 中国人民解放军国防科技大学 基于信度混淆矩阵的文本分类方法、装置和计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111092894A (zh) * 2019-12-23 2020-05-01 厦门服云信息科技有限公司 一种基于增量学习的webshell检测方法、终端设备及存储介质
CN114549897A (zh) * 2022-02-15 2022-05-27 山东云海国创云计算装备产业创新中心有限公司 一种分类模型的训练方法、装置及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002008000A (ja) * 2000-06-16 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN106778795A (zh) * 2015-11-24 2017-05-31 华为技术有限公司 一种基于增量学习的分类方法及装置
US11068656B2 (en) * 2019-04-10 2021-07-20 International Business Machines Corporation Displaying text classification anomalies predicted by a text classification model
US11847414B2 (en) * 2020-04-24 2023-12-19 Deepmind Technologies Limited Robustness to adversarial behavior for text classification models
CN112000809B (zh) * 2020-09-29 2024-05-17 迪爱斯信息技术股份有限公司 一种文本类别的增量学习方法及装置、可读存储介质
CN114139726A (zh) * 2021-12-01 2022-03-04 北京欧珀通信有限公司 数据处理方法及装置、电子设备、存储介质
CN115344696A (zh) * 2022-08-03 2022-11-15 电信科学技术第十研究所有限公司 一种基于主动学习的开放域小样本文本学习方法
CN115408527B (zh) * 2022-11-02 2023-03-10 北京亿赛通科技发展有限责任公司 文本分类方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111092894A (zh) * 2019-12-23 2020-05-01 厦门服云信息科技有限公司 一种基于增量学习的webshell检测方法、终端设备及存储介质
CN114549897A (zh) * 2022-02-15 2022-05-27 山东云海国创云计算装备产业创新中心有限公司 一种分类模型的训练方法、装置及存储介质

Also Published As

Publication number Publication date
CN115774854A (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
US9858534B2 (en) Weight generation in machine learning
KR102170199B1 (ko) 비교 세트를 사용한 입력 예시들 분류
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN110489507B (zh) 确定兴趣点相似度的方法、装置、计算机设备和存储介质
CN102141977A (zh) 一种文本分类的方法及装置
EP3072069A1 (en) Generation of weights in machine learning
WO2022121801A1 (zh) 信息处理方法、装置和电子设备
CN115774854B (zh) 一种文本分类方法、装置、电子设备和存储介质
EP3620982A1 (en) Sample processing method and device
CN111832312A (zh) 文本处理方法、装置、设备和存储介质
CN112214576B (zh) 舆情分析方法、装置、终端设备及计算机可读存储介质
CN115082920A (zh) 深度学习模型的训练方法、图像处理方法和装置
CN112580733A (zh) 分类模型的训练方法、装置、设备以及存储介质
CN115271071A (zh) 基于图神经网络的知识图谱实体对齐方法、系统及设备
CN115238582A (zh) 知识图谱三元组的可靠性评估方法、系统、设备及介质
CN113239697B (zh) 实体识别模型训练方法、装置、计算机设备及存储介质
CN114972877A (zh) 一种图像分类模型训练方法、装置及电子设备
US10769517B2 (en) Neural network analysis
CN111144574A (zh) 使用指导者模型训练学习者模型的人工智能系统和方法
CN113448821B (zh) 一种识别工程缺陷的方法和装置
CN108550019A (zh) 一种简历筛选方法及装置
CN111949837A (zh) 信息处理方法、装置、电子设备以及存储介质
CN115827705A (zh) 用于反事实解释的数据处理方法和装置
CN110688508B (zh) 图文数据扩充方法、装置及电子设备
CN111461328B (zh) 一种神经网络的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant