CN115408527A

CN115408527A - 文本分类方法、装置、电子设备及存储介质

Info

Publication number: CN115408527A
Application number: CN202211360818.5A
Authority: CN
Inventors: 郭振涛; 梁金千; 崔培升
Original assignee: BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Current assignee: BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2022-11-29
Anticipated expiration: 2042-11-02
Also published as: CN115408527B

Abstract

本发明涉及信息处理技术领域，提供了一种文本分类方法、装置、电子设备及存储介质，该方法包括获取新输入文本；根据增量选择策略，筛选新输入文本得到增量样本，其中增量选择策略与新输入文本的类别概率分布相关，新输入文本的类别概率分布通过预先训练的分类模型进行预测获得；根据增量样本的类别，更新分类模型的参数。采用本发明的文本分类方法，能够对新输入文本进行增量学习分类，与时俱进，灵活性强，同时准确率高。

Description

文本分类方法、装置、电子设备及存储介质

技术领域

本发明一般涉及信息处理技术领域，具体涉及一种文本分类方法、装置、电子设备及存储介质。

背景技术

现代社会，互联网技术已深入到人们生活的方方面面。随之而来的是各种数据爆炸式增长，此时对文本数据进行有效分类便显得尤为重要。

常见的，例如公开号为CN1310825A的中国专利申请，提出一种用于分类文本以及构造文本分类器的方法和装置，根据文本信息对象训练集生成分类器参数以便确定文本信息对象是否属于该种类。

目前相关技术通过将所有文本数据一次性全部读入内存之后再分类处理，但这种方式受限于存储技术的制约，难以一次性读入海量数据。同时通常情况下，文本数据都是分批次获得的，这更增加了一次性喂给的难度，具有局限性。

发明内容

鉴于相关技术中的上述缺陷或不足，期望提供一种文本分类方法、装置、电子设备及存储介质，能够对新输入文本进行增量学习分类，与时俱进，灵活性强，同时准确率高。

第一方面，本发明提供一种文本分类方法，该方法包括：

获取新输入文本；

根据增量选择策略，筛选新输入文本得到增量样本，其中增量选择策略与新输入文本的类别概率分布相关，新输入文本的类别概率分布通过预先训练的分类模型进行预测获得；

根据增量样本的类别，更新分类模型的参数。

可选的，在本发明一些实施例中，根据增量选择策略，筛选新输入文本得到增量样本，包括：

计算新输入文本对应各类别的概率；

当各类别的概率中存在一个类别的概率大于剩余类别的概率之和的预设倍数时，将新输入文本作为增量样本。

可选的，在本发明一些实施例中，根据增量样本的类别，更新分类模型的参数，包括：

检测增量样本的类别与分类模型的类别是否相同，以及分类模型的特征词是否属于增量样本；

基于检测结果对分类模型的类别概率和特征词概率进行更新。

可选的，在本发明一些实施例中，基于检测结果对分类模型的类别概率和特征词概率进行更新，包括：

其中，

表示所有类别的文本总数，而文本数量的更新为N=N+1；

表示类别

的所有文本中所有特征词的词频总和；表示增量样本

中出现的所有词的词频总和；

表示特征词

在增量样本中的词频；

为增量样本

的预测类别。

可选的，在本发明一些实施例中，预先训练的分类模型通过如下步骤得到：

获取文本数据集；

对文本数据集进行预处理，获得词汇表；

根据词汇表中的特征词，构建向量空间模型以将文本数据转化为向量，并进行训练得到分类模型。

可选的，在本发明一些实施例中，根据词汇表中的特征词，构建向量空间模型以将文本数据转化为向量之前，该方法还包括：

根据特征词的词频和逆文件频率，计算特征词的权重；

根据特征词的权重，对特征词进行排序筛选。

可选的，在本发明一些实施例中，分类模型包括朴素贝叶斯分类模型。

第二方面，本发明提供一种文本分类装置，该装置包括：

获取模块，用于获取新输入文本；

筛选模块，用于根据增量选择策略，筛选新输入文本得到增量样本，其中增量选择策略与新输入文本的类别概率分布相关，新输入文本的类别概率分布通过预先训练的分类模型进行预测获得；

更新模块，用于根据增量样本的类别，更新分类模型的参数。

第三方面，本发明提供一种电子设备，包括处理器和存储器，存储器中存储有至少一段程序、代码集或指令集，所述程序、所述代码集或所述指令集由处理器加载并执行以实现第一方面中任意一项的文本分类方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现第一方面所描述的文本分类方法的步骤。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例提供了一种文本分类方法、装置、电子设备及存储介质，通过增量选择策略来筛选新输入文本得到增量样本，其中增量选择策略与新输入文本的类别概率分布相关，而新输入文本的类别概率分布通过预先训练的分类模型进行预测获得，此时一方面能够使分类模型复习之前学习过的知识，温故知新，另一方面还能够选择具有较高表达能力的文本用于增量学习，提高了模型识别的准确率。进一步的，根据增量样本的类别来更新分类模型的参数，与时俱进，以适应新数据，灵活性更强。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的一种文本分类方法的流程示意图；

图2为本发明实施例提供的一种混淆矩阵示意图；

图3为本发明实施例提供的一种文本分类装置的结构示意图；

图4为本发明实施例提供的另一种文本分类装置的结构示意图；

图5为本发明实施例提供的又一种文本分类装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”“第二”“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚的列出的那些步骤或模块，而是可包括没有清楚的列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为便于更好的理解本发明，下面通过图1至图5详细的阐述本发明实施例提供的文本分类方法、装置、电子设备及存储介质。

请参考图1，其为本发明实施例提供的一种文本分类方法的流程示意图，该方法可以包括以下步骤：

S101，获取新输入文本。

示例性的，本发明实施例中新输入文本可以为分批次获得的文本。

S102，根据增量选择策略，筛选新输入文本得到增量样本，其中增量选择策略与新输入文本的类别概率分布相关，新输入文本的类别概率分布通过预先训练的分类模型进行预测获得。

示例性的，本发明实施例首先计算新输入文本对应各类别的概率，然后当各类别的概率中存在一个类别的概率大于剩余类别的概率之和的预设倍数α时，将新输入文本作为增量样本，比如预设倍数α的取值范围为[1/2,1]。这样设置的好处在于不仅能够使分类模型复习之前学习过的知识，温故知新，还能够选择具有较高表达能力的文本用于增量学习，提高了模型识别的准确率。

可选的，本发明实施例在预先训练分类模型的过程中，首先获取文本数据集，比如该文本数据集为公开数据集THUCNews的子集，并统计文本总数；然后，对文本数据集进行预处理，获得词汇表，比如预处理包括但不限于分词和去除停用词等，即提取文本的特征词；进而，根据词汇表中的特征词，构建向量空间模型以将文本数据转化为向量，此时可以查看向量维度，并进行训练得到分类模型，即通过文本数据集构建的训练集中文本向量来训练模型，计算

和

并保存，其中

表示类别

的概率，

表示已知类别

的情况下特征词

的概率。

可选的，本发明一些实施例在根据词汇表中的特征词，构建向量空间模型以将文本数据转化为向量之前，还可以首先根据特征词的词频（TF值）和逆文件频率（IDF值），计算特征词的权重（TF-IDF值）；然后根据特征词的权重（TF-IDF值），对特征词进行排序筛选，比如降序排序，并选取排名在前10%的特征词。这样设置的好处是通过降维处理，能够简化计算，大幅提高性能。

可选的，本发明一些实施例中分类模型包括但不限于朴素贝叶斯分类模型，这样设置的好处在于高效且简单易实现，并且支持多分类。

S103，根据增量样本的类别，更新分类模型的参数。

示例性的，本发明实施例在检测增量样本的类别与分类模型的类别是否相同，以及分类模型的特征词是否属于增量样本之后，基于检测结果对分类模型的类别概率和特征词概率进行更新，即：

其中，

表示所有类别的文本总数，而文本数量的更新为N=N+1；

表示类别

的所有文本中所有特征词的词频总和；

表示增量样本

中出现的所有词的词频总和；

表示特征词

在增量样本

中的词频；

为增量样本

的预测类别。

可选的，本发明一些实施例在分类模型的参数更新之后，还可以通过文本数据集构建的测试集对模型进行批量测试，获得混淆矩阵，并计算召回率、精确率和F1值。比如训练集为THUCNews数据集的子集，教育、财经、彩票和房产四类文本，每类有10篇文本，而在增量学习实现中，新增各类别的数量为{'财经': 51, '教育': 41, '彩票': 37, '房产':31}，增量学习后N=200。进一步的，测试集数据量为{'财经': 1000, '教育': 1200, '彩票': 800, '房产': 1000}，通过增量学习后的朴素贝叶斯分类模型对测试数据集进行测试后，混淆矩阵如图2所示。以此混淆矩阵计算得出的评价指标如表1所示，可以看出本发明实施例提供的方法能够完美实现增量学习进行文本分类。

表1 评价指标

	召回率<sub>(完备性)</sub>	精确率<sub>(精确性)</sub>	F1值<sub>(调和平均)</sub>
				彩票	0.8225	0.9985	0.902
房产	0.984	0.9425	0.9628
				教育	0.8917	0.9953	0.9407
财经	0.992	0.8118	0.8929

本发明实施例提供的文本分类方法，通过增量选择策略来筛选新输入文本得到增量样本，其中增量选择策略与新输入文本的类别概率分布相关，而新输入文本的类别概率分布通过预先训练的分类模型进行预测获得，此时一方面能够使分类模型复习之前学习过的知识，温故知新，另一方面还能够选择具有较高表达能力的文本用于增量学习，提高了模型识别的准确率。进一步的，根据增量样本的类别来更新分类模型的参数，与时俱进，以适应新数据，灵活性更强。

基于前述实施例，本发明实施例提供一种文本分类装置。该文本分类装置100可以应用于图1~图2对应实施例的文本分类方法中。请参考图3，该文本分类装置100包括：

获取模块101，用于获取新输入文本；

筛选模块102，用于根据增量选择策略，筛选新输入文本得到增量样本，其中增量选择策略与新输入文本的类别概率分布相关，新输入文本的类别概率分布通过预先训练的分类模型进行预测获得；

更新模块103，用于根据增量样本的类别，更新分类模型的参数。

可选的，如图4所示，本发明一些实施例中筛选模块102包括：

计算单元1021，用于计算新输入文本对应各类别的概率；

确定单元1022，用于当各类别的概率中存在一个类别的概率大于剩余类别的概率之和的预设倍数时，将新输入文本作为增量样本。

可选的，如图5所示，本发明一些实施例中更新模块103包括：

检测单元1031，用于检测增量样本的类别与分类模型的类别是否相同，以及分类模型的特征词是否属于增量样本；

更新单元1032，用于基于检测结果对分类模型的类别概率和特征词概率进行更新。

可选的，本发明一些实施例中更新单元1032还用于根据下式进行参数更新，即：

其中，

表示所有类别的文本总数，而文本数量的更新为N=N+1；

表示类别

的所有文本中所有特征词的词频总和；

表示增量样本

中出现的所有词的词频总和；

表示特征词

在增量样本

中的词频；

为增量样本

的预测类别。

可选的，本发明一些实施例中筛选模块102还用于获取文本数据集；

对文本数据集进行预处理，获得词汇表；

可选的，本发明一些实施例中筛选模块102还用于根据特征词的词频和逆文件频率，计算特征词的权重；

根据特征词的权重，对特征词进行排序筛选。

可选的，本发明一些实施例中分类模型包括朴素贝叶斯分类模型。

需要说明的是，本实施例中与其它实施例中相同步骤和相同内容的说明，可以参照其它实施例中的描述，此处不再赘述。

本发明实施例提供的文本分类装置，该文本分类装置中获取模块能够获取新输入文本，而筛选模块能够根据增量选择策略，筛选新输入文本得到增量样本，其中增量选择策略与新输入文本的类别概率分布相关，新输入文本的类别概率分布通过预先训练的分类模型进行预测获得，此时一方面可以使分类模型复习之前学习过的知识，温故知新，另一方面还可以选择具有较高表达能力的文本用于增量学习，提高了模型识别的准确率。进一步的，更新模块能够根据增量样本的类别，更新分类模型的参数，与时俱进，以适应新数据，灵活性更强。

基于前述实施例，本发明实施例提供一种电子设备，该电子设备包括处理器和存储器。存储器中存储有至少一段程序、代码集或指令集，该程序、代码集或指令集由处理器加载并执行以实现图1~图2对应实施例的文本分类方法的步骤。

作为另一方面，本发明实施例提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述图1~图2对应实施例的文本分类方法中的任意一种实施方式。

所属领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。而集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例文本分类方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory， ROM）、随机存取存储器（RandomAccess Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。