CN114579752B

CN114579752B - 基于特征重要度的长文本分类方法、装置和计算机设备

Info

Publication number: CN114579752B
Application number: CN202210498941.7A
Authority: CN
Inventors: 戴超凡; 何华; 邓苏; 吴亚辉; 马武彬; 周浩浩
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2023-05-26
Anticipated expiration: 2042-05-09
Also published as: CN114579752A

Abstract

本申请涉及一种基于特征重要度的长文本分类方法、装置和计算机设备。所述方法包括：获取待分类的原始文本语料；待分类的原始文本语料包含多个长文本；对长文本进行数据处理，得到原始文本；根据BoW模型对原始文本进行特征寻找，得到特征字段；利用梯度推进分类器计算特征字段的重要性，将特征字段的重要性从高到低排列，得到特征字段重要度排列表；从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本；利用分类模型对标准长度的文本进行分类，得到分类结果。采用本发明能够提高文本分类效率。

Description

基于特征重要度的长文本分类方法、装置和计算机设备

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于特征重要度的长文本分类方法、装置、计算机设备和存储介质。

背景技术

随着计算机硬件设备提高和网络通信技术的迅猛发展，互联网使用者呈指数级上升，互联网上数据量因此呈爆炸性增长。互联网数据产生渠道众多，包括但不限于新闻媒体信息、知乎微博等，其中的大部分都是非结构化数据，给使用者快速获取有效信息带来了较多困难。如何快速分析非结构化数据，获取文本相关的分类信息，以进行高效利用，是当前亟需解决的问题，也是文本分类研究的重要内容之一。文本分类在文本处理中是很重要的一个模块，它的应用也非常广泛，比如：垃圾过滤，新闻分类，词性标注等等。它和其他的分类没有本质的区别，核心方法为首先提取分类数据的特征，然后选择最优的匹配，从而分类。但是文本也有自己的特点，根据文本的特点，文本分类的一般流程为：1.预处理；2.文本表示及特征选择；3.构造分类器；4.分类。通常来讲，文本分类任务是指在给定的分类体系中，将文本指定分到某个或某几个类别中。被分类的对象有短文本，例如句子、标题、商品评论等等，长文本，如文章等。分类体系一般人工划分，例如：1）政治、体育、军事 2）正能量、负能量 3）好评、中性、差评。因此，对应的分类模式可以分为：二分类与多分类问题。

然而，传统文本分类方法将整个文本分类问题就拆分成了特征工程和分类器两部分。特征工程分为文本预处理、特征提取、文本表示三个部分，最终目的是把文本转换成计算机可理解的格式，并封装足够用于分类的信息，即很强的特征表达能力。在过去的十年中，随着transformer模型的应用，文本分类技术得到了质的飞跃。但受限于计算机的运算能力，大多数研究状态的transformer模型都限制了文本的长度，文本分类效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高文本分类效率的基于特征重要度的长文本分类方法、装置、计算机设备和存储介质。

一种基于特征重要度的长文本分类方法，所述方法包括：

获取待分类的原始文本语料；待分类的原始文本语料包含多个长文本；

对长文本进行数据处理，得到原始文本；

根据BoW模型对原始文本进行特征寻找，得到特征字段；

利用梯度推进分类器计算特征字段的重要性，将特征字段的重要性从高到低排列，得到特征字段重要度排列表；

从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本；

利用分类模型对标准长度的文本进行分类，得到分类结果。

在其中一个实施例中，对待分类的长文本进行数据处理，得到原始文本，包括：

对待分类的长文本进行数据处理，去掉待分类的长文本的无用信息，得到原始文本;无用信息包括特殊符号、图片、停用词、url。

在其中一个实施例中，根据BoW模型对原始文本进行特征寻找，BoW模型输出特征字段列表和特征字段在每个文本中出现的次数，选择互信息最高的N个特征作为特征字段。

在其中一个实施例中，利用梯度推进分类器计算特征字段的重要性，将特征字段的重要性从高到低排列，得到特征字段重要度排列表，包括：

利用梯度推进分类器使用不同特征字段的分类效果计算得到各特征字段的重要性，按照重要性从高到低对分类器使用的特征进行排序，得到特征字段重要度排列表。

在其中一个实施例中，从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本，包括：

从原始文本中选择头部的Part1*NTA数量字段添加到新文本的开头并删除原始文本中的该字段，选取原始文本尾部的Part2*NTA数量字段添加到新字段的结尾并删除该字段，其中Part1+Part2≪1；

根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本。

在其中一个实施例中，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本，包括：

设新文本Part3=1-Part1-Part2,根据特征字段重要度排列表选取新文本Part3*NTA数量字段的中间字段部分，按顺序从高到低在原始文本的中间部分进行特征字段检索，如果特征字段存在就抽取该特征字段及其前后字段，如果不存在就继续查看下一特征字段，选中的字段从原始文本中删除；

将选取出的字段添加到新文本中，直到新文本的字段数达到NTA数量或遍历完特征重要度列表，得到标准长度的文本。

在其中一个实施例中，分类模型优选为Transformer模型。

一种基于特征重要度的长文本分类装置，所述装置包括：

数据处理模块，用于获取待分类的原始文本语料；待分类的原始文本语料包含多个长文本；对长文本进行数据处理，得到原始文本；

计算字段重要性模块，用于根据BoW模型对原始文本进行特征寻找，得到特征字段；利用梯度推进分类器计算特征字段的重要性，将特征字段的重要性从高到低排列，得到特征字段重要度排列表；

文本导游和分类模块，用于从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本；利用分类模型对标准长度的文本进行分类，得到分类结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对长文本进行数据处理，得到原始文本；

根据BoW模型对原始文本进行特征寻找，得到特征字段；

利用分类模型对标准长度的文本进行分类，得到分类结果。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

对长文本进行数据处理，得到原始文本；

根据BoW模型对原始文本进行特征寻找，得到特征字段；

利用分类模型对标准长度的文本进行分类，得到分类结果。

上述一种基于特征重要度的长文本分类方法、装置、计算机设备和存储介质，首先根据BoW模型对原始文本进行特征寻找，得到特征字段；利用梯度推进分类器计算特征字段的重要性，将特征字段的重要性从高到低排列，得到特征字段重要度排列表，从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本；利用分类模型对标准长度的文本进行分类，得到分类结果，本发明通过对原始文本进行特征寻找和分类，然后按照特征字段的重要性选择原始文本中的字段内容，将原始长文本截断为满足NTA要求的文本，精简后的标准长度的文本计算成本很低并且在最终分类性能得到了提升，有助于从海量文本中快速分类，加快信息分类速度，减少决策反应时间，在不对后续分类器产生任何干扰的前提下，降低了文本分类计算的成本并提升了最终的分类效果，进而提高文本分类的效率并且截断生成的标准长度的文本不会干扰其后使用的分类模型，具有普适性。

附图说明

图1为一个实施例中一种基于特征重要度的长文本分类方法的流程示意图；

图2为一个实施例中获取标准长度的文本步骤的流程示意图；

图3为一个实施例中一种基于特征重要度的长文本分类装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于特征重要度的长文本分类方法，包括以下步骤：

步骤102，获取待分类的原始文本语料；待分类的原始文本语料包含多个长文本；对长文本进行数据处理，得到原始文本。

本发明对原始文本中的数据进行清洗，去除掉数据的特殊符号、图片、停用词、url等无用信息，便于训练BoW模型。

步骤104，根据BoW模型对原始文本进行特征寻找，得到特征字段；利用梯度推进分类器计算特征字段的重要性，将特征字段的重要性从高到低排列，得到特征字段重要度排列表。

根据BoW模型对原始文本进行特征寻找，BoW模型输出字段特征列表和其在每个文本中出现的次数，为了提高性能和减少过拟合，只选择互信息最高的N个特征；利用机器学习方法训练得到的N个特征，例如梯度增强分类器；

梯度推进分类器使用不同特征字段的分类效果计算得到各特征字段的重要性，然后按照重要性从高到低对分类器使用的特征进行排序，可以得到特征字段重要度排列表，利用得到特征重要度列表对原始文本进行文本导游，将原始的长文本被截断为满足NTA限制的短文本。

步骤106，从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本；利用分类模型对标准长度的文本进行分类，得到分类结果。

从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本的过程称为文本导游，文本导游在本发明中的过程如下：

步骤1，从原始文本中选择头部的Part1*NTA数量字段添加到新文本的开头并删除原始文本中的该字段，选取原始文本尾部的Part2*NTA数量字段添加到新字段的结尾并删除该字段，保证Part1+Part2≪1；

步骤2，设Part3=1-Part1-Part2,则新文本Part3*NTA数量字段的中间字段部分的选取需要借助步骤1输出的特征重要度列表，按顺序从高到低在原始文本的中间部分进行检索，如果该特征字段存在就抽取该字段及其前后字段，如果不存在就继续查看下一特征字段，选中的字段从原始文本中删除；

步骤3，将选取出的字段添加到新文本中；

步骤4，重复步骤2和3，直到新文本的字段数达到NTA数量或遍历完步骤1输出的特征重要度列表；

步骤5，对原始文本中的所有样本重复步骤1~4，创建一个新文本库，其中所有文本样本都满足NTA要求。

在文本导游后，长文本分类问题被简化为“标准长度”文本的分类任务，利用传统Transformer模型进行文本分类，输出经过文本导游的新文本以及文本分类模型。

本发明适用于长文本军事情报分析、金融大事件分析等专有领域场景，可以有效精简长文本，且该方法是与分类模型无关的方法，所以本发明不会干扰后来选择的语言模型。精简后的标准长度的文本计算成本很低并且在最终分类性能得到了提升，有助于从海量文本中快速分类，加快信息分类速度，减少决策反应时间。

上述一种基于特征重要度的长文本分类方法中，首先根据BoW模型对原始文本进行特征寻找，得到特征字段；利用梯度推进分类器计算特征字段的重要性，将特征字段的重要性从高到低排列，得到特征字段重要度排列表，从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本；利用分类模型对标准长度的文本进行分类，得到分类结果，本发明通过对原始文本进行特征寻找和分类，然后按照特征字段的重要性选择原始文本中的字段内容，将原始长文本截断为满足NTA要求的文本，从而在保持较低计算成本的同时，精简后的标准长度的文本计算成本很低并且在最终分类性能得到了提升，有助于从海量文本中快速分类，加快信息分类速度，减少决策反应时间，在不对后续分类器产生任何干扰的前提下，降低了文本分类计算的成本并提升了最终的分类效果，进而提高文本分类的效率并且截断生成的标准长度的文本不会干扰其后使用的分类模型，具有普适性。

设新文本Part3=1-Part1-Part2,根据特征字段重要度排列表选取新文本Part3*NTA数量字段的中间字段部分，按顺序从高到低在原始文本的中间部分进行特征字段检索，如果特征字段存在就抽取该特征字段及其前后字段，如图2所示，如果不存在就继续查看下一特征字段，选中的字段从原始文本中删除；

在其中一个实施例中，分类模型优选为Transformer模型。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种基于特征重要度的长文本分类装置，包括：数据处理模块302、计算字段重要性模块304和文本导游和分类模块306，其中：

数据处理模块302，用于获取待分类的原始文本语料；待分类的原始文本语料包含多个长文本；对长文本进行数据处理，得到原始文本。

计算字段重要性模块304，用于根据BoW模型对原始文本进行特征寻找，得到特征字段；利用梯度推进分类器计算特征字段的重要性，将特征字段的重要性从高到低排列，得到特征字段重要度排列表；

文本导游和分类模块306，用于从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本；利用分类模型对标准长度的文本进行分类，得到分类结果。

在其中一个实施例中，数据处理模块302还用于对待分类的长文本进行数据处理，得到原始文本，包括：

在其中一个实施例中，计算字段重要性模块304还用于根据BoW模型对原始文本进行特征寻找，BoW模型输出特征字段列表和特征字段在每个文本中出现的次数，选择互信息最高的N个特征作为特征字段。

在其中一个实施例中，计算字段重要性模块304还用于利用梯度推进分类器计算特征字段的重要性，将特征字段的重要性从高到低排列，得到特征字段重要度排列表，包括：

在其中一个实施例中，文本导游和分类模块306还用于从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本，包括：

在其中一个实施例中，文本导游和分类模块306还用于根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本，包括：

在其中一个实施例中，分类模型优选为Transformer模型。

关于一种基于特征重要度的长文本分类装置的具体限定可以参见上文中对于一种基于特征重要度的长文本分类方法的限定，在此不再赘述。上述一种基于特征重要度的长文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于特征重要度的长文本分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于特征重要度的长文本分类方法，其特征在于，所述方法包括：

获取待分类的原始文本语料；所述待分类的原始文本语料包含多个长文本；

对所述长文本进行数据处理，得到原始文本；

根据BoW模型对所述原始文本进行特征寻找，得到特征字段；

利用梯度推进分类器计算所述特征字段的重要性，将所述特征字段的重要性从高到低排列，得到特征字段重要度排列表；

从所述原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据所述特征字段重要度排列表来从所述原始文本中搜索字段填充所述新文本，得到标准长度的文本；

利用分类模型对所述标准长度的文本进行分类，得到分类结果；

从所述原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据所述特征字段重要度排列表来从所述原始文本中搜索字段填充所述新文本，得到标准长度的文本，包括：

从所述原始文本中选择头部的Part1*NTA数量字段添加到新文本的开头并删除原始文本中的该字段，选取原始文本尾部的Part2*NTA数量字段添加到新字段的结尾并删除该字段，其中Part1+Part2<<1；根据所述特征字段重要度排列表来从所述原始文本中搜索字段填充所述新文本，得到标准长度的文本；

根据所述特征字段重要度排列表来从所述原始文本中搜索字段填充所述新文本，得到标准长度的文本，包括：

设新文本Part3＝1-Part1-Part2,根据所述特征字段重要度排列表选取新文本Part3*NTA数量字段的中间字段部分，按顺序从高到低在所述原始文本的中间部分进行特征字段检索，如果所述特征字段存在就抽取该特征字段及其前后字段，如果不存在就继续查看下一特征字段，选中的字段从原始文本中删除；

将选取出的字段添加到新文本中，直到新文本的字段数达到NTA数量或遍历完所述特征重要度列表，得到标准长度的文本；

根据BoW模型对所述原始文本进行特征寻找，BoW模型输出特征字段列表和特征字段在每个文本中出现的次数，选择互信息最高的N个特征作为特征字段；

利用梯度推进分类器计算所述特征字段的重要性，将所述特征字段的重要性从高到低排列，得到特征字段重要度排列表，包括：

2.根据权利要求1所述的方法，其特征在于，对所述待分类的长文本进行数据处理，得到原始文本，包括：

对所述待分类的长文本进行数据处理，去掉待分类的长文本的无用信息，得到原始文本；所述无用信息包括特殊符号、图片、停用词、url。

3.根据权利要求1所述的方法，其特征在于，所述分类模型优选为Transformer模型。

4.一种基于特征重要度的长文本分类装置，其特征在于，所述装置包括：

文本导游和分类模块，用于从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾，根据特征字段重要度排列表来从原始文本中搜索字段填充新文本，得到标准长度的文本；利用分类模型对标准长度的文本进行分类，得到分类结果；

文本导游和分类模块还用于从所述原始文本中选择头部的Part1*NTA数量字段添加到新文本的开头并删除原始文本中的该字段，选取原始文本尾部的Part2*NTA数量字段添加到新字段的结尾并删除该字段，其中Part1+Part2＜＜1；

根据所述特征字段重要度排列表来从所述原始文本中搜索字段填充所述新文本，得到标准长度的文本；

计算字段重要性模块还用于根据BoW模型对所述原始文本进行特征寻找，BoW模型输出特征字段列表和特征字段在每个文本中出现的次数，选择互信息最高的N个特征作为特征字段；利用梯度推进分类器计算所述特征字段的重要性，将所述特征字段的重要性从高到低排列，得到特征字段重要度排列表，包括：

5.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。