CN114579746A

CN114579746A - 一种优化的高精度文本分类方法及装置

Info

Publication number: CN114579746A
Application number: CN202210222451.4A
Authority: CN
Inventors: 章欣; 高雨佳; 李雷; 毕家泽
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-03

Abstract

本发明涉及一种优化的高精度文本分类方法及装置，所述优化的高精度文本分类方法包括以下步骤：对文本进行预处理去除干扰项，得到待分类文本；将所述待分类文本进行低维映射得到词向量，并对所述待分类文本进行加权处理得到所述待分类文本中词语的权重值，将词向量和权重值结合得到加权词向量；对所述加权词向量进行语义特征信息提取得到高级特征信息；对所述高级特征信息进行权重分配，将词语级的所述高级特征信息连接成语句级特征信息，得到语句级特征向量；使用softmax函数对所述语句级特征向量进行文本分类，完成对文本的分类。本发明准确率、精确率、召回率以及f‑score值都有所提高；对语义关联词语有很好的处理效果。

Description

一种优化的高精度文本分类方法及装置

技术领域

本发明属于文本分类技术领域，尤其涉及一种优化的高精度文本分类方法及装置。

背景技术

随着即时通讯、网页等在线内容的快速增长，人们面对的文本信息越来越多，仅依靠人工筛选的方式远远不能满足文本分类需求。文本自动化分类一直以来都是语言处理领域研究的热点问题，在问答系统、情感分析、信息过滤等领域都有着广泛的应用。

目前的文本分类方法中基于改进卷积神经网络(Convolutional NeuralNetwork，CNN)的短文本分类模型存在上下文语义忽略的缺陷。循环神经网络(RecurrentNeural Network，RNN)在处理长文本时会导致部分信息的丢失，因此目前多采用RNN的变体长短时记忆网络(Long Short-Term Memory，LSTM)进行文本上下文语义信息的提取；混合神经网络结合了CNN 和LSTM提取文本特征的优点，大幅度提高了模型预测的效果，但没有考虑到文本中最关键的信息，没有将注意力集中在重要的词语上；CNN和LSTM 在提取文本信息时都有各自的优势，但都存在可解释性弱的不足的缺点。

随着注意力(Attention)机制被引入自然语言处理，同时利用基于规则算法的可解释性，并通过引入注意力机制将注意力集中在句子的关键部分，大幅度提高了文本分类的效果。以上模型虽然有效地提升了模型预测的效果，但大都采用递进式网络结构，提取到的信息向后传递时容易发生梯度消失和爆炸问题，同时递进式网络结构提取文本特征时只用到单一网络的优势，无法融合CNN和RNN提取文本特征的优势。

基于目前传统多类别文本分类算法普遍存在文本向量化表示维度高的问题，没有考虑词语对整体文本的重要程度，语义特征信息提取弱，无法处理一词多义与一义多词等语义关联情况等问题，有必要提供一种新的优化的高精度文本分类方法及装置解决上述技术问题。

发明内容

本发明的目的就在于为了解决上述问题而提供一种优化的高精度文本分类方法及装置。

本发明通过以下技术方案来实现上述目的：

一种优化的高精度文本分类方法，包括以下步骤：

S1：对文本进行预处理去除干扰项，得到待分类文本；

S2：将所述待分类文本进行低维映射得到词向量，并对所述待分类文本进行加权处理得到所述待分类文本中词语的权重值，将词向量和权重值结合得到加权词向量；

S3：使用BiLSTM模型对所述加权词向量进行语义特征信息提取得到高级特征信息；

S4：使用Attention模型对所述高级特征信息进行权重分配，将词语级的所述高级特征信息连接成语句级特征信息，得到语句级特征向量；

S5：使用softmax函数对所述语句级特征向量进行文本分类，完成对文本的分类。

作为本发明的进一步优化方案，所述步骤S1的具体内容如下：去除文本中不包含实际意义的词语，包括标点、语气词和助词，减少对文本信息的干扰。

作为本发明的进一步优化方案，所述步骤S2得到加权词向量的具体步骤如下：

S201：将文本序列化为x＝{x₁，x₂，...，x_T}并输入Word2vec模型中的 CBOW模型中生成词向量；

S202：利用TF-IDF的改进算法计算出所述待分类文本中每个词语的权重值w_tf-idf；

S203：将所述词向量与所述权重值相乘得到加权词向量，公式如下：

，

其中

便是加权后的词向量表示。

作为本发明的进一步优化方案，所述步骤S202的具体内容如下：

TF是词频，表示词语在文本中出现的频率，计算公式如下：

式中n_i，j是指该词语在文本中出现的次数，∑_k n_k，j则表示文本中所有词汇出现的次数总和；

IDF是逆文档频率，表示词语的重要程度，计算公式如下：

式中

是指语料库中所有词语频数之和，nt_i表示的含义是词语t_i在语料库中出现的总频数；

所述权重值为tf_i,j和idf_i的乘积，计算公式为：

w_tf-idf＝tf_i,j*idf_i

一种优化的高精度文本分类装置，包括：

预处理单元，用于对文本进行预处理去除干扰项，得到待分类文本；

映射加权单元，用于将所述待分类文本进行低维映射得到词向量，并对所述待分类文本进行加权处理得到所述待分类文本中词语的权重值，将词向量和权重值结合得到加权词向量；

语义特征提取单元，用于使用BiLSTM模型对所述加权词向量进行语义特征信息提取得到高级特征信息；

权重分配单元，用于使用Attention模型对所述高级特征信息进行权重分配，将词语级的所述高级特征信息连接成语句级特征信息，得到语句级特征向量；

分类单元，用于使用softmax函数对所述语句级特征向量进行文本分类，完成对文本的分类。

作为本发明的进一步优化方案，所述预处理单元去除文本中不包含实际意义的词语，包括标点、语气词和助词，减少对文本信息的干扰。

作为本发明的进一步优化方案，所述映射加权单元将文本序列化后并输入Word2vec模型中的CBOW模型中生成词向量；利用TF-IDF的改进算法计算出所述待分类文本中每个词语的权重值；将所述词向量与所述权重值相乘得到加权词向量。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时实现所述文本分类方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述文本分类方法的步骤。

本发明的有益效果在于：

本发明对文本不同位置赋予不同权值，体现了不同位置的词语重要程度。同时去除无关字符，减小对语义判断的干扰；通过计算分词的词语相似度，设定一定阈值进行分组，有效解决语义关联词语对文本分类的影响，使分类结果更加准确；针对传统TF-IDF算法中忽视了文档在每个类中的分布情况进行改进，改进后的加权方法降低了语料库中同类型文本对词语权重的影响，更精确的表达了词语在待查文本中的重要程度；使用Word2vec 进行文本向量化操作，生成蕴含语义信息且低纬稠密的词向量。改进TF-IDF 算法进行词权重值计算，与词向量构建加权词向量表示，反映了词语对文本的重要程度；利用BiLSTM能够有效的解决梯度消失与爆炸问题并能够很好的捕捉上下文语义信息，对文本进行深度学习，完成深层语义特征提取；最后融合Attention机制层，为BiLSTM输出的高级特征向量分配概率权重值，突出关键信息。相比于传统机器学习和经典深度学习具有更好的分类性能，准确率、精确率、召回率以及f-score值都有所提高，对语义关联词语有很好的处理效果。

附图说明

图1是本发明的文本分类方法的流程框图；

图2是本发明的Weight-Word2vec-BiLSTM-Attention模型图；

图3是本发明的加权词向量计算流程图；

图4是本发明的BiLSTM-Attention模型图。

图5是本发明的LSTM的结构图。

具体实施方式

下面结合附图对本申请作进一步详细描述，有必要在此指出的是，以下具体实施方式只用于对本申请进行进一步的说明，不能理解为对本申请保护范围的限制，该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。

实施例1

如图1-5所示，基于加权Word2vec、BiLSTM和Attention机制 (Weight-Word2vec-BiLSTM-Attention，WWBLA)的多类别文本分类模型：

首先进行文本预处理；

其次通过Word2vec模型对文本进行向量化处理；然后利用TF-IDF的改进算法计算出每个词语的权重值，与词向量相乘构建加权文本向量表示；

接着借助BiLSTM的上下文依赖能力进行语义特征信息提取；

在BiLSTM层之后融入Attention机制层，对每一个时刻输出的序列信息进行权重分配；

最后输入到softmax分类器中进行多类别文本分类。

模型核心架构如图2所示，包括输入层(Input Layer)、加权词向量层(WeightedEmbedding Layer)、双向长短时记忆神经网络层(BiLSTM Layer)、注意力机制层(Attention Layer)以及输出层(Output Layer)。

输入层主要作用将文本输入到模型中，加权词向量层将词语改进后的 TF-IDF值与其对应的词向量相乘，映射到低维空间，BiLSTM层使用双向长短时记忆神经网络从加权词向量层获得文本的高级特征，Attention层生成一个权重向量并与BiLSTM层的高级输出相乘，对每一个时刻输出的序列信息进行权重分配，将词语级特征全连接成语句级特征。输出层利用softmax 函数对语句级特征向量进行文本分类。

步骤一：文本预处理。

考虑到文本不同位置的信息重要程度的不同，本方法对文本不同位置进行加权处理。遵循以下原则：标题赋予权值5；首段和末段赋予权值3；每段首句赋予权值2；其他位置赋予权值1；

去除文本标点、语气词、助词等不包含实际意义的词语，以减少对文本信息的干扰。

步骤二：加权词向量表示。

考虑到很多词语存在一义多词和一词多义，以及上下文之间隐含的语义关系。在文本中这些词的这种关系体现为语义关联，这样会导致特征词提取的不准确。本方法通过知网计算文本分词后的语义相似度，取阈值大于0.9的词语进行合并处理。将这些存在语义关联的词归为一组，这样便利用语义特征将这些词联系起来。将它们划归为一组后，再一同计算信息增益值，最终对文本分类提供的信息量就会变大。

TF-IDF算法(Term Frequency-Inverse Document Frequency，词频率 -逆文档频率)是一种用于信息检索(Information Retrieval)与文本挖掘(Text Mining)的常用加权技术。

TF是词频，表示词语在文本中出现的频率，计算公式如下：

式中n_i,j是指该词语在文本中出现的次数，∑_kn_k,j则表示文本中所有词汇出现的次数总和。本方法中设置min_df＝2,即频数超过2的词才会被记录。以此降低特征稀疏性。

传统的TF-IDF算法中，IDF是逆文档频率，用来表示词语的重要程度，计算公式如下：

式中|D|是指语料库中的文件总数，|{j∶t_i∈d_j}|表示的含义是包含词语t_i的文件数目。

单纯认为文本频率小的词语越重要，文本频率大的词语越不重要。这对很多文本信息并不完全正确，特别是在同类语料库中，弊端尤为明显。本方法对此进行改进，计算公式如下：

式中

是指语料库中所有词语频数之和，nt_i表示的含义是词语t_i在语料库中出现的总频数。

其中改进的词语的TF-IDF值为tf_i,j和idf_i的乘积，计算公式为：

w_tf-idf＝tf_i,j*idf_i

利用Word2vec中的CBOW模型能够将文本映射成低维向量，并且能够克服语义鸿沟等问题，让文本的原始信息得到最大程度上的保留。但是 Word2vec的词向量不能够判断词语对于整个文本的重要程度，所以使用 TF-IDF改进算法来计算词语的权重值，刻画词语对文本的重要度，加权词向量计算流程如图3所示。

输入的文本序列为x＝{x₁,x₂,...,x_T}，输入进入CBOW模型中生成词向量，上述得知词语的TF-IDF权重值为w_tf-idf，将该值与词语的词向量序列进行相乘，得到加权词向量，计算公式如下所示：

其中

便是加权后的词向量表示。

步骤三：使用BiLSTM-Attention模型对多类别文本进行分类。

模型主要结构如图4所示。

双向长短时记忆网络(Bidirectional Long Short Term Memory，BiLSTM)，是由前向长短时记忆网络(Long Short Term Memory，LSTM)与后向长短时记忆网络组合而成。LSTM是循环神经网络(Recurrent Neural Network， RNN)的变体。是在RNN基础上经过“记忆细胞”改造过的，功能在于需要记录的信息会一直传递更新下去，而不需要的信息则会被遗忘丢弃。

LSTM的结构如图5所示，图中x^<t>表示的是t时刻的输入，f^<t>是遗忘门的输出，i^<t>是更新门的输出，o^<t>表示的是输出门的输出，c^～<t>表示t时刻的中间量，σ表示的是sigmoid函数。LSTM模型中各个门的计算公式如下所示：

Γ_f＝σ(W_f[a^<t-1>，x^<t>]+b_f)

Γ_u＝σ(W_u[a^<t-1>，x^<t>]+b_u)

c^～<t>＝tanh(W_c[a^<t-1>，x^<t>]+b_c)

Γ_o＝σ(W_o[a^<t-1>，x^<t>]+b_o)

c^<t>＝Γ_u*c^～<t>+Γ_f*c^<t-1>

a^<t>＝Γ_o*tanhc^<t-1>

其中W_f表示遗忘门连接的权重矩阵，b_f表示输入到遗忘门中的偏置值， W_u表示更新门连接的权重矩阵，b_u表示输入到更新门中的偏置值。W_c表示进行中间运算时的权重矩阵，b_c进行中间运算时的偏置值，W_o表示输出门连接的权重矩阵，b_c表示输入到输出门中的偏置值，*表示两个矩阵进行相乘运算，所以这给了记忆细胞选择是去维持旧的值c^<t-1>或者加上新的值 c^<t>。

其中BiLSTM是由两条LSTM正反向组合而成，假设短文本为x＝ {x₁，x₂，...，x_T}，其中T表示短文本分词后的长度，利用加权Word2Vec训练的词向量为

然后利用BiLSTM进行上下文情感信息特征提取，

表示正向特征提职，

表示反向特征提取，h_t表示两者的组合。具体公式如下所示：

其中w_t为正向输出时的权重矩阵，v_t反向输出时的权重矩阵，b_t则表示 t时刻的偏置值。

加权后的词向量为

经过BiLSTM层以后获得高级特征计算公式如下：

接着将输入到Attention机制层，文本信息在经历了加权Word2Vec的第一层特征提取和BiLSTM第二层特征提取后，得到的输出为h_t，经非线性变化后得到

然后参数随机初始化，使用梯度下降法对模型进行不断迭代更新，最后通过softmax层完成归一化操作，输出一个区间在[0，1]之间的实数，其相关公式如下所示：

其中w_v为注意力机制计算过程中的权重矩阵，b_v则为注意力机制计算过程中的偏置值，α_t则为注意力权重矩阵。

进行全连接以后得到语句级特征向量，计算公式如下：

最后经过softmax层进行归一化操作，输出预测数值，计算公式如下：

一种优化的高精度文本分类装置，包括：

所述预处理单元去除文本中不包含实际意义的词语，包括标点、语气词和助词，减少对文本信息的干扰。

所述映射加权单元将文本序列化后并输入Word2vec模型中的CBOW模型中生成词向量；利用TF-IDF的改进算法计算出所述待分类文本中每个词语的权重值；将所述词向量与所述权重值相乘得到加权词向量。

一种该终端设备包括：处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序，例如：文本分类程序。处理器执行计算机程序时实现上述各个文本分类方法实施例中的步骤，或者处理器执行计算机程序时实现上述各文本分类装置实施例中各模块的功能。

终端设备可以为笔记本、掌上电脑、平板型计算机、手机等设备。终端设备可包括，但不仅限于处理器、存储器。本领域技术人员可以理解，终端设备还可以包括输入输出设备、显示设备、网络接入设备、总线等。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processo r，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是终端设备的内部存储单元，例如：终端设备的硬盘或内存。存储器也可以是终端设备的外部存储设备，例如：终端设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及终端设备所需要的其他程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本发明中所公开的实施例描述的各单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露终端设备和方法，可以通过其他的方式实现。例如，以上所描述的终端设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序发送指令给相关的硬件完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括：计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如：在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种优化的高精度文本分类方法，其特征在于，包括以下步骤：

S1：对文本进行预处理去除干扰项，得到待分类文本；

2.根据权利要求1所述的一种优化的高精度文本分类方法，其特征在于：所述步骤S1的具体内容如下：去除文本中不包含实际意义的词语，包括标点、语气词和助词，减少对文本信息的干扰。

3.根据权利要求1所述的一种优化的高精度文本分类方法，其特征在于：所述步骤S2得到加权词向量的具体步骤如下：

S201：将文本序列化为x＝{x₁,x₂,...,x_T}并输入Word2vec模型中的CBOW模型中生成词向量；

其中

便是加权后的词向量表示。

4.根据权利要求3所述的一种优化的高精度文本分类方法，其特征在于：所述步骤S202的具体内容如下：

TF是词频，表示词语在文本中出现的频率，计算公式如下：

式中n_i,j是指该词语在文本中出现的次数，∑_kn_k,j则表示文本中所有词汇出现的次数总和；

IDF是逆文档频率，表示词语的重要程度，计算公式如下：

式中

所述权重值为tf_i,j和idf_i的乘积，计算公式为：

w_tf-idf＝tf_i,j*idf_i

5.一种优化的高精度文本分类装置，其特征在于，包括：

6.根据权利要求5所述的一种优化的高精度文本分类装置，其特征在于：所述预处理单元去除文本中不包含实际意义的词语，包括标点、语气词和助词，减少对文本信息的干扰。

7.根据权利要求5所述的一种优化的高精度文本分类装置，其特征在于：所述映射加权单元将文本序列化后并输入Word2vec模型中的CBOW模型中生成词向量；利用TF-IDF的改进算法计算出所述待分类文本中每个词语的权重值；将所述词向量与所述权重值相乘得到加权词向量。

8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时实现如权利要求1-4中任一项所述文本分类方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述文本分类方法的步骤。