CN116127079A

CN116127079A - 一种文本分类方法

Info

Publication number: CN116127079A
Application number: CN202310425424.1A
Authority: CN
Inventors: 韩国权; 李响; 仲恺; 祁纲; 陈轮; 李庆; 李东宝; 蔡惠民
Original assignee: Taiji Computer Corp Ltd; CETC Big Data Research Institute Co Ltd
Current assignee: Taiji Computer Corp Ltd; CETC Big Data Research Institute Co Ltd
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-05-16
Anticipated expiration: 2043-04-20
Also published as: CN116127079B

Abstract

本发明提供一种文本分类方法，基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度，确定该待分类文本段所属的文本类别，即使部分文本类别的支持文本段数量较少，仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量，从而根据上述语义相似度识别出属于该文本类别的待分类文本段，减少多标签分类场景下遗漏类别标签的概率；此外，在进行文本特征提取时，充分运用了对应文本段的语法结构，从而提取更准确、更丰富的上下文信息，以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取，有助于提升政务文本分类的准确性。

Description

一种文本分类方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本分类方法。

背景技术

随着大数据时代的到来和网络技术的发展，电子政务系统利用其全新的管理模式得到了广泛应用。相对于传统行政方式，电子政务的最大特点在于其行政方式的电子化，即行政方式的无纸化、信息传递的网络化、行政法律关系的虚拟化等。其中，信息传递的网络化有效加强了政府的信息服务，得以向公众提供尽可能全面和丰富的信息服务、实现政务公开。随着电子政务系统的持续使用，大量政务文本通过网络的形式面向公众宣传和推送，使得公众受“信息过载”的困扰，无法从海量的政务文本中快速查询到自己想要的政务文本。因此，需要一种能够对海量政务文本进行快速分类的方式，为各个政务文本附上相应的类别标签，使得公众可以根据各个政务文本的类别标签进行快速筛选。

目前的文本分类方法多利用有监督的方式对文本分类模型进行训练，以加强文本分类模型的分类性能。然而，将其应用于政务文本分类场景时，上述文本分类方法的分类效果将难以满足实际应用需求，原因在于：政务文本通常可以包含多个类别标签，上述文本分类方法在训练文本分类模型时，不同类别标签对应的训练样本数量不均衡，数量较多的类别标签的训练效果较好、分类较准确，而数量较少的类别标签的训练效果则较差、易分类错误，从而导致在实际进行政务文本分类时容易遗漏上述训练效果欠佳的类别标签，导致分类结果不全面。此外，目前的文本分类方法中性能瓶颈还在于文本特征的提取，其在提取文本特征时忽略了文本的结构信息，而文本的结构信息影响着分词在该文本中的含义，从而导致文本语义提取不准确，分类结果准确性欠佳。因此，需要提升多标签场景下政务文本分类的全面性和准确性。

发明内容

本发明提供一种文本分类方法，用以解决现有技术中政务文本多标签分类不全面、准确性欠佳的缺陷。

本发明提供一种文本分类方法，包括：

获取待分类政务文本的多个待分类文本段；

对所述多个待分类文本段进行文本特征提取，得到所述多个待分类文本段的文本特征向量，并基于所述多个待分类文本段的文本特征向量与支持文本集中各个文本类别的支持文本特征向量之间的语义相似度，确定所述待分类政务文本的多个类别；任一文本类别的支持文本特征向量是对所述任一文本类别的支持文本段进行文本特征提取，得到所述支持文本段的文本特征向量后，对各个支持文本段的文本特征向量进行归纳得到的；

其中，所述进行文本特征提取，具体包括：

获取对应文本段的依存解析树，并基于所述依存解析树确定所述对应文本段中各个非停用词的若干个解析子树；任一非停用词的解析子树是所述依存解析树中以所述任一非停用词为根结点的子树；

基于所述对应文本段中各个非停用词及其解析子树，确定所述对应文本段的文本特征向量；

所述基于所述对应文本段中各个非停用词及其解析子树，确定所述对应文本段的文本特征向量，具体包括：

确定所述对应文本段中各个非停用词的词向量；

融合任一非停用词的解析子树中各个分词的词向量，得到所述任一非停用词的解析子树的子树向量；

基于所述任一非停用词的词向量及其解析子树的子树向量进行融合，得到所述任一非停用词的融合上下文向量；

基于所述各个非停用词的词权重，对所述各个非停用词的融合上下文向量进行加权求和，得到所述对应文本段的文本特征向量。

根据本发明提供的一种文本分类方法，所述各个非停用词的词权重是基于如下步骤确定的：

基于语料库中各个分词两两之间的共现次数，确定所述语料库中各个分词的词权重；其中，所述语料库中任一分词与其他分词的共现次数越高，所述任一分词的词权重越低；

基于所述语料库中各个分词的词权重，确定所述对应文本段中各个非停用词的词权重。

根据本发明提供的一种文本分类方法，所述基于语料库中各个分词两两之间的共现次数，确定所述语料库中各个分词的词权重，具体包括：

基于语料库中的各个样本句，获取所述各个样本句的依存解析树；

基于所述各个样本句的依存解析树，确定所述各个样本句中各个分词两两之间的共现次数；

基于所述各个样本句中的各个分词构建权重图；其中，所述权重图中的节点对应所述各个分词，所述权重图中的边权重是基于对应边所连接的两个分词的共现次数确定的；

基于所述权重图中各个节点以及连接所述各个节点的边的边权重，确定所述各个节点对应的分词的词权重；其中，连接任一节点的边的边权重越高，所述任一节点对应的分词的词权重越低。

根据本发明提供的一种文本分类方法，所述权重图中的边权重是基于如下步骤确定的：

基于所述权重图中任一边连接的两个节点对应的分词的共现次数，以及所述任一边连接的两个节点对应的分词在所述各个样本句的依存解析树中的距离，确定所述任一边的边权重；其中，所述任一边连接的两个节点对应的分词在所述各个样本句的依存解析树中的距离越远，所述任一边的边权重越低。

根据本发明提供的一种文本分类方法，所述基于所述权重图中任一边连接的两个节点对应的分词的共现次数，以及所述任一边连接的两个节点对应的分词在所述各个样本句的依存解析树中的距离，确定所述任一边的边权重，具体包括：

将所述任一边连接的两个节点对应的分词的共现次数除以所述任一边连接的两个节点对应的分词在所述各个样本句的依存解析树中的距离，得到所述任一边的边权重。

根据本发明提供的一种文本分类方法，所述基于所述权重图中各个节点以及连接所述各个节点的边的边权重，确定所述各个节点对应的分词的词权重，具体包括：

基于所述权重图中连接任一节点的边的边权重，利用网页价值算法，确定所述任一节点对应的分词的网页价值；

确定所述任一节点对应的分词的网页价值的倒数，作为所述任一节点对应的分词的词权重。

根据本发明提供的一种文本分类方法，所述对各个支持文本段的文本特征向量进行归纳，具体包括：

在每一轮迭代过程中，基于任一文本类别的各个支持文本段的文本特征向量以及所述各个支持文本段的文本段权重，确定所述任一文本类别在当前轮迭代过程的候选支持文本特征向量，并基于所述任一文本类别在当前轮迭代过程的候选支持文本特征向量与所述各个支持文本段的文本特征向量之间的相关性，更新所述各个支持文本段的文本段权重；

将所述任一文本类别在最后一轮迭代过程的候选支持文本特征向量，作为所述任一文本类别的支持文本特征向量。

根据本发明提供的一种文本分类方法，所述各个支持文本段的文本段权重是利用softmax函数对所述各个支持文本段的文本系数进行处理得到的；所述文本系数的初始值为0；

所述基于所述任一文本类别在当前轮迭代过程的候选支持文本特征向量与所述各个支持文本段的文本特征向量之间的相关性，更新所述各个支持文本段的文本段权重，具体包括：

确定所述任一文本类别在当前轮迭代过程的候选支持文本特征向量分别与所述各个支持文本段的文本特征向量之间的相关程度；其中，所述任一文本类别在当前轮迭代过程的候选支持文本特征向量与任一支持文本段的文本特征向量之间的相关程度是基于向量点乘的方式计算得到的；

将任一支持文本段的文本系数的当前值和所述任一文本类别在当前轮迭代过程的候选支持文本特征向量与所述任一支持文本段的文本特征向量之间的相关程度相加，得到更新后的所述任一支持文本段的文本系数；

基于更新后的所述各个支持文本段的文本系数，更新所述各个支持文本段的文本段权重。

根据本发明提供的一种文本分类方法，基于所述多个待分类文本段的文本特征向量与支持文本集中各个文本类别的支持文本特征向量之间的语义相似度，确定所述待分类政务文本的多个类别，具体包括：

将任一待分类文本段的文本特征向量与任一文本类别的支持文本特征向量进行向量点乘或余弦相似度计算，得到所述任一待分类文本段的文本特征向量与所述任一文本类别的支持文本特征向量之间的语义相似度；

若任一待分类文本段的文本特征向量与任一文本类别的支持文本特征向量之间的语义相似度大于预设的相似度阈值，确定所述任一文本类别为所述任一待分类文本段所属的文本类别；其中，所述多个待分类文本段所属的文本类别构成所述待分类政务文本的多个类别。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本分类方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本分类方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本分类方法。

本发明提供的一种文本分类方法，基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度，确定该待分类文本段所属的文本类别，从而得到整个待分类政务文本的多个类别，即使部分文本类别的支持文本段数量较少，仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量，从而根据上述语义相似度识别出属于该文本类别的支持文本特征向量，减少多标签分类场景下遗漏类别标签的概率，提高政务文本分类的全面性；此外，在进行文本特征提取时，充分运用了对应文本段的语法结构，从而提取更准确、更丰富的上下文信息，以结合各个非停用词本身的语义信息以及上下文信息进行整体语义提取，提升文本段语义提取的准确性，有助于提升政务文本分类的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本分类方法的流程示意图；

图2是本发明提供的文本特征提取方法的流程示意图之一；

图3是本发明提供的文本特征提取方法的流程示意图之二；

图4是本发明提供的词权重确定方法的流程示意图；

图5是本发明提供的支持文本特征向量归纳方法的流程示意图；

图6是本发明提供的文本段权重更新方法的流程示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的文本分类方法的流程示意图，如图1所示，该方法包括：

步骤110，获取待分类政务文本的多个待分类文本段；

步骤120，对所述多个待分类文本段进行文本特征提取，得到所述多个待分类文本段的文本特征向量，并基于所述多个待分类文本段的文本特征向量与支持文本集中各个文本类别的支持文本特征向量之间的语义相似度，确定所述待分类政务文本的多个类别；任一文本类别的支持文本特征向量是对所述任一文本类别的支持文本段进行文本特征提取，得到所述支持文本段的文本特征向量后，对各个支持文本段的文本特征向量进行归纳得到的；

其中，所述进行文本特征提取，具体包括：

步骤121，获取对应文本段的依存解析树，并基于所述依存解析树确定所述对应文本段中各个非停用词的若干个解析子树；任一非停用词的解析子树是所述依存解析树中以所述任一非停用词为根结点的子树；

步骤122，基于所述对应文本段中各个非停用词及其解析子树，确定所述对应文本段的文本特征向量。

具体地，由于政务文本通常是结构和用语均较为规范的文本，其每一段文本内容相对比较独立，因此可以将待分类政务文本按段分割为多个待分类文本段，并针对每个待分类文本段独立进行后续的文本分类操作。针对某一待分类文本段，对其进行文本特征提取，得到该待分类文本段的文本特征向量。其中，该文本特征向量包含对应待分类文本段的语义信息，可以用于识别对应待分类文本段符合的文本类别。

考虑到政务文本通常可以包含多个类别标签，而现有的有监督训练方法在训练文本分类模型时，利用同一类别标签对应的训练样本的模型输出结果和标注结果之间的差异反向调整模型参数。然而，不同类别标签对应的训练样本数量不均衡，数量较多的类别标签的训练效果较好、分类较准确，而数量较少的类别标签的训练效果则较差、易分类错误，从而导致在实际进行政务文本分类时容易遗漏上述训练效果欠佳的类别标签。因此，本发明实施例在利用训练样本帮助模型辨别不同类别标签的文本的特性时，对支持文本集（即训练集）中各个文本类别的支持文本段进行文本特征提取，得到各个文本类别的支持文本段的文本特征向量后，再分别对各个文本类别的支持文本段的文本特征向量进行归纳总结，得到各个文本类别的支持文本特征向量。

其中，同属一个文本类别的支持文本段具备一定的语义相似度，因此对该文本类别的支持文本段的文本特征向量进行归纳总结，可以提取出该文本类别的代表性语义特征。因此，任一文本类别的支持文本特征向量可以表征该文本类别的文本语义的共性，可以作为该文本类别的代表，以供识别待分类文本段是否符合该文本类别。故在提取了待分类文本段的文本特征向量后，可以基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度，确定该待分类文本段所属的文本类别，从而得到整个待分类政务文本的多个类别。其中，可以分别计算任一待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度，然后确定语义相似度较高的文本类别作为该待分类文本段所属的文本类别。此处，在计算任一待分类文本段的文本特征向量与任一文本类别的支持文本特征向量之间的语义相似度时，可以采用向量点乘、余弦相似度等计算方式求取两个向量间的相似度，作为两个向量间的语义相似度。当计算得到该待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度之后，可以对比上述语义相似度与预设的相似度阈值，当该待分类文本段的文本特征向量与任一文本类别的支持文本特征向量之间的语义相似度大于该相似度阈值时，可以确定该文本类别为该待分类文本段所属的文本类别。需要说明的是，若该待分类文本段的文本特征向量与多个文本类别的支持文本特征向量之间的语义相似度大于相似度阈值，则上述相应的多个文本类别均为该待分类文本段所属的文本类别。

可见，即使部分文本类别的支持文本段数量较少，仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量，从而根据上述语义相似度识别出属于该文本类别的支持文本特征向量，减少多标签分类场景下遗漏类别标签的概率，提高政务文本分类的全面性。

此处，待分类文本段与支持文本段的文本特征提取方式是相同的。由上文可知，文本特征提取方式的精度影响着各个文本类别的支持文本特征向量的语义表达能力以及待分类文本段的文本特征向量的语义表达能力，从而影响着多标签文本分类的准确性，因此需要提高文本特征提取的性能。

具体在进行文本特征提取时，考虑到同一分词在不同语法结构中与不同分词之间的关联程度不同，使得该分词在对应文本段中的语义信息存在一定区别，因此可以充分利用相应文本段的语法结构，对对应文本段进行文本特征提取。其中，可以获取对应文本段的依存解析树（dependency parse tree），依存解析树中包含有该文本段中各分词之间的依存关系，具备丰富的语法结构信息。基于该依存解析树，获取对应文本段中各个非停用词（停用词没有具体语义，因此可以预先排除）的一个或多个解析子树。其中，任一非停用词的解析子树是上述依存解析树中以该非停用词为根结点的子树。并且，任一非停用词可以对应多个深度不一的解析子树，以获取不同程度的上下文语义信息，解析子树越深，对应的上下文语义信息越丰富。

随后，基于对应文本段中各个非停用词及其解析子树，确定对应文本段的文本特征向量。其中，可以基于各个非停用词自身的语义信息以及各个非停用词的解析子树携带的相应非停用词的上下文语义信息，确定整个对应文本段的语义信息，从而构成该对应文本段的文本特征向量。可见，在进行文本特征提取时，充分运用了对应文本段的语法结构，从而提取更准确、更丰富的上下文信息，以结合各个非停用词本身的语义信息以及上下文信息进行整体语义提取，提升文本段语义提取的准确性，有助于提升政务文本分类的准确性。

本发明实施例提供的方法，基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度，确定该待分类文本段所属的文本类别，从而得到整个待分类政务文本的多个类别，即使部分文本类别的支持文本段数量较少，仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量，从而根据上述语义相似度识别出属于该文本类别的支持文本特征向量，减少多标签分类场景下遗漏类别标签的概率，提高政务文本分类的全面性；此外，在进行文本特征提取时，充分运用了对应文本段的语法结构，从而提取更准确、更丰富的上下文信息，以结合各个非停用词本身的语义信息以及上下文信息进行整体语义提取，提升文本段语义提取的准确性，有助于提升政务文本分类的准确性。

基于上述实施例，如图2所示，步骤122具体包括：

步骤1221，确定所述对应文本段中各个非停用词的词向量；

步骤1222，基于任一非停用词的解析子树中各个分词的词向量，确定所述任一非停用词的解析子树的子树向量；

步骤1223，基于所述任一非停用词的词向量及其解析子树的子树向量，确定所述任一非停用词的融合上下文向量；

步骤1224，基于所述对应文本段中各个非停用词的融合上下文向量，确定所述对应文本段的文本特征向量。

具体地，首先可以基于现有的词向量提取模型（例如word2vec、Bert等模型）提取对应文本段中各个非停用词的词向量。其中，非停用词的词向量中包含有该非停用词自身的语义信息。

另一方面，还可以基于任一非停用词的解析子树中各个分词的词向量，确定该非停用词的解析子树的子树向量。其中，解析子树的子树向量中包含有该解析子树的语义信息，即该非停用词对应该解析子树的上下文语义信息。此处，可以对非停用词的解析子树中各个分词的词向量采用各种融合方式进行融合，得到该非停用词的解析子树的子树向量。例如，可以求取解析子树中各个分词的词向量的平均值，或是对解析子树中各个分词的词向量进行加权平均，其中各个分词的权重可以根据对应分词距离该停用词的距离（即在解析子树中的hop数）确定，距离越近、权重越高。

基于该非停用词的词向量及其解析子树的子树向量进行融合，得到该非停用词的融合上下文向量。此处的融合方式也可以采用平均或加权平均的方式，当采用加权平均的方式时，对应权重可以根据解析子树的深度确定，深度越大、权重越小，而非停用词本身的词向量的权重可以最大。再基于对应文本段中各个非停用词的融合上下文向量，最终确定对应文本段的文本特征向量。

基于上述任一实施例，如图3所示，步骤1224具体包括：

步骤1224-1，基于语料库中各个分词两两之间的共现次数，确定所述语料库中各个分词的词权重；其中，所述语料库中任一分词与其他分词的共现次数越高，所述任一分词的词权重越低；

步骤1224-2，基于所述语料库中各个分词的词权重，确定所述对应文本段中各个非停用词的词权重；

步骤1224-3，基于所述各个非停用词的融合上下文向量以及所述各个非停用词的词权重，确定所述对应文本段的文本特征向量。

具体地，在一个文本段中不同非停用词对于整个文本段语义的影响不同，因此在获取文本段的文本特征向量时，可以考虑不同非停用词对于文本整体语义的影响程度，以提升文本特征向量对相应文本段的语义表达能力。

其中，可以基于预设语料库中各个分词两两之间的共现次数，确定该语料库中各个分词的词权重；其中，语料库中任一分词与其他分词的共现次数越高，表明该分词的含义具备越少的新颖性和区分性，其对于整个文本段语义的影响越轻，因此该分词的词权重越低。随后，依据该语料库中各个分词的词权重进行查询，确定对应文本段中各个非停用词的词权重。

再基于各个非停用词的融合上下文向量以及各个非停用词的词权重进行加权融合，得到对应文本段的文本特征向量。

基于上述任一实施例，如图4所示，步骤1224-1具体包括：

步骤1224-11，基于语料库中的各个样本句，获取所述各个样本句的依存解析树；

步骤1224-12，基于所述各个样本句的依存解析树，确定所述各个样本句中各个分词两两之间的共现次数；

步骤1224-13，基于所述各个样本句中的各个分词构建权重图；其中，所述权重图中的节点对应所述各个分词，所述权重图中的边权重基于对应边所连接的两个分词的共现次数确定的；

步骤1224-14，基于所述权重图中各个节点以及连接所述各个节点的边的边权重，确定所述各个节点对应的分词的词权重；其中，连接任一节点的边的边权重越高，所述任一节点对应的分词的词权重越低。

具体地，获取语料库中各个样本句的依存解析树，并基于各个样本句的依存解析树，统计各个样本句中各个分词两两之间的共现次数。其中，两个分词共现是指上述两个分词在相应依存解析树中出现于同一预设深度以内的子树中，例如两个分词同在一个深度为3的子树内，表明上述两个分词联系较为密切，可以认为两个分词共现。

随后，基于各个样本句中的各个分词构建一个全局的权重图。其中，该权重图中的节点对应语料库中的各个分词，该权重图中的边连接两个共现的分词，且边的边权重是基于对应边所连接的两个分词的共现次数确定的。其中，任一边的边权重与该边所连接的两个分词的共现次数成正比。

再基于该权重图中各个节点以及连接各个节点的边的边权重，确定各个节点对应的分词的词权重。其中，连接任一节点的边的边权重越高，表明该节点对应的分词与其他分词的共现次数越多，该节点对应的分词新颖性和区分性较弱，故该节点对应的分词的词权重越低。

基于上述任一实施例，所述权重图中的边权重是基于如下步骤确定的：

具体地，在确定权重图中任一边的边权重时，可以基于权重图中该边连接的两个节点对应的分词的共现次数，以及该边连接的两个节点对应的分词在各个样本句的依存解析树中的距离，确定该边的边权重。其中，可以获取该边连接的两个节点对应的分词在各个样本句的依存解析树中的距离，若该边连接的两个节点对应的分词在多个依存解析树中出现，则选取这两个分词在镀铬依存解析树中距离的最小值。随后，权重图中该边连接的两个节点对应的分词的共现次数，以及该边连接的两个节点对应的分词在各个样本句的依存解析树中的距离，确定该边的边权重，保证基于该边连接的两个节点对应的分词在各个样本句的依存解析树中的距离越远，该边的边权重越低，以表明这两个分词虽然共现但二者之间的关联程度不大，从而有助于提升文本特征向量提取的精度。

基于上述任一实施例，所述基于所述权重图中任一边连接的两个节点对应的分词的共现次数，以及所述任一边连接的两个节点对应的分词在所述各个样本句的依存解析树中的距离，确定所述任一边的边权重，具体包括：

具体地，利用该边连接的两个节点对应的分词的共现次数除以这两个分词在各个样本句的依存解析树中的距离，得到的结果即可作为该边的边权重，从而使得该边连接的两个节点对应的分词在各个样本句的依存解析树中的距离越远，该边的边权重越低。

基于上述任一实施例，所述基于所述权重图中各个节点以及连接所述各个节点的边的边权重，确定所述各个节点对应的分词的词权重，具体包括：

具体地，任一节点可能对应有多条边，为了在确定任一节点对应分词的词权重时将连接该节点的所有边的边权重融合，可以利用网页价值（PageRank）算法，基于所有连接该节点的边的边权重，计算该节点对应的分词的网页价值。随后，将该节点对应的分词的网页价值的倒数，作为该节点对应的分词的词权重。

基于上述任一实施例，所述基于所述各个非停用词的融合上下文向量以及所述各个非停用词的词权重，确定所述对应文本段的文本特征向量，具体包括：

基于上述任一实施例，如图5所示，所述对各个支持文本段的文本特征向量进行归纳，具体包括：

步骤510，在每一轮迭代过程中，基于任一文本类别的各个支持文本段的文本特征向量以及所述各个支持文本段的文本段权重，确定所述任一文本类别在当前轮迭代过程的候选支持文本特征向量，并基于所述任一文本类别在当前轮迭代过程的候选支持文本特征向量与所述各个支持文本段的文本特征向量之间的相关性，更新所述各个支持文本段的文本段权重；

步骤520，将所述任一文本类别在最后一轮迭代过程的候选支持文本特征向量，作为所述任一文本类别的支持文本特征向量。

具体地，在获取任一文本类别的支持文本特征向量时，为了提升针对该文本类别支持文本段的文本特征向量的归纳能力，提高支持文本特征向量对该文本类别的语义表达能力，可以针对该文本类别的支持文本段进行多轮迭代归纳。

具体而言，在每一轮迭代过程中，均会基于该文本类别的所有支持文本段的文本特征向量进行归纳。在此过程中，由于不同支持文本段的描述方式不同且可能属于多个文本类别，因此对于当前文本类别，不同支持文本段与当前文本类别的关联程度不同。为了避免将支持文本段中与其他文本类别关联的语义信息混入当前文本类别的支持文本特征向量，从而影响后续的文本分类精度，可以为各个支持文本段设置相应的文本段权重，以强化与当前文本类别关联程度更强的支持文本段的语义信息、弱化与当前文本类别关联程度较弱的支持文本段的语义信息。然后，基于当前文本类别的各个支持文本段的文本特征向量以及各个支持文本段的文本段权重，归纳出当前文本类别在当前轮迭代过程的候选支持文本特征向量。其中，可以基于各个支持文本段的文本特征向量以及各个支持文本段的文本段权重进行加权求和，得到当前轮迭代过程的候选支持文本特征向量。

然而支持文本段与当前文本类别之间的关联程度较难界定，根据经验赋予的权重准确性欠佳，易导致归纳得到的候选支持文本特征向量不准确。因此，可以采用模型自监督的方式，在每一轮迭代过程中得到当前轮迭代过程的候选支持文本特征向量后，基于该文本类别在当前轮迭代过程的候选支持文本特征向量与各个支持文本段的文本特征向量之间的相关性，更新各个支持文本段的文本段权重。其中，任一支持文本段的文本特征向量与该文本类别在当前轮迭代过程的候选支持文本特征向量之间的相关性越高，可以暂且认为该支持文本段与当前文本类别之间的关联程度较高，因此可以将其文本段权重暂时调整得更高。更新后的支持文本段的文本段权重可以用于在下一轮迭代过程中确定该文本类别对应的新的候选支持文本特征向量。

由于在多轮迭代过程中，通过上述方式对各个支持文本段的文本段权重进行了自适应地更新，因此各个支持文本段的文本段权重将趋于更精确，从而可以逐步提升当前文本类别的候选支持文本特征向量的准确性。当最后一轮迭代过程结束后，可以将当前文本类别在最后一轮迭代过程的候选支持文本特征向量，作为当前文本类别的支持文本特征向量。需要说明的是，在每一轮迭代过程中会遍历各个文本类别对应的所有支持文本段，在各个文本类别的各个支持文本段基础上执行上述步骤510，得到各个文本类别在当前轮迭代过程的候选支持文本特征向量，以及各个文本类别对应的各个支持文本段的文本段权重。当执行最后一轮迭代过程时（总的迭代轮数可以预先设置），同样遍历各个文本类别对应的所有支持文本段，在各个文本类别的各个支持文本段基础上执行上述步骤510，当基于步骤510获取得到各个文本类别在当前轮迭代过程的候选支持文本特征向量后，则表明最后一轮迭代过程结束，可以将此时获得的各个文本类别的候选支持文本特征向量作为相应文本类别的支持文本特征向量。

基于上述任一实施例，所述各个支持文本段的文本段权重是利用softmax函数对所述各个支持文本段的文本系数进行处理得到的；所述文本系数的初始值为0；

如图6所示，所述基于所述任一文本类别在当前轮迭代过程的候选支持文本特征向量与所述各个支持文本段的文本特征向量之间的相关性，更新所述各个支持文本段的文本段权重，具体包括：

步骤511，确定所述任一文本类别在当前轮迭代过程的候选支持文本特征向量分别与所述各个支持文本段的文本特征向量之间的相关程度；

步骤512，基于所述各个支持文本段的文本系数的当前值以及所述任一文本类别在当前轮迭代过程的候选支持文本特征向量与所述各个支持文本段的文本特征向量之间的相关程度，更新所述各个支持文本段的文本系数；

步骤513，基于更新后的所述各个支持文本段的文本系数，更新所述各个支持文本段的文本段权重。

具体地，针对当前文本类别的各个支持文本段，将各个支持文本段的文本系数的初始值置为0，并基于softmax函数对各个支持文本段的文本系数初始值进行处理，得到各个支持文本段的文本段权重的初始值。开始第一轮迭代过程时，可以基于各个支持文本段的文本段权重的初始值进行上述实施例中给出的归纳操作，在后续的迭代过程中，可以基于上一轮更新得到的各个支持文本段的文本段权重进行归纳操作。

其中，在更新各个支持文本段的文本段权重时，采用的方式是对各个支持文本段的文本系数进行更新，再利用softmax函数对更新后的文本系数进行处理，得到更新后的文本段权重。

具体而言，可以计算当前文本类别在当前轮迭代过程的候选支持文本特征向量分别与各个支持文本段的文本特征向量之间的相关程度。其中，可以采用向量点乘的方式计算上述相关程度。基于各个支持文本段的文本系数的当前值（第一轮迭代过程中为初始值，后续迭代过程中为上一轮迭代过程的更新值），以及当前文本类别在当前轮迭代过程的候选支持文本特征向量与各个支持文本段的文本特征向量之间的相关程度，更新各个支持文本段的文本系数。此处，可以在任一支持文本段的文本系数的当前值的基础上，加上该支持文本段的文本特征向量与当前文本类别在当前轮迭代过程的候选支持文本特征向量之间的相关程度。当该支持文本段的文本特征向量与当前文本类别在当前轮迭代过程的候选支持文本特征向量之间的相关程度较大时，更新后的文本系数也较大。

需要说明的是，在更新文本系数时，即使该支持文本段的文本特征向量与当前文本类别在当前轮迭代过程的候选支持文本特征向量之间的相关程度较小时，更新后的文本系数也会比更新前的文本系数稍大，但是经由softmax函数处理后，更新后的文本段权重与更新前的文本段权重差异较小，但若该支持文本段的文本特征向量与当前文本类别在当前轮迭代过程的候选支持文本特征向量之间的相关程度较大，则更新后的文本系数将是个较大值，经由softmax函数处理后，更新后的文本段权重与更新前的文本段权重差异较大、数值增加更明显。因此，上述更新方式能够强化与当前文本类别相关程度较大的支持文本段。

随后，利用softmax函数对更新后的所述各个支持文本段的文本系数进行处理，得到更新后的各个支持文本段的文本段权重。

图7是本发明提供的电子设备的结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、存储器(memory)720、通信接口(Communications Interface)730和通信总线740，其中，处理器710，存储器720，通信接口730通过通信总线740完成相互间的通信。处理器710可以调用存储器720中的逻辑指令，以执行文本分类方法，该方法包括：获取待分类政务文本的多个待分类文本段；对所述多个待分类文本段进行文本特征提取，得到所述多个待分类文本段的文本特征向量，并基于所述多个待分类文本段的文本特征向量与支持文本集中各个文本类别的支持文本特征向量之间的语义相似度，确定所述待分类政务文本的多个类别；任一文本类别的支持文本特征向量是对所述任一文本类别的支持文本段进行文本特征提取，得到所述支持文本段的文本特征向量后，对各个支持文本段的文本特征向量进行归纳得到的；其中，所述进行文本特征提取，具体包括：获取对应文本段的依存解析树，并基于所述依存解析树确定所述对应文本段中各个非停用词的若干个解析子树；任一非停用词的解析子树是所述依存解析树中以所述任一非停用词为根结点的子树；基于所述对应文本段中各个非停用词及其解析子树，确定所述对应文本段的文本特征向量。

此外，上述的存储器720中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的文本分类方法，该方法包括：获取待分类政务文本的多个待分类文本段；对所述多个待分类文本段进行文本特征提取，得到所述多个待分类文本段的文本特征向量，并基于所述多个待分类文本段的文本特征向量与支持文本集中各个文本类别的支持文本特征向量之间的语义相似度，确定所述待分类政务文本的多个类别；任一文本类别的支持文本特征向量是对所述任一文本类别的支持文本段进行文本特征提取，得到所述支持文本段的文本特征向量后，对各个支持文本段的文本特征向量进行归纳得到的；其中，所述进行文本特征提取，具体包括：获取对应文本段的依存解析树，并基于所述依存解析树确定所述对应文本段中各个非停用词的若干个解析子树；任一非停用词的解析子树是所述依存解析树中以所述任一非停用词为根结点的子树；基于所述对应文本段中各个非停用词及其解析子树，确定所述对应文本段的文本特征向量。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的文本分类方法，该方法包括：获取待分类政务文本的多个待分类文本段；对所述多个待分类文本段进行文本特征提取，得到所述多个待分类文本段的文本特征向量，并基于所述多个待分类文本段的文本特征向量与支持文本集中各个文本类别的支持文本特征向量之间的语义相似度，确定所述待分类政务文本的多个类别；任一文本类别的支持文本特征向量是对所述任一文本类别的支持文本段进行文本特征提取，得到所述支持文本段的文本特征向量后，对各个支持文本段的文本特征向量进行归纳得到的；其中，所述进行文本特征提取，具体包括：获取对应文本段的依存解析树，并基于所述依存解析树确定所述对应文本段中各个非停用词的若干个解析子树；任一非停用词的解析子树是所述依存解析树中以所述任一非停用词为根结点的子树；基于所述对应文本段中各个非停用词及其解析子树，确定所述对应文本段的文本特征向量。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本分类方法，其特征在于，包括：

获取待分类政务文本的多个待分类文本段；

其中，所述进行文本特征提取，具体包括：

确定所述对应文本段中各个非停用词的词向量；

2.根据权利要求1所述的文本分类方法，其特征在于，所述各个非停用词的词权重是基于如下步骤确定的：

3.根据权利要求2所述的文本分类方法，其特征在于，所述基于语料库中各个分词两两之间的共现次数，确定所述语料库中各个分词的词权重，具体包括：

4.根据权利要求3所述的文本分类方法，其特征在于，所述权重图中的边权重是基于如下步骤确定的：

5.根据权利要求4所述的文本分类方法，其特征在于，所述基于所述权重图中任一边连接的两个节点对应的分词的共现次数，以及所述任一边连接的两个节点对应的分词在所述各个样本句的依存解析树中的距离，确定所述任一边的边权重，具体包括：

6.根据权利要求5所述的文本分类方法，其特征在于，所述基于所述权重图中各个节点以及连接所述各个节点的边的边权重，确定所述各个节点对应的分词的词权重，具体包括：

7.根据权利要求1所述的文本分类方法，其特征在于，所述对各个支持文本段的文本特征向量进行归纳，具体包括：

8.根据权利要求7所述的文本分类方法，其特征在于，所述各个支持文本段的文本段权重是利用softmax函数对所述各个支持文本段的文本系数进行处理得到的；所述文本系数的初始值为0；

9.根据权利要求7所述的文本分类方法，其特征在于，基于所述多个待分类文本段的文本特征向量与支持文本集中各个文本类别的支持文本特征向量之间的语义相似度，确定所述待分类政务文本的多个类别，具体包括：