CN112131386A

CN112131386A - 一种文本分类方法及装置

Info

Publication number: CN112131386A
Application number: CN202011001048.6A
Authority: CN
Inventors: 王李鹏
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-25

Abstract

本发明实施例提供了一种文本分类方法及装置，涉及数据处理技术领域，其中，上述方法包括：获得文本的特征和文本中词汇的特征；获得词汇在文本中出现的次数，并根据所获得的次数确定用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息；以文本和词汇为节点，且以文本的特征和词汇的特征为节点数据，根据上述描述信息，生成图；根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整；根据调整后的文本的特征和词汇的特征，对文本进行分类。应用本发明实施例提供的方案可以对文本进行分类。

Description

一种文本分类方法及装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种文本分类方法及装置。

背景技术

由于不同文本所表达的含义不同，根据文本所表达的含义可以将不同的文本划分为不同的类别。例如，小说文本可以被划分为推理小说、爱情小说、恐怖小说等类别，邮件文本可以被划分为普通邮件、垃圾邮件等类别。确定文本类别之后可以根据文本类别对文本进行进一步处理，例如，对邮件文本分类后可以拦截垃圾邮件。因此，对文本进行分类具有广泛应用场景。

发明内容

本发明实施例的目的在于提供一种文本分类方法及装置，以对文本进行分类。具体技术方案如下：

第一方面，本发明实施例提供了一种文本分类方法，所述方法包括：

获得文本的特征和文本中词汇的特征；

获得词汇在文本中出现的次数，并根据所获得的次数确定用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息；

以文本和词汇为节点，且以文本的特征和词汇的特征为节点数据，根据所述描述信息，生成图，其中，所述图中具有关联关系的两个文本和/或词汇对应的节点之间存在边；

根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整；

根据调整后的文本的特征和词汇的特征，对文本进行分类。

本发明的一个实施例中，所述根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整，包括：

针对所生成的图中的每一节点，根据该节点对应的对象的特征、关联节点对应的关联对象的特征以及预设的注意力参数，基于图注意力机制，计算所述关联对象对该对象的重要程度，其中，节点对应的对象包括：文本和文本中的词汇，所述关联节点为：与该节点之间存在边的节点；

根据计算得到的重要程度以及各个对象的关联对象的特征，对各个对象的特征进行调整。

本发明的一个实施例中，所述根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整；根据调整后的文本的特征和词汇的特征，对文本进行分类，包括：

将所生成的图输入预先训练的分类模型，得到文本的分类结果，其中，所述分类模型用于：对图中节点对应的文本的特征和词汇的特征进行调整，并根据调整后的文本的特征和词汇的特征对文本进行分类，所述分类模型为：基于图注意力机制、对预设的图神经网络模型进行有监督训练得到的模型，所述图神经网络模型的模型参数包括所述注意力参数。

本发明的一个实施例中，通过以下方式训练得到所述分类模型：

获得样本文本的特征和样本文本中样本词汇的特征；

获得样本词汇在样本文本中出现的次数，并根据所获得的次数确定用于表示样本词汇与样本词汇之间、以及样本词汇与样本文本之间是否存在关联关系的样本描述信息；

以样本文本和样本词汇为节点，且以样本文本的特征和样本词汇的特征为节点数据，根据所述样本描述信息，生成样本图，其中，所述样本图中具有关联关系的两个样本文本和/或样本词汇对应的节点之间存在边；

将所生成的样本图输入预设的图神经网络模型对样本文本进行分类；

根据样本文本和样本词汇的分类结果以及样本文本和样本词汇的样本标记，计算所述预设的图神经网络模型的损失；

根据所述损失调整所述图神经网络模型的模型参数，直至所述图神经网络模型满足预设的收敛条件，将调整参数后的所述图神经网络模型确定为所述分类模型。

本发明的一个实施例中，所述预设的注意力参数包括多组注意力参数；

所述根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整，包括：

针对每一组注意力参数，根据所述描述信息以及该组注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整，得到文本的子调整特征和词汇的子调整特征；

将文本的各子调整特征进行连接，并将词汇的各子调整特征进行连接，得到调整后的文本的特征和词汇的特征。

重复执行根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整的步骤，直至执行次数达到预设次数。

本发明的一个实施例中，所述根据所获得的次数确定用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息，包括：

按照以下方式确定各对词汇之间、以及各对词汇与文本之间是否存在关联关系，并按照确定结果获得用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息：

针对每一对词汇，根据词汇在各个文本中出现的次数，确定该对词汇中的两个词汇在各个文本中出现的概率以及在各个文本中该对词汇中的两个词汇均出现的概率，根据所确定的两个词汇出现的概率以及两个词汇均出现的概率，确定该对词汇之间的第一关联程度，若第一关联程度大于第一预设关联程度，则确定该对词汇之间存在关联关系；

针对每一对词汇与文本，获得包含该词汇的文本的第一数量，根据该词汇在该文本中出现的次数、所述第一数量以及所有文本的第二数量，计算该词汇与该文本之间的第二关联程度，若第二关联程度大于第二预设关联程度，则确定该词汇与该文本之间存在关联关系。

第二方面，本发明实施例提供了一种文本分类装置，所述装置包括：

特征获得模块，用于获得文本的特征和文本中词汇的特征；

描述信息获得模块，用于获得词汇在文本中出现的次数，并根据所获得的次数确定用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息；

图生成模块，用于以文本和词汇为节点，且以文本的特征和词汇的特征为节点数据，根据所述描述信息，生成图，其中，所述图中具有关联关系的两个文本和/或词汇对应的节点之间存在边；

文本分类模块，用于根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整；根据调整后的文本的特征和词汇的特征，对文本进行分类。

本发明的一个实施例中，所述文本分类模块，具体用于：

根据计算得到的重要程度以及各个对象的关联对象的特征，对各个对象的特征进行调整；

根据调整后的文本的特征和词汇的特征，对文本进行分类。

本发明的一个实施例中，所述文本分类模块，具体用于：

本发明的一个实施例中，所述装置还包括：

模型训练模块，用于通过以下方式训练得到所述分类模型：

获得样本文本的特征和样本文本中样本词汇的特征；

所述文本分类模块，具体用于：

将文本的各子调整特征进行连接，并将词汇的各子调整特征进行连接，得到调整后的文本的特征和词汇的特征；

根据调整后的文本的特征和词汇的特征，对文本进行分类。

本发明的一个实施例中，所述文本分类模块，具体用于：

重复执行根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整的步骤，直至执行次数达到预设次数；根据调整后的文本的特征和词汇的特征，对文本进行分类。

本发明的一个实施例中，所述描述信息获得模块，具体用于：

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一所述的方法步骤。

本发明实施例有益效果：

应用本发明实施例提供的方案对文本进行分类时，获得词汇与词汇之间、词汇与文本之间是否存在关联关系的描述信息后，生成以文本和词汇为节点的图，根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整，根据调整后的文本的特征和词汇的特征对文本进行分类。由以上可见，由于不同类型的文本的特征不同，因此，根据文本的特征能够实现对文本的分类。

另外，本发明实施例提供的方案中，首先，确定了表示词汇与词汇之间、词汇与文本之间的关联关系的描述信息，存在关联关系的词汇与词汇、词汇与节点的特征之间可以互相影响。通过生成以文本和词汇为节点，具有关联关系的两个文本和/或词汇对应的节点之间存在边的图，表示词汇与词汇、词汇与文本之间的关联关系。再者，本发明实施例提供的方案中还参考了注意力参数，基于图注意力机制对图中节点对应的词汇和文本的特征进行调整。使得调整得到的文本的特征不仅仅只是反映文本自身的特征，还受到了各个词汇与其他文本的特征的影响，因此，所获得的文本的特征较准确。由于文本的特征较准确，因此，对文本的分类结果也较准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A为本发明实施例提供的第一种文本分类方法的流程示意图；

图1B为本发明实施例提供的一种图结构示意图；

图2为本发明实施例提供的第二种文本分类方法的流程示意图；

图3为本发明实施例提供的第三种文本分类方法的流程示意图；

图4为本发明实施例提供的第四种文本分类方法的流程示意图；

图5A为本发明实施例提供的第一种分类模型的结构示意图；

图5B为本发明实施例提供的第二种分类模型的结构示意图；

图5C为本发明实施例提供的第三种分类模型的结构示意图；

图6为本发明实施例提供的一种文本分类装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于对文本进行分类具有广泛应用场景，为了对文本进行分类，本发明实施例提供了一种文本分类方法及装置。

本发明的一个实施例中，提供了一种文本分类方法，上述方法包括：

获得文本的特征和文本中词汇的特征。

获得词汇在文本中出现的次数，并根据所获得的次数确定用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息。

以文本和词汇为节点，且以文本的特征和词汇的特征为节点数据，根据上述描述信息，生成图，其中，上述图中具有关联关系的两个文本和/或词汇对应的节点之间存在边。

根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整。

根据调整后的文本的特征和词汇的特征，对文本进行分类。

由以上可见，由于不同类型的文本的特征不同，因此根据文本的特征能够实现对文本的分类。另外，本发明实施例提供的方案中，首先，确定了表示词汇与词汇之间、词汇与文本之间的关联关系的描述信息，存在关联关系的词汇与词汇、词汇与节点的特征之间可以互相影响。通过生成以文本和词汇为节点，具有关联关系的两个文本和/或词汇对应的节点之间存在边的图，表示词汇与词汇、词汇与文本之间的关联关系。再者，本发明实施例提供的方案还参考了注意力参数，基于图注意力机制对图中节点对应的词汇和文本的特征进行调整。使得调整得到的文本的特征不仅仅只是反映文本自身的特征，还受到了各个词汇与其他文本的特征的影响，因此，所获得的文本的特征较准确。由于文本的特征较准确，因此，对文本的分类结果也较准确。

下面通过具体的实施例对本发明实施例提供的文本分类方法及装置进行说明。

参见图1A，本发明实施例提供了第一种文本分类方法的流程示意图，上述方法包括以下步骤S101-S104。

S101：获得文本的特征和文本中词汇的特征。

其中，上述文本可以为一个或多个。文本中的词汇可以是文本中的所有词汇，也可以为文本中的部分词汇。如，在文本中出现的次数大于第一预设次数的词汇。

具体的，可以通过分词算法对上述文本进行分词处理，确定文本中的词汇。例如，上述分词算法可以为最短路径分词算法、正向最大匹配算法等。

本发明的一个实施例中，可以通过词向量的形式表示上述词汇的特征，可以将文本中词汇的词向量的均值作为表示文本的特征的向量，或者将文本中出现的次数最高的词汇的词向量作为表示文本的特征的向量等。

例如，可以通过One-hot编码、Word2Vec模型等方式生成各个词汇的词向量。

S102：获得词汇在文本中出现的次数，并根据所获得的次数确定用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息。

本发明的一个实施例中，可以认为在文本中出现的次数较高的词汇能够代表该文本，因此，对于一个文本而言，可以认为在该文本中出现的次数大于第二预设次数的词汇与该文本之间存在关联关系。

另外，若两个词汇经常均出现在同一文本中，可以认为上述两个词汇之间存在关联关系，因此，可以认为在文本中均出现的次数大于第三预设次数的两个词汇之间存在关联关系。

具体的，针对每一词汇，可以将与该词汇存在关联关系的词汇以及文本的标识，作为上述描述信息。

针对每一文本，可以将与该文本存在关联关系的词汇的标识，作为上述描述信息。

此外，还可以以矩阵的形式表示上述描述信息，其中，矩阵的每一行与每一列分别对应一个词汇或文本，若一词汇与一文本之间存在关联关系，则将位于该词汇对应行且位于该文本对应列的元素的元素值设置为第一预设元素值，并将位于该词汇对应列且位于该文本对应行的元素的元素值设置为第二预设元素值。

若一对词汇之间存在关联关系，则将位于该对词汇中的一个词汇M对应行且位于该对词汇中另一个词汇N对应列的元素的元素值设置为第三预设元素值，并将位于词汇M对应列且位于词汇N对应行的元素的元素值设置为第四预设元素值。

具体的，上述第一预设元素值、第二预设元素值、第三预设元素值、第四预设元素值均与矩阵的初始元素值不同。第一预设元素值、第二预设元素值、第三预设元素值、第四预设元素值可以彼此不相同，或其中的至少两个预设元素值相同。

例如，第一预设元素值可以为1，第二预设元素值可以为1，第三预设元素值可以为3，第四预设元素值可以为4，初始元素值可以为0。

在第一预设元素值、第二预设元素值、第三预设元素值、第四预设元素值均相同的情况下，上述描述信息的矩阵为对称矩阵。

另外，矩阵中元素的元素值也可以为词汇与词汇之间、词汇与文本之间的关联程度的具体值。

本发明的另一个实施例中，可以通过步骤A确定各对词汇之间是否存在关联关系，通过步骤B确定各对词汇与文本之间是否存在关联关系，具体可以参见后续实施例，在此暂不详述。

S103：以文本和词汇为节点，且以文本的特征和词汇的特征为节点数据，根据上述描述信息，生成图。

其中，上述图中具有关联关系的两个文本和/或词汇对应的节点之间存在边。

具体的，由于上述描述信息可以表示词汇与文本之间，以及词汇与词汇之间是否存在关联关系，因此根据上述描述信息可以确定图中的两个文本和/或词汇对应的节点之间是否存在边。

上述文本的特征和词汇的特征可以以特征向量的形式表示，上述图可以以特征矩阵与邻接矩阵的形式表示。

其中，特征矩阵的每一行可以对应一个节点，每一行中可以存储该行对应的节点对应的文本或词汇的特征。

邻接矩阵的每一行对应一个节点，每一列对应一个节点，若两个节点之间存在边，则位于该两个节点中的一个节点P对应的行，且位于另一个节点Q对应列中的元素的元素值为第五预设元素值。并且位于节点P对应的列，且位于节点Q对应的行中的元素的元素值为第六预设元素值。

上述第五预设元素值、第六预设元素值与邻接矩阵的初始元素值不同。上述第五预设元素值、第六预设元素值可以相同也可以不同。

例如，上述第五预设元素值、第六预设元素值可以均为1，初始元素值为0。

参见图1B，本发明实施例提供了一种图结构示意图。

图中各个圆形为各个节点，直线表示边，包括对应词汇的节点x1-x4，以及对应文本的节点w1-w2。

其中，节点w1与节点x1、x2、x4之间存在边，表示节点w1对应的文本与节点x1、x2、x4对应的词汇之间存在关联关系。

节点w2与节点x2、x3之间存在边，表示节点w2对应的文本与节点x2、x3、对应的词汇之间存在关联关系。

节点x1与节点x2之间存在边，表示节点x1对应的词汇与节点x2对应的词汇之间存在关联关系。

节点x2与节点x4之间存在边，表示节点x2对应的词汇与节点x4对应的词汇之间存在关联关系。

节点x3与节点x4之间存在边，表示节点x3对应的词汇与节点x4对应的词汇之间存在关联关系。

S104：根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整。

具体的，由于文本中不同位置处的词汇的受关注程度可能不同，可以以注意力参数表示不同位置处的词汇的受关注程度，基于图注意力机制对图中节点对应的文本的特征和词汇的特征进行调整，使得调整后的文本和词汇的特征受到受关注程度更高的词汇的影响更大。

例如，上述预设的注意力参数可以表示位于文本开头与结尾处的词汇的受关注程度较高，其他位置处的词汇的受关注程度较低，则在调整文本的特征和词汇的特征的过程中，位于文本开头与结尾处的词汇对应的注意力参数较高。

另外，上述描述信息表示了词汇与词汇之间、词汇与文本之间是否存在关联关系，若存在关联关系说明词汇与词汇、词汇与文本之间具有相关性，存在关联关系的词汇的特征能够互相影响，存在关联关系的词汇与文本之间的特征也能够互相影响，因此，可以基于图注意力机制与图中的边表示的节点对应的词汇与词汇之间、词汇与文本之间的关联关系对文本的特征和词汇的特征进行调整。

本发明的一个实施例中，可以通过步骤S104A-S104B实现上述步骤S104，具体可以参见后续实施例，在此暂不详述。

S105：根据调整后的文本的特征和词汇的特征，对文本进行分类。

本发明的一个实施例中，可以预设文本可能的分类结果，根据调整后的文本的特征确定文本属于各个可能的分类结果的概率，将概率最高的可能的分类结果确定为文本的分类结果。

例如，预设的文本可能的分类结果包括爱情小说、恐怖小说、推理小说，根据文本的特征确定文本属于爱情小说的概率为80％、属于恐怖小说的概率为5％、属于推理小说的概率为15％，则确定文本的分类结果为爱情小说。

具体的，可以通过以下公式计算文本与词汇属于每一分类结果的概率。

其中，i表示文本或词汇，o_i为计算得到i的分类结果向量，w_o为第一预设参数，b_o为第二预设参数，

为调整后的i的特征向量，node_x为文本和词汇的集合，softmax()为归一化指数函数。

具体的，o_i中的各个元素分别表示i属于各个分类结果的概率，softmax仅为归一化指数函数的一种形式，还可以通过其他归一化指数函数对上述概率进行归一化处理。

另外，可以确定文本中词汇所属的类别，将属于该类别的词汇的数量最高的类别确定为文本所属的类别。例如，将文本按照所表示的情绪进行分类的情况下，若文本中存在80个词汇属于兴奋类别，存在10个词汇属于愤怒类别，存在5个词汇属于悲伤类别，则将文本划分为兴奋类别。

由以上可见，由于不同类型的文本的特征不同，因此，根据文本的特征能够实现对文本的分类。

本发明的另一个实施例中，除了通过上述步骤S102确定上述描述信息之外，还可以预设文本与词汇之间、词汇与词汇之间的关联关系，从而根据预设的关联关系确定上述描述信息。

具体的，上述实施例提供的方案可以应用于对研发质量问题单分类的应用场景中。其中，研发问题质量单用于记录产品研发过程中的质量问题，产品研发过程中可能存在的质量问题“资源管理问题”、“操作系统及数据库问题”、“安装部署升级问题”、“告警管理问题”、“拓扑管理问题”等，可以将研发质量问题单根据所描述的质量问题对研发质量问题单进行分类。

其中，研发问题质量单中可以包含问题单号、简要描述、标题、解决方案、处理人、处理人角色等等字段，其中标题、简要描述、解决方案字段的重要程度较高，因此，可以将标题、简要描述、解决方案部分对应的注意力参数设置为较高的注意力参数。

对研发问题质量单进行分类时，可以确定研发问题质量单中词汇的特征与研发问题质量单的特征，并确定词汇与研发问题质量单之间、词汇与词汇之间是否存在关联关系的描述信息。并基于描述信息生成图，根据所生成的图与预设的注意力参数，基于图注意力机制对词汇的特征和研发问题质量单的特征进行调整，根据调整后的研发问题质量单的特征和词汇的特征，对研发问题质量单进行分类。

本发明的一个实施例中，可以通过步骤A确定各对词汇之间是否存在关联关系，通过步骤B确定各对词汇与文本之间是否存在关联关系

步骤A：针对每一对词汇，根据词汇在各个文本中出现的次数，确定该对词汇中的两个词汇在各个文本中出现的概率以及在各个文本中该对词汇中的两个词汇均出现的概率，根据所确定的两个词汇出现的概率以及两个词汇均出现的概率，确定该对词汇之间的第一关联程度，若第一关联程度大于第一预设关联程度，则确定该对词汇之间存在关联关系。

具体的，可以计算词汇在文本中出现的次数除以各个文本中词汇的总数，确定词汇在各个文本中出现的概率。

可以计算在各个文本中该对词汇中的两个词汇均出现的次数除以各个文本中词汇的总数，确定两个词汇均出现的概率。

本发明的一个实施例中，针对每对词汇，可以通过以下公式计算该对词汇之间的第一关联程度：

其中，i与j分别表示该对词汇中的两个词汇，C₁(i，j)为词汇i与词汇j之间的第一关联程度，p(i)为词汇i在各个文本中出现的概率，p(j)为词汇j在各个文本中出现的概率，p(i，j)为词汇i与词汇j在文本中均出现的概率，a为大于1的底数。

具体的，词汇i与词汇j在文本中出现时两者均出现的可能性越高，p(i，j)、p(i)与p(j)的取值越接近，则计算得到的

的值较大。由于底数a大于1，因此

越大，则计算得到的C₁(i，j)越大。因此上述C₁(i，j)可以反映词汇i与词汇j在文本中均出现的可能性，词汇i与词汇j在文本中均出现的可能性越高，词汇i与词汇j之间的第一关联程度越高。若词汇i与词汇j之间的第一关联程度大于第一预设关联程度，则认为词汇i与词汇j之间存在关联关系。

步骤B：针对每一对词汇与文本，获得包含该词汇的文本的第一数量，根据该词汇在该文本中出现的次数、上述第一数量以及所有文本的第二数量，计算该词汇与该文本之间的第二关联程度，若第二关联程度大于第二预设关联程度，则确定该词汇与该文本之间存在关联关系。

具体的，若所有文本的第二数量与包含该词汇的文本的第一数量之间的比值较大，则说明该词汇仅在较少数量的文本中出现，则可以通过上述第一数量与第二数量确定该词汇在该文本中的特有程度。另外，若该词汇在该文本中出现的次数较多，则该词汇在该文本中的重要程度较高。由于在文本中特有程度高且重要程度高的词汇与文本之间的第二关联程度高，因此通过上述第一数量、第二数量以及该词汇在该文本中出现的次数，可以确定该词汇与该文本之间的第二关联程度。

本发明的一个实施例中，针对每一对词汇与文本，可以通过以下公式计算该对词汇与文本之间的第二关联程度。

其中，上述x表示该对词汇与文本中的词汇，y表示该对词汇与文本中的文本，C₂(x，y)为词汇x与文本y之间的第二关联程度，TF_xy为词汇x在文本y中出现的次数，n_x为包含词汇x的文本的第一数量，n为所有文本的第二数量，b为大于1的底数。

具体的，包含词汇x的文本的第一数量越大，计算得到的

的数值越大，由于底数b大于1，因此

的数值越大，计算得到的

的数值越大，

的数值可以反映词汇x在文本y中的特有程度。并且词汇x在文本y中出现的次数TF_xy可以反映词汇x在文本y中的重要程度。因此计算得到的C₂(x，y)可以确定词汇x在文本y之间的第二关联程度。若词汇x与文本y之间的第二关联程度大于第二预设关联程度，则认为词汇x与文本y之间存在关联关系。

另外，若上述文本的数量为1，则文本y中词汇x的第一数量n_x与文本的第二数量n均为1，则计算得到的

为1，

的取值为0。因此若文本的数量为1，则文本y与文本中的词汇之间的第二关联程度始终为0，无法通过上述第二关联程度确定文本与词汇之间的关联关系。因此上述步骤B仅适用于文本的数量大于1的情况。

参见图2，本发明实施例提供了第二种文本分类方法的流程示意图，与前述图1A所示的实施例相比，上述步骤S104通过S104A-S104B实现。

S104A：针对所生成的图中的每一节点，根据该节点对应的对象的特征、关联节点对应的关联对象的特征以及预设的注意力参数，基于图注意力机制，计算上述关联对象对该对象的重要程度。

其中，节点对应的对象包括：文本和文本中的词汇。

上述关联节点为：与该节点之间存在边的节点。

本发明的一个实施例中，可以通过以下公式计算关联对象对该对象的重要程度：

其中，i表示一个对象，j表示对象i的关联对象，e_i，j表示关联对象j对对象i的重要程度，LeakyReLU()为激活函数，w为预设的注意力参数矩阵，

为对象i的特征向量，

为关联对象j的特征向量，||表示向量的连接操作，

为预设的参数向量。

具体的，上述LeakyReLU仅为激活函数的一种形式，也可以通过其他激活函数计算得到关联对象对该对象的重要程度。

其中，

与

中包含的元素个数相同，注意力参数矩阵w的列数与

与

中包含的元素个数相同，

若

与

中包含的元素个数为m，则可以认为

与

均是维度为m的列向量，w是维度为n*m的矩阵，则计算得到的

与

均是维度为n的列向量，将

与

相连接得到的

是维度为2n的列向量，

是维度为2n的列向量，则

是维度为2n的行向量。

另外，还可以对计算得到的关联对象对该对象的重要程度进行归一化处理。

可以通过以下公式对上述重要程度进行归一化处理：

其中，i表示一个对象，j表示对象i的关联对象，α_ij为归一化处理后的关联对象j对对象i的重要程度，e_ij为归一化处理之前的关联对象j对对象i的重要程度，N_i为对象i的关联对象的集合，softmax()为归一化指数函数，exp()表示以自然常数e为底的指数函数。

具体的，softmax仅为归一化指数函数的一种形式，还可以通过其他归一化指数函数对上述重要程度进行归一化处理。

S104B：根据计算得到的重要程度以及各个对象的关联对象的特征，对各个对象的特征进行调整。

具体的，针对每一对象，对该对象而言重要程度越高的关联对象的特征对该对象的特征的影响程度越大。

本发明的一个实施例中，可以通过以下公式对对象的特征进行调整。

其中，i表示一个对象，j表示对象i的关联对象，N_i为对象i的关联对象j的集合，α_ij为关联对象j对对象i的重要程度，w为预设的注意力参数矩阵，

为关联对象j的特征向量，

为调整之后的对象i的特征向量，σ()表示激活函数。

例如，上述激活函数σ()可以为ReLU函数等。

由以上可见，本实施例提供的方案能够结合注意力参数与关联对象的特征对对象的特征进行调整，使得调整后的对象的特征能够反映注意力参数与关联对象的特征，使得调整后的对象的特征更准确。

参见图3，本发明实施例提供了第三种文本分类方法的流程示意图，由于在不同情况下，同一词汇或文本的受注意程度不同，因此可以通过不同的注意力参数表示注意力在不同词汇或文本上不同的注意力分布，通过不同的注意力分布表示词汇或文本不同的受注意程度，则上述预设的注意力参数包括多组注意力参数。与前述图1A相比，可以通过以下步骤S104C-S104D实现上述步骤S104。

S104C：针对每一组注意力参数，根据上述描述信息以及该组注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整，得到文本的子调整特征和词汇的子调整特征。

具体的，针对每一组注意力参数，可以通过相同的方式对文本的特征和词汇的特征进行调整，得到该组注意力参数对应的文本的子调整特征与词汇的子调整特征。

上述对文本的特征和词汇的特征进行调整的方式可以参见上述步骤S104A，在此不再赘述。

上述词汇可以为一个或多个，在词汇为多个的情况下，针对每一组注意力参数，分别对各个词汇的特征进行调整，得到各个词汇的子调整特征。

上述文本也可以为一个或多个，在文本为多个的情况下，针对每一组注意力参数，分别对各个文本的特征进行调整，得到各个文本的子调整特征。

S104D：将文本的各子调整特征进行连接，并将词汇的各子调整特征进行连接，得到调整后的文本的特征和词汇的特征。

具体的，将文本的各子调整特征进行连接，得到的调整后的文本的特征能够综合各组注意力参数对应的文本的子调整特征。

将词汇的各子调整特征进行连接，得到的调整后的词汇的特征能够综合各组注意力参数对应的词汇的子调整特征。

上述词汇可以为一个或多个，在词汇为多个的情况下，针对每一词汇，将该词汇的各子调整特征依次进行首尾连接，得到调整后的该词汇的特征。

上述文本也可以为一个或多个，在文本为多个的情况下，针对每一文本，将该文本的各子调整特征依次进行首尾连接，得到调整后的该文本的特征。

本发明的一个实施例中，可以通过以下公式实现上述S104C-S104D得到调整后的文本的特征和词汇的特征：

其中，i表示词汇或文本，j表示与i存在关联关系的词汇或文本，

为调整后的i的特征向量，N_i为与i存在关联关系的词汇或文本的集合，K表示注意力参数的集合，

为基于第k组注意力参数计算得到的j对于i的重要程度，w^k为第k组注意力参数矩阵，

为j的特征向量，||表示向量的连接操作，σ()表示激活函数。

例如，上述激活函数σ()可以为ReLU函数等。

由以上可见，本方案对文本与词汇的特征进行调整的过程中结合了多组注意力参数，与仅基于一组注意力参数对文本与词汇的特征进行调整相比，调整得到的文本与词汇的特征较准确。

除以上步骤S104D之外，本发明的一个实施例中，也可以取所生成的图中节点对应的文本的各子调整特征的均值，作为调整后文本的特征，取词汇的各子调整特征的均值，作为调整后词汇的特征。

本发明的另一个实施例中，可以重复执行步骤S104，直至执行次数达到预设次数。

具体的，每执行一次步骤S104，图中节点对应的各个文本和词汇的特征会被调整一次，下一执行的过程中可以基于上一次调整之后得到的文本的特征与词汇的特征继续进行调整，直至执行步骤S104的执行次数达到预设次数。

由以上可见，循环执行调整图中节点对应的文本的特征和词汇的特征的步骤，可以使得文本的特征和词汇的特征得到多次调整，每调整一次，可以使得调整得到的文本的特征和词汇的特征中包含的其他文本或其他词汇的特征更多，从而使得最终调整得到的文本的特征和词汇的特征较准确。

参见图4，本发明实施例提供了第四种文本分类方法的流程示意图，与前述图1A所示的实施例相比，上述步骤S104-S105可以通过以下步骤S106实现。

S106：将所生成的图输入预先训练的分类模型，得到文本的分类结果。

其中，上述分类模型用于：对图中节点对应的文本的特征和词汇的特征进行调整，并根据调整后的文本的特征和词汇的特征对文本进行分类。

上述分类模型为：基于图注意力机制、对预设的图神经网络模型进行有监督训练得到的模型。

上述图神经网络模型的模型参数包括上述注意力参数。还可以包括上述第一预设参数w_o、第二预设参数b_o和预设的参数向量

具体的，可以将表示所生成的图的特征矩阵与邻接矩阵输入预先训练的分类模型。

由于上述图神经网络模型的模型参数中包含上述注意力参数，因此上述图神经网络模型可以根据上述注意力参数，基于图注意力机制，对文本进行分类。

另外，上述分类模型是由图神经网络模型训练得到的，因此上述分类模型能够对所输入的图中的信息进行处理，基于图注意力机制，调整图中节点的节点数据，也就是调整节点对应的词汇的特征和节点对应的文本的特征。并且根据调整之后的节点数据，对节点对应的文本和词汇进行分类。

参见图5A，本发明实施例提供了第一种分类模型的结构示意图。

其中，上述图5A所示的分类模型中包含输入层、注意力特征调整层与输出层。

具体的，上述输入层接收到通过上述步骤S103所生成的图之后，将上述图输入注意力特征调整层。上述注意力特征调整层对接收到的图中节点对应的词汇的特征与文本的特征进行调整，将调整后的词汇的特征和文本的特征输入输出层。输出层根据接收到的调整后词汇的特征、调整后文本的特征对文本进行分类。

上述图5A所示的分类模型能够实现前述图1A所示的实施例中的步骤S104-S105。

参见图5B，本发明实施例提供了第二种分类模型的结构示意图。

其中，上述图5B所示的分类模型中包含输入层、多个注意力特征调整层与输出层。

具体的，每一注意力特征调整层的模型参数中包含一组注意力参数，每一注意力特征调整层的注意力参数不同。上述输入层将通过上述步骤S103生成的图输入各个注意力特征调整层。每一注意力特征调整层基于不同的注意力参数对图中节点对应的词汇的特征与文本的特征进行不同的调整，各个注意力特征调整层将调整后的词汇的特征、调整后的文本的特征输入输出层。输出层将接收到的各个词汇调整后的特征依次首尾相接，将接收到的各个文本调整后的特征依次首尾相接，并根据首尾相接后的词汇的特征、首尾相接后的文本的特征对文本进行分类。

上述图5B所示的分类模型能够实现前述图3所示实施例中的步骤S104C-S105。

参见图5C，本发明实施例提供了第三种分类模型的结构示意图。

其中，上述图5C所示的分类模型中包含输入层、注意力特征调整层与输入层。

具体的，上述输入层接收到通过上述步骤S103所生成的图之后，将上述图输入注意力特征调整层。上述注意力特征调整层对接收到的图中节点对应的词汇的特征与文本的特征进行调整，将调整词汇的特征和文本的特征后的图再次输入注意力特征调整层，直至将图输入注意力特征调整层的次数达到预设次数，将调整后的词汇的特征和文本的特征输入上述输出层。输出层根据接收到的调整后词汇的特征、调整后文本的特征对文本进行分类。

上述图5C所示的分类模型能够实现重复执行步骤S104之后执行步骤S105的实施例。

由以上可见，由于图中的各个节点与文本和词汇一一对应，节点数据为文本的特征和词汇的特征，节点之间的边表示节点对应的两个词和/或文本之间存在关联关系，因此上述图可以表示各个文本和词汇的特征以及文本和词汇之间、词汇和词汇之间存在关联关系。并且上述分类模型是由图神经网络模型训练得到的，因此可以对所生成的图进行处理，得到图中的节点对应文本的分类结果。并且上述分类模型是根据大量样本作为监督信息训练得到的，因此分类模型对文本进行分类的效率较高。

本发明的一个实施例中，可以通过以下步骤C-步骤H训练得到上述分类模型。

步骤C：获得样本文本的特征和样本文本中样本词汇的特征。

具体的，上述样本文本为已知所属类别的文本，样本词汇为已知所属类别的词汇，可以通过样本文本的样本标记表示样本文本所属类别，可以通过样本词汇的样本标记表示样本词汇的所属类别。

上述样本标记可以作为分类模型训练过程中的监督信息，因此通过步骤C-步骤H训练得到上述分类模型的过程为监督训练过程。

步骤D：获得样本词汇在样本文本中出现的次数，并根据所获得的次数确定用于表示样本词汇与样本词汇之间、以及样本词汇与样本文本之间是否存在关联关系的样本描述信息。

步骤E：以样本文本和样本词汇为节点，且以样本文本的特征和样本词汇的特征为节点数据，根据上述样本描述信息，生成样本图。

其中，上述样本图中具有关联关系的两个样本文本和/或样本词汇对应的节点之间存在边。

步骤F：将所生成的样本图输入预设的图神经网络模型对样本文本进行分类。

具体的，上述步骤C-步骤F与前述图4所示的步骤S101-S106的描述相似，在此不再赘述。

步骤G：根据样本文本和样本词汇的分类结果以及样本文本和样本词汇的样本标记，计算上述预设的图神经网络模型的损失。

具体的，可以通过以下公式计算图神经网络模型的损失：

其中，L为计算得到损失，d表示图中的节点，node_x为图中节点的集合，n_classes为节点对应的样本词汇与样本文本所属类别的总数，k表示第k个样本词汇与样本文本的所属类别，Y_dk为样本标签表示的节点d对应的词汇或文本属于第k个所属类别的概率，Z_dk表示上述图神经网络模型预测得到的节点d对应的词汇或文本属于第k个所属类别的概率。

具体的，上述公式表示的函数为交叉熵损失函数。另外，也可以通过其他方式计算得到上述损失。

步骤H：根据上述损失调整上述图神经网络模型的模型参数，直至上述图神经网络模型满足预设的收敛条件，将调整参数后的上述图神经网络模型确定为上述分类模型。

具体的，可以采用梯度下降优化算法模型参数进行调整，不断减少上述训练过程中的损失，直至上述图神经网络模型满足预设的收敛条件。

上述图神经网络模型的模型参数中包括注意力参数，因此对模型参数调整的过程中，可以调整上述注意力参数。

与前述文本分类方法相对应，本发明实施例还提供了一种文本分类装置。

参见图6，本发明实施例提供了一种文本分类装置的结构示意图，上述装置包括：

特征获得模块601，用于获得文本的特征和文本中词汇的特征；

描述信息获得模块602，用于获得词汇在文本中出现的次数，并根据所获得的次数确定用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息；

图生成模块603，用于以文本和词汇为节点，且以文本的特征和词汇的特征为节点数据，根据所述描述信息，生成图，其中，所述图中具有关联关系的两个文本和/或词汇对应的节点之间存在边；

文本分类模块604，用于根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整；根据调整后的文本的特征和词汇的特征，对文本进行分类。

本发明的一个实施例中，所述文本分类模块604，具体用于：

根据调整后的文本的特征和词汇的特征，对文本进行分类。

由以上可见，本方案能够结合注意力参数与关联对象的特征对对象的特征进行调整，使得调整后的对象的特征能够反映注意力参数与关联对象的特征，使得调整后的对象的特征更准确。

本发明的一个实施例中，所述文本分类模块604，具体用于：

将所生成的图输入预先训练的分类模型，得到文本的分类结果，其中，所述分类模型用于：对图中节点对应的文本的特诊个词汇的特征进行调整，并根据调整后的文本的特征和词汇的特征对文本进行分类，所述分类模型为：基于图注意力机制、对预设的图神经网络模型进行有监督训练得到的模型，所述图神经网络模型的模型参数包括所述注意力参数。

本发明的一个实施例中，所述装置还包括：

模型训练模块，用于通过以下方式训练得到所述分类模型：

获得样本文本的特征和样本文本中样本词汇的特征；

所述文本分类模块604，具体用于：

根据调整后的文本的特征和词汇的特征，对文本进行分类。

本发明的一个实施例中，所述文本分类模块604，具体用于：

本发明的一个实施例中，所述描述信息获得模块602，具体用于：

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现上述文本分类方法实施例中任一所述的方法步骤。

应用本发明实施例提供的电子设备进行文本分类时，由于不同类型的文本的特征不同，因此，根据文本的特征能够实现对文本的分类。

另外，本发明实施例提供的方案中，首先，确定了表示词汇与词汇之间、词汇与文本之间的关联关系的描述信息，存在关联关系的词汇与词汇、词汇与节点的特征之间可以互相影响。通过生成以文本和词汇为节点，具有关联关系的两个文本和/或词汇对应的节点之间存在边的图，表示词汇与词汇、词汇与文本之间的关联关系。再者。本发明实施例提供的方案中还参考了注意力参数，基于图注意力机制对图中节点对应的词汇和文本的特征进行调整。使得调整得到的文本的特征不仅仅只是反映文本自身的特征，还受到了各个词汇与其他文本的特征的影响，因此，所获得的文本的特征较准确。由于文本的特征较准确，因此，对文本的分类结果也较准确。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一文本分类方法的步骤。

应用本实施例提供的计算机可读存储介质中存储的计算机程序进行文本分类时，由于不同类型的文本的特征不同，因此，根据文本的特征能够实现对文本的分类。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一文本分类方法的步骤。

执行本实施例提供的计算机程序产品进行文本分类时，由于不同类型的文本的特征不同，因此，根据文本的特征能够实现对文本的分类。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序产品而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

获得文本的特征和文本中词汇的特征；

根据调整后的文本的特征和词汇的特征，对文本进行分类。

2.根据权利要求1所述的方法，其特征在于，所述根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整；根据调整后的文本的特征和词汇的特征，对文本进行分类，包括：

4.根据权利要求3所述的方法，其特征在于，通过以下方式训练得到所述分类模型：

获得样本文本的特征和样本文本中样本词汇的特征；

5.根据权利要求1所述的方法，其特征在于，所述预设的注意力参数包括多组注意力参数；

6.根据权利要求1所述的方法，其特征在于，所述根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述根据所获得的次数确定用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息，包括：

8.一种文本分类装置，其特征在于，所述装置包括：

特征获得模块，用于获得文本的特征和文本中词汇的特征；

9.根据权利要求8所述的装置，其特征在于，所述文本分类模块，具体用于：

根据调整后的文本的特征和词汇的特征，对文本进行分类。

10.根据权利要求8所述的装置，其特征在于，所述文本分类模块，具体用于：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

模型训练模块，用于通过以下方式训练得到所述分类模型：

获得样本文本的特征和样本文本中样本词汇的特征；

12.根据权利要求8所述的装置，其特征在于，所述预设的注意力参数包括多组注意力参数；

所述文本分类模块，具体用于：

根据调整后的文本的特征和词汇的特征，对文本进行分类。

13.根据权利要求8所述的装置，其特征在于，所述文本分类模块，具体用于：

14.根据权利要求8-13中任一项所述的装置，其特征在于，所述描述信息获得模块，具体用于：

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。