CN110704626B

CN110704626B - 一种用于短文本的分类方法及装置

Info

Publication number: CN110704626B
Application number: CN201910945503.9A
Authority: CN
Inventors: 石川; 胡琳梅; 杨天持
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2022-07-22
Anticipated expiration: 2039-09-30
Also published as: CN110704626A

Abstract

本发明实施例提供了一种用于短文本的分类方法及装置，该方法在对待分类短文本进行分类时，根据从待分类短文本中获取的实体和所述主题分别与待分类短文本的所属关系，构建文本异质图，并将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果，应用本发明实施例构建的文本异质图能够捕捉待分类短文本中的语义关系，且对异质图卷积神经网络训练时无需太多的标注数据，使得训练后的文本分类模型对短文本分类时的准确率更高，可见，应用本实施例提供的方法能够提高对短文本分类的准确率。

Description

一种用于短文本的分类方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种用于短文本的分类方法及装置。

背景技术

随着在线社交媒体和电子商务的快速发展，在线新闻、搜索、评论、推特等短文本在互联网上出现得越来越普遍。通过对短文本分类可以帮助用户高效地管理文本，鉴于此，短文本分类被广泛应用在诸多许多领域，例如情感分析、新闻分类、查询意图分类等。然而在许多实际应用中的标注数据很少，而人工标注又及其耗时，甚至需要专业知识。因此，亟需研究在仅具有相对少量的标注数据时的半监督短文本分类。

目前，提出了一种基于深度神经网络的短文本分类方法，该方法将待分类的短文本输入至已训练好的分类模型，输出待分类短文本的分类结果，其中，分类模型是利用知识库中的知识信息作为训练样本，基于对知识信息的分类标注，对深度卷积神经网络进行训练，得到用于对短文本进行分类的模型，结合了知识库中的实体和概念，丰富短文本的语义。

然而，该方法虽然能够实现对短文本的分类，但是该方法并不能捕获到短文本中语义关系，例如，实体之间的关系，而且还严重依赖于训练数据的规模。显然，缺乏短文本的分类标注的标注数据仍然是训练分类模型的关键瓶颈。

综上所述，捕获不到短文本中语义关系以及训练样本的缺乏，均会导致应用现有的短文本分类方法对短文本进行分类时的准确率低。

发明内容

本发明实施例的目的在于提供一种用于短文本的分类方法及装置，以提高对短文本分类的准确率。具体技术方案如下：

一种用于短文本的分类方法，所述方法包括：

获取待分类短文本；

从所述待分类短文本中获取实体和主题；

根据所述实体和所述主题分别与所述待分类短文本的所属关系，构建文本异质图；

将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果；其中，所述文本分类模型为：预先采用样本文本异质图对预设的异质图卷积神经网络进行训练得到的、用于获得短文本的分类结果的模型，所述样本文本异质图为：利用从样本短文本中获取的样本实体和样本主题分别与所述样本短文本的所属关系构建的异质图。

进一步地，所述从获取的短文本中获取实体和主题，包括：

利用TAGME从所述待分类短文本中获取实体；

利用LDA从所述待分类短文本中获取主题。

进一步地，所述利用LDA从所述待分类短文本中获取主题，包括：

利用LDA从所述待分类短文本中，分别获取所述待分类短文本在所述主题上的概率分布和主题；

所述根据实体和主题分别与所述待分类短文本的所属关系，构建文本异质图，包括：

针对文本节点中的每一文本节点，从表示该文本节点的待分类短文本在表示主题节点的主题上的概率分布中，选取概率大的主题表示的主题节点，并对所选取的主题节点与该文本节点进行连边，根据该文本节点与实体节点的所属关系，对该文本节点与所述实体节点进行连边；其中，所述文本节点为所述待分类短文本表示的节点，所述主题节点为所述主题表示的节点，所述实体节点为所述实体表示的节点；

将所述实体输入至预设的实体向量表示模型中，得到所述实体的向量表示，其中，所述实体向量表示模型为预选采用预设的语料库的数据对word2vec进行训练得到的、用于获得所述语料库中资源实体的向量表示的模型；所述资源实体包括所述实体；

根据所述向量表示，计算所述实体间的相似性；

对所述相似性高于预设阈值的实体对应的实体节点间进行连边。

进一步地，按照以下方式获得文本分类模型，包括：

获取样本短文本；

从所述样本短文本中获取样本实体和样本主题；

根据所述样本实体和所述样本主题分别与所述样本短文本的所属关系，构建样本文本异质图；

获得部分样本短文本的类别标注；

采用所构建的样本文本异质图以及每一样本短文本的类别标注，对所述异质图卷积神经网络进行训练，获得用于对短文本分类的神经网络模型，作为所述文本分类模型。

进一步地，所述从所述样本短文本中获取样本实体和样本主题，包括：

利用LDA从所获取的样本短文本中，获取所述样本短文本在所述主题样本上的概率分布和样本主题；

所述根据所述样本实体和所述样本主题分别与所述样本短文本的所属关系，构建样本文本异质图，包括：

针对样本文本节点中的每一样本文本节点，从表示该样本文本节点的样本短文本在表示样本主题节点的样本主题上的概率分布中，选取概率大的样本主题表示的样本主题节点，并对所选取的样本主题节点与该样本文本节点进行连边，根据该样本文本节点与样本实体节点的所属关系，对该样本文本节点与所述样本实体节点进行连边；其中，所述样本文本节点为所述样本短文本表示的节点，所述样本主题节点为所述样本主题表示的节点，所述样本实体节点为所述样本实体表示的节点；

将所述样本实体输入至预设的实体向量表示模型中，得到所述样本实体的样本向量表示，其中，所述实体向量表示模型为预选采用预设的语料库的数据对word2vec进行训练得到的、用于获得所述语料库中资源实体的向量表示的模型；所述资源实体包括所述样本实体；

根据所述样本向量表示，计算所述样本实体间的相似性；

对所述相似性高于预设阈值的样本实体对应的样本实体节点间进行连边。

进一步地，按照以下方式构建异质图卷积神经网络：

按照第一表达式获得所述文本异质图中节点级别的注意力权重；其中，所述节点包括：文本节点、实体节点和主题节点；

所述第一表达式为：

其中，(B)_vv′为由行数为节点序号v、列数为邻居节点序号v'构成的节点级别的注意力权重，i为节点序号v的所有邻居N_v中的任一节点序号，b_vi为节点序号v和节点序号v的邻居节点序号i之间的注意力值，b_vv′为节点序号v和节点序号v的邻居节点序号v'之间的注意力值；b_vv'＝σ(ν^T·α_τ'[h_v||h_v'])，ν是节点级别的注意力机制中待训练的参数向量；h_v为节点序号v的节点特征的向量表示，h_v′为邻居节点序号v'的节点特征的向量表示；α_τ′为类型级别τ’的注意力值；

利用所获得的注意力权重，按照第二表达式获得异质图卷积神经网络；所述第二表达式为：

其中，B_τ为类型τ的(B)_vv′的特征表示，H^(l+1)为第l+1层中所有节点的特征表示，

为第l层中类型τ的所有节点的特征表，

为第l层中类型τ对应的待训练的参数变换矩阵，σ(·)为非线性激活函数。

一种用于短文本的分类装置，所述装置包括：

短文本获取模块，用于获取待分类短文本；

实体和主题获取模块，用于从所述待分类短文本中获取实体和主题；

文本异质图构建模块，用于根据所述实体和所述主题分别与所述待分类短文本的所属关系，构建文本异质图；

分类模块，用于将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果；其中，所述文本分类模型为：预先采用样本文本异质图对预设的异质图卷积神经网络进行训练得到的、用于获得短文本的分类结果的模型，所述样本文本异质图为：利用从样本短文本中获取的样本实体和样本主题分别与所述样本短文本的所属关系构建的异质图。

进一步地，所述实体和主题获取模块包括：

实体获取子模块，用于利用TAGME从所述待分类短文本中获取实体；

主题获取子模块，用于利用LDA从所述待分类短文本中获取主题。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上任一所述的用于短文本的分类方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的用于短文本的分类方法。

本发明实施例提供了一种用于短文本的分类方法及装置，该方法用于短文本的分类方法，在对待分类短文本进行分类时，根据从待分类短文本中获取的实体和所述主题分别与待分类短文本的所属关系，构建文本异质图，并将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果，相对于现有技术而言，本实施例构建的文本异质图能够捕捉待分类短文本中的语义关系，且对异质图卷积神经网络训练时无需太多的标注数据，使得训练后的文本分类模型对短文本分类时的准确率更高，可见，应用本实施例提供的方法能够提高对短文本分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的第一种用于短文本的分类方法的流程示意图；

图2为本发明实施例提供的第二种用于短文本的分类方法的流程示意图；

图3为本发明实施例提供的一种用于短文本的分类装置的结构示意图；

图4为一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中的问题，本发明实施例提供了一种用于短文本的分类方法及装置。

参见图1，图1位本发明实施例提供的一种用于短文本的分类方法的流程示意图，应用于客户端或服务器，该方法包括：

S101，获取待分类短文本。

其中，短文本内容较少，字数不高于140字，低则只有十几字，应用本发明实施例的方法可以对论坛/BBS、留言及回复、咨询、建议及意见反馈、手机短信/网络小纸条、即时聊天记录如MSN、QQ和POPO等中的短文本进行分类。

上述待分类短文本可以是从网页中获取，也可以从某一个客户端的评论中获取，还可以从某一数据库中获得，本发明实施例对此并不限定。

上述待分类短文本可以是一个也可以是多个，本发明实施例对此并不限定。

上述待分类短文本中的语言可以是中文，也可以是英文，还可以是日文，本发明实施例对此并不限定。

S102，从所述待分类短文本中获取实体和主题。

其中，实体为客观存在并可相互区别的事物。实体可以是具体的人、事、物，也可以是抽象的概念。

主题为文艺作品中或者社会活动等所要表现的中心思想，泛指主要内容。

可以采用实体获取工具从分类短文本中获取实体，实体获取工具可以为TAGME。

在本发明的一个实施例中，可以利用TAGME从所述待分类短文本中获取实体；可以利用LDA(Latent Dirichlet Allocation，基于概率模型的主题模型算法)从待分类短文本中获取主题；

TAGME是一直在线的实体识别工具包。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中的潜在隐藏的主题信息。

可见，本实施例通过TAGME和LDA可以从待分析短文本中从待分类短文本中准确地、全面地获取实体和主题。

在本发明的一个实施例中，实现上述利用LDA从待分类短文本中获取主题可以包括步骤A：

步骤A，利用LDA可以从所述待分类短文本中，分别获取所述待分类短文本在所述主题上的概率分布和主题。

上述概率分布可以为主题在每一待分类短文本中所呈现的概率。

示例性的，主题为“股票走势”，股票走势在待分类短文本A中的概率为20％，在待分类短文本B中的概率为80％，在待分类短文本C的概率为0。

可以使用LDA挖掘潜在主题以丰富待分类短文本的语义信息。每个主题由在整个词表上的单词概率分布表示，如任一主题t_i的概率分布表示，t_i＝(theta₁，...,theta_w)，其中，theta₁，...,theta_w分别为t_i在由预设语料确定的词1,…,w在词表上的概率分布。

可见，本实施例不仅可以从所述待分类短文本中准确且全面地获取所述待分类短文本在所述主题上的概率分布和主题，还能够确定出每一主题在由待分类短文本所确定的词表中的概率分布，为用户提供一种对待分类短文本的筛选。

S103，根据所述实体和所述主题分别与所述待分类短文本的所属关系，构建文本异质图。

实体和主题均来源于待分类短文本，也就是说，每一实体均具有所属的待分类短文本。

示例性的，如表1所示，A11、A12、C21和A13均是从待分类短文本A获取的实体，A21、A22和A23均是从待分类短文本A获取的主题；A11、A12、B11、B12和B13均是从待分类短文本B获取的实体，A22、A23、B21、B22和B23均是从待分类短文本B获取的主题；A12、B11、C11、C12和C13均是从待分类短文本C获取的实体，A23、B21、C21、C22和C23均是从待分类短文本C获取的主题。

表1待分类短文本的实体和主题

由表1可见，A11、A12、A13、、C21、A21、A22和A23均属于待分类短文本A，A11、A12、A22、A23、B11、B12、B13、B21、B22、B23均属于待分类短文本B，A12、B11、A23、B21、C11、C12、C13、C21、C22、C23均属于待分类短文本C。

在本发明的一个实施例中，基于上述步骤A，S103的具体实现方式可以包括步骤B～步骤E：

步骤B，针对文本节点中的每一文本节点，从表示该文本节点的待分类短文本在表示主题节点的主题上的概率分布中，选取概率大的主题表示的主题节点，并对所选取的主题节点与该文本节点进行连边，根据该文本节点与实体节点的所属关系，对该文本节点与所述实体节点进行连边；其中，所述文本节点为所述待分类短文本表示的节点，所述主题节点为所述主题表示的节点，所述实体节点为所述实体表示的节点。

其中，上述概率大的主题表示的主题节点可以是一个，也可以是多个，本发明实施例并不限定，优选取两个。

将每个待分类短文本分配给具有大概率的预设数量个主题，即在该待分类短文本和被分配的主题之间建立一条边。

示例性的，设主题A21在待分类短文本A的概率为20％，主题A22在待分类短文本A的概率为50％，主题A23在待分类短文本A的概率为30％，则将表示主题主题A22的主题节点和表示主题A23的主题节点分别与表示待分类短文本A的样本文本节点连边。

上述该文本节点与实体节点的所属关系为该文本节点对应的待分类短文本包含实体节点对应的实体。也就是说，如果某一待分类短文本中包含某一实体，则在该待分类短文本和实体之间建立一条边。

本实施例中可以将实体名作为一个完整的单词，如实体名为贝拉克侯赛因奥巴马可以作为一个单词。

步骤C，将所述实体输入至预设的实体向量表示模型中，得到所述实体的向量表示，其中，所述实体向量表示模型为预选采用预设的语料库的数据对word2vec进行训练得到的、用于获得所述语料库中资源实体的向量表示的模型；所述资源实体包括所述实体。

其中，上述语料库可以为维基百科Wikipedia语料库。

Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

为了确保Wikipedia中存在上述实体，则可以获取待分类短文本的实体，并使用实体链接工具TAGME将实体链接到Wikipedia。

步骤D，根据所述向量表示，计算所述实体间的相似性。

为了进一步丰富待分类短文本的语义，本步骤考虑了实体之间的关系，也就是，考虑了实体间的相似性。

实体间的相似性可以通过基于两个实体的嵌入表示计算得到，即余弦相似度。

步骤E，对所述相似性高于预设阈值的实体对应的实体节点间进行连边。

如果两个实体间计算得到的相似性高于上述预设预支，则在该两个实体之间建立一条边。

示例性的，短文本“the seed of Apple’s Innovation:In an era when mosttechnology...”通过“技术”这个主题与实体“Apple Inc.”和“公司”的关系在语义上得到丰富，因此，它可以高置信度地被正确分类为“business”。

可见，本实施例在构建文本异质图时引入了主题、实体和实体间的关系，丰富了待分类短文本的语义信息，从而为后续的待分类短文本的分类可以提供有力的支撑。

S104，将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果；其中，所述文本分类模型为：预先采用样本文本异质图对预设的异质图卷积神经网络进行训练得到的、用于获得短文本的分类结果的模型，所述样本文本异质图为：利用从样本短文本中获取的样本实体和样本主题分别与所述样本短文本的所属关系构建的异质图。

以构建的文本异质图作为输入参数，输入至文本分类模型，输出待分类短文本的分类结果。

如果待分类短文本为多个时，则文本分类模型可以输出每一待分类短文本的分类结果。

不同节点和不同关系的差异。不同类型节点有其各自的特点，节点的属性空间也不尽相同。如何处理不同类型节点并保留各自的特性是设计异质图神经网络时迫切需要解决的问题；

由于上述节点之间的差异性，现有的同质图卷积神经网络难以应用于短文本异质网络。基于此，现有技术采用的一种将同质图卷积神经网络调整到异质网络的一种方法即GCN-HIN(Gragh Convolutional Networks-Heterogeneous Information Network，基于异质信息网络的图卷积神经网络)为：针对节点的不同类型T＝{τ₁,τ₂,τ₃}，将上述节点各自的特征空间作直和(即正交地拼接)，从而构造一个更大的特征空间。上述T为类型集合，τ₁,τ₂,τ₃分别表示文本节点对应的节点类型、实体节点对应的节点类型和主题节点对应的节点类型。

例如，每个节点被表示为一个稀疏特征向量，其中对应于其他类型的无关维度上均置0。

然而，GCN-HIN由于忽略了不同信息类型的异质性，因此应用GCN-HIN进行分类的效果差。

基于上述问题，本实施例提出了异质图卷积神经网络，异质图卷积神经网络的具体获得过程将在后续详细描述。

由此可见，本发明实施例提供的用于短文本的分类方法，在对待分类短文本进行分类时，根据从待分类短文本中获取的实体和所述主题分别与待分类短文本的所属关系，构建文本异质图，并将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果，相对于现有技术而言，本实施例构建的文本异质图能够捕捉待分类短文本中的语义关系，且对异质图卷积神经网络训练时无需太多的标注数据，使得训练后的文本分类模型对短文本分类时的准确率更高，可见，应用本实施例提供的方法能够提高对短文本分类的准确率。

在本发明的一个实施例中，可以按照以下方式获得文本分类模型，具体包括如下步骤F～步骤J：

步骤F，获取样本短文本。

其中，上述样本短文本可以是从网页中获取，也可以从某一个客户端的评论中获取，还可以从某一数据库中获得，本发明实施例对此并不限定。

步骤G，从所述样本短文本中获取样本实体和样本主题。

步骤H，根据所述样本实体和所述样本主题分别与所述样本短文本的所属关系，构建样本文本异质图。

步骤I，获得部分样本短文本的类别标注。

其中，上述样本短文本的类别标注可以是有限量个标注信息，甚至是相对整个样本短文本数量中的少量样本短文本的类别标注信息。

步骤J，采用所构建的样本文本异质图以及每一样本短文本的类别标注，对所述异质图卷积神经网络进行训练，获得用于对短文本分类的神经网络模型，作为所述文本分类模型。

将所构建的样本文本异质图对应输入异质图卷积神经网络中，对异质图卷积神经网络中的模型参数进行迭代调整，得到文本分类模型。

在获得异质网络中包括样本短文本节点的嵌入表示后。将样本短文本的嵌入表示H^(L)至softmax层进行分类，具体为：Z＝softmax(H^(L))；

其中，Softmax为归一化指数函数，Z为分类预测结果。

在模型训练过程中，采用样本短文本上的交叉熵损失和参数的L2范数作为损失函数，即：

其中，C是分类类别的个数，D_train为训练集的样本短文本集合，i为样本短文本集合D_train中一条样本短文本，Y_ij为样本短文本i的分类真实结果，当样本短文本i属于分类j，则分类真实结果为1，当样本短文本i不属于分类j，则分类真实结果为0，Z_ij为样本短文本i的分类预测结果，即预测是否属于分类j，Θ是文本分类模型的模型参数，η是正则化因子。

可以使用梯度下降法进行优化模型。

可见，本实施例在获得文本分类模型的过程时，构建的样本文本异质图引入了额外的辅助信息，可以捕获样本短文本和辅助信息之间丰富的关系信息，同时采用的异质图神经网络，允许信息在样本文本异质图上进行传播，以使得上述样本短文本的类别标注即使少量也可以完成并得到对短文本具有分类准确率高的文本分类模型，且异质图神经网络还能够解决短文本稀疏问题，可见，获得的分类模型能够提高对待分类短文本进行分类的准确率。

在本发明的一个实施例中，步骤G的具体实现方式可以包括步骤G1：

步骤G1，利用LDA从所获取的样本短文本中，获取所述样本短文本在所述主题样本上的概率分布和样本主题。

上述概率分布可以为样本主题在每一样本短文本中所呈现的概率。

在步骤G1的基础上，步骤H的具体实现方式可以包括步骤G2～步骤G5：

步骤G2，针对样本文本节点中的每一样本文本节点，从表示该样本文本节点的样本短文本在表示样本主题节点的样本主题上的概率分布中，选取概率大的样本主题表示的样本主题节点，并对所选取的样本主题节点与该样本文本节点进行连边，根据该样本文本节点与样本实体节点的所属关系，对该样本文本节点与所述样本实体节点进行连边；其中，所述样本文本节点为所述样本短文本表示的节点，所述样本主题节点为所述样本主题表示的节点，所述样本实体节点为所述样本实体表示的节点。

其中，上述概率大的样本主题表示的样本主题节点可以是一个，也可以是多个，本发明实施例并不限定，优选取两个。

将每个样本短文本分配给具有大概率的预设数量个主题，即在该样本短文本和被分配的样本主题之间建立一条边。

上述样本文本节点与样本实体节点的所属关系为样本文本节点对应的样本短文本包含样本实体节点对应的样本实体。也就是说，如果某一样本短文本中包含某一样本实体，则在该样本短文本和样本实体之间建立一条边。

步骤G3，将所述样本实体输入至预设的实体向量表示模型中，得到所述样本实体的样本向量表示，其中，所述实体向量表示模型为预选采用预设的语料库的数据对word2vec进行训练得到的、用于获得所述语料库中资源实体的向量表示的模型；所述资源实体包括所述样本实体。

其中，上述语料库可以为维基百科Wikipedia语料库。

为了确保Wikipedia中存在上述样本实体，则可以获取样本短文本的样本实体，并使用实体链接工具TAGME将实体链接到Wikipedia。

步骤G4，根据所述样本向量表示，计算所述样本实体间的相似性。

为了进一步丰富样本短文本的语义，本步骤考虑了样本实体之间的关系，也就是，考虑了样本实体间的相似性。

样本实体间的相似性可以通过基于两个样本实体的嵌入表示计算得到，即余弦相似度。

步骤G5，对所述相似性高于预设阈值的样本实体对应的样本实体节点间进行连边。

如果两个样本实体间计算得到的相似性高于上述预设预支，则在该两个样本实体之间建立一条边。

可见，本实施例在构建样本文本异质图时引入了样本主题、样本实体和样本实体间的关系，丰富了样本短文本的语义信息，从而为后续的样本短文本的分类可以提供有力的支撑。

在本发明的一个实施例中，按照以下方式构建异质图卷积神经网络：

所述第一表达式为：

为第l层中类型τ的所有节点的特征表，

σ(·)可以为ReLU(Rectified Linear Unit,线性整流函数)。

本发明实施例提出了异质图卷积，它考虑了各种类型信息的异质性，并利用类型相关的变换矩阵将它们投射到公共的隐式空间中。

其中，

是

的子矩阵,

的行代表全部的节点，列代表类型τ的邻节点。由上公式可知H^(l+1)是通过使用不同的变换矩阵

变换后的特征矩阵

来获得的。

与类型相关的变换矩阵

考虑了不同特征空间的差异，并将

投影到某个隐式的公共空间

初始化，令

给定某特定节点，不同类型的相邻节点可能对该特点节点具有不同的影响，例如，相同类型的相邻节点一般会携带更有用的信息，另外，相同类型下的不同邻节点也会具有不同的重要性。为了捕捉节点级别和类型级别的不同重要性，本发明实施例设计了一种双层注意力机制，即类型级别的注意力机制和节点级别的注意力机制，类型级别的注意力机制具体为：

其中,μ_τ为注意力机制中类型τ使用的参数向量，也就是，根据类型τ使用不同的参数向量，||表示“拼接”操作，σ(·)表示非线性激活函数，例如Leaky ReLU。

最后通过softmax函数沿着类型归一化注意力获得注意力值，可以得到最终的类型级别的注意力权重：

上述中的σ(·)可以取Leaky ReLU(Leaky Rectified Linear Unit，带泄露整流函数)。

节点级别的注意力机制具体为：

以捕获相同类型下的不同相邻节点的重要性并减少噪声节点的权重。形式化地，给定类型τ的特定节点v及其类型τ′的邻近节点v′，根据节点的嵌入表示h_v和h_v′，计算节点v′的节点级别的注意力得分a_τ'：b_vv'＝σ(ν^T·α_τ'[h_v||h_v'])；

使用softmax函数归一化注意力得分，得到最终的节点级别的注意力权重：

将包括类型级和节点级注意力的双层注意力机制纳入异质图卷积中，即利用如下所示的传播规则替换(B)_vv′：

这里，B_τ为类型τ的(B)_vv′的特征表示，(B)_vv′为一个行数为节点序号v、列数为邻居节点序号v'的元素，也就是说，B_τ为由(B)_vv′构成的注意力矩阵。

可见，本实施例在构建异质图卷积神经网络时，鉴于相同类型下的不同邻居节点也会具有不同的重要性，设计了节点级别和类型解级别的注意力机制，能够考虑不同邻节点的重要性以及不同节点类型对当前节点的重要性。

参见图2，图2为本发明实施例提供的第一种用于短文本的分类方法的流程示意图，具体为：

S201，获取待分类短文本。

S202，利用TAGME从所述待分类短文本中获取实体，并利用LDA从所述待分类短文本中，分别获取所述待分类短文本在所述主题上的概率分布和主题。

S203，针对文本节点中的每一文本节点，从表示该文本节点的待分类短文本在表示主题节点的主题上的概率分布中，选取概率大的主题表示的主题节点，并对所选取的主题节点与该文本节点进行连边，根据该文本节点与实体节点的所属关系，对该文本节点与所述实体节点进行连边；其中，所述文本节点为所述待分类短文本表示的节点，所述主题节点为所述主题表示的节点，所述实体节点为所述实体表示的节点。

S204，将所述实体输入至预设的实体向量表示模型中，得到所述实体的向量表示，其中，所述实体向量表示模型为预选采用预设的语料库的数据对word2vec进行训练得到的、用于获得所述语料库中资源实体的向量表示的模型；所述资源实体包括所述实体。

S205，根据所述向量表示，计算所述实体间的相似性。

S206，对所述相似性高于预设阈值的实体对应的实体节点间进行连边，以构建文本异质图。

S207，将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果；其中，所述文本分类模型为：预先采用样本文本异质图对预设的异质图卷积神经网络进行训练得到的、用于获得短文本的分类结果的模型，所述样本文本异质图为：利用从样本短文本中获取的样本实体和样本主题分别与所述样本短文本的所属关系构建的异质图。

可见，本实施例在对待分类短文本进行分类时，根据获取的实体和主题分别与待分类短文本的所属关系，以及待分类的短文本在主题的概率，构建文本异质图，并将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果，相对于现有技术而言，本实施例构建的文本异质图能够捕捉待分类短文本中的语义关系，丰富了待分类短文本的语义信息，且对异质图卷积神经网络训练时无需太多的标注数据，使得训练后的文本分类模型对短文本分类时的准确率更高。

与上述用于短文本的分类相对应，本发明实施例还提供了用于短文本的分类装置。

参加图3，图3为本发明实施例提供的一种用于短文本的分类装置，所述装置包括：

短文本获取模块301，用于获取待分类短文本；

实体和主题获取模块302，用于从所述待分类短文本中获取实体和主题；

文本异质图构建模块303，用于根据所述实体和所述主题分别与所述待分类短文本的所属关系，构建文本异质图；

分类模块304，用于将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果；其中，所述文本分类模型为：预先采用样本文本异质图对预设的异质图卷积神经网络进行训练得到的、用于获得短文本的分类结果的模型，所述样本文本异质图为：利用从样本短文本中获取的样本实体和样本主题分别与所述样本短文本的所属关系构建的异质图。

可选的，所述实体和主题获取模块302可以包括：

可选的，主题获取子模块可以包括：

主题获取单元，用于利用LDA从所述待分类短文本中，分别获取所述待分类短文本在所述主题上的概率分布和主题；

文本异质图构建模块303可以包括：

第一连边子模块，用于针对文本节点中的每一文本节点，从表示该文本节点的待分类短文本在表示主题节点的主题上的概率分布中，选取概率大的主题表示的主题节点，并对所选取的主题节点与该文本节点进行连边，根据该文本节点与实体节点的所属关系，对该文本节点与所述实体节点进行连边；其中，所述文本节点为所述待分类短文本表示的节点，所述主题节点为所述主题表示的节点，所述实体节点为所述实体表示的节点；

向量表示子模块，用于将所述实体输入至预设的实体向量表示模型中，得到所述实体的向量表示，其中，所述实体向量表示模型为预选采用预设的语料库的数据对word2vec进行训练得到的、用于获得所述语料库中资源实体的向量表示的模型；所述资源实体包括所述实体；

相似性计算子模块，用于根据所述向量表示，计算所述实体间的相似性；

第二连边子模块，用于对所述相似性高于预设阈值的实体对应的实体节点间进行连边。

可选的，上述装置还可以包括文本分类模型获得模块，其中，所述文本分类模型获得模块，用于获得文本分类模型，

所述文本分类模型获得模块可以包括：

样本短文本获取子模块，用于获取样本短文本；

样本实体、样本主题获取子模块，用于从所述样本短文本中获取样本实体和样本主题；

样本文本异质图构建子模块，用于根据所述样本实体和所述样本主题分别与所述样本短文本的所属关系，构建样本文本异质图；

类别标注子模块，用于获得部分样本短文本的类别标注；

训练子模块，用于采用所构建的样本文本异质图以及每一样本短文本的类别标注，对所述异质图卷积神经网络进行训练，获得用于对短文本分类的神经网络模型，作为所述文本分类模型。

可选的，所述样本实体、样本主题获取子模块可以包括：

概率分布和样本主题获得单元，用于利用LDA从所获取的样本短文本中，获取所述样本短文本在所述主题样本上的概率分布和样本主题；

所述样本文本异质图构建子模块可以包括：

第一连边单元，用于针对样本文本节点中的每一样本文本节点，从表示该样本文本节点的样本短文本在表示样本主题节点的样本主题上的概率分布中，选取概率大的样本主题表示的样本主题节点，并对所选取的样本主题节点与该样本文本节点进行连边，根据该样本文本节点与样本实体节点的所属关系，对该样本文本节点与所述样本实体节点进行连边；其中，所述样本文本节点为所述样本短文本表示的节点，所述样本主题节点为所述样本主题表示的节点，所述样本实体节点为所述样本实体表示的节点；

样本向量表示得到单元，用于将所述样本实体输入至预设的实体向量表示模型中，得到所述样本实体的样本向量表示，其中，所述实体向量表示模型为预选采用预设的语料库的数据对word2vec进行训练得到的、用于获得所述语料库中资源实体的向量表示的模型；所述资源实体包括所述样本实体；

相似性计算单元，用于根据所述样本向量表示，计算所述样本实体间的相似性；

第二连边单元，用于对所述相似性高于预设阈值的样本实体对应的样本实体节点间进行连边。

可选的，该装置还可以包括异质图卷积神经网络构建模块，所述异质图卷积神经网络构建模块，用于构建异质图卷积神经网络，

所述异质图卷积神经网络构建模块可以包括：

注意力权重获得子模块，用于按照第一表达式获得所述文本异质图中节点级别的注意力权重；其中，所述节点包括：文本节点、实体节点和主题节点；

所述第一表达式为：

异质图卷积神经网络获得子模块，用于利用所获得的注意力权重，按照第二表达式获得异质图卷积神经网络；

所述第二表达式为：

为第l层中类型τ的所有节点的特征表，

由此可见，本发明实施例提供的用于短文本的分类装置，在对待分类短文本进行分类时，根据从待分类短文本中获取的实体和所述主题分别与待分类短文本的所属关系，构建文本异质图，并将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果，相对于现有技术而言，本实施例构建的文本异质图能够捕捉待分类短文本中的语义关系，且对异质图卷积神经网络训练时无需太多的标注数据，使得训练后的文本分类模型对短文本分类时的准确率更高，可见，应用本实施例提供的方法能够提高对短文本分类的准确率。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现本发明实施例提供的一种用于短文本的分类。

具体的，上述用于短文本的分类，包括：

获取待分类短文本；

从所述待分类短文本中获取实体和主题；

由此可见，执行本实施例提供的电子设备，通过在对待分类短文本进行分类时，根据从待分类短文本中获取的实体和所述主题分别与待分类短文本的所属关系，构建文本异质图，并将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果，相对于现有技术而言，本实施例构建的文本异质图能够捕捉待分类短文本中的语义关系，且对异质图卷积神经网络训练时无需太多的标注数据，使得训练后的文本分类模型对短文本分类时的准确率更高，可见，应用本实施例提供的方法能够提高对短文本分类的准确率。

上述的相关内容用于短文本的分类的实施方式与前述方法实施例部分提供的用于短文本的分类方式相同，这里不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的用于短文本的分类。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一上述的用于短文本的分类。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种用于短文本的分类方法，其特征在于，所述方法包括：

获取待分类短文本；

从所述待分类短文本中获取实体和主题；

将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果；其中，所述文本分类模型为：预先采用样本文本异质图对预设的异质图卷积神经网络进行训练得到的、用于获得短文本的分类结果的模型，所述样本文本异质图为：利用从样本短文本中获取的样本实体和样本主题分别与所述样本短文本的所属关系构建的异质图；

根据所述向量表示，计算所述实体间的相似性；

2.如权利要求1所述的方法，其特征在于，所述从获取的短文本中获取实体和主题，包括：

利用TAGME从所述待分类短文本中获取实体；

利用LDA从所述待分类短文本中获取主题。

3.如权利要求2所述的方法，其特征在于，所述利用LDA从所述待分类短文本中获取主题，包括：

利用LDA从所述待分类短文本中，分别获取所述待分类短文本在所述主题上的概率分布和主题。

4.如权利要求1所述的方法，其特征在于，按照以下方式获得文本分类模型，包括：

获取样本短文本；

从所述样本短文本中获取样本实体和样本主题；

获得部分样本短文本的类别标注；

5.如权利要求4所述的方法，其特征在于，所述从所述样本短文本中获取样本实体和样本主题，包括：

根据所述样本向量表示，计算所述样本实体间的相似性；

6.如权利要求1～5中任一项所述的方法，其特征在于，按照以下方式构建异质图卷积神经网络：

所述第一表达式为：

利用所获得的注意力权重，按照第二表达式获得异质图卷积神经网络；

所述第二表达式为：

为第l层中类型τ的所有节点的特征表，

7.一种用于短文本的分类装置，其特征在于，所述装置包括：

短文本获取模块，用于获取待分类短文本；

分类模块，用于将构建的文本异质图输入至预设的文本分类模型中，得到所述待分类短文本的分类结果；其中，所述文本分类模型为：预先采用样本文本异质图对预设的异质图卷积神经网络进行训练得到的、用于获得短文本的分类结果的模型，所述样本文本异质图为：利用从样本短文本中获取的样本实体和样本主题分别与所述样本短文本的所属关系构建的异质图；

所述文本异质图构建模块具体用于，针对文本节点中的每一文本节点，从表示该文本节点的待分类短文本在表示主题节点的主题上的概率分布中，选取概率大的主题表示的主题节点，并对所选取的主题节点与该文本节点进行连边，根据该文本节点与实体节点的所属关系，对该文本节点与所述实体节点进行连边；其中，所述文本节点为所述待分类短文本表示的节点，所述主题节点为所述主题表示的节点，所述实体节点为所述实体表示的节点；将所述实体输入至预设的实体向量表示模型中，得到所述实体的向量表示，其中，所述实体向量表示模型为预选采用预设的语料库的数据对word2vec进行训练得到的、用于获得所述语料库中资源实体的向量表示的模型；所述资源实体包括所述实体；根据所述向量表示，计算所述实体间的相似性；对所述相似性高于预设阈值的实体对应的实体节点间进行连边。

8.如权利要求7所述的装置，其特征在于，所述实体和主题获取模块包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。