CN110119786B

CN110119786B - 文本话题分类方法及装置

Info

Publication number: CN110119786B
Application number: CN201910418451.XA
Authority: CN
Inventors: 单斌
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2021-11-16
Anticipated expiration: 2039-05-20
Also published as: CN110119786A

Abstract

本发明提供了文本话题分类方法及装置，首先，获得待处理短文本，利用词向量将该待处理短文本转换为文本向量。然后，将该文本向量输入至预先训练得到的文本话题分类模型中，该模型中的特征提取网络从文本向量中提取得到语义特征向量，其中，该语义特征向量包括待处理短文本的词内语义特征、词间语义特征和整句语义特征。最后由分类网络对提取出的语义特征向量进行分析得到该待处理短文本所属的话题类别。该方法从短文本中提取出的语义特征向量更全面、更准确，因此，分析得到的短文本的话题类别也更准确，因此，提高了短文本话题分类的准确率。

Description

文本话题分类方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及文本话题分类方法及装置。

背景技术

文本话题是自然语言处理下的一个重要的应用领域，属于文本分类及话题分类这个分支。

目前的文本话题主要集中在新闻或类新闻等长文本的分类上，能够实现自动为文章或新闻标记分类标签。

短文本是通常指文本长度小于预设数量字符，由于短文本具有长度短、信息量少的固有缺陷，导致传统的在长文本上效果很好的话题分类方法并不适用于短文本，准确率较低。

发明内容

有鉴于此，本发明的目的在于提供文本话题分类方法及装置，以解决利用于已有的话题分类方法来对短文本进行话题分类时导致的准确率低问题。其具体技术方案如下：

第一方面，本发明提供了一种文本话题分类方法，包括：

获取待处理短文本；

利用词向量将所述待处理短文本转换为文本向量，其中，所述词向量基于与所述待处理短文本属于相同领域的语料训练得到；

利用预先训练得到的文本话题分类模型，从所述文本向量中提取得到语义特征向量，所述语义特征向量能够表征所述待处理短文本的语义内容；

利用所述文本话题分类模型，分析所述语义特征向量确定所述待处理短文本的话题类别。

在第一方面的一种可能的实现方式中，所述语义特征向量包括所述待处理短文本中词语的词内语义特征、词间语义特征及整句语义特征；

其中，所述词内语义特征表征词语本身的语义特征，所述词间语义特征表征词语与词语之间的语义关联关系，所述整句语义特征表征一个句子的整体语义特征。

在第一方面的另一种可能的实现方式中，训练所述文本话题分类模型的过程，包括：

获取标注有预设话题类别的短文本训练样本；

利用与所述短文本训练样本属于相同语料领域的词向量，将所述短文本训练样本转换为相应的短文本样本向量；

利用预先构建的文本话题分类模型中的基于注意力机制的双向GRU网络，提取该短文本训练样本的整句语义特征，以及利用二维卷积神经网络，提取该短文本训练样本的整句语义特征的词内语义特征及词间语义特征，得到所述短文本训练样本的语义特征向量，其中，所述短文本训练样本的语义特征向量包含所述短文本训练样本的词内语义特征、词间语义特征及整句语义特征；

利用利用预先构建的文本话题分类模型中的分类网络，对每一个短文本训练样本的语义特征向量进行预测得到每一个短文本训练样本的预测话题类别；

基于所述短文本训练样本的预测话题类别和标注的预设话题类别，优化所述文本话题分类模型中的模型参数，直到利用优化后的文本话题分类模型对所述短文本训练样本进行预测得到的预测话题类别满足预设收敛条件。

在第一方面的另一种可能的实现方式中，所述获取标注有预设话题类别的短文本训练样本，包括：

获取预标注网络数据，所述预标注网络数据中自带表征短文本话题的话题标签；

利用所述预标注网络数据对预先构建的文本话题分类模型进行训练得到基础分类模型；

利用所述基础分类模型对候选短文本训练样本所属话题类别进行预测；

依据所述候选短文本训练样本的预测结果，从所述候选短文本训练样本中筛选出所述短文本训练样本。

在第一方面的另一种可能的实现方式中，所述候选短文本训练样本的预测结果包括该候选短文本训练样本属于各个预设话题类别的概率值；

所述依据所述候选短文本训练样本的预测结果，从所述候选短文本训练样本中筛选出所述短文本训练样本，包括：

选取预测结果中的最大概率值大于或等于预设概率阈值的候选短文本训练样本，得到所述短文本训练样本。

在第一方面的另一种可能的实现方式中，所述利用所述文本话题分类模型，分析所述语义特征向量确定所述待处理短文本的话题类别，包括：

利用预先训练得到的文本话题分类模型中的分类网络对所述语义特征向量进行分析，得到所述待处理短文本属于各个预设话题类别的概率值；

确定概率值最大的预设话题类别为所述待处理短文本所属的话题类别。

在第一方面的另一种可能的实现方式中，所述利用词向量将所述待处理短文本转换为文本向量，包括：

利用分词算法将所述待处理短文本进行分词处理得到分词结果；

利用与所述待处理短文本相同领域的词向量，将所述分词结果中的每一个词语转换为向量；

将所述待处理短文本中每一个词语对应的向量拼接成一个文本向量作为所述文本向量。

在第一方面的另一种可能的实现方式中，所述待处理短文本包括视频文件所包含的字幕内容；

所述获取待处理短文本，包括：

利用光学字符识别技术，识别出视频文件包含的视频帧图像中预设字幕区域内的字符得到所述视频文件所包含的字幕内容，并将所述字幕内容确定为所述待处理短文本。

第二方面，本发明还提供了一种文本话题分类装置，包括：

获取模块，用于获取待处理短文本；

向量转换模块，用于利用词向量将所述待处理短文本转换为文本向量，其中，所述词向量基于与所述待处理短文本属于相同领域的语料训练得到；

特征提取模块，用于利用预先训练得到的文本话题分类模型，从所述文本向量中提取得到语义特征向量，该语义特征向量用于表征所述待处理短文本的语义内容；

预测模块，用于利用所述文本话题分类模型，分析所述语义特征向量确定所述待处理短文本的话题类别。

在第二方面的一种可能的实现方式中，所述装置还包括：

训练样本获取模块，用于获取标注有预设话题类别的短文本训练样本；

样本向量转换模块，用于利用与所述短文本训练样本属于相同语料领域的词向量，将所述短文本训练样本转换为相应的短文本样本向量；

样本特征提取模块，用于利用预先构建的文本话题分类模型中的基于注意力机制的双向GRU网络，提取该短文本训练样本的整句语义特征，以及利用二维卷积神经网络，提取该短文本训练样本的整句语义特征的词内语义特征及词间语义特征，得到所述短文本训练样本的语义特征向量，其中，所述短文本训练样本的语义特征向量包含所述短文本训练样本的词内语义特征、词间语义特征及整句语义特征；

样本类别预测模块，用于利用预先构建的文本话题分类模型中的分类网络，对每一个短文本训练样本的语义特征向量进行预测得到每一个短文本训练样本的预测话题类别；

优化模块，用于基于所述短文本训练样本的预测话题类别和标注的预设话题类别，优化所述文本话题分类模型中的模型参数，直到利用优化后的文本话题分类模型对所述短文本训练样本进行预测得到的预测话题类别满足预设收敛条件。

本发明提供的文本话题分类方法，获得待处理短文本后，利用词向量将该待处理短文本转换为文本向量。然后，将该文本向量输入至预先训练得到的文本话题分类模型中，首先从文本向量中提取得到用于表征该待处理短文本的语义特征向量。然后，分析该语义特征向量得到该待处理短文本所属的话题类别。该方法能够从短文本中提取出更全面、更准确地表征短文本语义内容的语义特征向量，因此，该方法适用于分析短文本的话题类别，提高了短文本话题分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文本话题分类模型的结构示意图；

图2是本发明实施例提供的一种文本话题分类方法的流程图；

图3是本发明实施例提供的一种训练文本话题分类模型过程的流程图；

图4是本发明实施例提供的一种获取短文本训练样本过程的流程图；

图5是本发明实施例提供的一种文本话题分类装置的框图；

图6是本发明实施例提供的另一种文本话题分类装置的框图。

具体实施方式

传统的文本话题分类主要用于长文本中，但是由于短文本的长度短，包含的信息量少，所以长文本的话题分类方法不适用于短文本。本发明提供了适用于短文本的话题分类方法，该方法利用预先训练得到的话题分类模型从短文本中提取出更准确、更全面的语义特征向量，然后，再分析该语义特征向量得到该短文本所属的话题类别。可见该方法能够从短文本中提取更全面的语义特征向量，因此，适用于分析短文本的话题类别，同时，也提高了准确率。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1和图2对本发明提供的文本话题分类方法进行说明；图1是本发明实施例提供的一种文本话题分类模型的结构示意图；图2是本发明实施例提供的一种文本话题分类方法的流程图。

如图1所示，待处理短文本先经过词向量模型转换为向量，即文本向量；得到的文本向量输入至预先训练得到的文本话题分类模型中；先由特征提取网络从输入的文本向量中提取得到语义特征向量，该语义特征向量包括短文本的整句语义、词内语义、词间语义。然后，该语义特征向量输入至模型中的分类网络，由分类网络分析该语义特征向量得到该待处理短文本的话题类别。

如图2所示，该文本话题分类方法包括以下步骤：

S110，获取待处理短文本。

本文以视频相关文本为例进行说明，其中，视频相关文本包括但不限于视频字幕(如，人物对白)、弹幕、视频标题等。当然，在其它实施例中，短文本还可以是其它领域的短文本，例如，社交聊天工具的聊天信息、网页评价信息等。

视频字幕一般嵌入在视频图像中，因此，可以利用文字识别技术如光学字符识别(Optical Character Recognition，OCR)技术，识别视频图像中包含的字符，得到视频字幕内容。弹幕或评论中的文本内容可以直接从相应接口获得。视频标题直接从视频平台上就能获得。

S120，利用词向量将待处理短文本转换为文本向量。

词向量是用来表示词语的向量，其作用是将文本中的每个词语映射为一个向量，实现文本到向量的转换。但是，通用的词向量由通用的大型语料训练得到，这种词向量由于含义比较泛化，大部分的词向量所代表的意义不具备特定领域的词语意义。因此，为了得到更具某领域词语特点的词向量，需要利用该领域的词语语料对词向量模型进行训练，利用训练得到的词向量模型生成具有该领域的词语意义的词向量；训练得到的词向量能够该领域的词语转换得到更好地表达该领域词语含义的向量。

例如，网络流行语“*粉”表示某明星“*”的粉丝，其具有特定的含义，因此，需要利用网络流行语这个领域的语料训练词向量模型得到词向量。

对于本实施例的视频相关文本，可以预先将大量视频相关文本的语料输入至词向量模型中进行训练，得到能够更好地表征视频相关文本含义的词向量。利用该领域的词向量将视频相关文本映射得到的文本向量，能够更好地表征视频相关文本所表征的意义。

在本发明的一个实施例中，将待处理短文本转换为相应的向量的过程如下：

在一种可能的应用场景中，待处理短文本是中文文本，即一个汉字序列，所以首先利用中文分词算法将待处理短文本进行分词处理得到分词结果；其中，中文分词算法就是将一个汉字序列切分成一个个单独的词语。

然后，利用与待处理短文本相同领域的词向量将分词结果中的每一个词语转换为对应的向量。最后，再将待处理短文本中的每一个词语对应的向量拼接成一个向量，得到文本向量。

例如，待处理短文本是视频领域的相关文本，则与待处理短文本相同领域的词向量是指利用视频领域的语料训练得到的词向量。

向量拼接是将多个向量拼接成一个向量，例如，一个20维的向量和一个30维的向量拼接得到一个50维的向量。

S130，利用预先训练得到的文本话题分类模型中的特征提取网络，从文本向量中提取得到语义特征向量。

在一种可能的实现方式中，该语义特征向量包括待处理短文本中词语的词内语义特征、词间语义特征及整句语义特征。其中，词内语义特征表征词语本身的语义特征；词间语义特征表征词语与词语之间的语义关联关系；整句语义特征表征一个句子的整体语义特征。

如图1所示，该文本话题分类模型可以包括特征提取网络和分类网络，其中特征提取网络可以采用基于attention机制的双向GRU(Gated Recurrent Unit，门控循环单元)，以及二维卷积神经网络(2 Dimensional Convolutional Neural Networks，2D CNN)构成的模型实现，即特征提取网络采用基于attention机制的双向GRU和2DCNN组合的网络构架实现。

其中，GRU网络是长短期记忆(long-short term memory，LSTM)网络的一种效果很好的变体，GRU网络的结构比LSTM网络的结构更简单，而且效果好，LSTM网络能够学习长的依赖关系，记住较长的历史信息，同样，LSTM网络的变体GRU网络也能够学习较长的依赖关系，例如，文本中各个词语之间的位置关系。

自然语言作为一种序列类型，词与词之间有位置关系(即，语序关系)，GRU模型能够记录这种词与词之间的相互位置关系，用来分析文本向量效果更好。其中，双向GRU(Bi-GRU)模型既可以对文本向量进行正向和逆向双向分析得到正向语义和逆向语义，从而能够更准确地提取出文本向量中的语义特征。

attention机制，又叫做注意力机制，这种机制可以在训练模型的过程中，使模型更关注一些重要的信息，如在文本话题分类过程中，更加关注那些与话题有关的词，这样能够使模型学习能力更好，使得模型最终分类的准确率更高。例如，使用Bi-GRU模型提取得到的语义特征中每一个词维度的向量没有表示重要性的权重，增加attention机制后，使得该语义特征中的词维度向量具有重要性的权重，使得最终的分类结果更准确。

利用基于attention机制的双向GRU模型能够提取待处理短文本的整体特征，即整句语义特征；然后，利用2D CNN网络进一步从整句语义特征中提取词语之间的信息，以及词语本身内部的信息，得到词间语义特征和词内语义特征。因此，最终得到的语义特征向量包括待处理短文本中的词内语义特征、词间语义特征及整句语义特征。

S140，利用文本话题分类模型中的分类网络，分析语义特征向量得到待处理短文本的话题类别。

文本话题分类模型中的特征提取网络提取得到的语义特征向量传输至分类网络进行分析。

其中，分类网络可以采用全连接网络，全连接层的每一层的任意一个神经元都与上一层的所有神经元相连，相当于把以前的局部特征重新通过权值矩阵组装成一个完整的对象，全连接层通常被用于分类。全连接网络所有的参数就是各个层之间的连接权重及偏置，通过模型训练找到权重与偏置的最优组合使损失值降至最低，同时，准确率上升至最高。

将之前提取的语义特征向量输入至该全连接网络中，针对每一个待处理短文本输出一个多维向量作为预测结果。

在一种可能的实现方式中，预测结果中的每一维向量的数值范围为0～1，表示输入的短文本属于该维向量对应的话题类别的概率值(或，置信度分数)。其中，概率值最大的话题类别确定为输入的短文本的话题类别。

例如，预设话题类别为54类，则该全连接网络能够输出54维向量，每一维向量与一个预设话题类别一一对应。

本实施例提供的文本话题分类方法，获得待处理短文本后，利用词向量将该待处理短文本转换为文本向量。然后，将该文本向量输入至预先训练得到的文本话题分类模型中，该模型中的特征提取网络从文本向量中提取得到语义特征向量，其中，该语义特征向量包括待处理短文本的词内语义特征、词间语义特征和整句语义特征。最后由分类网络对提取出的语义特征向量进行分析得到该待处理短文本所属的话题类别。该方法从短文本中提取出的语义特征向量更全面、更准确，因此，分析得到的短文本的话题类别也更准确，因此，提高了短文本话题分类的准确率。

请参见图3，示出了本发明实施例提供的一种训练文本话题分类模型过程的流程图，如图3所示，训练文本话题分类模型的过程可以包括以下步骤：

S210，获取标注有预设话题类别的短文本训练样本。

短文本训练样本中的每一个样本都标注有该样本所属的预设话题类别。其中，标注样本可以由人工对文本进行标识得到。

为了提高文本标注效率，可以采用图4所示的方式获取短文本训练样本，如图4所示，该过程可以包括：

S211，获取预标注网络数据。

其中，该预标注网络数据是指自带表征短文本话题的话题标签的数据，在一种可能的实现方式中，可以从网络中收集自带话题标签的数据，例如，字数不多于预设值(如130)的问答数据，问答数据中的问题中通常会包含对应的问题类别标签。然后，将问答数据中的问题类别标签映射至预设话题类别标签，该映射过程即为预标注网络数据标注预设话题类别标签的过程。

其中，一个话题类别标签与至少一个问题类别标签对应。

S212，利用预标注网络数据对预先构建的文本话题分类模型进行训练得到基础分类模型。

该步骤的预先构建的文本话题分类模型与最终用于话题分类的文本话题分类模型的架构相同，不同之处在于模型内的模型参数的数值不同；预先构建的文本话题分类模型中的模型参数通常是初始参数值，而最终使用的文本话题分类模型中的模型参数是对初始参数值进行优化后的数值。

利用标注后的预标注网络数据对该预先构建的文本话题分类模型中的模型参数进行初步优化，得到基础分类模型。

S213，利用基础分类模型对候选短文本训练样本所属话题类别进行预测。

候选短文本训练样本是与待处理短文本属于相同领域的短文本数据。例如，对于视频领域的短文本，可以选取视频相关的台词、弹幕、标题等。

该基础分类模型对候选短文本训练样本所属的话题类别进行预测后得到相应的预测结果，其中，预测结果可以是候选短文本训练样本属于各个预设话题类别的概率值(或置信度分数)。

S214，依据候选短文本训练样本的预测结果，从候选短文本训练样本中筛选出短文本训练样本。

该步骤是从大量候选短文本中选取可以作为训练样本的短文本样本的过程。

在一种可能的实现方式中，可以设定一个概率阈值，即预设概率阈值，选取预测结果中的最大概率值大于或等于该预设概率阈值的候选短文本训练样本作为训练文本话题分类模型所要使用的短文本训练样本。如果某一候选短文本训练样本的预测结果中的最大概率值小于该预设概率阈值，则抛弃该候选短文本训练样本。

其中，该预设概率阈值可以根据候选短文本训练样本的数据量或实际需求设定，例如，0.45、0.5等。

在另一种可能的实现方式中，为了得到多样化的训练样本数据，进而使训练得到的文本话题分类模型的泛化能力更高，可以采用较低的预设概率阈值结合人工修正标注的方式。

通过设定较低的预设概率阈值保留较多的候选短文本训练样本，然后，再由人工对基础分类模型选取的样本数据进行清洗，即由人工筛选出标注不准确的样本数据，从而得到最终被用来训练文本话题分类模型的短文本训练样本。此种方式既能保证获取短文本训练样本的效率，同时，还能保证短文本训练样本的准确率。

S220，利用词向量将短文本训练样本转换为相应的短文本样本向量。

该步骤的词向量是利用与短文本训练样本属于相同领域的语料训练得到，具体的文本转换成向量的过程与上述的S120的实现过程相同，此处不再赘述。

S230，利用预先构建的文本话题分类模型中的基于attention机制的双向GRU网络，从短文本训练样本中提取该短文本训练样本的整句语义特征。

预先构建的文本话题分类模型包括特征提取网络和分类网络，其中，特征提取网络包括基于attention机制的双向GRU网络和2D CNN网络。

该步骤是利用基于attention机制的双向GRU网络从短文本训练样本中提取得到整个句子的语义信息，即整句语义特征。

S240，利用预先构建的文本话题分类模型中的2D CNN网络，从该短文本训练样本的整句语义特征中提取出该短文本训练样本的词内语义特征及词间语义特征，得到所述语义特征向量。

该步骤是利用2D CNN进一步从整句语义特征中提取词语之间的信息，以及词语内部的信息，得到词间语义特征和词内语义特征。因此，经过基于attention机制的双向GRU网络和2D CNN网络后提取得到包含短文本训练样本中的词间语义特征、词内语义特征及整句语义特征。

S250，利用预先构建的文本话题分类模型中的分类网络，对每一个短文本训练样本的语义特征向量进行分析，得到每一个短文本训练样本对应的话题类别。

该步骤是将特征提取网络提取得到的语义特征向量输入至分类网络，该分类网络输出该短文本训练样本所属话题类别的预测结果，该预测结果可以包括该短文本训练样本属于各个预设话题类别的概率值，并确定概率值最大的预设话题类别为该短文本训练样本的话题类别。

S260，基于短文本训练样本的预测结果和标注的预设话题类别，优化预先构建的文本话题分类模型中的模型参数，直到利用优化后的文本话题分类模型对短文本训练样本进行预测得到的预测结果满足预设收敛条件，得到文本话题分类模型。

初始的文本话题分类模型中的模型参数是初始化时的参数或自定义参数，模型训练过程就是不断地优化模型参数，直到利用优化后的文本话题分类模型对短文本训练样本进行预测得到的预测结果与训练样本的真实的标注结果之间的误差满足预设收敛条件，其中，该收敛条件可以包括损失函数降低最低，同时准确率升至最高。换言之，模型参数优化过程，就是通过学习短文本训练样本的语义特征向量与其标注的话题类别之间的内在关系，确定出能够准确识别出这种内在关系的模型参数组合。

具体的，利用当前文本话题分类模型预测得到所有短文本训练样本所属的预设话题类别的预测结果；由于短文本训练样本标注有其话题类别标签，根据短文本训练样本的预测结果及标注的真实话题类别可以计算得到当前文本话题分类模型的损失值及准确率。不断根据损失值和准确率对当前文本话题分类模型中的模型参数进行优化，直到利用优化后的文本话题分类模型预测短文本训练样本得到的预测结果与其标注的话题类别结果之间的损失值小于损失值阈值，且该预测结果的准确率高于准确率阈值，此时确定当前模型参数为最优模型参数组合，即得到最终的文本话题分类模型。

本实施例提供的文本话题分类模型的训练过程，获取标注有预设话题类别的短文本训练样本后，利用词向量将该短文本训练样本转换为文本向量。然后，将该文本向量输入至文本话题分类模型中进行训练得到模型参数的最优组合，即得到最终的文本话题分类模型。其中，该训练过程使用同领域的词向量将短文本训练样本转换得到的文本向量的准确率更高；而且，文本话题分类模型中采用了基于注意力的双向GRU模型加2DCNN的分类模型，能够更准确地从短本文训练样本中提取语义特征向量，因此，缩短了训练过程。

相应于上述的文本话题分类方法实施例，本发明还提供了文本话题分类装置实施例。

请参见图5，示出了本发明实施例一种文本话题分类装置的框图，该装置可以应用于服务器端或客户端，如图5所示，该装置可以包括：获取模块110、向量转换模块120、特征提取模块130和预测模块140。

获取模块110，用于获取待处理短文本。

向量转换模块120，用于利用词向量将待处理短文本转换为文本向量。

其中，词向量基于与待处理短文本属于相同领域的语料训练得到。这样，转换得到的向量能够更准确、全面地表征待处理短文本的语义内容。

特征提取模块130，用于利用预先训练得到的文本话题分类模型，从文本向量中提取得到语义特征向量。

该语义特征向量能够更准确、更全面地表征待处理短文本的语义内容。

该文本话题分类模型包括特征提取网络和分类网络，利用特征提取网络从待处理短文本对应的文本向量中提取得到对应的语义特征向量。

该特征提取网络采用基于attention机制的双向GRU，以及2D CNN组合的网络架构实现。利用基于attention机制的双向GRU模型能够提取待处理短文本的整体特征，即整句语义特征；然后，利用2D CNN网络进一步从整句语义特征中提取词语之间的信息，以及词语本身内部的信息，得到词间语义特征和词内语义特征。

预测模块140，用于利用文本话题分类模型分析语义特征向量确定待处理短文本的话题类别。

将提取得到的语义特征向量输入至分类网络中，该分类网络针对每一个待处理短文本输出一个多维向量作为预测结果。预测结果中的每一维向量的数值范围为0～1，表示输入的短文本属于该维向量对应的话题类别的概率值(或，置信度分数)。其中，概率值最大的话题类别确定为输入的短文本的话题类别。

本实施例提供的文本话题分类装置，由获取模块获取待处理短文本，然后，由向量转换模块将待处理短文本转换为文本向量。由特征提取模块从文本向量中提取得到语义特征向量并传输至预测模块，由该预测模块分析得到该待处理短文本所属的话题类别。该装置中的特征提取模块从短文本中提取出的语义特征向量更全面、更准确，因此，分析得到的短文本的话题类别也更准确，因此，提高了短文本话题分类的准确率。

请参见图6，示出了本发明实施例提供的另一种文本话题分类装置的框图，该装置在图5所示实施例的基础上还包括：训练样本获取模块210、样本向量转换模块220、样本特征提取模块230、样本类别预测模块240和优化模块250。

训练样本获取模块210，用于获取标注有预设话题类别的短文本训练样本。

在一种可能的实现方式中，为了提高文本标注效率，训练样本获取模块210具体用于：

获取预标注网络数据，其中，该预标注网络数据中自带表征短文本话题的话题标签；

利用预标注网络数据对预先构建的文本话题分类模型进行训练得到基础分类模型；

利用基础分类模型对候选短文本训练样本所属话题类别进行预测；

依据候选短文本训练样本的预测结果，从候选短文本训练样本中筛选出所述短文本训练样本。

样本向量转换模块220，用于利用与短文本训练样本属于相同语料领域的词向量，将所述短文本训练样本转换为相应的短文本样本向量。

样本特征提取模块230，用于利用基于attention机制的双向GRU网络，提取该短文本训练样本的整句语义特征，以及利用2DCNN提取该短文本训练样本的整句语义特征的词内语义特征及词间语义特征，得到短文本训练样本的语义特征向量。

其中，短文本训练样本的语义特征向量包含短文本训练样本的词内语义特征、词间语义特征及整句语义特征。

样本类别预测模块240，用于利用分类网络，对每一个短文本训练样本的语义特征向量进行预测得到每一个短文本训练样本的预测话题类别。

优化模块250，用于基于短文本训练样本的预测话题类别和标注的预设话题类别，优化文本话题分类模型中的模型参数，直到利用优化后的文本话题分类模型对短文本训练样本进行预测得到的预测话题类别满足预设收敛条件。

优化模块的对文本话题分类模型的优化过程不是一次就能达到最优结果，而是反复多次后的结果，具体的优化过程如下：

利用当前文本话题分类模型预测得到所有短文本训练样本所属的预设话题类别的预测结果；由于短文本训练样本标注有其话题类别标签，根据短文本训练样本的预测结果及标注的真实话题类别可以计算得到当前文本话题分类模型的损失值及准确率。不断根据损失值和准确率对当前文本话题分类模型中的模型参数进行优化，直到利用优化后的文本话题分类模型预测短文本训练样本得到的预测结果与其标注的话题类别结果之间的损失值小于损失值阈值，且该预测结果的准确率高于准确率阈值，此时确定当前模型参数为最优模型参数组合，即得到最终的文本话题分类模型。

本实施例提供的文本话题分类装置，在对文本话题分类模型进行训练的过程中，首先获取标注有预设话题类别的短文本训练样本，然后利用词向量将该短文本训练样本转换为文本向量。然后，将该文本向量输入至文本话题分类模型中进行训练得到模型参数的最优组合，即得到最终的文本话题分类模型。其中，该训练过程使用同领域的词向量将短文本训练样本转换得到的文本向量的准确率更高；而且，文本话题分类模型中采用了基于注意力的双向GRU模型加2DCNN的分类模型，能够更准确地从短本文训练样本中提取语义特征向量，因此，缩短了训练过程。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请各实施例中的装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本话题分类方法，其特征在于，包括：

获取待处理短文本；

利用预先训练得到的文本话题分类模型提取所述待处理短文本的整句语义特征，以及，从所述整句语义特征中提取词内语义特征及词间语义特征；

利用所述文本话题分类模型，分析所述语义特征向量确定所述待处理短文本的话题类别；

其中，所述词内语义特征表征词语本身的语义特征，所述词间语义特征表征词语与词语之间的语义关联关系，所述整句语义特征表征一个句子的整体语义特征且包含词维度向量重要性的权重。

2.根据权利要求1所述的方法，其特征在于，训练所述文本话题分类模型的过程，包括：

获取标注有预设话题类别的短文本训练样本；

3.根据权利要求2所述的方法，其特征在于，所述获取标注有预设话题类别的短文本训练样本，包括：

4.根据权利要求3所述的方法，其特征在于，所述候选短文本训练样本的预测结果包括该候选短文本训练样本属于各个预设话题类别的概率值；

5.根据权利要求1所述的方法，其特征在于，所述利用所述文本话题分类模型，分析所述语义特征向量确定所述待处理短文本的话题类别，包括：

6.根据权利要求1所述的方法，其特征在于，所述利用词向量将所述待处理短文本转换为文本向量，包括：

7.根据权利要求1所述的方法，其特征在于，所述待处理短文本包括视频文件所包含的字幕内容；

所述获取待处理短文本，包括：

8.一种文本话题分类装置，其特征在于，包括：

获取模块，用于获取待处理短文本；

特征提取模块，用于利用预先训练得到的文本话题分类模型提取所述待处理短文本的整句语义特征，以及，从所述整句语义特征中提取词内语义特征及词间语义特征；

预测模块，用于利用所述文本话题分类模型，分析所述语义特征向量确定所述待处理短文本的话题类别；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：