CN110209806A

CN110209806A - 文本分类方法、文本分类装置及计算机可读存储介质

Info

Publication number: CN110209806A
Application number: CN201810570387.2A
Authority: CN
Inventors: 王煦祥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2019-09-06
Anticipated expiration: 2038-06-05
Also published as: CN110209806B

Abstract

本申请提供了一种文本分类方法、文本分类装置及计算机可读存储介质。该文本分类方法包括：对待分类文本进行文本表示，以获得待分类文本的句子集合，其中，所述句子集合由所述待分类文本中各句子的词语集合构成，所述词语集合由相应句子所包含的词语的词向量构成；基于神经网络、注意力机制和所述词语集合，获取上述句子集合的特征向量；将上述句子集合的特征向量输入文本分类模型，得到待分类文本的分类结果。本申请技术方案可提高文本分类的效率。

Description

文本分类方法、文本分类装置及计算机可读存储介质

技术领域

本申请属于文本分类技术领域，具体涉及一种文本分类方法、文本分类装置及计算机可读存储介质。

背景技术

随着信息时代的飞速发展，互联网中累积了大量的文本信息，为了能有效管理和利用这些分布的海量信息，基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。

文本分类技术是信息检索和文本挖掘的重要基础，其主要任务是在预先给定的类别标记集合下，根据文本内容对相应的文本进行分类。文本分类技术在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法，更注重分类器的模型自动挖掘、生成及动态优化能力，在分类效果和灵活性上都比基于知识工程和专家系统的文本分类方法有所突破，因此，基于机器学习的文本分类方法成为了相关领域研究和应用的经典范例。

文本分类的最大特点和困难之一是特征空间的高维性和文档表示向量的稀疏性。在中文文本分类中，采用词语作为最小的独立语义载体，原始的特征空间由可能出现在文章中的全部词语构成。而中文的词语总数有二十多万条，这样高维的特征空间对于几乎所有的分类算法来说都偏大。另外，在文本分类领域，文本分类的效果在很大程度上取决于数据集特征的好坏。传统的基于机器学习的文本分类方法，需要人工根据数据的特点来抽取有效的特征。其中，使用较多的特征抽取方法包括文档频率(DF,Document Frequency)、互信息(MI，Mutual Information)、信息增益(IG，Information Gain)和χ²统计等。由于人工选取特征效率低下，因此，传统的基于机器学习的文本分类方法在效率上有待提高。

发明内容

有鉴于此，本申请提供了一种文本分类方法、文本分类装置及计算机可读存储介质，可提高文本分类的效率。

本申请实施例的第一方面提供了一种文本分类方法，包括：

对待分类文本进行文本表示，以获得所述待分类文本的句子集合，其中，所述句子集合由所述待分类文本中各句子的词语集合构成，所述词语集合由相应句子所包含的词语的词向量构成；

基于神经网络、注意力机制和所述词语集合，获取所述句子集合的特征向量；

将所述句子集合的特征向量输入文本分类模型，得到所述待分类文本的分类结果，其中，所述文本分类模型基于文本样本和文本分类算法训练得到。

基于本申请第一方面，在第一种可能的实现方式中，所述基于神经网络、注意力机制和所述词语集合，获取所述句子集合的特征向量包括：

基于神经网络分别获取各个词语集合中各词语的特征向量；

基于注意力机制和所述各词语的特征向量，分别获取各个词语集合的特征向量；

基于神经网络和所述各个词语集合的特征向量，分别获取所述句子集合中各句子的特征向量；

基于注意力机制和所述各句子的特征向量，获取所述句子集合的特征向量。

基于本申请第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述基于神经网络分别获取各个词语集合中各词语的特征向量为：

基于双向长短期记忆网络分别获取各个词语集合中各词语的特征向量。

基于本申请第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述基于神经网络和所述各个词语集合的特征向量，分别获取所述句子集合中各句子的特征向量为：

基于双向长短期记忆网络和所述各个词语集合的特征向量，分别获取所述句子集合中各句子的特征向量。

基于本申请第一方面的第一种可能的实现方式，或者本申请第一方面的第二种可能的实现方式，或者本申请第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述基于注意力机制和所述各词语的特征向量，分别获取各个词语集合的特征向量包括：

针对所述待分类文本的每个词语集合，将所述词语集合中各词语的特征向量分别输入多层感知器，得到所述词语集合中各词语的第一向量；

分别计算所述词语集合中各词语的第一向量与第二向量的相似度，并将计算得到的相似度归一化后作为相应词语的权重；

基于所述词语集合中各词语的特征向量和权重，对所述词语集合中各词语的特征向量进行加权求和，得到所述词语集合的特征向量；

其中，所述第二向量随机初始化并跟随训练过程学习得到。

基于本申请第一方面的第一种可能的实现方式，或者本申请第一方面的第二种可能的实现方式，或者本申请第一方面的第三种可能的实现方式，在第五种可能的实现方式中，所述基于注意力机制和所述各句子的特征向量，获取所述句子集合的特征向量包括：

将所述句子集合中各句子的特征向量分别输入多层感知器，得到各句子的第三向量；

分别计算所述各句子的第三向量与第四向量的相似度，并将计算得到的相似度归一化后作为相应句子的权重；

基于所述各句子的特征向量和权重，对所述句子集合中各句子的特征向量进行加权求和，得到所述句子集合的特征向量；

其中，所述第四向量随机初始化并跟随训练过程学习得到。

本申请第二方面提供一种文本分类装置，包括：

文本表示单元，用于对待分类文本进行文本表示，以获得所述待分类文本的句子集合，其中，所述句子集合由所述待分类文本中各句子的词语集合构成，所述词语集合由相应句子所包含的词语的词向量构成；

特征提取单元，用于基于神经网络、注意力机制和所述词语集合，获取所述句子集合的特征向量；

分类单元，用于将所述句子集合的特征向量输入文本分类模型，得到所述待分类文本的分类结果，其中，所述文本分类模型基于文本样本和文本分类算法训练得到。

基于本申请第二方面，在第一种可能的实现方式中，所述特征提取单元包括：

词语编码单元，用于基于神经网络分别获取各个词语集合中各词语的特征向量；

词语级注意力单元，用于基于注意力机制和所述各词语的特征向量，分别获取各个词语集合的特征向量；

句子编码单元，用于基于神经网络和所述各个词语集合的特征向量，分别获取所述句子集合中各句子的特征向量；

句子级注意力单元，用于基于注意力机制和所述各句子的特征向量，获取所述句子集合的特征向量。

基于本申请第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述词语编码单元具体用于：基于双向长短期记忆网络分别获取各个词语集合中各词语的特征向量。

基于本申请第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述句子编码单元具体用于基于双向长短期记忆网络和所述各个词语集合的特征向量，分别获取所述句子集合中各句子的特征向量。

基于本申请第二方面的第一种可能的实现方式，或者本申请第二方面的第二种可能的实现方式，或者本申请第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述词语级注意力单元包括：

词语感知单元，用于针对所述待分类文本的每个词语集合，将所述词语集合中各词语的特征向量分别输入多层感知器，得到所述词语集合中各词语的第一向量；

词语相似度计算单元，用于分别计算所述词语集合中各词语的第一向量与第二向量的相似度，并将计算得到的相似度归一化后作为相应词语的权重；

词语加权求和单元，用于基于所述词语集合中各词语的特征向量和权重，对所述词语集合中各词语的特征向量进行加权求和，得到所述词语集合的特征向量；

其中，所述第二向量随机初始化并跟随训练过程学习得到。

基于本申请第二方面的第一种可能的实现方式，或者本申请第二方面的第二种可能的实现方式，或者本申请第二方面的第三种可能的实现方式，在第五种可能的实现方式中，

所述句子级注意力单元包括：

句子感知单元，用于将所述句子集合中各句子的特征向量分别输入多层感知器，得到各句子的第三向量；

句子相似度计算单元，用于分别计算所述各句子的第三向量与第四向量的相似度，并将计算得到的相似度归一化后作为相应句子的权重；

句子加权求和单元，用于基于所述各句子的特征向量和权重，对所述句子集合中各句子的特征向量进行加权求和，得到所述句子集合的特征向量；

其中，所述第四向量随机初始化并跟随训练过程学习得到。

本申请第三方面提供一种文本分类装置，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序。该处理器执行上述计算机程序时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的文本分类方法。

本申请第四方面提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序。上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的文本分类方法。

由上可见，本申请方案在获得待分类文本的句子集合后，引入神经网络和注意力机制对句子集合进行特征向量的提取，并基于句子集合的特征向量对待分类文本进行分类。由于神经网络能够让机器自动学习特征，并将特征学习融入到模型的建立过程中，而注意力机制能够从被处理对象中选取出更关键的特征，因此，针对待分类文本的句子集合引入神经网络和注意力机制，可实现对待分类文本中关键词语和关键句子的自动选取和特征提取，免去人工选取特征的过程，从而提高文本分类的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1-a为本申请提供的文本分类方法一个实施例流程示意图；

图1-b为本申请提供的CBOW模型的模型结构示意图；

图1-c为本申请提供的Skip-gram模型的模型结构示意图；

图1-d为本申请提供的一种句子集合的特征向量提取流程示意图；

图1-e为本申请提供的一种应用场景下的文本分类模型示意图；

图1-f为本申请提供的一种词语集合的特征向量获取方法流程示意图；

图1-g为本申请提供的一种句子集合的特征向量获取方法流程示意图；

图2-a为本申请提供的文本分类装置一个实施例结构示意图；

图2-b为本申请提供的文本分类装置另一个实施例结构示意图

图3为本发明提供的文本分类装置再一个实施例结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应理解，下述方法实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对各实施例的实施过程构成任何限定。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

实施例一

本申请实施例提供一种文本分类方法，请参阅图1-a，本申请实施例中的文本分类方法包括：

步骤101、对待分类文本进行文本表示，以获得上述待分类文本的句子集合及各个句子的词语集合；

其中，上述句子集合由上述待分类文本中各个句子的词语集合构成，上述词语集合由相应句子所包含的词语的词向量构成。

本申请实施例中，对待分类文本进行文本表示可包括预处理和向量表示两个过程。上述预处理是指将待分类文本经过处理得到结构化的表示，以获得上述待分类文本的句子集合及各个句子的词语集合，上述句子集合及各个句子的词语集合作为后续步骤的输入。

具体的，上述预处理可以包括：句子边界识别、分词以及去除停用词，以下分别进行说明：

句子边界识别可利用标点符号来识别句子的边界，如句号、叹号、问号等。例如，当识别到句号(叹号或问号)时，可以将该句号(叹号或问号)与前一个句号、叹号或问号之间的文本内容识别为一个句子。进一步，还可以结合标点符号上下文信息制订一些规则进行句子边界识别。

分词是指将一个句子中的词语划分出来的过程，以便让机器可更好地理句子。

去除停用词是指去除对句子理解无意义的词的过程，例如去除句子中诸如“的”、“了”等停用词。

文本由句子组成，句子由词语组成，经过上述预处理后，可以得到一系列去除了停用词的词语。此时可将词语进行向量表示，以便更好地表示文本所有词语的语义信息，也即将文本表示为易于计算机处理的形式。

传统的向量表示方法采用的是One-hot表示(英文全称为：One-hotRepresentation)，这种方法用一个维度很大的向量来表示一个词。向量的维度为词典的大小，向量的分量中只有一个1，其位置对应该词在词典中的位置，其它位置都是0。例如，“话筒”表示为[0,0,0,1,0,0,0,0,…,0]，“麦克风”表示为[0,0,0,0,0,0,0,1,…,0]。很明显，One-hot表示方法容易受维数灾难的困扰，尤其是将其用于深度学习的一些算法时。这种表示方法还存在一个重要的问题就是“词汇鸿沟”现象：任意两个词之间都是孤立的。仅仅从这两个向量中看不出两个词是否有关系，不能很好地刻画词与词之间的相似性，哪怕是“话筒”和“麦克风”这样的同义词也不能幸免于难。

本申请实施例中，利用神经网络算法进行向量表示。具体的，可以选择CBOW模型或Skip-gram模型获取上下文相关的词向量。这两种方法旨在用较低的计算复杂度获得词语的向量表示。在传统神经网络模型的基础上，CBOW模型和Skip-gram模型采用对数线性模型结构，针对模型训练运算量过大的问题进行改进，去除了神经网络的非线性隐含层，从而降低了训练的复杂度。同时将词向量的计算与神经网络中N-gram模型的训练分开，提高训练效率，CBOW模型或Skip-gram模型的模型结构分别如图1-b和图1-c所示。

CBOW模型根据上下文预测目标词语的词向量w(t)。从图1-b的模型结构不难看出，对于CBOW模型，其整体结构类似普通的前馈神经网络模型，唯一的区别在于其去除了隐含层，只保留了输入层、映射层和输出层。输入层、输出层表示每个词语的词向量，均采用分布式表示方法，维度一般为50维或100维。映射层的维度为D，窗口大小C表示上下文长度。CBOW模型在训练时和前馈神经网络模型有如下区别：映射层不再是将输入词语的向量表示按顺序排列，而是将他们相加，采用均值表示单个词向量，达到减少计算量的目的。由于词语在历史信息中的顺序不影响其在映射层中的表示，这种结构被称为连续空间中的词袋模型。此外，由于这里的目的是寻找词语的向量表示，而不是语言模型，因此无需进行语言模型概率的计算，模型可以利用未来的信息w(t+1)、w(t+2)等训练当前词语w(t)，真正实现利用上下文信息得到最优的词向量。

由图1-c可以看出，Skip-gram模型的结构与CBOW模型相反，Skip-gram模型是根据当前词语w(t)预测上下文。由于CBOW模型和Skip-gram模型这两种模型结构的不同，它们在向量表示各有优势。CBOW模型在语法测试中准确率更高，表明其通过对上下文信息的学习，能够有效获取更多的语法信息；Skip-gram模型在语义测试中有更好的效果，说明它产生的词向量能够更准确地从语义层面对词语进行描述，其区分性更为明显。二者的共同的优点在于，都能够从大规模语料中快速获得高质量的词向量。对大规模数据的有效利用，使模型能够产生更为精准的词向量，从而能够更好地描述不同词语之间的相关性。

步骤102、基于神经网络、注意力机制和上述词语集合，获取上述句子集合的特征向量；

本申请实施例中，注意力机制是一个将编码器-解码器结构从固定长度的内部表征中解放出来的方法。它通过保持编码器(例如长短期记忆网络(LSTM，Long Short-TermMemory)编码器)对输入序列每一步的中间输出结果，然后训练模型学习如何选择性地关注输入，并将它们与输出序列中的项联系起来。换句话说，输出序列中的每一项都取决于输入序列中被选中的项。本申请实施例中，通过注意力机制的引入，有利于从词语集合、句子集合中有选择地筛选出重要信息并聚焦到这些重要信息上，忽略大多不重要的信息。

具体的，如图1-d所示，步骤102可以包括：

步骤1021、基于神经网络分别获取各个词语集合中各词语的特征向量；

特征向量的提取是为了能够基于特征向量实现文本的自动分类。神经网络最早由心理学家和神经生物学家提出，其目的在于实现神经的计算模拟。本申请实施例中，基于神经网络分别获取各个词语集合中各词语的特征向量。

可选的，在步骤1021中，基于双向LSTM网络分别获取各个词语集合中各词语的特征向量。在LSTM中，设计了专门的记忆单元(即emory Cell)用于储存历史信息。历史信息的更新和使用分别受三个门的控制——输入门(即nput Gate)、遗忘门(即orget Gate)和输出门(即utput Gate)。输入门i_t、遗忘门f_t、输出门o_t、LSTM记忆单元c_t和候选记忆单元以及LSTM单元的输出h_t如第一公式至第六公式所示。

第一公式：

第二公式：i_t＝σ(M_xix_t+M_hih_t-1+M_cic_t-1)；

第三公式：f_t＝σ(M_xfx_t+M_hfh_t-1+M_cfc_t-1)；

第四公式：

第五公式：o_t＝σ(M_xox_t+M_hoh_t-1+M_cfc_t-1)；

第六公式：h_t＝o_t⊙tanh(c_t)。

其中，M为权重(例如M_xc表示候选记忆单元在t时刻的输入信息的权重，M_hc表示候选记忆单元在t-1时刻的输出信息的权重)，h_t是第t时刻LSTM的输出，x_t是第t时刻LSTM的输入，⊙表示逐点乘积，σ表示的是门限激活(控制)函数，具体可为sigmoid函数。

在步骤1021中，双向LSTM包含前向和后向LSTM前向按照从头到尾的顺序读取句子中的词语，后向按照从尾到头的顺序读取句子中的词语，通过两个方向获取句子的语义信息。举例说明，设待分类文本中有L个句子1至句子L(即句子集合中包含L个句子)，每个句子中包含r个词语，w_it,t∈[1,r]表示第i个句子中的第t个词语，则对于句子i，前向由词语w_i1到词语w_ir读取句子i，后向LSTM由w_ir到w_i1读取句子i，其文本分类模型示意图可以如图1-e所示，在图1-e中，步骤1021表现为词语级编码阶段。需要说明的是，图1-e中在词语级编码阶段仅示意了对句子2的处理，对于其它句子在词语级编码阶段的处理可以参照图1-e对句子2的处理。

本申请实施例中，使用前向的隐含状态与后向LSTM的隐含状态的拼接向量h_it来表示词语w_it,它概括了以w_it为中心的整个句子信息，具体的，上述基于双向LSTM分别获取各个词语集合中各词语的特征向量包括：

基于第七公式、第八公式、第九公式和第十公式分别获取各个词语集合中各词语的特征向量。

第七公式：x_it＝M_ew_it,t∈[1,T]；

第八公式：

第九公式：

第十公式：

本申请实施例中，直接使用词语的词向量作为双向LSTM的输入，当然，在其它实施例中，也可以在双向LSTM中加入词向量层，直接输入词语，通过训练分类模型的同时训练词语的词向量。

步骤1022、基于注意力机制和上述各词语的特征向量，分别获取各个词语集合的特征向量；

文本特征是层次化的，文本有不同的句子组成，句子又由不同的词语组成。不同的词语在表示句子含义时，贡献是不同的。本申请实施例中引入注意力机制来提取对于句子表示至关重要的词语。

可选的，如图1-f所示，步骤1022具体可以包括：

步骤10221、针对上述待分类文本的每个词语集合，将上述词语集合中各词语的特征向量分别输入多层感知器，得到上述词语集合中各词语的第一向量；

在步骤10221中，上述多层感知器的函数表示可以为：u_it＝tanh(M_wh_it+b_w)，其中，h_it表示第i个句子中的第t个词语的特征向量，M_w表示权重，b_w表示偏置，u_it表示第i个句子中的第t个词语的第一向量。

步骤10222、分别计算上述词语集合中各词语的第一向量与第二向量的相似度，并将计算得到的相似度归一化后作为相应词语的权重；

例如，在步骤10221所使用的多层感知器的函数基础上，在步骤10222中，可以通过公式计算第i个句子中的第t个词语的权重α_it。其中，u_w为第二向量。上述第二向量可以看作网络内部的一个固定的词语信息的高度化表示，可随机初始化并且跟随训练过程学习得来。

步骤10223、基于上述词语集合中各词语的特征向量和权重，对上述词语集合中各词语的特征向量进行加权求和，得到上述词语集合的特征向量；

例如，对于包含r个词语的句子i的词语集合，可以通过公式t∈[1,r]计算句子i的词语集合的特征向量s_i。其中，α_it和h_it的含义可以参见步骤10221和步骤10222中的说明。

以图1-e所示的文本分类模型示意图为例，则步骤10221-10223可以表现为图1-e中的词语级注意力处理阶段。如图1-e所示，在计算得到句子2的词语集合中各词语的权重(即α₂₁至α_2r)，可对句子2中各句子的特征向量进行加权求和，进而得到特征向量s₂，图1-e中的u_w表示上述第二向量。需要说明的是，图1-e中在词语级注意力处理阶段仅示意了对句子2的处理，对于其它句子在词语级注意力处理阶段的处理可以参照图1-e对句子2的处理。

步骤1023、基于神经网络和上述各个词语集合的特征向量，分别获取上述句子集合中各句子的特征向量；

本申请实施例中，同样可以基于双向LSTM分别获取上述句子集合中各句子的特征向量。

以图1-e所示的文本分类模型示意图为例，则步骤1023可以表现为图1-e中的句子级编码阶段。上述句子集合中各句子的特征向量(即s₁至s_L)作为句子级编码阶段的输入，通过步骤1021相似的方式可以获取各句子的特征向量。具体的，使用双向LSTM(如通过第十一公式、第十二公式和第三公式)来对句子i进行编码，拼接和得到句子i的特征向量h_i。

第十一公式：

第十二公式：

第十三公式：

其中，s_i为句子i的词语集合的特征向量，L表示待分类文本的句子数量(即句子集合的个数)。关于双向LSTM的说明可以参照步骤1021中的描述，此处不再赘述。

步骤1024、基于注意力机制和上述各句子的特征向量，获取上述句子集合的特征向量；

为了奖励对于待分类文本的分类有正向作用的句子，本申请实施例中再次引入注意力机制获取上述句子集合的特征向量。具体的，如图1-g所示，步骤1024可以包括：

步骤10241、将上述待分类文本中各句子的特征向量分别输入多层感知器，得到上述待分类文本中各句子的第三向量；

在步骤10241中，上述多层感知器的函数表示可以为：u_i＝tanh(M_sh_i+b_s)，其中，h_i表示第i个句子中的特征向量，M_s表示权重，b_s表示偏置，u_i表示第i个句子中的第三向量。

步骤10242、分别计算上述待分类文本中各句子的第三向量与第四向量的相似度，并将计算得到的相似度归一化后作为相应句子的权重；

例如，在步骤10241所使用的多层感知器的函数基础上，在步骤10242中，可以通过公式计算第i个句子的权重α_i。其中，u_s为第四向量。

上述第四向量可以看作网络内部的一个固定的句子信息的高度化表示，可随机初始化并且跟随训练过程学习得来。

步骤10243、基于上述待分类文本中各句子的特征向量和权重，对上述待分类文本中各句子的特征向量进行加权求和，得到上述句子集合中的特征向量；

例如，对于包含L个词语的待分类文本，可以通过公式i∈[1,L]计算上述句子集合的特征向量v。其中，α_i和h_i的含义可以参见步骤10241和步骤10242中的说明。

以图1-e所示的文本分类模型示意图为例，则步骤10241-10243可以表现为图1-e中的句子级注意力处理阶段。如图1-e所示，在计算得到各句子的权重(即α₁至α_L)后，可对各句子的特征向量进行加权求和，进而得到上述句子集合的特征向量v，图1-e中的u_s表示上述第四向量。

由上可见，图1-d所示的特征向量提取方法在词语层级和句子层级中均引入神经网络和注意力机制对特征向量进行提取(也即在获取词语集合的特征向量和句子集合的特征向量的过程中均引入了神经网络和注意力机制)，使得在词语层级能提取到更为重要的词语的特征向量，并在句子层级中能够提取更为重要的句子的特征向量，进而使得最终提取到的句子集合的特征向量能够更准确地表征上述待分类文本。需要说明的是，图1-d所示的特征向量提取方法仅是步骤102的一种实现方式，在实际应用中，也可以采用其它方式实现步骤102，例如，可以在词语层级的特征向量提取过程中引入注意力机制，而在句子层级的特征向量提取过程中不引入注意力机制，或者，也可以在词语层级的特征向量提取过程中不引入注意力机制，而在句子层级的特征向量提取过程中引入注意力机制，此处不做限定。

步骤103、将上述句子集合的特征向量输入文本分类模型，得到上述待分类文本的分类结果；

其中，上述文本分类模型基于文本样本和文本分类算法训练得到，具体的，文本分类模型的训练可以参照已有技术实现，此处不再赘述。

本申请实施例中，由于上述句子集合的特征向量(也可理解为上述待分类文本的特征向量)为待分类文本的高度形式化表示，因此，在获得上述句子集合的特征向量后，可以将上述句子集合的特征向量作为文本分类的特征，基于该句子集合的特征向量对待分类文本进行分类。具体的，步骤103可以使用softmax函数预测上述待分类文本在各个文本类别(比如(比如体育、娱乐或者新闻类别等)上的概率分布p(如第十四公式)，然后将概率分布最大的文本类别确定为上述待分类文本的分类结果。如图1-e所示，将上述句子集合的特征向量v作为softmax函数的输入以预测上述待分类文本在各个文本类别上的概率分布。

其中，softmax函数中可以将负对数似然函数作为损失函数，其中，该损失函数可以如第十五公式所示。

第十四公式：p＝softmax(M_cv+b_c)；

第十五公式：L＝-∑_dlog p_dj。

在第十四公式和第十五公式中，M_c表示权重，v表示待分类文本的句子集合的特征向量，b_c表示偏置，j表示待分类文本d的文本类别。

进一步，本申请实施例中，还可以对文本的分类结果进行评估。评估分类结果的有效性主要从如下3个指标来评估：召回率(即Recall)、准确率(即Precision)和F值(即F-Measure)，以下分别进行说明。

(1)召回率

召回率R表示所有被分到类别C的文本占所有实际属于类别C的文本的比率，如第十六公式所示。

第十六公式：

其中，TP表示被分类器正确分到类别C的文本数；FN表示实际属于类别C却没有被分类器正确分到类别C的文本数。

(2)准确率

准确率P表示所有被分到类别C的文本中分类正确的文本的比率，如第十八公式所示。

第十八公式：

其中，TP表示被分类器正确分到类别C的文本数；FN表示实际属于类别C却没有被分类器正确分到类别C的文本数；FP表示实际不属于类别C却被分类错误分到类别C的文本数。

(3)F值

一般情况下，召回率和正确率是呈负相关的，即一个指标上升，另一个指标会下降。故很多时候要综合它们在一起考虑，故这种指标我们称为F值，如第十九公式所示。

第十九公式：

实施例二

本申请实施例提供一种文本分类装置。如图2-a所示，本申请实施例中的文本分类装置包括：

文本表示单元201，用于对待分类文本进行文本表示，以获得所述待分类文本的句子集合，其中，所述句子集合由所述待分类文本中各句子的词语集合构成，所述词语集合由相应句子所包含的词语的词向量构成；

特征提取单元202，用于基于神经网络、注意力机制和所述词语集合，获取所述句子集合的特征向量；

分类单元203，用于将所述句子集合的特征向量输入文本分类模型，得到所述待分类文本的分类结果，其中，所述文本分类模型基于文本样本和文本分类算法训练得到。

可选的，在图2-a的基础上，如图2-b所示，特征提取单元202包括：

词语编码单元2021，用于基于神经网络分别获取各个词语集合中各词语的特征向量；

词语级注意力单元2022，用于基于注意力机制和所述各词语的特征向量，分别获取各个词语集合的特征向量；

句子编码单元2023，用于基于神经网络和所述各个词语集合的特征向量，分别获取所述句子集合中各句子的特征向量；

句子级注意力单元2024，用于基于注意力机制和所述各句子的特征向量，获取所述句子集合的特征向量。

可选的，词语编码单元2021具体用于：基于双向LSTM分别获取各个词语集合中各词语的特征向量。

可选的，句子编码单元2023具体用于基于双向LSTM和所述各个词语集合的特征向量，分别获取所述句子集合中各句子的特征向量。

可选的，词语级注意力单元2022包括：

其中，所述第二向量随机初始化并跟随训练过程学习得到。

可选的，句子级注意力单元2024包括：

其中，所述第四向量随机初始化并跟随训练过程学习得到。

应理解，本发明实施例中的文本分类装置可以如上述方法实施例中提及的文本分类方法，可以用于实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。

由上可见，本申请实施例中在获得待分类文本的句子集合后，引入神经网络和注意力机制对句子集合进行特征向量的提取，并基于句子集合的特征向量对待分类文本进行分类。由于神经网络能够让机器自动学习特征，并将特征学习融入到模型的建立过程中，而注意力机制能够从被处理对象中选取出更关键的特征，因此，针对待分类文本的句子集合引入神经网络和注意力机制，可实现对待分类文本中关键词语和关键句子的自动选取和特征提取，免去人工选取特征的过程，从而提高文本分类的效率。

实施例三

本申请实施例提供一种文本分类装置，请参阅图3，本申请实施例中的文本分类装置还包括：存储器301，一个或多个处理器302(图3中仅示出一个)及存储在存储器301上并可在处理器上运行的计算机程序。其中：存储器301用于存储软件程序以及模块，处理器302通过运行存储在存储器301的软件程序以及单元，从而执行各种功能应用以及数据处理。具体地，处理器302通过运行存储在存储器301的上述计算机程序时实现以下步骤：

假设上述为第一种可能的实现方式，则在第一种可能的实现方式作为基础而提供的第二种可能的实现方式中，所述基于神经网络、注意力机制和所述词语集合，获取所述句子集合的特征向量包括：

基于神经网络分别获取各个词语集合中各词语的特征向量；

基于注意力机制和所述各句子的特征向量，获取所述句子集合的特征向量；

在上述第二种可能的实现方式作为基础而提供的第三种可能的实现方式中，所述基于神经网络分别获取各个词语集合中各词语的特征向量为：

在上述第三种可能的实现方式作为基础而提供的第四种可能的实现方式中，所述基于神经网络和所述各个词语集合的特征向量，分别获取所述句子集合中各句子的特征向量为：

在上述第二种可能的实现方式或者上述第三种可能的实现方式或者上述第四种可能的实现方式作为基础而提供的第五种可能的实现方式中，所述基于注意力机制和所述各词语的特征向量，分别获取各个词语集合的特征向量包括：

其中，所述第二向量随机初始化并跟随训练过程学习得到。

在上述第二种可能的实现方式或者上述第三种可能的实现方式或者上述第四种可能的实现方式作为基础而提供的第六种可能的实现方式中，所述基于注意力机制和所述各句子的特征向量，获取所述句子集合的特征向量包括：

其中，所述第四向量随机初始化并跟随训练过程学习得到。

可选的，如图3示，上述文本分类装置还包括：一个或多个输入设备303(图3中仅示出一个)和一个或多个输出设备304(图3中仅示出一个)。存储器301、处理器302、输入设备303和输出设备304通过总线305连接。

应当理解，在本申请实施例中，所称处理器302可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备303可以包括键盘、触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备304可以包括显示器、扬声器等。

存储器304可以包括只读存储器和随机存取存储器，并向处理器301提供指令和数据。存储器304的一部分或全部还可以包括非易失性随机存取存储器。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文本分类方法，其特征在于，包括：

2.根据权利要求1所述的文本分类方法，其特征在于，所述基于神经网络、注意力机制和所述词语集合，获取所述句子集合的特征向量包括：

基于神经网络分别获取各个词语集合中各词语的特征向量；

3.根据权利要求2所述的文本分类方法，其特征在于，所述基于神经网络分别获取各个词语集合中各词语的特征向量为：

4.根据权利要求3所述的文本分类方法，其特征在于，所述基于神经网络和所述各个词语集合的特征向量，分别获取所述句子集合中各句子的特征向量为：

5.根据权利要求2至4任一项所述的文本分类方法，其特征在于，所述基于注意力机制和所述各词语的特征向量，分别获取各个词语集合的特征向量包括：

其中，所述第二向量随机初始化并跟随训练过程学习得到。

6.根据权利要求2至4任一项所述的文本分类方法，其特征在于，所述基于注意力机制和所述各句子的特征向量，获取所述句子集合的特征向量包括：

其中，所述第四向量随机初始化并跟随训练过程学习得到。

7.一种文本分类装置，其特征在于，包括：

8.根据权利要求7所述的文本分类装置，其特征在于，所述特征提取单元包括：

9.一种文本分类装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。