CN108090098A

CN108090098A - 一种文本处理方法及装置

Info

Publication number: CN108090098A
Application number: CN201611045923.4A
Authority: CN
Inventors: 王栋; 宋巍; 付瑞吉; 王士进; 胡国平; 秦兵; 刘挺
Original assignee: iFlytek Co Ltd
Current assignee: Beijing Iflytek Education Technology Co ltd
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2018-05-29
Anticipated expiration: 2036-11-22
Also published as: CN108090098B

Abstract

本发明实施例提供了一种文本处理方法及装置，其中方法包括：获取待处理文本数据；根据文本分类模型获取所述文本数据属于每个预设类别的概率，其中所述文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类；根据所述文本数据属于每个预设类别的概率确定所述文本数据的类别。在本发明实施例中，使用文本分类模型从标题+全文这种篇章角度对待分类文本进行分类，得到当前文本属于每个预设类别的概率，再在此基础上最终确定文本的类别，这样有效地提高了文本分类的效率，同时也提高了文本分类的准确性，降低了人的主观性对分类结果的影响。

Description

一种文本处理方法及装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种文本处理方法及装置。

背景技术

随着信息技术的发展，人们所面对的文本信息量也呈爆发式增长，有关文本信息的处理技术也在不断进化。以教育领域为例，当前自动阅卷技术开始崭露头角，越来越多的学校或教育机构开始采用自动阅卷技术对学生的试卷进行自动批阅。很多试卷中包含作文，不过作文作为主观性较强的试题，机器很难直接给出作文的得分。

发明人在实现本发明的过程中发现，在批改作文时，是否跑题是评分的主要关注点之一，因此对于作文的自动阅卷，评分之前先判断出学生作文的类别很关键，而且不同类别的作文往往对应不同的评阅标准，因此可以说确定学生作文的类别是作文自动阅卷的基础。在现有技术中，当需要对文章等文本进行分类时，一般采用的是人工方法，即由相关人员查看文章的内容后，给出文章的类别(如说明文、议论文等)，例如学生写的作文，一般是需要老师查看作文内容后，给出每篇作文的文章类别。然而当文本数量较多时，人工工作量很大，分类效率很低，并且不同人对文本的理解可能会有偏差，对文本类别的标注存在主观性。

发明内容

本发明提供一种文本处理方法及装置，以提高文本分类的效率。

根据本发明实施例的第一方面，提供一种文本处理方法，所述方法包括：

获取待处理文本数据；

根据文本分类模型获取所述文本数据属于每个预设类别的概率，其中所述文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类；

根据所述文本数据属于每个预设类别的概率确定所述文本数据的类别。

可选的，所述文本分类模型为预先通过训练得到的神经网络模型；

所述根据文本分类模型获取所述文本数据属于每个预设类别的概率，包括：

获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵；

将所述标题的语义矩阵和每个句子的语义矩阵一并作为所述文本分类模型的输入；

获取所述文本分类模型所输出的所述文本数据属于每个预设类别的概率。

可选的，所述获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵，包括：

获取所述标题及每个句子所包含的每个词的词向量；

将所述标题所包含的每个词的词向量为一行组成所述标题的语义矩阵；

将所述每个句子所包含的每个词的词向量为一行组成每个句子的语义矩阵。

可选的，所述文本分类模型包括句子编码层、篇章编码层、注意力层、加权求和层、输出层；

所述句子编码层，用于对标题的语义矩阵及每个句子的语义矩阵进行句子级编码以得到句子级编码特征；

所述篇章编码层，用于以所述句子编码层输出的句子级编码特征作为输入，从整篇文本角度对所述标题及每个句子的句子级编码特征重新进行篇章级编码以得到篇章级编码特征；

所述注意力层，用于以所述篇章编码层输出的篇章级编码特征作为输入，根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重；

所述加权求和层，用于以所述注意力层输出的每个句子的重要度权重及每个句子相应的篇章级编码特征作为输入，计算得到所述文本数据的语义矩阵，其中所述文本数据的语义矩阵为每个句子的重要度权重与相应的篇章级编码特征乘积之和；

所述输出层，用于以所述加权求和层输出的所述文本数据的语义矩阵作为输入，输出为所述文本数据属于每个预设类别的概率。

可选的，所述注意力层根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重，包括：

根据每个句子的篇章级编码特征与注意力层的注意力向量，计算每个句子的注意力值；

计算每个句子的篇章级编码特征与所述标题的篇章级编码特征相似度，以作为每个句子的主线权重；

根据每个句子的注意力值和主线权重，计算得到每个句子的重要度权重。

根据本发明实施例的第二方面，提供一种文本处理装置，所述装置包括：

文本获取单元，用于获取待处理文本数据；

文本分类单元，用于根据文本分类模型获取所述文本数据属于每个预设类别的概率，其中所述文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类；

分类确定单元，用于根据所述文本数据属于每个预设类别的概率确定所述文本数据的类别。

所述文本分类单元包括：

语义矩阵获取子单元，用于获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵；

输入子单元，用于将所述标题的语义矩阵和每个句子的语义矩阵一并作为所述文本分类模型的输入；

输出子单元，用于获取所述文本分类模型所输出的所述文本数据属于每个预设类别的概率。

可选的，所述语义矩阵获取子单元用于：

获取所述标题及每个句子所包含的每个词的词向量；

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明实施例中，使用文本分类模型从标题+全文这种篇章角度对待分类文本进行分类，得到当前文本属于每个预设类别的概率，再在此基础上最终确定文本的类别，这样有效地提高了文本分类的效率，同时也提高了文本分类的准确性，降低了人的主观性对分类结果的影响。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。此外，这些介绍并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明一示例性实施例示出的一种文本处理方法的流程图；

图2是根据本发明一示例性实施例示出的一种文本处理方法的流程图；

图3是根据本发明一示例性实施例示出的文本分类模型的结构示意图；

图4是根据本发明一示例性实施例示出的一种文本处理装置的示意图；

图5是根据本发明一示例性实施例示出的一种文本处理装置的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本发明一示例性实施例示出的一种文本处理方法的流程图。作为示例该方法可用于手机、平板电脑、台式机电脑、笔记本电脑、服务器等设备。

参见图1所示，该方法可以包括如下步骤：

步骤S101，获取待处理文本数据。

对于待处理文本数据的具体形态本实施例并不进行限制，例如可以是一篇文章(如学生作文)等。

可以预先设定一个或多个类别作为预设类别，例如以语文作文为例，根据表达方式的不同，预设类别分为说明文类别、议论文类别、记叙文类别，等等。本实施例的目的即确定待处理文本数据属于哪个或哪些预设类别。

步骤S102，根据文本分类模型获取所述文本数据属于每个预设类别的概率，其中所述文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类。

为了提高文本分类的准确性，在本实施例中使用文本分类模型从标题+全文这种篇章角度对待分类文本进行分类，得到文本数据属于每个预设类别的概率，再在此基础上最终确定文本的类别。

作为示例，所述文本分类模型可以为预先通过训练得到的神经网络模型。当然对于神经网络模型的具体细节本实施例并不进行限制，本领域技术人员可以根据各种现有的神经网络模型进行设计、组合等。

神经网络模型一般可以通过训练得到。因此在本实施例或本发明其他某些实施例中，可以预先收集大量文本数据用于神经网络的训练。

作为示例，用于训练的文本数据可以通过网络收集，也可以收集用户所写的文本被图像识别后得到的相应文本作为文本数据。例如所收集的文本为语文作文时，可以通过收集学生考试时写的作文试卷，进行图像识别后得到相应语文作文的文本数据，包括作文的标题和作文的内容。

对于所收集的大量文本一般会带有或被赋予相应的文本类别标签，所述文本的类别可以根据应用需求确定，如文本为语文作文时可以设定为说明文、议论文、记叙文等。所述文本类别可以使用不同符号表示，如对于语文作文，可以使用1表示说明文，2表示议论文，3表示记叙文，当然也可以采用其它方法表示，本发明实施例不作限制。

步骤S103，根据所述文本数据属于每个预设类别的概率确定所述文本数据的类别。

例如，可以将概率最大的类别确定为所述文本数据的类别。进一步的，当得到的两个或多个类别的概率相同或相近时，还可以将待分类文本标记为未确定类别，后续由人工确定待分类文本的最终类别，等等。

当所述文本分类模型为预先通过训练得到的神经网络模型时，参见图2所示，在本实施例或本发明其他某些实施例中，所述根据文本分类模型获取所述文本数据属于每个预设类别的概率，可以包括：

步骤S201，获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵。

对于文本数据来讲，例如一篇作文，通常会有一个标题，可以获取该标题的语义矩阵。对于文本数据的内容，通常也由多个句子组成，对于每个句子，也可以获取到该句子的语义矩阵。对于语义矩阵的具体内容本实施例并不进行限制，例如语义矩阵通常可以由词向量组成。

作为示例，所述获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵，可以包括：

1)获取所述标题及每个句子所包含的每个词的词向量。

例如可以对标题及句子进行分词，并获取相应词向量，所述分词方法可以使用如基于条件随机场等方法，而将分词后的每个词语转换为词向量时，例如可以使用word2vec技术得到每个词语的词向量，对此本实施例不再赘述。

2)将所述标题所包含的每个词的词向量为一行组成所述标题的语义矩阵。

3)将所述每个句子所包含的每个词的词向量为一行组成每个句子的语义矩阵。

可以将文本标题所包含的词的词向量作为标题语义矩阵的每行，得到标题语义矩阵，其大小为kt×m，其中kt表示标题包含的词总数，m表示每个词向量的维数。

可以将文本中每个句子包含的词的词向量作为每个句子语义矩阵的每行，得到文本中每个句子的语义矩阵，其中每个句子的语义矩阵大小为k_c×m，k_c表示当前文本中第c个句子包含的词数。

此外，当文本标题与文本中句子包含不同数量的词时，或文本中每个句子包含不同数量的词时，可以对文本标题的语义矩阵和\或文本中每个句子的语义矩阵进行规整，以使各语义矩阵规整为大小相同的矩阵。当然，也可以不进行规整，对此本实施例并不进行限制。

步骤S202，将所述标题的语义矩阵和每个句子的语义矩阵一并作为所述文本分类模型的输入。

步骤S203，获取所述文本分类模型所输出的所述文本数据属于每个预设类别的概率。

下面对文本分类模型的具体结构进行举例说明。

以文本数据为作文为例，参见图3所示，文本分类模型至少可以包括句子编码层、篇章编码层、注意力层、加权求和层、输出层。

a)所述句子编码层，用于对输入的标题语义矩阵及每个句子的语义矩阵进行句子级编码以得到句子级编码特征。

可将当前文本标题的语义矩阵及文本中每个句子的语义矩阵作为输入(或者说是作为输入层)，可使用X＝{T,C₁,C₂,...C_n}表示，其中T表示标题语义矩阵，C₁,C₂,...C_n分别为当前文本中各个句子的语义矩阵，n为当前文本包含的句子总数。

句子编码层中可以包括句子级编码器，用于对当前文本的标题及文本中每个句子进行句子级编码，得到编码后的句子级编码特征。句子级编码特征可使用S＝{st,s₁,s₂,...,s_n}表示，其中st表示对文本标题的语义矩阵进行句子编码后得到的标题的句子级编码特征，s_n表示对第n个句子的语义矩阵进行句子级编码后得到该句子的句子级编码特征，st和s₁,s₂,...s_n为维度相同的向量，具体的向量维度大小可以根据应用需求或实验结果确定。作为示例，句子编码层可以采用卷积神经网络、循环或递归神经网络等结构来实现。

b)所述篇章编码层，用于以所述句子编码层输出的句子级编码特征作为输入，从整篇文本角度对所述标题及每个句子的句子级编码特征重新进行篇章级编码以得到篇章级编码特征。

篇章编码层的输入为句子编码层的输出。篇章编码层的输出为篇章级编码特征，可使用H＝{ht,h₁,h₂,...,h_n}表示，其中，ht表示对文本标题的句子级编码特征进行篇章级编码后得到的篇章级编码特征，h_n表示对第n个句子的句子级编码特征进行篇章级编码后得到的篇章级编码特征。ht和h₁,h₁,...h_n均为维度相同的向量，具体的向量维度大小可以根据应用需求或实验结果确定。所述篇章编码层可以采用双向循环神经网络(RNN)的结构，每个节点之间存在双向连接，从而能够将当前文本的标题及文本所有句子的信息都纳入考虑的范畴，进而能够实现篇章级的编码。具体编码过程不再赘述。

c)所述注意力(attention)层，用于以所述篇章编码层输出的篇章级编码特征作为输入，根据所述标题及每个句子的篇章级编码特征计算每个句子的重要度，以得到每个句子的重要度权重。重要度权重可使用P＝{p₁,p₂,...,p_n}来表示，其中p_j为当前文本第j个句子的重要度权重。

所述注意力层根据所述标题及每个句子的篇章级编码特征计算每个句子的重要度，可以包括：

c1)根据每个句子的篇章级编码特征与注意力层的注意力向量，计算每个句子的注意力值。

作为示例，具体计算时，可以直接将每个句子的篇章级编码特征与注意力层的注意力向量内积后得到的计算值作为当前文本中每个句子的注意力值，具体计算方法如下式所示：

a_j＝h_j·v^T

其中，a_j为当前文本第j个句子的注意力值，h_j为当前文本第j个句子的篇章级编码特征，v为与h_j维度相同的注意力向量，是模型参数，其初始值可以通过随机初始化得到，其最终取值可预先通过大量数据训练得到。

c2)计算每个句子的篇章级编码特征与所述标题的篇章级编码特征相似度，以作为每个句子的主线权重。

作为示例，具体计算时可以使用下式：

其中，t_j为当前文本第j个句子的主线权重。

c3)根据每个句子的注意力值和主线权重，计算得到每个句子的重要度权重。

作为示例，具体计算时，先计算每个句子的注意力值和主线权重的乘积，再对所述乘积进行归一化，将归一化后得到的计算值作为每个句子的重要度权重，如下式所示：

其中，p_j为当前文本第j个句子的重要度权重。

d)所述加权求和层，用于以所述注意力层输出的每个句子的重要度权重及每个句子相应的篇章级编码特征作为输入，计算得到所述文本数据的语义矩阵，其中所述文本数据的语义矩阵为每个句子的重要度权重与相应的篇章级编码特征乘积之和。

作为示例，具体计算时可以使用下式：

其中，A为所述文本数据的语义矩阵。

e)所述输出层，用于以所述加权求和层输出的所述文本数据的语义矩阵作为输入，输出为所述文本数据属于每个预设类别的概率。

对于输出层所采用的具体的神经网络结构本实施例并不进行限制，其模型参数可以通过预先训练得到，此处不再赘述。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图4是根据本发明一示例性实施例示出的一种文本处理装置的示意图。作为示例该装置可用于手机、平板电脑、台式机电脑、笔记本电脑、服务器等设备。

参见图4所示，所述装置可以包括：

文本获取单元401，用于获取待处理文本数据；

文本分类单元402，用于根据文本分类模型获取所述文本数据属于每个预设类别的概率，其中所述文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类；

分类确定单元403，用于根据所述文本数据属于每个预设类别的概率确定所述文本数据的类别。

当所述文本分类模型为预先通过训练得到的神经网络模型时，参见图5所示，在本实施例或本发明其他某些实施例中，所述文本分类单元可以包括：

语义矩阵获取子单元501，用于获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵；

输入子单元502，用于将所述标题的语义矩阵和每个句子的语义矩阵一并作为所述文本分类模型的输入；

输出子单元503，用于获取所述文本分类模型所输出的所述文本数据属于每个预设类别的概率。

在本实施例或本发明其他某些实施例中，所述语义矩阵获取子单元可以用于：

获取所述标题及每个句子所包含的每个词的词向量；

在本实施例或本发明其他某些实施例中，所述文本分类模型可以包括句子编码层、篇章编码层、注意力层、加权求和层、输出层；

在本实施例或本发明其他某些实施例中，所述注意力层根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重，可以包括：

关于上述实施例中的装置，其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

获取待处理文本数据；

2.根据权利要求1所述的方法，其特征在于，所述文本分类模型为预先通过训练得到的神经网络模型；

3.根据权利要求2所述的方法，其特征在于，所述获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵，包括：

获取所述标题及每个句子所包含的每个词的词向量；

4.根据权利要求2所述的方法，其特征在于，所述文本分类模型包括句子编码层、篇章编码层、注意力层、加权求和层、输出层；

5.根据权利要求4所述的方法，其特征在于，所述注意力层根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重，包括：

6.一种文本处理装置，其特征在于，所述装置包括：

文本获取单元，用于获取待处理文本数据；

7.根据权利要求6所述的装置，其特征在于，所述文本分类模型为预先通过训练得到的神经网络模型；

所述文本分类单元包括：

8.根据权利要求7所述的装置，其特征在于，所述语义矩阵获取子单元用于：

获取所述标题及每个句子所包含的每个词的词向量；

9.根据权利要求7所述的装置，其特征在于，所述文本分类模型包括句子编码层、篇章编码层、注意力层、加权求和层、输出层；

10.根据权利要求9所述的装置，其特征在于，所述注意力层根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重，包括：