CN109597982A

CN109597982A - 摘要文本识别方法及装置

Info

Publication number: CN109597982A
Application number: CN201710922871.2A
Authority: CN
Inventors: 王天祎
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2019-04-09
Anticipated expiration: 2037-09-30
Also published as: CN109597982B

Abstract

本发明公开了一种摘要文本识别方法及装置，该方法包括：获取待处理文档；生成待处理文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；利用预先构建的摘要识别模型对该三维向量矩阵进行处理，得到待处理文档的摘要文本。基于本发明提供的方法，生成的三维向量矩阵可有效建立文档上下文内容的联系，这就使得所识别到的摘要文本准确性更高。

Description

摘要文本识别方法及装置

技术领域

本发明涉及文本处理技术领域，尤其涉及一种摘要文本识别方法及装置。

背景技术

摘要被认为是一篇文档的概括和总结，摘要识别技术即自动识别一篇文档的摘要文本。

常见的摘要识别技术以选取为主，即从文档中选取文本作为摘要文本，所选取的文本一般为文档中的句子或者段落。但是，这种摘要识别技术一般是基于传统机器学习算法来实现的，也就是说，摘要识别主要依赖于人工制定规则，而由于无法分析上下文内容，无法保证所识别到的摘要的准确性。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的摘要文本识别方法及装置。

具体技术方案如下：

一种摘要文本识别方法，包括：

获取待处理文档；

生成所述待处理文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；

利用预先构建的摘要识别模型对所述待处理文档的三维向量矩阵进行处理，得到所述待处理文档的摘要文本，所述摘要识别模型为基于训练样本文档中摘要句的位置以及所述训练样本文档的三维向量矩阵训练得到的模型。

优选的，所述生成所述待处理文档的三维向量矩阵，包括：

确定所述待处理文档的文本向量，所述文本向量用于表征文档在文本维度下空间位置分布情况；

对所述待处理文档中的各个句子分别进行分词处理，得到各个所述句子的第一词序列；

根据全部所述第一词序列的长度分布数据，确定词序列长度阈值；

对于每一个所述句子，根据所述词序列长度阈值确定该句子的句子向量，所述句子向量用于表征句子在句子维度下的空间分布情况；

根据所述词序列长度阈值对该句子所对应的所述第一词序列进行处理，得到长度为所述词序列长度阈值的第二词序列；

根据预先构建的词向量模型确定该句子所对应的所述第二词序列中各个词组的词向量，所述词向量用于表征词组在词维度下的空间位置分布情况，所述词向量模型中存储有至少一个词组的词向量；

根据所述文本向量，至少一个所述句子向量以及至少一个所述词向量，生成所述待处理文档的三维向量矩阵。

优选的，所述根据所述词序列长度阈值对该句子所对应的所述第一词序列进行处理，得到长度为所述词序列长度阈值的第二词序列，包括：

判断该句子所对应的第一词序列的长度是否大于所述词序列长度阈值；

若该句子所对应的第一词序列的长度大于所述词序列长度阈值，从词序列起始位置开始，从对应的第一词序列中截取词序列长度为所述词序列长度阈值的第二词序列；

若该句子所对应的第一词序列的长度不大于所述词序列长度阈值，从词序列末尾位置开始，在对应的第一词序列中添加至少一个空字符串，所述至少一个空字符串的长度等于所述词序列长度阈值与对应的第一词序列长度的差值。

优选的，预先构建词向量模型的过程，包括：

获取第一文档数据库，所述第一文档数据库中存储有多个样本文档；

对于每一个所述样本文档，对该样本文档中各个样本句子进行分词处理，得到各个所述样本句子的第三词序列；

对于该样本文档所对应的每一个所述第三词序列，计算该第三词序列中各个词组在该样本文档中出现的概率值；

对该第三词序列中概率值不小于概率阈值的各个样本词组进行向量训练，得到相应词向量；

将该第三词序列中概率值小于概率阈值的各个样本词组的词向量确定为第一预设词向量；

根据各个所述样本文档所对应的全部样本词组及其词向量，构建词向量模型。

优选的，所述根据预先构建的词向量模型确定该句子所对应的所述第二词序列中各个词组的词向量，包括：

对于该句子所对应的所述第二词序列中的每一个词组，判断该词组是否为空字符串；

若该词组是空字符串，将该词组的词向量确定为第二预设词向量；

若该第一词组不是空字符串，判断该词组是否为预先构建的词向量模型中的样本词组；

若该词组为预先构建的词向量模型中的样本词组，从所述词向量模型中调取该词组所对应的词向量；

若该词组不为预先构建的词向量模型中的样本词组，将该词组的词向量确定为第三预设词向量。

优选的，预先构建摘要识别模型的过程，包括：

获取第二文档数据库，所述第二文档数据库中存储有多个训练样本文档，各个所述训练样本文档中标注有摘要句；

对于每一个所述训练样本文档，按照摘要句的位置对该训练样本文本中各个句子添加标签；

生成该训练样本文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；

根据各个所述训练样本文档的三维向量矩阵及其句子所添加的标签，对层级神经网络进行训练，得到摘要识别模型。

一种摘要文本识别装置，包括：文本获取模块、矩阵生成模块和摘要识别模块，所述摘要识别模块中包含摘要识别模型构建单元；

所述文本获取模块，用于获取待处理文档；

所述矩阵生成模块，用于生成所述待处理文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；

所述摘要识别模型构建单元，用于预先构建摘要识别模型；

所述摘要识别模块，用于利用预先构建的摘要识别模型对所述待处理文档的三维向量矩阵进行处理，得到所述待处理文档的摘要文本，所述摘要识别模型为基于训练样本文档中摘要句的位置以及所述训练样本文档的三维向量矩阵训练得到的模型。

优选的，所述摘要识别模型构建单元，用于：

获取第二文档数据库，所述第二文档数据库中存储有多个训练样本文档，各个所述训练样本文档中标注有摘要句；对于每一个所述训练样本文档，按照摘要句的位置对该训练样本文本中各个句子添加标签；生成该训练样本文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；根据各个所述训练样本文档的三维向量矩阵及其句子所添加的标签，对层级神经网络进行训练，得到摘要识别模型。

一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述技术方案任意一项所述的摘要文本识别方法。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述技术方案任意一项所述的摘要文本识别方法。

借由上述技术方案，本发明提供的摘要文本识别方法及装置，可以生成待处理文档在文本维度、句子维度以及词维度下的三维向量矩阵，进而利用预先构建的摘要识别模型对该三维向量矩阵进行处理，得到待处理文档的摘要文本。由于本发明所生成的三维向量矩阵可有效建立文档上下文内容的联系，因此，所识别到的摘要文本准确性更高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了摘要文本识别方法的方法流程图；

图2示出了摘要文本识别方法的部分方法流程图；

图3示出了摘要文本识别方法的另一部分方法流程图；

图4示出了摘要文本识别方法的又一部分方法流程图；

图5示出了摘要文本识别方法的再一部分方法流程图；

图6示出了摘要文本识别方法的再一部分方法流程图；

图7示出了摘要文本识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本发明实施例提供一种摘要文本识别方法，包括如下步骤：

S10，获取待处理文档；

在执行步骤S10的过程中，待处理文档用于表征需要识别摘要的文档，该文档可为长文本，也可为短文本。

S20，生成待处理文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；

在执行步骤S20的过程中，在获取到待处理文档之后，需要对该待处理文档进行特征化，以得到该待处理文档的三维表达矩阵，也就是三维向量矩阵，“三维”指的是——文本维度、句子维度以及词维度。

例如，待处理文档A由3个句子构成“小明喜欢大众车和长城车。大众车有途观、帕萨特和凌渡等。而长城车有腾翼、哈弗和风骏等。”。则该待处理文档A在文本维度下有3个句子，句子a1“小明喜欢大众车和长城车。”、a2“大众车有途观、帕萨特和凌渡等。”和a3“而长城车有腾翼、哈弗和风骏等。”，该待处理文档A在文本维度下的空间位置分布情况可用关于句子数量的向量表示；在句子维度下，首先需对句子a1、句子a2和句子a3进行分词，得到各句子对应的词序列，例如，句子a1分词所得到的词序列为“小明、喜欢、大众车、和长城车”，则以句子a1所对应的词序列的长度为4，同样，句子a2和句子a3都可以分词得到对应的词序列，因此该待处理文档A在句子维度下的空间位置分布情况可用关于句长的向量表示；而在词维度下，例如，句子a1中的“小明”，可将映射到一定维度的空间，例如100维，也就将“小明”这一词组用映射到一定维度空间的向量表示。

在具体实现过程中，步骤S20中“生成待处理文档的三维向量矩阵”可以具体采用以下步骤，方法流程图如图2所示：

S201，确定待处理文档的文本向量，所述文本向量用于表征文档在文本维度下空间位置分布情况；

文本向量可用关于句子数量的向量表示。

S202，对待处理文档中的各个句子分别进行分词处理，得到各个句子的第一词序列；

S203，根据全部第一词序列的长度分布数据，确定词序列长度阈值；

在执行步骤S203的过程中，首先统计待处理文档中每个句子所对应的第一词序列的长度分布情况；如果不存在特别超长的第一词序列，则取最大词序列长度作为词序列长度阈值，而如果存在离群第一词序列，则取覆盖绝大部分第一词序列的词序列长度作为词序列长度阈值。

比如，10个第一词序列，每一个可以长度不等，都在50个词组以内，那么取50为词序列长度阈值，如其中一条有1000个词组，其他都是50以下，那么取50为词序列长度阈值，我们认为含有1000个词组的第一词序列是与总体分布异常的离群第一词序列，只取其前50个字符。需要说明的是，待处理文档只有一个的词序列长度阈值。

S204，对于每一个句子，根据词序列长度阈值确定该句子的句子向量，所述句子向量用于表征句子在句子维度下的空间分布情况；

句子向量可用关于词序列长度的向量表示。

S205，根据词序列长度阈值对该句子所对应的第一词序列进行处理，得到长度为词序列长度阈值的第二词序列；

在执行步骤S205的过程中，得到词序列长度阈值之后，将该句子所对应的第一词序列的长度与词序列长度阈值进行比较，存在第一词序列的长度大于词序列长度阈值和第一词序列的长度不大于词序列长度阈值这两种情况，针对这两种情况，可采用删减或者增加第一词序列中词组的方式进行处理，以得到长度为词序列长度阈值的第二词序列。

在具体实现过程中，步骤S205中“根据词序列长度阈值对该句子所对应的第一词序列进行处理，得到长度为词序列长度阈值的第二词序列”可以具体采用以下步骤，方法流程图如图3所示：

S2051，判断该句子所对应的第一词序列的长度是否大于词序列长度阈值；若是，则执行步骤S2052；若否，则执行步骤S2053；

S2052，从词序列起始位置开始，从对应的第一词序列中截取词序列长度为词序列长度阈值的第二词序列；

S2053，从词序列末尾位置开始，在对应的第一词序列中添加至少一个空字符串，所述至少一个空字符串的长度等于词序列长度阈值与对应的第一词序列长度的差值。

S206，根据预先构建的词向量模型确定该句子所对应的第二词序列中各个词组的词向量，所述词向量用于表征词组在词维度下的空间位置分布情况，所述词向量模型中存储有至少一个词组的词向量；

在具体实现过程中，步骤S206中预先构建词向量模型的过程，可以采用以下步骤，方法流程图如图4所示：

S1001，获取第一文档数据库，所述第一文档数据库中存储有多个样本文档；

在执行步骤S1004的过程中，第一文档数据库中包括多个样本文档，其中，第一文档数据库可以为行业语料库或者通用语料库，这里行业语料库指某一特定行业或领域内的文本库，如汽车门户网站上的评论；通用语料库指脱离行业个性化的文本库，如百度百科。

S1002，对于每一个所述样本文档，对该样本文档中各个样本句子进行分词处理，得到各个样本句子的第三词序列；

S1003，对于该样本文档所对应的每一个所述第三词序列，计算该第三词序列中各个词组在该样本文档中出现的概率值；

在执行步骤S1003的过程中，由于在步骤S1002中已对样本文档中各个样本句子进行分词处理，因此，可通过计算词组在全部第三词序列中出现的概率值即可确定在样本文档中出现的概率值。

S1004，对该第三词序列中概率值不小于概率阈值的各个样本词组进行向量训练，得到相应词向量；

在执行步骤S1004的过程中，可以使用词向量模型Word2vec或者Glove对对该第三词序列中概率值不小于概率阈值的各个样本词组进行词向量训练，得到进行训练的各词组对应的词向量。进行词向量训练，能够将每个词组映射到一定维度的空间内，例如100维，能表征词组与词组之间的相似性，即包含了大量的外部信息。

S1005，将该第三词序列中概率值小于概率阈值的各个样本词组的词向量确定为第一预设词向量；

在执行步骤S1005的过程中，在样本文档中出现的概率值小于概率阈值，说明该第三词序列中的这些词组出现的概率较小，被使用的概率较小，属于不经常使用的词组，可以被称为低频常尾词组，记为UNK(unknown keyword)，UNK的词向量统一设为第一预设词向量。

S1006，根据各个样本文档所对应的全部样本词组及其词向量，构建词向量模型；

在执行步骤S1006的过程中，对于每一个样本文档，均可按照步骤S1002～步骤S1005得到样本文档中所包含的全部词组以及词组的词向量，可将全部样本文档的所有词组及其对应的词向量存储于某个数据库中，从而得到词向量模型。

在具体实现过程中，步骤S206中“根据预先构建的词向量模型确定该句子所对应的第二词序列中各个词组的词向量”的过程，可以采用以下步骤，方法流程图如图5所示：

S2061，对于该句子所对应的所述第二词序列中的每一个词组，判断该词组是否为空字符串；若是，则执行步骤S2062；若否，则执行步骤S2063；

S2062，将该词组的词向量确定为第二预设词向量；

第二预设词向量可为pad向量，该pad向量为维度可调的实数向量。

S2063，判断该词组是否为预先构建的词向量模型中的样本词组；若是，则执行步骤S2064；若否，则执行步骤S2065；

S2064，从词向量模型中调取该词组所对应的词向量；

S2065，将该词组的词向量确定为第三预设词向量。

第三预设词向量可为第一预设词向量，也可为不同于第一预设词向量的向量。

S207，根据文本向量，至少一个句子向量以及至少一个词向量，生成待处理文档的三维向量矩阵。

在执行步骤S207的过程中，比如待处理文档A中有3个句子，词序列长度阈值确定为50，而句子每个词组映射到100维的空间内，则待处理文档的三维向量矩阵为100*50*20的三维向量矩阵。

S30，利用预先构建的摘要识别模型对待处理文档的三维向量矩阵进行处理，得到待处理文档的摘要文本，所述摘要识别模型为基于训练样本文档中摘要句的位置以及所述训练样本文档的三维向量矩阵训练得到的模型；

在具体实现过程中，步骤S30中预先构建摘要识别模型的过程可以采用以下步骤，方法流程图如图6所示：

S1007，获取第二文档数据库，所述第二文档数据库中存储有多个训练样本文档，各个训练样本文档中标注有摘要句；

具体的，第二文档数据库可与第一文档数据库相同，也可以不同。

可从第二文档数据库中选取对个训练样本文档，并且，对各个训练样本文档中作为摘要的句子，也就是摘要句的位置人为预先进行标注。

S1008，对于每一个训练样本文档，按照摘要句的位置对该第二样本文本中各个句子添加标签；

在执行步骤S1008的过程中，通过检测标注，可确定各个摘要句的位置，进而对训练样本文档中各个句子都添加用于区别是否为摘要句的标签，例如，可对摘要句添加标签T，对非摘要句添加标签OFF，当然还可添加其他形式的标签，本实施例不做具体限定。

S1009，生成该训练样本文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；

步骤S1009生成训练样本文档的三维向量矩阵的过程，与步骤S20中“生成待处理文档的三维向量矩阵”，可参见步骤S20的具体实施方式，本实施例不再赘述。

S1010，根据各个训练样本文档的三维向量矩阵及其句子所添加的标签，对层级神经网络进行训练，得到摘要识别模型；

在执行步骤S1010的过程中，可将得到的多个三维向量矩阵作为层级神经网络的底层特征，层级神经网络根据多个三维向量矩阵进行参数调整，并输出各个训练样本文档的当前识别结果，然后，根据各个训练样本文档的句子所添加的标签，计算当前识别结果的误差量，在误差量超过误差允许范围内时，按照误差量对参数进行反向调整，直到误差量在误差允许范围内时结束训练。

层级神经网络的类型可为CNN-LSTM-CRF，也可为LSTM-LSTM-CRF，其中，CNN为卷积神经网络，LSTM(Long-Short term memory)为循环神经网络，CRF(Conditional RandomField)为条件随机场。

以上步骤S201～步骤S207仅仅是本申请实施例公开的步骤S20中“生成待处理文档的三维向量矩阵”过程的一种优选的实现方式，有关此过程的具体实现方式可根据自己的需求任意设置，在此不做限定。

以上步骤S2051～步骤S2053仅仅是本申请实施例公开的步骤S205中“根据词序列长度阈值对该句子所对应的第一词序列进行处理，得到长度为词序列长度阈值的第二词序列”过程的一种优选的实现方式，有关此过程的具体实现方式可根据自己的需求任意设置，在此不做限定。

以上步骤S1001～步骤S1006仅仅是本申请实施例公开的步骤S206中预先构建词向量模型的过程的一种优选的实现方式，有关此过程的具体实现方式可根据自己的需求任意设置，在此不做限定。

以上步骤S2061～步骤S2065仅仅是本申请实施例公开的步骤S206中“根据预先构建的词向量模型确定该句子所对应的第二词序列中各个词组的词向量”过程的一种优选的实现方式，有关此过程的具体实现方式可根据自己的需求任意设置，在此不做限定。

以上步骤S1007～步骤S1010仅仅是本申请实施例公开的步骤S30中预先构建摘要识别模型的过程的一种优选的实现方式，有关此过程的具体实现方式可根据自己的需求任意设置，在此不做限定。

本发明实施例提供的摘要文本识别方法，可以生成待处理文档在文本维度、句子维度以及词维度下的三维向量矩阵，进而利用预先构建的摘要识别模型对该三维向量矩阵进行处理，得到待处理文档的摘要文本。由于本发明所生成的三维向量矩阵可有效建立文档上下文内容的联系，因此，所识别到的摘要文本准确性更高。

基于上述实施例提供的摘要文本识别方法，本发明实施例则提供执行上述摘要文本识别方法的装置，其结构示意图如图7所示，包括：文本获取模块10、矩阵生成模块20和摘要识别模块30，摘要识别模块30中包含摘要识别模型构建单元301；

文本获取模块10，用于获取待处理文档；

矩阵生成模块20，用于生成待处理文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；

摘要识别模型构建单元301，用于预先构建摘要识别模型；

摘要识别模块30，用于利用预先构建的摘要识别模型对待处理文档的三维向量矩阵进行处理，得到待处理文档的摘要文本，所述摘要识别模型为基于训练样本文档中摘要句的位置以及所述训练样本文档的三维向量矩阵训练得到的模型。

可选的，摘要识别模型构建单元301，用于：

获取第二文档数据库，所述第二文档数据库中存储有多个训练样本文档，各个训练样本文档中标注有摘要句；对于每一个训练样本文档，按照摘要句的位置对该第二样本文本中各个句子添加标签；生成该训练样本文档的三维向量矩阵，所述三维向量矩阵用于表征文档在文本维度、句子维度以及词维度下的空间位置分布情况；根据各个训练样本文档的三维向量矩阵及其句子所添加的标签，对层级神经网络进行训练，得到摘要识别模型。

本发明实施例提供的摘要文本识别装置，可有效建立文档上下文内容的联系，因此，所识别到的摘要文本准确性更高。

需要说明的是，本实施例中的各个模块和单元的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，本发明的实施例还提供了一种摘要文本识别装置，所述摘要文本识别装置包括处理器和存储器，上述文本获取模块、矩阵生成模块和摘要识别模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来精确识别摘要。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述摘要文本识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述摘要文本识别方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取待处理文档；

其中，所述生成所述待处理文档的三维向量矩阵，包括：

其中，所述根据所述词序列长度阈值对该句子所对应的所述第一词序列进行处理，得到长度为所述词序列长度阈值的第二词序列，包括：

其中，预先构建词向量模型的过程，包括：

其中，所述根据预先构建的词向量模型确定该句子所对应的所述第二词序列中各个词组的词向量，包括：

其中，预先构建摘要识别模型的过程，包括：

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取待处理文档；

其中，所述生成所述待处理文档的三维向量矩阵，包括：

其中，预先构建词向量模型的过程，包括：

其中，预先构建摘要识别模型的过程，包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种摘要文本识别方法，其特征在于，包括：

获取待处理文档；

2.根据权利要求1所述的方法，其特征在于，所述生成所述待处理文档的三维向量矩阵，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述词序列长度阈值对该句子所对应的所述第一词序列进行处理，得到长度为所述词序列长度阈值的第二词序列，包括：

4.根据权利要求2所述的方法，其特征在于，预先构建词向量模型的过程，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据预先构建的词向量模型确定该句子所对应的所述第二词序列中各个词组的词向量，包括：

6.根据权利要求1所述的方法，其特征在于，预先构建摘要识别模型的过程，包括：

7.一种摘要文本识别装置，其特征在于，包括：文本获取模块、矩阵生成模块和摘要识别模块，所述摘要识别模块中包含摘要识别模型构建单元；

所述文本获取模块，用于获取待处理文档；

所述摘要识别模型构建单元，用于预先构建摘要识别模型；

8.根据权利要求7所述的装置，其特征在于，所述摘要识别模型构建单元，用于：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至6中任意一项所述的摘要文本识别方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的摘要文本识别方法。