CN109635103B

CN109635103B - 摘要生成方法和装置

Info

Publication number: CN109635103B
Application number: CN201811542117.7A
Authority: CN
Inventors: 徐伟; 刘家辰; 肖欣延; 吕雅娟; 佘俏俏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2022-05-20
Anticipated expiration: 2038-12-17
Also published as: CN109635103A

Abstract

本申请实施例公开了摘要生成方法和装置。该方法的一具体实施方式包括：确定目标文本的文本特征；根据所述文本特征确定所述目标文本所属的目标文本类别；将所述目标文本输入到预先训练的、与所述目标文本类别对应的摘要提取模型，得到所述目标文本的摘要，其中所述摘要提取模型用于确定所输入的文本的摘要。该实施方式一方面可以降低各摘要提取模型的复杂度，从而减少训练摘要提取模型所用的标注数据，以降低训练成本。另一方面还可以提高所提取的文本的摘要的准确度。

Description

摘要生成方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及互联网技术领域，尤其涉及摘要生成方法和装置。

背景技术

随着自媒体时代的到来，互联网中每天所更新的信息的数量呈爆炸式增长。

目前用户可以通过移动终端例如手机查看互联网上提供的各种信息。由于每天互联网上更新的信息量非常庞大，类别多样，形式变化多端，用户需要花很多的时间从信息流中获取各信息的中心内容。

通常文本摘要可以以简明扼要且语义连贯的语言，确切地描述原始文本的中心内容。可以在信息流中向用户提供各信息的摘要，使得用户可以通过浏览信息流中各信息的摘要来了解各信息的中心内容。通过这样的方式，来节省人们的阅读时间。

发明内容

本申请实施例提出了一种摘要生成方法和装置。

第一方面，本申请实施例提供了一种摘要生成方法，该方法包括：确定目标文本的文本特征；根据文本特征确定目标文本所属的目标文本类别；将目标文本输入到预先训练的、与目标文本类别对应的摘要提取模型，得到目标文本的摘要，其中摘要提取模型用于确定所输入的文本的摘要。

在一些实施例中，确定目标文本的文本特征，包括：将目标文本的标题输入到预先训练的文本向量模型，确定目标文本对应的第一特征向量；以及基于文本特征确定目标文本对应的目标文本类别，包括：将第一特征向量输入到预先训练的文本分类模型，确定目标文本所属的目标文本类别；其中：文本向量模型用于根据输入的目标文本的标题，确定目标文本的第一特征向量，以及文本分类模型用于根据输入的目标文本的特征向量从多个预设文本类别中确定目标文本所属的目标文本类别。

在一些实施例中，确定目标文本的文本特征，包括：根据预设文本特征提取规则从目标文本的正文内容中提取目标文本的第二特征向量；以及基于文本特征确定目标文本所属的目标文本类别，包括：将第二特征向量输入到预先训练的文本分类模型，确定目标文本对应的目标文本类别；其中：文本分类模型用于根据输入的目标文本的特征向量从多个预设文本类别中确定目标文本所属的目标文本类别。

在一些实施例中，确定目标文本的文本特征，包括：根据预设文本特征提取规则从目标文本的正文内容中提取目标文本的第二特征向量；以及将第一特征向量输入到预先训练的文本分类模型，确定目标文本所属的目标文本类别，包括：将第一特征向量和第二特征向量输入到预先训练的文本分类模型，确定目标文本对应的目标文本类别。

在一些实施例中，根据预先确定的特征向量提取规则提取目标文本的正文内容对应的第二特征向量，包括：根据预设正则表达式和预设结构特征提取规则提取目标文本的正文内容对应的第二特征向量。

在一些实施例中，文本向量模型为卷积神经网络模型。

在一些实施例中，文本分类模型为前馈神经网络模型。

第二方面，本申请实施例提供了一种摘要生成装置，该装置包括：第一确定单元，被配置成确定目标文本的文本特征；第二确定单元，被配置成根据文本特征确定目标文本所属的目标文本类别；摘要提取单元，被配置成将目标文本输入到预先训练的、与目标文本类别对应的摘要提取模型，得到目标文本的摘要，其中摘要提取模型用于确定所输入的文本的摘要。

在一些实施例中，第一确定单元进一步被配置成：将目标文本的标题输入到预先训练的文本向量模型，确定目标文本对应的第一特征向量；以及第二确定单元进一步被配置成：将第一特征向量输入到预先训练的文本分类模型，确定目标文本所属的目标文本类别；其中：文本向量模型用于根据输入的目标文本的标题，确定目标文本的第一特征向量，以及文本分类模型用于根据输入的目标文本的特征向量从多个预设文本类别中确定目标文本所属的目标文本类别。

在一些实施例中，第一确定单元，进一步被配置成：根据预设文本特征提取规则从目标文本的正文内容中提取目标文本的第二特征向量；以及第二确定单元进一步被配置成：将第二特征向量输入到预先训练的文本分类模型，确定目标文本所属的目标文本类别；其中：文本分类模型用于根据输入的目标文本的特征向量从多个预设文本类别中确定目标文本所属的目标文本类别。

在一些实施例中，第一确定单元进一步被配置成：根据预设文本特征提取规则从目标文本的正文内容中提取目标文本的第二特征向量；以及第二确定单元进一步被配置成：将第一特征向量和第二特征向量输入到预先训练的文本分类模型，确定目标文本所属的目标文本类别。

在一些实施例中，第一确定单元进一步配置用于：根据预设正则表达式和预设结构特征提取规则提取目标文本的正文内容对应的第二特征向量。

在一些实施例中，文本向量模型为卷积神经网络模型。

在一些实施例中，文本分类模型为前馈神经网络模型。

第三方面，本申请实施例提供了一种电子设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的摘要生成方法和装置，通过确定目标文本的文本特征，而后根据文本特征确定目标文本对应的目标文本类别；最后，将目标文本输入到预先训练的、与目标文本类别对应的摘要提取模型，得到目标文本的摘要。从而对于不同文本类别的文本，可以使用不同摘要提取模型来提取文本的摘要。一方面可以降低各摘要提取模型的复杂度，从而减少训练摘要提取模型所用的标注数据，以降低训练成本。另一方面还可以提高所提取的摘要的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例的摘要生成方法可以应用于其中的示例性系统架构图；

图2是根据本申请的摘要生成方法的一个实施例的流程图；

图3是根据本实施例的摘要生成方法的一个原理性流程图；

图4是根据本申请的摘要生成方法的另一个实施例的流程图；

图5是根据本申请的摘要生成方法的又一个实施例的流程图；

图6是根据本申请的摘要生成方法的又一个实施例的流程图；

图7是根据本申请的摘要生成装置的一个实施例的结构示意图；

图8是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本申请的一个实施例的摘要生成方法可以应用于其中的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用，例如网页浏览器应用、信息编辑类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的内容提供支持的后台服务器。后台服务器可以获取用户通过终端设备的历史浏览信息，确定用户的喜好，并根据用户的喜好确定推送给用户的信息流。对于信息流中的每一类别的信息，使用与该类别对应的摘要提取模型来提取该类别信息的摘要。并将信息流中的各信息以及各信息对应的摘要推送给终端设备。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的摘要生成方法一般由服务器105执行，相应地，摘要生成装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

随着自媒体时代的到来，相比原来由传统门户网站统一编辑的文章而言，来自个人发布的文章的结构和内容更加多样化。

在传统门户网站时代，用于提取门户网站中的文章的摘要的摘要提取方法如下：将各种类型的文章对应的文本输入到一个预先训练的摘要模型，从而提取各种类型的文章的摘要。

在自媒体时代，沿用一个摘要模型来提取各类别文章的摘要，首先在训练摘要模型时需要大量的标注数据。其次，在训练摘要模型时也很难收敛。再次，所提取的摘要的精确度不高。

因此，为了改善在自媒体时代使用上述传统摘要提取方法来提取多个类别的文章的摘要，引起的上述问题，本申请提出了如下各实施例提供的摘要提取方法。

继续参考图2，其示出了根据本申请的摘要生成方法的一个实施例的流程200。该摘要生成方法，包括以下步骤：

步骤201，确定目标文本的文本特征。

在本实施例中，摘要生成方法的执行主体(例如图1所示的服务器)可以从网络中获取目标文本。这里的目标文本可以是来自网络中的任一文章对应的文本。上述文章例如可以是个人用户在网络中发布的自媒体类文章，还可以是来自新闻门户网站的新闻类文章。

在本实施例中，上述文本特征可以是以向量形式表达的文本特征。可以将上述向量视为文本的特征向量。上述执行主体可以使用现有的各种提取文本特征向量的方法来确定目标文本的特征向量。例如可以使用现有的词频-逆文本频率指数(Term Frequency–Inverse Document Frequency，TF-IDF)方法，词频(Word Frequency)方法，文档频次(Document Frequency)方法，互信息(Mutual Information)方法，期望交叉熵(ExpectedCross Entropy)方法，主成分分析(Principal Component Analysis，PCA)方法，汉语语言模型(N-Gram)方法来确定目标文本的特征向量。

以上各种方法的一般步骤可以包括：

第一，确定文本候选词集合。

1)对文本进行分词。

可以使用现有的各种分词工具对文本进行分词。

2)过滤停用词。

停用词是指那些不能反映文章主题的功能词。例如：“的”、“地”、“得”之类的助词，以及像“然而”、“因此”等只能反映句子句法结构的词语，它们不但不能反映文章的主题，而且还会对关键词的抽取造成干扰，有必要将其滤除。停用词确定为所有虚词以及标点符号。

过滤停用词后的分词结果中的每一词可以视为文本的候选词。文本各候选词可以在一定程度上反映文章主题。

3)记录候选词在文本中的位置。

为了获取每个候选词的位置信息，需要确定记录位置信息的方式以及各个位置的候选词在反映主题时的相对重要性。标题文位置处的词语的权重较大，正文部分的词语的权重较小。确定了文章各个部分的位置权重之后，就可以用数字标签对每个位置做一个标记。例如在标题的开头标上标题的权重值，例如数字5；在正文的段首标上正文的权重值，例如数字1，这样，当软件逐词扫描统计词频时，就可以记录每个词的位置信息。

第二，文本向量化。

例如使用现有的向量空间模型VSM或者概率统计模型将上述候选词集合映射为高维向量。

第三，根据候选词语权值对上述高维向量降维，得到文本的特征向量。

1)词语权值函数的构造。

不同的方法，所构造的词语权值函数不相同。可以使用所构造的词语权值函数确定各候选词的权值。一个候选词的语权值可以在一定程度上表征该候选词语在文本中的重要程度。

2)关键词抽取。

候选词集合中的各候选词的权值确定以后，将权值排序，取前n个词作为最后的抽取结果。n为大于等于1的正整数。

将所抽取的前n个词在上述高维向量中各自所对应的分量所组成向量确定为文本的特征向量。

需要说明的是，上述使用词频-逆文本频率指数(Term Frequency–InverseDocument Frequency，TF-IDF)方法，词频(Word Frequency)方法，文档频次(DocumentFrequency)方法，互信息(Mutual Information)方法，期望交叉熵(Expected CrossEntropy)方法，主成分分析(Principal Component Analysis，PCA)方法，汉语语言模型(N-Gram)方法来提取文本的特征向量，是目前广泛研究和使用的公知技术，此处不赘述。

步骤202，根据文本特征确定目标文本对应的目标文本类别。

可以预先设置多个文本类别。这里的文本类别可以根据文本的结构来划分，也可以根据文本的内容来划分。

上述文本类别例如可以包括：新闻类别、信息满足类别、列表类别、其他类别等类别。这里的信息满足类别文本是指满足读者获取未知信息的文本。例如一篇描述荷兰豆为什么叫“Chinese Bean”的文本。列表类别文章是指文章主体内容以列表形式呈现，或者文章主体内容包括制作步骤，例如菜谱等。

需要说明的是，上述文本类别还可以是其他的预先指定的类别。具体的文本类别可以根据具体的应用场景进行设定，此处不进行限定。

在本实施例中，基于步骤201中得到的目标文本的文本特征，上述执行主体(例如图1所示的服务器)可以通过各种方法来确定目标文本对应的文本类别。可以将目标文本对应的文本类别确定为目标文本类别。例如可以使用基于语义距离的文本分类方法。

上述基于语义距离的文本分类方法包括如下步骤：首先，确定各预设文本类别分别对应的类别特征向量；然后，分别计算目标文本的特征向量与各类别特征向量的语义距离；最后，将与目标文本的特征向量之间的语义距离最小的类别特征向量所对应的文本类别，确定为目标文本类别。

需要说明的是，上述基于语义距离的文本分类方法是目前广泛研究和应用的公知技术，此处不赘述。

步骤203，将目标文本输入到预先训练的、与目标文本类别对应的摘要提取模型，得到目标文本的摘要。

在本实施例中，摘要生成方法的执行主体中可以设置有多个摘要提取模型。或者，上述执行主体可以通过有线或无线通信连接方式访问设置在其他电子设备中的多个摘要提取模型。其中，在步骤202中预设的多个文本类别中的每一个文本类别可以对应一个特定的摘要提取模型。

上述摘要提取模型用于确定输入的文本的摘要。

在一些应用场景中，上述摘要提取模型可以包括负责对文本进行编码的编码神经网络和辅助对文本编码进行解码的解码神经网络。编码神经网络负责将输入的原文本编码成一个向量(Context)，该向量是原文本的一个表征，包含了文本背景。而解码神经网络负责从这个向量提取重要信息、加工剪辑，生成文本摘要。编码神经网络和解码神经网络可以由递归神经网络(RNN)或卷积神经网络(CNN)实现。

可以理解的是，在使用上述摘要提取模型提取文本的摘要之前，需要对摘要提取模型进行训练。

对于每一个文本类别对应的摘要提取模型，该摘要提取模型可以根据如下训练步骤得到：

第一，将与该摘要提模型对应的文本类别中的多个文本作为训练样本。

第二，标注各个训练文本的编码。

第三，标注各个训练文本对应的摘要。

第四，将上述多个训练文本以及各训练文本对应的编码及摘要输入到摘要提取模型，同时对摘要提取模型的编码神经网络和解码神经网络进行训练，得到训练后的该文本类别对应的摘要提取模型。

在本实施例中，上述执行主体可以将目标文本输入到与目标文本类别对应的摘要提取模型，来生成目标文本的摘要。

在本实施例中，设置与各文本类别对应的摘要提取模型，对于任一文本，可以由该文本所属文本类别所对应的摘要提取模型来提取该文本的摘要。

对于同一个文本类别而言，一个文本类别的多个文本往往具有较大的共同特征。因此，在训练各文本对应的摘要提取模型时，可以使用较少的训练样本就可以得到收敛的该文本类别对应的摘要提取模型。相对于使用一个统一的摘要提取模型来提取各类别文本的摘要而言，本实施例提供的方法，可以利用较少数量的训练样本就可以得到收敛的各摘要提取模型；此外，使用本实施例提供的方法所提取的摘要的精确度也较高。

继续参见图3，图3是根据本实施例的摘要生成方法的一个原理性流程图300。在图3中，在服务器的输入节点输入目标文本301，然后，服务器从多个预设文本类别中确定目标文本所属的目标文本类别302，之后，服务器可以从多个摘要提取模型(摘要提取模型1、摘要提取模型2、…、摘要提取模型K，K为大于2的正整数)中，确定与目标文本类别对应的摘要提取模型为摘要提取模型1。然后服务器将目标文本301输入到摘要提取模型1中303。由摘要提取模型1提取出目标文本的摘要304。服务器可以将上述目标文本301的摘要304与目标文本301关联存储。若用户通过终端设备发起预设操作时，服务器可以向终端设备输出上述目标文本的摘要。这里的预设操作例如可以是用户对目标文本执行的分享操作。

本申请的上述实施例提供的方法通过确定目标文本的文本特征，而后根据文本特征确定目标文本对应的目标文本类别；最后，将目标文本输入到预先训练的、与目标文本类别对应的摘要提取模型，得到目标文本的摘要。从而对于不同文本类别的文本，可以使用不同摘要提取模型来提取文本的摘要。一方面可以降低各摘要提取模型的复杂度，从而减少训练摘要提取模型所用的标注数据，以降低训练成本。另一方面还可以提高所提取的摘要的准确度。

进一步参考图4，其示出了摘要生成方法的另一个实施例的流程400。该摘要生成方法的流程400，包括以下步骤：

步骤401，将目标文本的标题输入到预先训练的文本向量模型，确定目标文本对应的第一特征向量。

在本实施例中，可以预先设置多个文本类别。这里的文本类别可以根据文本的结构来划分，也可以根据文本的内容来划分。

上述文本类别例如可以包括：新闻类别、信息满足类别、列表类别、其他类别等类别。这里的信息满足类别文章是指满足读者获取未知信息的文章。列表类别文章是指文章主体内容以列表形式呈现，或者文章主体内容包括制作步骤，例如菜谱等。

通常，不同文本类别的文本的标题有着较大的区分性。例如“列表”类别的文本的标题通常可以包括“这几”、“N种”，这里的N可以是任意正整数。而“信息满足”类别的文本的标题通常也有某些固定的模式。

在本实施例中，上述执行主体可以将目标文本的标题输入到预先训练的文本向量模型，来提取目标文本的第一特征向量。上述文本向量模型用于根据输入的文本的标题，确定目标文本的第一特征向量。

上述文本向量模型可以是人工神经网络模型，或者卷积神经网络模型等。

在实施例中，可以预先使用没有添加标注的多个文本的标题作为无标注语料来训练预先建立的初始卷积神经网络模型。具体地，首先，从大量原始无标注的资讯流文本中，抽取各个文章的标题。文章的标题合并得到了一个无标注数据集合。然后，利用现有的各种分词工具对无标注数据集合进行分词，得到无标注数据集合的分词结果。最后，可以利用用来产生词向量的相关模型，例如“word2vec”模型，在上述分词结果上训练得到词语的向量表示。用此向量表示，作为卷积神经网络的初始化词向量。

在得到了初始化词向量后，可以将目标文本的标题输入到训练后的卷积神经网络中，从而得到目标文本的标题对应的第一特征向量。

步骤402，将第一特征向量输入到预先训练的文本分类模型，确定目标文本所属的目标文本类别。

在本实施例式中，可以将在步骤401中得到的目标文本的第一特征向量输入到预先训练的文本分类模型中，从而得到文本类别。

上述文本分类模型例如可以为基于K近邻(K-Nearest Neighbor，KNN)算法的分类模型、基于决策树(Decision Tree)算法的分类模型、基于支持向量机(Support VectorMachine，SVM)算法的分类模型、基于朴素贝叶斯(Naive Bayesian)算法的分类模型、基于神经网络(Neural Networks)算法的分类模型等。

在本实施例的一些可选的实现方式中，上述文本分类模型可以是前馈神经网络(Feedforward Neural Network)模型。例如感知器网络，反向传播(Back Propagation，BP)网络、或者径向基函数(Radial Basis Function，RBF)网络等。

需要说明的是，上述各种类型的前馈神经网络及使用方法是目前广泛研究和应用的公知技术，此处不赘述。

可以理解的是，在使用上述文本分类模型确定目标文本的类别之前，需要先对文本分类模型进行训练。

在文本分类模型进行训练时，可以使用多个预先标注了文本类别的文本特征对文本分类模型进行训练。从而得到训练后的文本分类模型。对文本分类模型进行训练的方法可以参考现有的对机器学习模型的训练方法，此处不赘述。

步骤403，将目标文本输入到预先训练的、与目标文本类别对应的摘要提取模型，得到目标文本的摘要。

本实施例中，由于提取目标文本的标题对应的第一特征向量，并且通过第一特征向量来确定目标文本所属的类别，可以降低提取目标文本的文本特征的复杂度，进一步地，可以降低提取目标文本的特征向量的模型的复杂度，减少训练样本的数量，降低训练成本。

从图4中可以看出，与图2对应的实施例相比，本实施例中的摘要生成方法的流程400突出了利用文本向量模型，确定目标文本对应的第一特征向量。并使用第一特征向量确定目标文本所属的文本类别的步骤。由此，本实施例描述的方案可以降低提取目标文本的文本特征的复杂度，进一步地，可以降低提取目标文本的特征向量的模型的复杂度，减少了用于训练提取文本特征的模型的训练样本的数量，可以降低训练提取文本特征的模型的成本。

进一步参考图5，其示出了摘要生成方法的另一个实施例的流程500。该摘要生成方法的流程500，包括以下步骤：

步骤501，根据预设文本特征提取规则从目标文本的正文内容中提取目标文本的第二特征向量。

在本实施例中，可以预先设置文本特征提取规则。上述预设文本特征提取规则可以认为是一个函数FN。对给定输入I，函数FN输出一个结果HF。上述预设文本特征提取规则可以表示成如下公式：

HF＝FN(I) (1)；

其中，HF为文本正文内容对应的第二特征向量。HF有多种可能，例如：(1)可以是布尔值(即true/false)组成的特征向量，(2)整数值组成的特征向量，例如0，1，2等，表示某个类型，一般有上限。(3)实数值组成的特征向量，一般是取值为0～1之间的小数。输入I就是目标文本的正文内容。FN表示用于提取目标文本第二特征向量的特征提取函数。特征提取函数可以有多个，用来捕获目标文本的正文内容的不同特征。

因为文本的正文往往比较长，变化也更大，如果用神经网络来自动学习特征，可能需要较多的训练语料，最终的提取效果也不好确定。因此，可以使用预设文本特征提取规则来提取目标文本的正文内容所对应的特征向量，也即目标文本的第二特征向量。

在本实施例的一些可选的实现方式中，上述根据预先确定的特征向量提取规则提取目标文本的正文内容对应的第二特征向量，可以包括：根据预设正则表达式和预设结构特征提取规则提取目标文本的正文内容对应的第二特征向量。

上述第二特征向量中可以包括反映文本是否包含新闻报头的特征向量、反映目标文本的正文内容的结构特征的特征向量。可以使用预设正则表达式来确定反映文本是否包含新闻报头的特征向量；以及使用预设结构特征特提取规则来提取反映目标文本的正文内容的结构特征的特征向量。

(1)使用预设正则表达式来确定反映文本是否包含新闻报头的特征向量。

基于正则规则，检测正文内容中是否包含“新闻”类别常见的“报头”模式，为文章是“新闻”类型提供指示。上述反映文本是否包含新闻报头的特征向量可以是布尔值。

上述正则规则举例如下：

"据.{0，30}报道.{0，3}[，,\s]"；

^.{1，10}月.{1，3}日电；

^.{0，15}月.{1，3}日消息；

^(.*独家稿件.*).{2，}；

^.{1，6}[网报].{0，5}月{0，2}日等。

其中，“{n，m}”，m和n均为非负整数，其中n<＝m。最少匹配n次且最多匹配m次。例如，"o{1，3}"将匹配"fooooood"中的前三个o。“\s”，表示匹配任何空白字符，包括空格、制表符、换页符等。“.”表示匹配除换行符\n之外的任何单字符。[]字符集(字符类)。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出，也可以给出范围。“^”，表示匹配输入字符串的开头，在多行模式中匹配每一行的开头。“()”标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。{n，}，n是一个非负整数。至少匹配n次。例如，'o{2，}'不能匹配"Bob"中的'o'，但能匹配"foooood"中的所有o。“*”表示匹配前一个字符0或无限次。

(2)使用预设结构特征特提取规则来提取反映目标文本的正文内容的结构特征的特征向量。

在一些应用场景中，可以统计目标文本的正文内容所包括的小标题的数量(整数值)，以及小标题间的平均段落数量(整数值)。

小标题通常是指在一篇文本的标题之下的至少一个标题。每一个小标题通常是对文章中的一段或几段内容的概述。使用小标题，便于将众多的材料分门别类地组织，从多个方面或多个角度来展示材料、表达文章主题，使文章行文条理清楚。

可以使用预设小标题检测逻辑，计数小标题数目、小标题间平均段落个数。

小标题判定规则为：长度小于20，无标点，独立成段。

通常，“新闻类别”文本的正文内容中小标题较少。且小标题间段落较多。“列表类别”(主要指隐式列表，就是没有列表序号，但是是列表类文章，例如隐式列表文章示例)中，小标题往往是列表项，相对较多，小标题之间的段落数较少。而“其他类别”文本中，一些自媒体文章格式比较随意，常常一段就是一个短句，容易被检测规则视为小标题，这时小标题个数非常多，小标题间平均段落非常少。

在另外一些应用场景中，还可以统计段落句子平均个数(整数值)；句子平均长度(整数值)，以及句子平均逗号个数(整数值)。

设计浅层结构信息特征，计数段落句子平均个数、句子平均长度、句子平均逗号个数，来统计文档规范性。例如：“新闻类别”文本的正文内容一般较为正规，段落内句子较多，句子长度适中，逗号数量适度。而“其他类别”中的一些自媒体文章，段落内句子可能很少，句子很长，或者很长，逗号很少或者很多等。

此外，第二特征向量中还可以包括反映目标文本的正文内容的是否包含列表序号的特征向量。

可以使用预设列表序号检测逻辑来提取上述反映目标文本的正文内容的是否包含列表序号的特征向量。

具体地，可以预设列表序号检测逻辑，检测正文中是否有列表序号，为文章是“列表”类别(显式列表类型)提供指示。

在上述列表序号检测逻辑中，可以预先设置一些序号序列，例如

“1.,2.,3.,4.,…”,

“第一、，第二、第三、第四、…”，

“TOP1、TOP2、TOP3、TOP4…”等。

通过在文档中寻找这些序列来判定是否有列表序号。从而确定反映目标文本的正文内容的是否包含列表序号的特征向量(布尔值)。

步骤502，将第二特征向量输入到预先训练的文本分类模型，确定目标文本所属的目标文本类别。

在本实施例中，步骤502可以与图4所示实施例的步骤402相似，此处不赘述。

步骤503，将目标文本输入到预先训练的、与目标文本类别对应的摘要提取模型，得到目标文本的摘要。

从图5中可以看出，与图2对应的实施例相比，本实施例中的摘要生成方法的流程500突出了使用预设文本特征提取规则来提取目标文本的正文内容的第二特征向量，并根据第二特征向量来确定目标文本的类别。由此，本实施例描述的方案可以使用较为准确的目标文本的正文内容对应的第二特征向量来确定目标文本的文本类别，使得所确定的目标文本的文本类别的准确度较高。进一步地，可以进一步提高使用与目标文本的文本类别对应的摘要提取模型提取的目标文本的摘要的准确度。

进一步参考图6，其示出了摘要生成方法的又一个实施例的流程600。该摘要生成方法的流程600，包括以下步骤：

步骤601，将目标文本的标题输入到预先训练的文本向量模型，确定目标文本对应的第一特征向量。

在本实施例中，步骤601与图4所示实施例的步骤401相同或相似，此处不赘述。

步骤602，根据预设文本特征提取规则从目标文本的正文内容中提取目标文本的第二特征向量。

在本实施例中，步骤601与图5所示实施例的步骤501相同或相似，此处不赘述。

步骤603，将第一特征向量和第二特征向量输入到预先训练的文本分类模型，确定目标文本对应的目标文本类别。

在本实施例中，基于步骤601的得到的目标文本的第一特征向量和基于步骤602得到的第二特征向量，摘要生成方法的执行主体(例如图1所示的服务器)可以将第一特征向量和第二特征向量输入到预先训练的文本分类模型中，从而确定目标文本对应的目标文本类别。

上述文本分类模型的具体描述可以参考图4所示实施例中的步骤402中的相关描述。此处不赘述。

在本实施例中，由于使用文本向量模型从目标文本的标题提取目标文本的第一特征向量，以及使用预设文本特征提取规则从目标文本的正文内容中提取目标文本的第二特征向量；并由第一特征向量和第二特征向量来确定目标文本所属的目标文本类别，相比与图2所示实施例，一方面可以降低提取目标文本的特征向量的模型的复杂度，减少用于训练提取文本特征的模型的训练样本的数量，可以降低训练提取文本特征的模型的成本；另一方面，可以得到较为准确的目标文本的正文内容对应的特征向量。从而，利用文本分类模型根据第一特征向量和第二特征向量所确定的目标文本所属的目标文本类别的准确度也可以得到进一步的提高。

步骤604，将目标文本输入到预先训练的、与目标文本类别对应的摘要提取模型，得到目标文本的摘要。

从图6中可以看出，与图2对应的实施例相比，本实施例中的摘要生成方法的流程600突出了利用文本向量模型，确定目标文本对应的第一特征向量；使用预设文本特征提取规则来提取目标文本的正文内容的第二特征向量，并根据第一特征向量和第二特征向量来确定目标文本的类别的步骤。由此，本实施例描述的方案可以进一步提高使用与目标文本的文本类别对应的摘要提取模型提取的目标文本的摘要的准确度。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种摘要生成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的摘要生成装置700包括：第一确定单元701、第二确定单元702和摘要提取单元703。其中，第一确定单元701，被配置成确定目标文本的文本特征；第二确定单元702，被配置成根据文本特征确定目标文本所属的目标文本类别；摘要提取单元703，被配置成将目标文本输入到预先训练的、与目标文本类别对应的摘要提取模型，得到目标文本的摘要，其中摘要提取模型用于确定所输入的文本的摘要。

在本实施例中，摘要生成装置700的第一确定单元701、第二确定单元702和摘要提取单元703的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202和步骤203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，第一确定单元701进一步被配置成：将目标文本的标题输入到预先训练的文本向量模型，确定目标文本对应的第一特征向量；以及第二确定单元702进一步被配置成：将第一特征向量输入到预先训练的文本分类模型，确定目标文本所属的目标文本类别，其中：文本向量模型用于根据输入的目标文本的标题，确定目标文本的第一特征向量，以及文本分类模型用于根据输入的目标文本的特征向量从多个预设文本类别中确定目标文本所属的目标文本类别。

在本实施例的一些可选的实现方式中，第一确定单元701，进一步被配置成：根据预设文本特征提取规则从目标文本的正文内容中提取目标文本的第二特征向量；以及第二确定单元702进一步被配置成：将第二特征向量输入到预先训练的文本分类模型，确定目标文本所属的目标文本类别；其中：文本分类模型用于根据输入的目标文本的特征向量从多个预设文本类别中确定目标文本所属的目标文本类别。

在本实施例的一些可选的实现方式中，第一确定单元701进一步被配置成：根据预设文本特征提取规则从目标文本的正文内容中提取目标文本的第二特征向量；以及第二确定单元702进一步被配置成：将第一特征向量和第二特征向量输入到预先训练的文本分类模型，确定目标文本所属的目标文本类别。

在本实施例的一些可选的实现方式中，第一确定单元701进一步配置用于：根据预设正则表达式和预设结构特征提取规则提取目标文本的正文内容对应的第二特征向量。

在本实施例的一些可选的实现方式中，文本向量模型为卷积神经网络模型。

在本实施例的一些可选的实现方式中，文本分类模型为前馈神经网络模型。

下面参考图8，其示出了适于用来实现本申请实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

图8所示，计算机系统800包括中央处理单元(CPU，Central Processing Unit)801，其可以根据存储在只读存储器(ROM，Read Only Memory)802中的程序或者从存储部分806加载到随机访问存储器(RAM，Random Access Memory)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM802以及RAM 803通过总线804彼此相连。输入/输出(I/O，Input/Output)接口805也连接至总线804。

以下部件连接至I/O接口805：包括硬盘等的存储部分806；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分807。通信部分807经由诸如因特网的网络执行通信处理。驱动器808也根据需要连接至I/O接口805。可拆卸介质809，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器808上，以便于从其上读出的计算机程序根据需要被安装入存储部分806。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分807从网络上被下载和安装，和/或从可拆卸介质809被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一确定单元、第二确定单元和摘要生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一确定单元还可以被描述为“确定目标文本的文本特征的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：确定目标文本的文本特征；根据所述文本特征确定所述目标文本所属的目标文本类别；将所述目标文本输入到预先训练的、与所述目标文本类别对应的摘要提取模型，得到所述目标文本的摘要，其中所述摘要提取模型用于确定所输入的文本的摘要。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种摘要生成方法，包括：

确定目标文本的文本特征，其中，所述文本特征包括所述目标文本的标题对应的第一特征向量和正文内容对应的第二特征向量，所述第二特征向量包括反映目标文本是否包含新闻报头的特征向量和反映目标文本的正文内容的结构特征的特征向量；

根据所述文本特征确定所述目标文本所属的目标文本类别，包括：将所述第一特征向量和所述第二特征向量输入到预先训练的文本分类模型，确定所述目标文本对应的目标文本类别；

将所述目标文本输入到预先训练的、与所述目标文本类别对应的摘要提取模型，得到所述目标文本的摘要，其中，所述摘要提取模型用于确定所输入的文本的摘要，每一个文本类别对应一个摘要提取模型。

2.根据权利要求1所述的方法，其中，所述确定目标文本的文本特征，包括：

将所述目标文本的标题输入到预先训练的文本向量模型，确定所述目标文本对应的第一特征向量；以及

所述基于所述文本特征确定所述目标文本对应的目标文本类别，包括：

将所述第一特征向量输入到预先训练的文本分类模型，确定所述目标文本所属的目标文本类别；

其中：

所述文本向量模型用于根据输入的目标文本的标题，确定目标文本的第一特征向量，以及

所述文本分类模型用于根据输入的目标文本的特征向量从多个预设文本类别中确定目标文本所属的目标文本类别。

3.根据权利要求1所述的方法，其中，所述确定目标文本的文本特征，包括：

根据预设文本特征提取规则从所述目标文本的正文内容中提取目标文本的第二特征向量；以及

所述基于所述文本特征确定所述目标文本所属的目标文本类别，包括：

将所述第二特征向量输入到预先训练的文本分类模型，确定所述目标文本对应的目标文本类别；

其中：

4.根据权利要求1或3所述的方法，其中，所述根据预设文本特征提取规则从所述目标文本的正文内容中提取目标文本的第二特征向量，包括：

根据预设正则表达式和预设结构特征提取规则提取所述目标文本的正文内容对应的第二特征向量。

5.根据权利要求2所述的方法，其中，所述文本向量模型为卷积神经网络模型。

6.根据权利要求2-3之一所述的方法，其中，所述文本分类模型为前馈神经网络模型。

7.一种摘要生成装置，包括：

第一确定单元，被配置成确定目标文本的文本特征，其中，所述文本特征包括所述目标文本的标题对应的第一特征向量和正文内容对应的第二特征向量，所述第二特征向量包括反映目标文本是否包含新闻报头的特征向量和反映目标文本的正文内容的结构特征的特征向量；

第二确定单元，被配置成根据所述文本特征确定所述目标文本所属的目标文本类别；

摘要提取单元，被配置成将所述目标文本输入到预先训练的、与所述目标文本类别对应的摘要提取模型，得到所述目标文本的摘要，其中，所述摘要提取模型用于确定所输入的文本的摘要，每一个文本类别对应一个摘要提取模型；

所述第二确定单元进一步被配置成：将所述第一特征向量和所述第二特征向量输入到预先训练的文本分类模型，确定所述目标文本所属的目标文本类别。

8.根据权利要求7所述的装置，其中，

所述第一确定单元进一步被配置成：

所述第二确定单元进一步被配置成：

其中：

9.根据权利要求8所述的装置，其中，所述第一确定单元，进一步被配置成：

所述第二确定单元进一步被配置成：

将所述第二特征向量输入到预先训练的文本分类模型，确定所述目标文本所属的目标文本类别；

其中：

10.根据权利要求7或9所述的装置，其中，所述第一确定单元进一步配置用于：

11.根据权利要求8所述的装置，其中，所述文本向量模型为卷积神经网络模型。

12.根据权利要求8-9之一所述的装置，其中，所述文本分类模型为前馈神经网络模型。

13.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。