CN110427483B

CN110427483B - 文本摘要评测方法、装置、系统及评测服务器

Info

Publication number: CN110427483B
Application number: CN201910718019.2A
Authority: CN
Inventors: 郑小辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2023-12-26
Anticipated expiration: 2039-08-05
Also published as: CN110427483A

Abstract

本申请提供了一种文本摘要评测方法、装置、系统及评测服务器，在确定一待评测文档后，本申请将获取其中心向量及句子向量集，这样，在得到由摘要生成模型生成待评测文档的待评测文本摘要后，可以从句子向量集中，选择出各摘要句子的摘要句子向量，再计算各摘要句子向量与中心向量之间的相似距离，从而得到待评测文本摘要的评测结果。可见，本申请利用人工智能技术中深度学习技术和自然语言处理技术，实现文本摘要的自动评测，不需要人工确定参考文本摘要，也不需要人工比对评测，极大降低了人工成本，解决了人工评测主观性强、准确性低、耗时高等问题，实现了高效、准确且可靠地文本摘要评测。

Description

文本摘要评测方法、装置、系统及评测服务器

技术领域

本申请涉及数据处理技术领域，更具体的说，是涉及一种文本摘要评测方法、装置、系统及评测服务器。

背景技术

随着近几年文本信息的爆发式增长，人们每天都能够接触到海量的文档，如新闻、博客、论文、微博、聊天等，从大量文档信息中提取重要的内容，成为我们的一个迫切需求，生成文本摘要便是一种高效的解决手段，文本摘要旨在将文档转换为包含关键信息的简短摘要，帮助用户快速了解文档内容，可见，准确生成文档的文本摘要成为重点研究方向之一。

目前，对文本摘要的质量评测通常都是人工实现的，参照图1所示的流程图，由人工阅读待评测文档，总结待评测文档的中心思想，再从中抽取几个句子生成参考文本摘要，之后，将其包含的句子与由摘要生成模型输出的待评测文档的待评测文本摘要的句子进行相似度判断，得到待评测文本摘要的评测结果，人工成本较高，主观性强，准确性较低、且非常耗时。

发明内容

有鉴于此，本申请提供了一种文本摘要评测方法、装置、系统及评测服务器，实现了对文本摘要的自动、高效、可靠且准确地质量评测。

为实现上述目的，本申请实施例提出了一种文本摘要评测方法，所述方法包括：

获取待评测文档及所述待评测文档的待评测文本摘要；

获取所述待评测文档的中心向量及句子向量集；

从所述句子向量集中，获取所述待评测文本摘要对应的摘要句子向量；

依据所述摘要句子向量与所述中心向量之间的相似距离，得到所述待评测文本摘要的评测结果。

本申请实施例还提出了一种文本摘要评测装置，所述装置包括：

待评测数据获取模块，用于获取待评测文档及所述待评测文档的待评测文本摘要；

文档向量获取模块，用于获取所述待评测文档的中心向量及句子向量集；

摘要句子向量获取模块，用于从所述句子向量集中，获取所述待评测文本摘要对应的摘要句子向量；

评测模块，用于依据所述摘要句子向量与所述中心向量之间的相似距离，得到所述待评测文本摘要的评测结果。

本申请实施例还提出了一种评测服务器，所述评测服务器包括：

通信接口；

存储器，用于存储实现如上所述的文本摘要评测方法的程序；

处理器，用于加载并执行所述存储器存储的程序，以实现如上所述的文本摘要评测方法的各个步骤。

本申请实施例还提出了一种文本摘要评测系统，其特征在于，所述系统包括评测服务器、业务服务器及数据库，其中：

所述评测服务器为上述的评测服务器；

所述业务服务器，用于接收所述评测服务器发送的待评测文档，生成所述待评测文档的至少一个待评测文本摘要；

所述数据库，用于记录所述评测服务器获取的待评测文档及待评测文本摘要。

经由上述的技术方案可知，与现有技术相比，本申请提供了一种文本摘要评测方法、装置、系统及评测服务器，在确定一待评测文档后，本申请将获取其中心向量及句子向量集，这样，在得到由摘要生成模型生成待评测文档的待评测文本摘要后，可以从句子向量集中，选择出各摘要句子的摘要句子向量，再计算各摘要句子向量与中心向量之间的相似距离，从而得到待评测文本摘要的评测结果。可见，本申请利用人工智能技术中深度学习技术和自然语言处理技术，实现文本摘要的自动评测，不需要人工确定参考文本摘要，也不需要人工比对评测，极大降低了人工成本，解决了人工评测主观性强、准确性低、耗时高等问题，实现了高效、准确且可靠地文本摘要评测。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了现有技术人工评测文本摘要的流程示意图；

图2示出了本申请提出利用自建模型实现文本摘要评测的一种流程示意图；

图3示出了本申请提出的文本摘要评测方法的实现构思示意图；

图4示出了实现本申请提出的文本摘要评测方法的系统结构示意图；

图5示出了本申请提出的文本摘要评测方法的一种可选示例的流程图；

图6示出了本申请提出的文本摘要评测方法中，对待评测文档的预处理方法示意图；

图7示出了本申请提出的文本摘要评测方法中，获取待评测文档的句子向量集的流程示意图；

图8示出了本申请提出的文本摘要评测方法中，利用Doc2vec网络获取句子向量的流程示意图；

图9示出了本申请提出的文本摘要评测方法的一种可选示例的信令流程图；

图10示出了本申请提出的文本摘要评测方法的一种可选示例的底层模型执行流程示意图；

图11示出了本申请提出的文本摘要评测方法的一种可选示例的架构组成执行流程示意图；

图12示出了本申请提出的文本摘要评测方法的效果展示图；

图13示出了本申请提出的文本摘要评测装置的一种可选示例的结构图；

图14示出了本申请提出的一种评测服务器的硬件结构示意图。

具体实施方式

结合上文背景技术部分的描述，为了提高人工评估文本质量准确性低的问题，本申请提出由文档涉及领域的专家从文档中抽取句子，构成文本参考摘要，禁止专家阅读文档后，依据自己理解生成文本评估摘要的句子，在一定程度上解决了评估主观性的问题。之后，统计文本参考摘要中的参考摘要句子与待评估文本摘要中的待评估摘要句子之间的重合率，再统计利用多个专家给出的文本参考摘要，得到的重合率的平均值，据此判定待评估文本摘要质量的高低。应该理解，这种计算重合率的方式相对于计算句子之间的相似度的方式，实现了对文本摘要质量的相对客观的评估。

其中，关于待评估摘要句子与参考摘要句子的划分，可以依据“。”、“：”、“；”、“！”、“？”等句子级标号实现句子的分割，而对于这两种句子之间的重合率的计算方法可以为，重合率P＝匹配句子数量/参考摘要句子数量*100％，经过多个专家的评估后，得到的平均重合率＝各专家评估得到的重合率的总和/专家人数*100％。

可见，这种重合率计算的方式，实现了客观评测，解决了不同用户的评测结果不同，评测周期长的问题，但其仍需要专家给出评测的参考文本摘要，无法实现自动化测评。

进一步地，提出了一种实现文本摘要的自动评测的方法，按照上述方案将多个专家得到的参考文本摘要，构成参考摘要集，再将业务模型自动生成的待评测文本摘要与该参考摘要进行比对，利用ROUGE准则方案的计算公式，通过统计两个文本摘要之间重叠的基本单元的数目，确定待评测文本摘要的质量。

其中，ROUGE准则方案是基于摘要中n元词(n-gram)的共现信息来评测摘要，是一种面向n元词召回率的评测方法，通常包括由ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4及ROUGE-skipped-n-gram等一系列的评测方法组成，1、2、3、4分别代表基于1元词到4元词以有跳跃的n-gram模型，可以根据实际评测需求，选择合适的n元语法ROUGE方法，本申请对ROUGE准则方案的计算公式的内容不做详述。

以1元词评测方法为例进行说明，若业务模型生成的待评测文本摘要为：the catwas found under the bed，参考文本摘要为the cat was under the bed，如下表1记录的内容：

表1

利用ROUGE准则方案的计算公式，可以得到1元词评测分数ROUGE-1＝待评测文本摘要与参考文本摘要相匹配的1-gram个数/参考文本摘要的所有1-gram总数＝6/6＝1.0。

由此可见，上述文本摘要评测方案，虽然进一步实现了自动化评测，但其仍需要专家得到的参考文本摘要，提高了方案的实施难度，且当n>3时，计算得到的ROUGE-n的数值通常很小，区分度不高。

更进一步地，为了解决人工参与文本摘要质量评测，导致的人工成本高、耗时等问题，本申请的发明人提出利用人工智能(ArtificialIntelligence,AI)技术，实现文本质量的自动高效评估。人工智是计算机科学的一个综合技术，在如智能家具、智能穿戴设备、虚拟助理、机器人、无人机等多个领取展开研究和应用，并发挥着越来越重要的价值。在实际应用中，人工智能既涉及硬件层面的技术也涉及软件层面的技术，本申请技术方案的实现主要涉及人工智能的自然语言处理技术以及机器学习/深度学习等技术。

具体的，本申请可能应用到自然语言处理技术中的文本处理、语义理解、机器翻译等技术，以及机器学习和深度学习中的人工神经网络、置信网络、强化学习等技术，关于本申请对人工智能的各种技术的具体应用可以参照如下实施例相应部分的具体说明。

基于本申请提出的利用AI技术自动评估文本质量的构思，参照图2所示的流程示意图，本申请前期提出利用AI技术，对确定出的评测样本训练集和评测样本测试集进行不断训练，得到评测模型，将待评测文档输入该评测模型，得到参考文本摘要，再结合重合率评测方式，计算待评测文本摘要与参考文本摘要之间的重合率，确定待评测文本摘要的质量。这种自建模型生成参考文本摘要的方式，不需要用户专家参与，人工生成参考文本摘要，解决了上文给出的几种文本摘要评测方法存在的问题，但是，这种自建的摘要生成模型的分类准确性直接影响着评测结果的准确性，这为提高评测准确性带来很大难度，且难以证明自建的摘要生成模型输出的参考文本摘要，要比业务模型输出的待评测文本摘要更加准确可靠。

为了解决上述自建摘要生成模型，实现文本摘要评测方法中的问题，本申请在利用AI技术自动评估文本质量的构思基础上，希望能够不用自建模型也能够实现文本摘要的自动、可靠、高效、规模化评测。所以，如图3所示的创新思路，在进一步研究过程中，本申请又提出利用词与词之间的空间距离，衡量词之间的相似度的思路，由待评测文本摘要句子与整篇文档的空间距离，来衡量待评测文本摘要与文档中心的相似度，进而衡量待评测文本摘要的质量。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图4，为实现本申请提出的文本摘要评测方法的系统架构图，该系统可以包括：业务服务器11、评测服务器12及数据库13，其中：

业务服务器11可以是用来生成的待评测文本摘要的服务设备，其通常具有预先训练得到的用来生成待评测文本摘要的摘要生成模型(可以称为一种业务模型)，本申请对业务服务器11的组成结构，以及如何训练该摘要生成模型均不作限定。

其中，对于同一个待评测文档(如同一篇文章)的待评测文本摘要，可以采用不同的摘要生成模型生成多个，也就是说，该摘要生成模型的类型可以包括多种，如利用Word2vec(用来产生词向量的相关模型)深度学习网络，对样本数据训练得到的摘要生成模型，或者利用一种用于文本的基于图的排序算法textrank算法，对样本数据训练得到的摘要生成模型等等，对于不同类型的摘要生成模型，可以由不同的业务服务器训练得到，也可以由一个业务服务器训练得到，本申请对此不做限定。

本申请中，业务服务器获取的待评测文本可以是评测服务器发送的，即本次对该业务服务器中的各摘要文本模型进行评测所选择的文档，但并不局限于这种获取方式。

可选的，上述业务服务可以是应用服务器，如为用户提供网络资源的服务设备，也可以是独立的用于生成文本摘要的独立服务器，本申请对业务服务器的组成结构及其功能不做详述。

评测服务器12可以是提供文本摘要质量评测功能的服务设备，用来对业务服务器提供的，或者由自身利用文本摘要模型生成的文本摘要的质量进行评测，也就是说相应文本摘要生成模型的评测，具体评测方法可以参照下文方法实施例相应部分的描述。

可选的，评测服务器12可以是应用服务器，也就是说，应用服务器除了能够为用户提供服务功能，支持其匹配的应用客户端的正常工作外，还可以具有文本摘要评测服务功能；当然，该评测服务器12也可以是独立的专用服务器，本申请对评测服务器12的组成结构不作限定，可以是单独的一个服务器，也可以是由多个服务器构成的服务器集群。

其中，应用服务器可以是为用户提供网络资源，供用户查阅各种新闻、视频等资源的服务设备，通常具有相匹配的应用客户端，以使得用户通过应用客户端访问应用服务器，实现网络资源共享，如阅读新闻、论文、博客等文档，还可以观看视频资源等。

在实际应用中，为了方便用户快速了解该一篇文档的主旨思想，决定是否要查阅整篇文档内容，通常会生成相应的文本摘要，即从该文档中抽取的若干个句子构成的总结段落，展示在文档的最开始部分，或者展示在该文档所在搜索网页中的概述中。上述评测服务器12可以评测这些文本摘要的质量，即其是否能够准确概率整篇文档，进而据此调整质量较差的文本摘要，以避免网页展示的文本摘要无法准备表征文档的主旨思想，影响用户对筛选文档可靠性及效率。

数据库13可以是数据存储设备，用来存储评测服务器12从业务应用服务器或其他数据源设备获取的数据，如供用户阅读各类文本信息(如各类新闻文档等)及其文本摘要，以及存储评测服务器12自身功能运行产生的数据等，还可以存储评测服务器或其他设备针对各文档生成的文本摘要，中心向量、以及对该文本摘要质量的评测结果、用户针对该文本摘要反馈的数据等等，本申请对数据库13存储的内容不做限定，可以依据实际场景需求确定。

应该理解，对于本申请提供的系统架构，并不局限于本实施例列举的评测服务器和数据库，可以依据实际场景需求确定，本申请不作详述

基于上图4示出的系统架构，参照图5，为本申请提出的文本摘要评测方法的一种可选示例流程图，该方法可以适用于评测服务器等，如图5所示，该方法可以包括但并不局限于以下步骤：

步骤S11，获取待评测文档及其对应的待评测文本摘要；

本实施例实际应用中，可以通过响应评测请求从样本池中，获取一文档作为待评测文档，其可以是段新闻、一篇论文、一篇博客等，本申请对该评测请求的生成方式不做限定，可以是自测场景下自动生成的，也可以依据业务人员的对“一键评测”的操作生成的等等。

结合上文系统实施例的描述，评测服务器确定待评测文档后，可以将其发送至业务服务器，由业务服务器利用训练的摘要生成模型，自动生成的该待评测文档的待评测文本摘要，再发送至评测服务器，对于不同的摘要生成模型，同一篇待评测文档所生成的待评测文本摘要内容可能不同，但对每个待评测文本摘要的评测方法类似，本申请仅以一个待评测文本摘要为例进行说明。

需要说明，本申请对待评测文档的来源不作限定，可以来自生成其待评测文本摘要的业务服务，也可以是供用户查阅的应用服务器，此时，业务服务器也可以从应用服务器获取待评测文档，并利用训练好的摘要生成模型，生成该待评测文档的文本摘要后，将该文本摘要反馈至应用服务器，使得应用服务器能够输出待评测文档的文本摘要，这种情况下，评测服务器可以直接从应用服务器获取一待评测文档，并将其文本摘要作为待评测文本摘要，但并不局限于这种获取方式，还可以是由用户通过终端设备发送至评测服务器等等。

由此可见，本申请提出的文本摘要评测方法可以是，通过评测各摘要生成模型所生成的文本摘要的质量，对相应摘要生成模型输出的准确性及可靠性进行评测，以得到高质量的文本摘要，更好地为用户服务，本申请不做一一列举，可以依据具体应用场景确定。

步骤S12，获取该待评测文档的中心向量及句子向量集；

本实施例中，可以利用预先训练好的Doc2vec网络模型(即一种文本深度表示模型，本实施例可以将其记为文档模型)，来获取待评测文档的中心向量，以及待评测文档中每一个句子的句子向量，如获取表征一篇文档的主题思想的中心向量，并获取该文档的每一个句子的句子向量。

其中，Doc2vec是一种非监督式算法，可以获得句子/段落/文档的向量表达，并通过计算相似距离的方式，来确定句子/段落/文档之间的相似性，本申请对Doc2vec网络的结构及其对输入数据的处理详细过程不做详述，可以依据Doc2vec网络的基本原理确定。

在实际应用中，Doc2vec网络对文档进行处理之前，可以采用独热编码(one-hot编码)方式，对待评测文档进行预处理，参照图6示出的一种文档预处理流程示意图，评测服务器获取一个待评测文档后，可以将其拆分成若干个句子，具体可以按照待评测文档中的“。”、“；”、“：”、“？”、“！”等标点符号实现句子的拆分，但并不局限于这种拆分句子的实现方式。对于拆分后的每一个句子，可以经过分词处理，得到相应的分词后的句子，确定出各句子中包含的词汇，之后，可以对其进行独热编码，得到文本中每个句子的二进制向量表示，作为Doc2vec网络的输入数据。

之后，参照图7示出的Doc2vec网络处理数据的一流程示意图，可以将待评测文档中每个句子的独热编码向量作为Doc2vec网络的输入数据，即将多个独热编码向量发送至Doc2vec网络的输入层，经过隐藏层的处理后，输出层将输出相应的句子向量，即相应句子的特征向量，本申请对Doc2vec网络如何对输入的句子的独热编码向量进行处理，得到句子向量的实现过程不做详述。本实施例可以一篇待评测文档的多个句子的句子向量作为一个集合存储，记为句子向量集。

需要说明的是，参照图8所示的文档中心向量及句子向量的获取方法的流程示意图，经过预处理后，将独热编码向量输入Doc2vec网络后，经过训练处理，通常是先得到文档空间向量，再得到句子向量。其中，该文档空间向量可以表征该待评测文档的主题内容，本申请可以将其记为该待评测文档的中心向量，可以将其作为评测文本摘要质量的标准，本申请对获取该中心向量的过程不做详述。

当然，本申请还可以将得到的句子向量作为输入数据，由Doc2vec网络对得到的句子向量继续进行训练，可以得到待评测文档的各段落的向量表达，进而得到该待评测文档的向量表达，并将向量表达作为该待评测文档的中心向量，本申请对获取待评测文档的中心向量的方法不作限定，并不局限于本实施例描述的实现方式。

步骤S13，对待评测文本摘要进行预处理，确定出待评测文本摘要的多个摘要句子；

通常情况下，待评测文本摘要是一个段落文本，对其进行预处理所采用的方式，与上文对待评测文档进行预处理的方式类似，参照图6所示的预处理方法，可以先对待评测文本摘要进行分句，得到该待评测文本摘要包含的摘要句子，之后，还可以对其进行分词，得到相应的独热编码向量等。本申请对步骤S13中的预处理方法不做限定。

可选的，本实施例可以依据存储待评测文档的句子向量集的方式，确定预处理方法，如句子向量集是由待评测文档的各句子内容与句子向量(即特征向量)之间的对应关系构成，此处的预处理可以是分句处理；若句子向量集是由待评测文档的各句子的独热编码向量与句子向量之间的对应关系构成，那么此处的预处理可以包括分句处理和分词处理，以得到文本摘要的各摘要句子的独热编码向量，也并不局限于本实施例描述的句子向量集的存储方式及预处理方式。

步骤S14，从待评测文档的句子向量集中，获取该多个摘要句子各自的摘要句子向量；

继上文描述，待评测文本摘要是由文档中的句子组成，因此，待评测文档的句子向量集中，会包含构成待评测文本摘要的各摘要句子对应的句子向量，所以，本实施例在获得待评测文本摘要的摘要句子后，可以直接从对应待评测文档的句子向量集中，查询与各摘要句子分别对应的句子向量，作为相应摘要句子的摘要句子向量，本申请对该查询的具体实现过程不做详述。

步骤S15，获取中心向量与各摘要句子向量之间的相似距离；

如上文对本实施例方案构思的描述，本实施例是利用摘要句子与整个待评测文档的空间距离，来衡量文本摘要与待评测文档中心的相似度，进而衡量文本摘要的质量。经过上述处理，待评测文档的中心向量能够表征待评测文档的主题思想，所以，本实施例通过计算中心向量与摘要句子向量之间的相似距离，来衡量待评测文本摘要与待评测文档中心的相似度，具体可以通过欧式距离、曼哈顿距离、切比雪夫距离、夹角余弦等相似度计算方式，实现向量之间的相似距离的计算，但并不局限于本文列举的计算方式。

通常情况下，摘要句子向量与中心向量的相似度距离越小，说明该摘要距离有助于提高待评测文本摘要的质量。

步骤S16，对获取的多个相似距离进行统计，并利用统计结果，得到待评测文本摘要的评测结果。

由于本实施例是计算待评测文本摘要中的每个摘要句子向量与中心向量的相似度计算，通常会得到多个相似距离数值，之后，可以统计多个相似距离的平均值，由该相似度距离的平均值表征整个待评测文本摘要与待评测文档的相似度，本实施例可以利用该相似度距离的平均值，实现对待评测文本摘要的质量评测，得到其评测结果，如待评测文本摘要质量较高或合格、待评测文本摘要质量较低或不合格等，本申请对该评测结果的表现形式及内容不做限定。

可选的，本申请可以预先针对不同的相似距离，配置对应的相似分数，相似距离越大，对应的相似分数越小，表明对应的摘要句子的含义离待评测文档中心越远；反之，相似距离越小，对应的相似分数越大，表明对应的摘要句子的含义越贴切离待评测文档中心。

基于此，在获得待评测文本摘要的摘要句子向量与中心向量之间的相似距离后，可以利用预先出的相似距离与相似分数之间的对应关系，得到摘要句子向量与中心向量之间的相似分数，之后，再对该相似分数进行统计，得到待评测文本摘要的评测结果，统计方式类似，本申请不做详述。

可见，本实施例采用相似分数的方式，能够更加直观得知待评测文本摘要与待评测文档中心的相似度，此时，可以预先设定判定待评测文本摘要质量是否合格的相似阈值，若统计得到的相似平均分数大于该相似阈值，可以认为待评测文本摘要质量合格，可以实际使用；反之，需要对待评测文本摘要进行调整，如可以将评测结果反馈至生成待评测文本摘要的业务服务器，以使该业务服务器依据该评测结果，对相应的摘要生成模型进行优化，以提高后续摘要生成模型所生成的文本摘要的准确性及可靠性，即提高后续生成的文本摘要质量，具体优化方法不做详述。

需要说明，步骤S16中，对多个相似距离的统计方式，并不局限于上文给出的平均统计方式，本申请在此仅以为例进行说明，还可以结合获取的多个相似距离中的最小相似距离、最大相似距离和/或相似距离的变化趋势等，综合评定待评测文本摘要的质量，这可以依据实际场景的需求确定，本申请不做一一详述。

另外，在对待评测文档中的句子进行处理，及对待评测文本摘要中的摘要句子进行处理时，本申请是依据相应句子原有的顺序进行依次处理，以使得Doc2vec网络在进行数据处理时，能够考虑上下文内容，提高输出结果的可靠性。

作为本申请一可选示例，由于一待评测文档可以由多种摘要生成模型生成对应的待评测文本摘要，每个待评测文本摘要的评测过程类似，本申请不做一一详述，这样，得到针对同一个待评测文档的多个待评测文本摘要的评测结果后，可以确定出评测结果表明最贴切待评测文档中心的待评测文本摘要，以及离待评测文档中心最远的待评测文本摘要，由此确定出生成文本摘要最可靠的摘要生成模型，以及最不可靠的摘要生成模型，还可以通过比对针对一待评测文档的多个待评测文本摘要的评测结果，得到相应多个摘要生成模型之间的差异等等，满足对摘要生成模型进行优化的需求。

综上所述，针对任一摘要生成模型得到的任一待评测文档的文本摘要，即待评测文本摘要，本实施例通过获取该待评测文档的中心向量，以及待评测文本摘要的各摘要句子向量，计算各摘要句子向量与中心向量之间的相似距离，从而利用得到的多个相似距离的统计结果，来表征该待评测文本摘要与待评测文档的相似度，进而得到待评测文本摘要的评测结果。可见，本申请利用人工智能技术中深度学习技术和自然语言处理技术，实现文本摘要的全自动评测，不需要人工确定参考文本摘要，也不需要人工比对评测，极大降低了人工成本，解决了人工评测主观性强、准确性低、耗时高等问题，实现了高效、准确且可靠地文本摘要评测。

而且，相对于本申请的发明人研发初期提出的自建模型生成参考文本摘要，再计算参考文本摘要与评测文本摘要的重合率方式，本实施例不需要向业务服务器中的摘要生成模型一样生成文本摘要，而是利用待评测文档的中心向量，直接评估待评测文本摘要与待评测文档的相似度，更高效，且评测结果准确性更高，解决了自建模型准确性低对评测结果的不利影响，且难以证明自建模型比摘要生成模型准确性更高的技术问题。

下面本申请将以评测一网页新闻文章的新闻摘要的准确性这一场景为例进行说明，其中，对于该网页新闻文章，可以由一个或多个业务服务器，使用不同的摘要生成模型，生成多个新闻摘要，下面将以一个新闻摘要为例说明其生成、评测及优化过程，其他新闻摘要的处理过程类似，不再赘述。

如图9所示，为本申请提出的文本摘要评测方法的一可选信令流程示意图，该方法可以包括：

步骤S21，评测服务器从文档样本池中，选择一新闻文章；

步骤S22，评测服务器将该新闻文章输入文章模型，得到该新闻文章的中心向量及新闻句子向量集；

其中，文章模型可以基于Doc2vec网络，对样本文章进行训练得到的模型，具体训练过程不作详述，关于利用Doc2vec网络对新闻文章的处理过程，如获取中心向量及句子向量的过程，可以参照上述实施例相应部分的描述，不再赘述。

步骤S23，评测服务器将该新闻文章发送至业务服务器；

步骤S24，业务服务器将该新闻文章输入不同的摘要生成模型，得到该新闻文章的多个新闻摘要；

步骤S25，业务服务器将得到的多个新闻摘要发送至评测服务器；

应该理解，关于评测服务器确定本次评测的新闻文章后，在将其发送至业务服务器的同时，评测服务器就可以对该新闻文章进行处理，也就是说，上述步骤S22和步骤S23的执行顺序，并不局限于本实施例描述的先后顺序，两者可以同步执行，或者评测服务器成功得到新闻文章的新闻摘要后，再执行步骤S22，本实施例仅对评测服务器及业务服务器各自的操作步骤进行示意性说明，并限定先后执行顺序。

可选的，业务服务器可以包括至少一个摘要生成模型，其中，在预先训练得到多个摘要生成模型的情况下，为了测试哪个摘要生成模型的准确性及可靠性更高，其得到新闻文章后，可以将该新闻文章分别输入每个摘要生成模型，得到相应的多个新闻摘要，再将这多个新闻摘要发送至评测服务器进行质量评测。

需要说明，关于多个新闻摘要的质量评测方法类似，本申请仅以其中的一个新闻摘要为例进行说明，可以将该新闻摘要记为第一新闻摘要，即得到的多个新闻摘要中的任一新闻摘要。

步骤S26，评测服务器对第一新闻摘要进行预处理，得到多个摘要句子；

步骤S27，评测服务器从新闻句子向量集中，查询得到这多个摘要句子各自对应的摘要句子向量；

步骤S28，评测服务器对各摘要句子向量与中心向量进行相似距离计算，得到相应摘要句子与新闻文章的相似分数；

关于新闻摘要的摘要句子向量的获取过程，及其与中心向量的相似距离计算和相似分数获取过程，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

步骤S29，评测服务器对得到的多个相似分数进行平均值运算，得到第一新闻摘要与新闻文章的相似平均分；

步骤S210，评测服务器对得到的新闻文章的多个新闻摘要的相似平均分进行比较，得到最大相似平均分、最小相似平均分及平均差异分；

在实际应用中，对最大相似平均分、最小相似平均分及平均差异分的具体获取过程不做限定，由于相似分数越高，说明新闻摘要越贴合新闻文章，质量等级越高，因此，本实施例可以将最大相似平均分对应的新闻摘要确定为新闻文章的目标摘要。

可选的，本申请可以预先生成一个摘要质量等级评测表，每一个摘要质量等级具有相应的相似分数范围，摘要质量等级越高，其对应的相似分数也就越大，这样，得到任一新闻摘要的相似平均分后，可以确定其所处的相似分数范围，那么，该相似分数范围对应的摘要质量等级记为该新闻摘要的质量等级，但并不局限于这一种摘要质量评定方式。

步骤S211，评测服务器将包含最大相似平均分、最小相似平均分及平均差异分的评测结果，发送至评测客户端进行展示。

本实施例中，可以将最大相似平均分、最小相似平均分及平均差异分，作为优化摘要生成模型的一项参考数据，此外，还可以将对各新闻文章的评测过程生成的日志数据，作为评测结果，发送至评测客户端进行展示，以使业务开发人员结合这些数据，实现对摘要生成模型的优化，具体实现过程不作详述。

综上，当需要获取新闻文章可靠且准确的新闻摘要，同时检测各摘要生成模型输出准确性的情况下，评测服务器可以任意选择一新闻文章发送至业务服务器，由需要测试的各摘要生成模型对该新闻文章进行处理，得到相应的新闻摘要，再由评测服务器对各新闻摘要进行质量等级的评测，即获取新闻摘要与新闻文章中心的相似度，实现对新闻摘要质量的全自动、高效、准确且可靠地评测，之后，还可以将同一新闻文章的多个新闻摘要评测结果比较，输出比较结果及各评测详情，供业务人员了解各摘要评测模型输出的准确性及可靠性，以便据此实现对摘要评测模型的优化，为获取高质量的文本摘要提供保障。

为了实现对文本摘要的质量评测，评测服务器可以包括分为执行层和驱动层，其中，执行层可以包括接口调用模块interface，模型处理模块model，驱动层还可以包括样本爬虫模块，调度模块scheduler，此外，该评测服务器还可以包括用存储样本的数据库DB，以及与该评测服务器匹配的评测客户端，将生成前台可视窗口view。结合上文各实施例的描述，对上述文本摘要评测方法进行细化，可以得到如图10所示的流程示意图，但并不局限于这种实现架构。

如图10所示，业务人员可以在评测客户端的可视化窗口，选择或输入要查询文摘摘要评测结果的文章类型，该文章类型可以按照测试环境、正式环境、开发自测或百科等方式确定，之后，评测服务器的interface可以对其进行封装并发送至model模块，由其发送至数据库DB，若此时该数据库记录有所查询的文章的文本摘要评测结果，可以将其评测详情及评测所得分数反馈至评测客户端的可视化窗口输出，以供业务人员查看。

其中，针对上段描述文章类型，为了获取数据库记录的文章的文本摘要的评测结果，评测服务器通常会可以利用样本爬虫应用程序，爬取测试环境样本、正式环境样本、自测样本或xx百科样本，如利用获取的各爬虫执行器，执行相应的爬虫软件，实现样本数据的爬取，具体爬取过程不做详述。对于爬取到的样本数据，可以发送至数据库DB记录。在实际应用中，关于这多个爬虫执行器工作，爬取各种样本数据的过程，可以利用线程池中的线程异步实现，具体异步爬取样本数据的过程不做详述。

另外，对于上述样本数据，并不局限于由上文描述的爬虫执行器获取，业务人员通过可视化窗口view提交的样本，如将样本提交至相应的接口，再写入数据库DB等。其中，业务人员还可以通过该可视化窗口view实现基线库查询，基线是软件文档或源码(或其他产出物)的一个稳定版本，是进一步开发的基础，可以将同类的基线组成的库称为基线库，本申请对基线库查询的实现方法不做详述。

之后，针对数据库DB记录的每一个样本数据即文档，可以按照如上述实施例描述的方式获取或更新文本摘要，具体的，参照图11所示的流程架构图，爬取或业务人员提交样本可以形成一个样本池，其包含的文章通常包含标题title和内容body两大部分，调度模块可以从数据库DB的样本池中获取待评测样本(如一文章)，在对其文本摘要进行评测过程中，可以先将其发送至业务服务器的摘要生成模型，获取待评测文本摘要，同时，评测服务器的model模块可以利用Doc2vec这一深度学习网络，生成相应的文章模型，返回至调度模块，由调度模型按照上文描述的方式，得到该待评测样本的中心向量，以及待评测文本摘要的摘要句子向量，将其与中心向量进行相似距离计算，得到待评测文本摘要的评测结果，如图11所示的该待评测文本摘要的摘要平均分数，若由多个摘要生成模型，可以确定最大摘要平均分为模型最大分数，将最小摘要平均分数确定为模型最小分数，还可以利用得到的各文本摘要的摘要平均分的差值，得到模型间差异分，之后，可以将这些评测结果发送至数据库DB与相应的样本关联存储，或更新已有的该待评测样本的评测结果等。

这样，无论是评测服务器调用其评测接口API(Application Program Interface，应用程序接口，如图10和图11中的服务化API)，实现内部样本文本摘要的自测，也可以由业务人员实现一键评测，即整个评测过程对业务人员是无感的，其确定评测对象后，评测服务器可以按照上述方式自动实现文本摘要评测，具体过程不再赘述。

需要说明的，上述图10所示的架构中，评测服务器及匹配的评测客户端可以根据实际场景需求进行扩容，具体实现方法不做详述，另外，对于图11所示的架构中，业务开发是指对摘要生成模型的开发，也就是说，在摘要生成模型的开发过程中，需要对其输出的准确性进行评测，即实现对摘要生成模型质量的评测，此时，可以按照上述实施例描述的方式，对其生成的文本摘要的质量进行评测，具体实现过程不再赘述。

结合上文描述的文本摘要评测方法所能够达到的效果可知，在业务服务器使用多个摘要生成模型，对同一文档生成多个文本摘要，分别对这多个文本摘要进行质量评测后，可以依据评测结果实现对相应摘要生成模型的优化，进而提高摘要生成模型的质量。本申请经过多次可靠试验确定，相对于采用背景技术描述的人工评测方式，来评测多个摘要生成模型的文本摘要的质量，进而具体提升相应摘要生成模型的质量效果，本申请提出的这种自动评测方案，能够将摘要生成模型的质量提升至98.6％(但并不局限于该数值，该数值越大，说明该模型越准确可靠)，极大地提升了摘要生成模型输出文本摘要的准确性及可靠性。

而且，从评测效率的角度来看，以评测样本为至少120篇文章为例进行实验，相对于人工评测方式，本申请提出的这种评测效率提升了近15倍，即每篇文章的文章摘要评测由15分钟缩短至1分钟即可完成，大大提高了文本摘要评测效率。

此外，从对业务服务器的摘要生成模型的优化过程来看，如图12所示，相对于传统方案中，由摘要生成模型生成文本摘要后，需要发布再由人工进行评测，之后，才能够依据评测结果进行优化，本申请调用平台样本API进行高效且准确自测，直接依据评测结果就能够实现相应摘要生成模型的优化，即实现对文章的文章摘要的调整，大大提升了开发过程中对摘要生成模型的优化效率，经过试验确定从原来需要2.5天优化，缩短到0.5天就能够完成优化，相对于提升了80％的优化效率。

参照图13，为本申请提出的文本摘要评测装置的一种可选示例的结构图，该装置可以适用于评测服务器，如图13所示，该装置可以包括：

待评测数据获取模块21，用于获取待评测文档及所述待评测文档的待评测文本摘要；

可选的，该待评测数据获取模块21可以包括：

待评测文档确定单元，用于响应文档评测请求，确定出待评测文档；

数据发送单元，用于将所述待评测文档发送至业务服务器，由所述业务服务器获取所述待评测文档的至少一个待评测文本摘要；

数据获取单元，用于获取所述业务服务器反馈的针对所述待评测文档的至少一个待评测文本摘要。

文档向量获取模块22，用于获取所述待评测文档的中心向量及句子向量集；

可选的，该文档向量获取模块22可以包括：

预处理单元，用于对所述待评测文档进行预处理器，得到多个文档句子编码向量；

向量输入单元，用于将所述多个文档句子编码向量依次输入文本深度表示模型，得到文档空间向量及相应的多个句子向量，所述文本深度表示模型是样本文档对Doc2vec网络训练得到的；

确定单元，用于将所述文档空间向量确定为所述待评测文档的中心向量，并由得到的多个句子向量构成所述待评测文档的句子向量集。

摘要句子向量获取模块23，用于从所述句子向量集中，获取所述待评测文本摘要对应的摘要句子向量；

评测模块24，用于依据所述摘要句子向量与所述中心向量之间的相似距离，得到所述待评测文本摘要的评测结果。

可选的，摘要句子向量获取模块23可以包括：

预处理单元，用于对所述待评测文本摘要进行预处理，得到组成所述待评测文本摘要的多个摘要句子；

选择单元，用于从所述句子向量集中，选择与所述多个摘要句子各自对应的句子向量，并将选择的句子向量确定为相应摘要句子的摘要句子向量。

相应地，该评测模块24可以包括：

相似距离获取单元，用于获取所述摘要句子向量与所述中心向量之间的相似距离；

相似距离处理单元，用于依据获取的多个相似距离统计结果，得到所述待评测文本摘要与所述待评测文本的相似距离；

摘要质量等级确定单元，用于从摘要质量等级表中，确定出与所述待评测文本摘要的相似距离匹配的摘要质量等级；

评测结果生成单元，用于利用所述摘要质量等级，生成所述待评测文本摘要的评测结果。

作为本申请一可选示例，该评测模块24也可以包括：

相似分数获取单元，用于获取确定出的多个摘要句子向量各自与所述中心向量之间的相似距离，得到与所述相似距离对应的相似分数；

平均值运算单元，用于对得到的多个相似分数进行平均值运算，得到相似平均分；

评测结果确定单元，用于利用所述相似平均分，得到相应待评测文本摘要的评测结果。

可选的，在所述待评测文本摘要的数量为多个，且多个待评测文本摘要由不同类型的摘要生成模型得到的情况下，该装置还可以包括：

比较模块，用于将多个待评测文本摘要对应的相似平均分进行比较，得到比较结果，所述比较结果包括最大相似平均分、最小相似平均分及平均差异分；

相应地，评测结果确定单元可以包括：

生成子单元，用于利用所述比较结果及所述多个待评测文本摘要各自的相似平均分，生成所述待评测文档的多个待评测文本摘要的评测结果；

发送子单元，用于将所述评测结果发送至业务服务器，以使得所述业务服务器依据所述评测结果，实现对相应摘要生成模型的优化。

应该理解，上述各模块或单元均是应用程序模块，其实现相应功能的过程，可以参照上述方法实施例相应部分的描述。

本申请还提供了一种存储介质，其上存储有程序，该程序被处理器调用并执行，以实现上述文本摘要测评方法的各步骤。

参照图14，为本申请提供的一种评测服务器的硬件结构图，该评测服务器可以包括：至少一个通信接口31、至少一个存储器32及至少一个处理器33，其中：

至少一个通信接口31、至少一个存储器32及至少一个处理器33可以通过通信总线，实现相互之间的数据交互。

通信接口31可以包括无线通信模块的接口，如WIFI模块、GPRS模块、GSM模块等通信模块的接口，以实现与其他设备的数据交互，如用户的终端设备，其他服务器，如数据库等，通信接口还可以包括有线通信模块的接口，如串/并口等，以实现计算机设备内部数据交互，本申请对通信接口的类型不做限定。

存储器32可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

在本实施例中，该存储器32可以存储实现文本摘要评测方法的程序，还可以用于文本摘要评测过程中产生的各种中间数据，本申请不作详述。

处理器32可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例中，处理器32可以调用存储器31所存储的程序，以实现上述文本摘要评测方法的各步骤，具体实现过程不再赘述。

参照上图4，本申请还提供了一种文本摘要评测系统，该系统可以包括业务服务器11、评测服务器12及数据库13，其中：

评测服务器12为上述实施例描述的评测服务器，具体组成结构及其功能不再赘述。

业务服务器11，用于接收评测服务器12发送的待评测文档，生成11所述待评测文档的至少一个待评测文本摘要，关于其具体功能可以参照上述方法实施例中由业务服务器执行的步骤，不再赘述。

可选的，关于业务服务器的组成结构，与上述评测服务器组成结构类似，也可以包括通信接口、存储器、处理器、通信总线等，区别在于处理器所存储的程序不同，此处的存储器可以存储文本摘要生成方法的程序，本申请对文本摘要生成方法的具体实现方式不作限定，所使用的文本摘要生成模型的结构不同，对应的文本摘要生成方法可能会有所区别，本申请在此不做详述。

数据库13，用于记录所述评测服务器获取的待评测文档及待评测文本摘要，还可以记录其他数据，本申请对其存储内容及其对各类数据的存储方式不做限定。

本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、评测服务器、系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本摘要评测方法，其特征在于，所述方法包括：

获取待评测文档及所述待评测文档的至少一个待评测文本摘要，所述至少一个待评测文本摘要是通过至少一个摘要生成模型生成的，所述至少一个摘要生成模型为不同类型的摘要生成模型；

获取所述待评测文档的中心向量及句子向量集；

对所述待评测文本摘要进行预处理，得到组成所述待评测文本摘要的多个摘要句子；

从所述句子向量集中，选择与所述多个摘要句子各自对应的句子向量，并将选择的句子向量确定为相应摘要句子的摘要句子向量；

依据所述摘要句子向量与所述中心向量之间的相似距离，得到所述待评测文本摘要的评测结果，具体包括：

获取所述摘要句子向量与所述中心向量之间的相似距离；依据获取的多个相似距离统计结果，得到所述待评测文本摘要与所述待评测文档的相似距离；从摘要质量等级表中，确定出与所述待评测文本摘要的相似距离匹配的摘要质量等级；利用所述摘要质量等级，生成所述待评测文本摘要的评测结果；

或者，获取确定出的多个摘要句子向量各自与所述中心向量之间的相似距离，得到与所述相似距离对应的相似分数；对得到的多个相似分数进行平均值运算，得到相似平均分；利用所述相似平均分，得到相应待评测文本摘要的评测结果。

2.根据权利要求1所述的方法，其特征在于，在所述待评测文本摘要的数量为多个，且多个待评测文本摘要由不同类型的摘要生成模型得到的情况下，所述方法还包括：

将多个待评测文本摘要对应的相似平均分进行比较，得到比较结果，所述比较结果包括最大相似平均分、最小相似平均分及平均差异分；

所述利用所述相似平均分，得到相应待评测文本摘要的评测结果，包括：

利用所述比较结果及所述多个待评测文本摘要各自的相似平均分，生成所述待评测文档的多个待评测文本摘要的评测结果；

将所述评测结果发送至业务服务器，以使得所述业务服务器依据所述评测结果，实现对相应摘要生成模型的优化。

3.根据权利要求1～2任一项所述的方法，其特征在于，所述获取待评测文档及所述待评测文档的至少一个待评测文本摘要，包括：

响应文档评测请求，确定出待评测文档；

将所述待评测文档发送至业务服务器，由所述业务服务器获取所述待评测文档的至少一个待评测文本摘要；

获取所述业务服务器反馈的针对所述待评测文档的至少一个待评测文本摘要。

4.根据权利要求1～2任一项所述的方法，其特征在于，所述获取所述待评测文档的中心向量及句子向量集，包括：

对所述待评测文档进行预处理器，得到多个文档句子编码向量；

将所述多个文档句子编码向量依次输入文本深度表示模型，得到文档空间向量及相应的多个句子向量，所述文本深度表示模型是样本文档对Doc2vec网络训练得到的；

将所述文档空间向量确定为所述待评测文档的中心向量，并由得到的多个句子向量构成所述待评测文档的句子向量集。

5.一种文本摘要评测装置，其特征在于，所述装置包括：

待评测数据获取模块，用于获取待评测文档及所述待评测文档的至少一个待评测文本摘要，所述至少一个待评测文本摘要是通过至少一个摘要生成模型生成的，所述至少一个摘要生成模型为不同类型的摘要生成模型；

摘要句子向量获取模块，用于对所述待评测文本摘要进行预处理，得到组成所述待评测文本摘要的多个摘要句子；从所述句子向量集中，选择与所述多个摘要句子各自对应的句子向量，并将选择的句子向量确定为相应摘要句子的摘要句子向量；

评测模块，用于依据所述摘要句子向量与所述中心向量之间的相似距离，得到所述待评测文本摘要的评测结果；

所述评测模块，包括：

相似距离处理单元，用于依据获取的多个相似距离统计结果，得到所述待评测文本摘要与所述待评测文档的相似距离；

评测结果生成单元，用于利用所述摘要质量等级，生成所述待评测文本摘要的评测结果；

或者，所述评测模块，包括：

6.根据权利要求5所述的装置，其特征在于，在所述待评测文本摘要的数量为多个，且多个待评测文本摘要由不同类型的摘要生成模型得到的情况下，所述装置还包括：

所述评测结果确定单元，包括：

7.根据权利要求5～6任一项所述的装置，其特征在于，所述待评测数据获取模块，包括：

8.根据权利要求5～6任一项所述的装置，其特征在于，所述文档向量获取模块，包括：

9.一种评测服务器，其特征在于，所述评测服务器包括：

通信接口；

存储器，用于存储程序；

处理器，用于加载并执行所述存储器存储的程序，以实现如权利要求1～4任一项所述的文本摘要评测方法的各个步骤。

10.一种文本摘要评测系统，其特征在于，所述系统包括评测服务器、业务服务器及数据库，其中：

所述评测服务器为权利要求9所述的评测服务器；

11.一种存储介质，其特征在于，其上存储有程序，该程序被处理器调用并执行，以实现如权利要求1～4任一项所述的文本摘要评测方法的各个步骤。