CN113268651B

CN113268651B - 一种搜索信息的摘要自动生成方法及装置

Info

Publication number: CN113268651B
Application number: CN202110587256.7A
Authority: CN
Inventors: 李涓子; 祝方韦; 侯磊; 涂尚卿; 张鹏; 唐杰; 许斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2023-06-06
Anticipated expiration: 2041-05-27
Also published as: CN113268651A

Abstract

本发明提供一种搜索信息的摘要自动生成方法及装置，该方法包括：获取搜索信息对应的网页文本集，所述搜索信息是属于第一实体类别的信息；将所述网页文本集输入训练好的主题检测模型，输出所述网页文本集对应的主题文本簇集合，其中，所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的；将所述主题文本簇集合输入训练好的摘要生成模型，得到所述搜索信息的摘要，其中，所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。本发明能够有效生成搜索信息的摘要。

Description

一种搜索信息的摘要自动生成方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种搜索信息的摘要自动生成方法及装置。

背景技术

用户通过在网上进行搜索时，往往会通过搜索内容对应的在线百科来获取信息，而在线百科是流行的在线知识库，它们因为质量高于被广泛运用于诸如知识获取、问答系统等自然语言处理任务中。在百科文档中，摘要部分是对全文的一个概述，也是在线百科最常被用到的部分之一。百科文档摘要经常由专业人士通过多次修改完成，此过程需要耗费大量劳力且可能因为写作者的个人习惯导致遗漏某些信息。自动生成百科文档摘要工作旨在于自动化百科文档摘要的写作流程，以减少人力消耗。

而直接提供搜索信息的摘要可以很好的帮助用户更好的快速理解搜索信息，因此如何生成搜索信息的摘要已经成为业界亟待解决的问题。

发明内容

本发明提供及一种搜索信息的摘要自动生成方法及装置，用以解决生成搜索信息的摘要的问题。

本发明提供一种搜索信息的摘要自动生成方法，包括：

获取搜索信息对应的网页文本集，所述搜索信息是属于第一实体类别的信息；

将所述网页文本集输入训练好的主题检测模型，输出所述网页文本集对应的主题文本簇集合，其中，所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的；

将所述主题文本簇集合输入训练好的摘要生成模型，得到所述搜索信息的摘要，其中，所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。

根据本申请提供的一种搜索信息的摘要自动生成方法，所述将所述主题文本簇集合输入训练好的摘要生成模型，得到所述搜索信息的摘要，包括：

将所述主题文本簇集合输入训练好的摘要生成模型，输出含有主题信息的向量表示；

基于指针生成网络模型对所述含有主题信息的向量表示，生成所述搜索信息的摘要。

根据本申请提供的一种搜索信息的摘要自动生成方法，所述获取搜索信息对应的网页文本信息，包括：

将所述搜索信息输入搜索引擎，得到搜索信息对应的第一百科网页和第一非百科网页；

对所述第一非百科网页进行筛选，得到第一非百科目标网页；

基于所述第一非百科目标网页中的文本信息，确定所述搜索信息对应的网页文本集。

根据本申请提供的一种搜索信息的摘要自动生成方法，所述将第一实体类别对应的百科文档输入训练好的主题检测模型之前，所述方法还包括：

获取多个网页样本文本和每个所述网页样本文本对应的主题标签；

将每个网页样本文本和所述主题标签的组合作为一个第一训练样本，获取多个第一训练样本；

利用多个所述第一训练样本对预设主题检测模型进行训练，在满足第一预设训练条件的情况下，结束训练，得到训练好的主题检测模型。

根据本申请提供的一种搜索信息的摘要自动生成方法，所述获取多个网页样本文本和每个所述网页样本文本对应的主题标签之前，所述方法还包括：

获取第一实体类别对应的百科网页文本集；

根据所述百科网页文本集中段标题的出现次数，确定所述第一类别实体对应的主题标签。

将所述第一实体类别对应的搜索样本信息集输入搜索引擎，得到所述搜索样本信息集对应的第二百科网页和第二非百科网页；

按照所述第二非百科网页的搜索排名顺序进行筛选，得到第二非百科目标网页；

基于所述第二非百科目标网页中的文本信息，确定所述第一类别实体对应的网页样本文本。

本发明实施例还提供一种搜索信息的摘要自动生成装置，包括：

获取单元，用于获取搜索信息对应的网页文本集，所述搜索信息是属于第一实体类别的信息；

处理单元，用于将所述网页文本集输入训练好的主题检测模型，输出所述网页文本集对应的主题文本簇集合，其中，所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的；

生成单元，用于将所述主题文本簇集合输入训练好的摘要生成模型，得到所述搜索信息的摘要，其中，所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述搜索信息的摘要自动生成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述搜索信息的摘要自动生成方法的步骤。

本发明提供的一种搜索信息的摘要自动生成方法及装置，通过以每个实体类别为单位，发掘每个实体类别对应的现有百科文档中的潜在主题信息后，通过主题信息来辅助搜索信息，自动生成摘要，该摘要结合人类认知事物的方式，从多个主题来生成百科文档摘要，从而使生成的摘要更全面并减少了信息冗余。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中所描述的搜索信息的摘要自动生成方法流程示意图；

图2为本申请实施例提供主题检测过程示意图；

图3为本申请实施例提供的摘要生成过程示意图；

图4为本申请实施例提供的搜索信息的摘要自动生成装置结构示意图；

图5为本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本申请实施例中所描述的搜索信息的摘要自动生成方法流程示意图，如图1所示，包括：

步骤S1，获取搜索信息对应的网页文本集，所述搜索信息是属于第一实体类别的信息；

具体地，本申请实施例中所描述的搜索信息具体可以是用户输入到搜索引擎中的信息，其可以是“词条名称”等等。

本申请中所描述的实体类别可以是现有的百科文档对应实体的共通种类属性，如动物实体类别、公司实体类别、电影实体类别等；

本申请中所描述的百科文档具体可以是指在线百科词条网页中文本的集合。

在本申请实施例中可以对搜索信息进行分析，确定其对应的实体类别。

而搜索信息对应的网页文本集，具体可以是将搜索信息输入搜索引擎后，排名靠前的非百科网页中的文本集合。

本申请中搜索信息对应的网页文本集中包含了帮助理解搜索信息的众多数据，因此可以根据其生成帮助理解搜索信息的摘要。

步骤S2，将所述网页文本集输入训练好的主题检测模型，输出所述网页文本集对应的主题文本簇集合，其中，所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的；

具体的，本申请中每个不同实体类别，可能对应不同的主题检测模型，因此本申请中所描述的训练好的主题检测模型是第一实体类别对应的主题检测模型。

本申请中训练好的主题检测模型用于将网页文本集中每一段文本寻找最符合的主题，进而收集每个主题对应的信息。

具体地，图2为本申请实施例提供主题检测过程示意图，如图2所示，首先将网页文本集输入预训练的语言模型ALBERT，得到每段本文的向量表示，然后将向量表示输入一个全连接神经网络得到该段落属于各个主题的概率分布，最后取概率最大的主题作为该段落对应的主题，得到网页文本集对应的最优主题集合，对于每一个主题，本发明实施例中将属于该主题的所有文本段落拼接起来，得到该主题对应的主题文本簇，最终得到主题文本簇集合。

步骤S3，将所述主题文本簇集合输入训练好的摘要生成模型，得到所述搜索信息的摘要，其中，所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。

具体地，图3为本申请实施例提供的摘要生成过程示意图，如图3所示，本申请中对于主题文本簇集合中的每一个主题文本簇G_k，本发明使用双向门控循环单元BiGRU将其编码为向量形式g_k，同时保留文本中每一个单词的向量表示U＝(u₁,u₂,…,u_nk)，其中n_k为主题文本簇G_k的单词数量。这一步用公式表示为：

g_k,U_k＝BiGRU(G_k)

之后，本发明使用门控循环单元(GRU)来递归预测将生成摘要中每一个句子的主题概率分布，进而计算含有主题信息的向量表示e_t。对于第t句句子，模型会根据上一句的向量表示e_t-1与隐状态h_t-1预测该句的隐状态h_t，进而通过一个全连接神经网络得到其主题概率分布q_t，然后对主题的向量表示加权求和得到含有主题信息的向量表示e_t。这一步用公式表示为：

h_t＝GRU(h_t-1,e_t-1)

q_t＝softmax(FC(h_t))

e_t＝q_t·G

其中，FC代表神经网络全连接层，softmax为概率归一化函数，G＝(g₁,g₂,…,g_k)为主题文本簇向量形式g_k拼接得到的矩阵。

本发明使用Pointer-Generator模型，根据每个含有主题信息的向量表示e_t生成对应的摘要句子。

在本申请实施例中，通过以每个实体类别为单位，发掘每个实体类别对应的现有百科文档中的潜在主题信息后，通过主题信息来辅助搜索信息，自动生成摘要，该摘要结合人类认知事物的方式，从多个主题来生成百科文档摘要，从而使生成的摘要更全面并减少了信息冗余。

可选地，所述将所述主题文本簇集合输入训练好的摘要生成模型，得到所述搜索信息的摘要，包括：

本申请中所描述的指针生成网络模型可以是Pointer-Generator模型，具体是结合注意力机制，从词汇表和原始文本两个来源将向量表示解码为文本的模型。其将所有的摘要句子按顺序连接，便可得到最终自动生成的搜索内容的摘要。

在本申请实施例中，通过指针生成网络模型可以有效根据每个含有主题信息的向量表示生成对应的摘要句子，有效保证最终摘要的顺利生成。

可选地，所述获取搜索信息对应的网页文本信息，包括：

具体地，本申请中所描述的百科网页具体可以是指在线百科词条网页。

本申请中所描述的非百科网页是指搜索信息对应的网页中出百科网页之外的其它网页。

本申请中所描述的对所述第一非百科网页进行筛选的过程具体可以是指选取搜索排名靠前的第一非百科网页，并将其作为第一非百科目标网页。该搜索排名是搜索引擎根据搜索内容进行搜索时生成的排名。

将第一非百科目标网页中的文本信息进行简单的信息过滤后，例如去除广告信息等，即可得到搜索信息对应的网页文本集。

在本申请实施例中，用户通过从搜索内容对应的非百科网页中筛选文本信息，能够有效避免现有百科网页信息的影响，更准确的生成搜索内容对应的摘要。

可选地，所述将第一实体类别对应的百科文档输入训练好的主题检测模型之前，所述方法还包括：

具体地，本申请中所描述的第一预设训练条件具体可以是指训练满预设次数，例如训练完成500次，或者训练达到预设时间，例如训练满5分钟。

本申请中所描述的网页样本文本可以是根据预先设定的第一实体类别对应的搜索样本信息集生成的。

本申请中所描述的主题标签，可以是根据第一实体类别对应的百科网页文本集确定的。

在本申请实施例中通过训练好的主题检测模型，可以有效确定网页文本的主题文本簇，发掘现有百科文档中的潜在主题信息，使用主题信息来辅助自动生成摘要。

可选地，所述获取多个网页样本文本和每个所述网页样本文本对应的主题标签之前，所述方法还包括：

获取第一实体类别对应的百科网页文本集；

具体地，第一实体类别对应的百科网页文本集是指第一实体类别下所有现存的百科网页的文本，

然后统计文本中段标题的出现次数，选出出现频率超过预设阈值的段标题，去除无效段标题后，得到所述第一类别实体对应的主题标签。

也可以是选出出现频次较高的段标题，例如选取出现频率最高的前20个段标题，将其作为述第一类别实体对应的主题标签。

在本申请实施例中，充分利用了现有百科网页文档中的特点，来确定该搜索内容可能经常出现的主题，从而有目的性的确定主题标签，能够保证后续主题文本簇的识别准确性。

具体地，本申请中所描述的搜索样本信息集是指第一实体类别对应的常见搜索样本信息，其余第一实体类别之间的对应关系可以预先设定。

本申请中充分考虑了每个实体类别对应的搜索样本信息，能够有针对性的生成训练样本，从而保证后续训练的可靠性。

可选地，本发明提出的技术方案融合了主题信息，提高了自动生成百科文档摘要的质量。通过在WikiCatSum数据集进行质量评测，实验结果证明本发明相比之前的现有技术的方案在ROUGE F1分数上有着10％左右的提高。人工评测结果也证明本发明生成的摘要在语言流畅性、信息完整度、冗余度上相比现有技术都有较大提升。

图4为本申请实施例提供的搜索信息的摘要自动生成装置结构示意图，如图4所示，包括：获取单元410、处理单元420和生成单元430；其中，获取单元410用于获取搜索信息对应的网页文本集，所述搜索信息是属于第一实体类别的信息；其中，处理单元420用于将所述网页文本集输入训练好的主题检测模型，输出所述网页文本集对应的主题文本簇集合，其中，所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的；其中，生成单元430用于将所述主题文本簇集合输入训练好的摘要生成模型，得到所述搜索信息的摘要，其中，所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。

可选地，所述生成单元具体用于将所述主题文本簇集合输入训练好的摘要生成模型，输出含有主题信息的向量表示；

图5为本发明提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行搜索信息的摘要自动生成方法，该方法包括：获取搜索信息对应的网页文本集，所述搜索信息是属于第一实体类别的信息；将所述网页文本集输入训练好的主题检测模型，输出所述网页文本集对应的主题文本簇集合，其中，所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的；将所述主题文本簇集合输入训练好的摘要生成模型，得到所述搜索信息的摘要，其中，所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的搜索信息的摘要自动生成方法，该方法包括：获取搜索信息对应的网页文本集，所述搜索信息是属于第一实体类别的信息；将所述网页文本集输入训练好的主题检测模型，输出所述网页文本集对应的主题文本簇集合，其中，所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的；将所述主题文本簇集合输入训练好的摘要生成模型，得到所述搜索信息的摘要，其中，所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的搜索信息的摘要自动生成方法，该方法包括：获取搜索信息对应的网页文本集，所述搜索信息是属于第一实体类别的信息；将所述网页文本集输入训练好的主题检测模型，输出所述网页文本集对应的主题文本簇集合，其中，所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的；将所述主题文本簇集合输入训练好的摘要生成模型，得到所述搜索信息的摘要，其中，所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种搜索信息的摘要自动生成方法，其特征在于，包括：

将所述网页文本集输入训练好的主题检测模型，输出所述网页文本集对应的主题文本簇集合，其中，所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的，所述训练好的主题检测模型用于为网页文本集中每一段文本寻找最符合的主题，对于每个主题，将同一主题的文本段落拼接起来，得到网页文本集对应的主题文本簇集合；

将所述主题文本簇集合输入训练好的摘要生成模型，所述训练好的摘要生成模型中使用门控循环单元，预测将生成摘要中每一个句子的主题概率分布，其中，所述每一个句子的主题概率分布，是基于上一句的向量表示和隐状态通过全连接神经网络确定的；

基于所述每一个句子的主题概率分布，输出含有主题信息的向量表示；基于指针生成网络模型对所述含有主题信息的向量表示进行分析，生成所述搜索信息的摘要，其中，所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。

2.根据权利要求1所述的搜索信息的摘要自动生成方法，其特征在于，所述获取搜索信息对应的网页文本信息，包括：

3.根据权利要求1所述的搜索信息的摘要自动生成方法，其特征在于，所述将所述网页文本集输入训练好的主题检测模型，输出所述网页文本集对应的主题文本簇集合之前，所述方法还包括：

4.根据权利要求3所述的搜索信息的摘要自动生成方法，其特征在于，所述获取多个网页样本文本和每个所述网页样本文本对应的主题标签之前，所述方法还包括：

获取第一实体类别对应的百科网页文本集；

根据所述百科网页文本集中段标题的出现次数，确定所述第一实体类别对应的主题标签。

5.根据权利要求3所述的搜索信息的摘要自动生成方法，其特征在于，所述获取多个网页样本文本和每个所述网页样本文本对应的主题标签之前，所述方法还包括：

基于所述第二非百科目标网页中的文本信息，确定所述第一实体类别对应的网页样本文本。

6.一种搜索信息的摘要自动生成装置，其特征在于，包括：

处理单元，用于将所述网页文本集输入训练好的主题检测模型，输出所述网页文本集对应的主题文本簇集合，其中，所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的，所述训练好的主题检测模型用于为网页文本集中每一段文本寻找最符合的主题，对于每个主题，将同一主题的文本段落拼接起来，得到网页文本集对应的主题文本簇集合；

生成单元，用于将所述主题文本簇集合输入训练好的摘要生成模型，所述训练好的摘要生成模型中使用门控循环单元，预测将生成摘要中每一个句子的主题概率分布，其中，所述每一个句子的主题概率分布，是基于上一句的向量表示和隐状态通过全连接神经网络确定的；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述搜索信息的摘要自动生成方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述搜索信息的摘要自动生成方法的步骤。