CN113312897A

CN113312897A - 一种文本总结方法、电子设备及存储介质

Info

Publication number: CN113312897A
Application number: CN202110686988.1A
Authority: CN
Inventors: 李晓鹏; 孙浩然; 邹杰
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-08-27
Anticipated expiration: 2041-06-21
Also published as: CN113312897B

Abstract

本发明公开了一种文本总结方法、电子设备及存储介质，所述方法包括：获取文本中各个句子自身的特征信息以及各个句子之间的相似程度信息；对所述特征信息和所述相似程度信息进行编码，得到核矩阵；对所述核矩阵进行若干次行列式采样，得到采样结果：对所述采样结果进行统计计算，得到最概然结果，与所述最概然结果对应的句子为所述文本的总结结果。本发明能够降低行列式采样到计算复杂度，可以显著提高基于行列式采样的机器学习的运算效率。

Description

一种文本总结方法、电子设备及存储介质

技术领域

本发明涉及文本总结方法领域，特别涉及一种文本总结方法、电子设备及存储介质。

背景技术

行列式采样在量子化学计算和机器学习等任务中有重要应用。因其中涉及到的基本的泡利不相容原理，行列式采样生成的数据样本有天然的多样性，这一点对机器学习中的文本总结和推荐系统等任务都具有重要意义。但是，此前行列式采样的算法的计算效率不高，计算复杂度限制了相关应用的推广。尤其在文本的语义总结中，传统的行列式采样算法的低效性极大的限制了能够进行总结的文本的长度。

目前的行列式采样算法有两种，一种是科学计算中经常采用的马尔可夫链的方法，一种是机器学习任务中通常采用的determinantal-point-process(DPP)的算法。这些方法应用于自动化文本总结，均存在比较显著的问题。

具体的，马尔可夫链的算法应用于文本总结存在显著的任务依赖的问题，采样中的自关联问题会导致算法可能在某些文本总结的任务上失效，并且这种失效不可预判；而DPP算法在长文本总结的问题应用中，需要耗费大量的计算时间进行机器学习训练，而且随着文本长度的增加呈高阶的多项式增长。这就导致了行列式采样的模型在文本总结的机器学习应用中存在显著的局限性。

发明内容

本发明的目的在于提供一种文本总结方法、电子设备及存储介质，以解决目前的行列式采样的模型在文本总结的机器学习应用中存在显著的局限性的问题。

为了解决以上问题，本发明通过以下技术方案实现：

一种文本总结方法，包括：

步骤S1、获取文本中各个句子自身的特征信息以及各个句子之间的相似程度信息；

步骤S2、对所述特征信息和所述相似程度信息进行编码，得到核矩阵；

步骤S3、对所述核矩阵进行若干次行列式采样，得到采样结果；

步骤S4、对所述采样结果进行统计计算，得到最概然结果，与所述最概然结果对应的句子为所述文本的总结结果。

可选地，所述特征信息包括文本中每个句子的长度特征和位置特征。

可选地，所述特征信息中的每一特征对应一可调参数。

可选地，所述步骤S3包括：

所述核矩阵为L×N矩阵U，且满足U^TU＝I，I为单位矩阵；

对所述L×N矩阵U进行行列式抽样处理，抽样一次得到的样本为N维向量

要求每个样本x_i∈[1,L],且N维向量服从概率分布

其中向量

其中，

表示抽样一次得到向量

的概率；

表示矩阵U中行指标为

列指标为

的部分所构成的子矩阵的行列式的值。

可选地，所述步骤S3还包括：步骤S3.1、将所述向量

中的N个元素进行一次随机排列，生成一随机向量，记为

向量；

步骤S3.2、从k＝1开始迭代N次，直至k＝N，N次迭代均按照以下条件概率生成目标向量

式中，x₁,x₂,...,x_k-1已在前k-1步得到，

表示已生成x₁,x₂,...,x_k-1和

向量后，在第k步采样得到x_k的概率；

表示矩阵U中行指标为x₁,x₂,x₃,...,x_k，列指标为d₁,d₂,...,d_k的部分所构成的子矩阵的行列式的值。

步骤S3.3、输出所述目标向量

x₁,…,x_N表示步骤S3.2中N次迭代得到的结果。

步骤S3.4、重复步骤S3.1～步骤S3.3；直至得到的目标向量的数量达到预设要求。

可选地，所述步骤S3.2包括：

其中，u_k(x_k)是一个由矩阵元

构成的列向量，而w_k是一个由线性方程组

定义的单位向量，其中w_k的求解从可以通过从k-1到k步迭代高斯消元的方式高效求解。

优选地，所述步骤S4包括：在所述步骤S3被重复执行M次后，得到一系列采样结果

其中，

i＝1,2,...,M；将重复采样M次中出现频率最高的结果作为这个行列式采样过程的最概然结果。或者，采用贝叶斯最小风险的统计方法来推断，将M次采样结果中与其他采样结果相关度最高的一个采样结果当作这个行列式采样过程的最概然结果。

另一方面，本发明还提供一种电子设备，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现如上文所述的方法。

再一方面，本发明还提供一种可读存储介质，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上文所述的方法

本发明至少具有以下优点之一：

本发明提供的文本总结方法是基于行列式采样的文本总结机器学习任务，其主要想法是把从文本中挑选句子这一行为处理为随机过程，并用行列式采样过程来刻画，由行列式采样的多样性可知，由这一随机过程可以挑选出句子之间句义重复最小的一组句子，可作为对文本的一个精简的总结。本发明通过降低行列式采样算法整体的采样复杂度使得其采样复杂度达到O(N³)级别，由此可以显著提高基于行列式采样(Determinantal PointProcess)的机器学习的运算效率。数值计算表明在文本总结的机器学习任务中，获得较已知方法两倍的加速。

附图说明

图1为本发明一实施例提供的一种文本总结方法的流程示意图。

具体实施方式

以下结合附图1和具体实施方式对本发明提出的一种文本总结方法、电子设备及存储介质作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需要说明的是，附图采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂，请参阅附图。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

一种文本总结方法，包括：步骤S1、获取文本中各个句子自身的特征信息以及各个句子之间的相似程度信息。

步骤S2、对所述特征信息和所述相似程度信息进行编码，得到核矩阵。

步骤S3、对所述核矩阵进行若干次行列式采样，得到采样结果。

所述特征信息包括文本中每个句子的长度特征和位置特征。所述相似程度信息可以是文本中的两两句子之间的相似程度信息。

所述特征信息中的每一特征对应一可调参数。所述可调参数可以通过对训练集中文本总结的示例学习得到。这些可调参数的值反映了编码过程中对于所述特征信息中的哪些特征更为看重，从而影响之后得到的核矩阵，以及最后达到的文本总结的质量。我们这里采取对文本总结示例学习得到参数的方式更具灵活性，更贴切实际。

所述步骤S3包括：所述核矩阵为L×N矩阵U，且满足U^TU＝I，I为单位矩阵。对所述L×N矩阵U进行行列式抽样处理，抽样一次得到的样本为N维向量

要求每个样本x_i∈[1,L],且N维向量服从概率分布

其中向量

式中，

表示抽样一次得到向量

的概率；

表示矩阵U中行指标为

列指标为

的部分所构成的子矩阵的行列式的值。

所述步骤S3还包括：步骤S3.1、将所述向量

中的N个元素进行一次随机排列，生成一随机向量，记为

向量；

即在第k步时按照以下概率生成x_k；

式中，x₁,x₂,...,x_k-1已在前k-1步得到，

表示已生成x₁,x₂,...,x_k-1和

向量后，在第k步采样得到x_k的概率；

表示矩阵U中行指标为x₁,x₂,x₃,...,x_k，列指标为d₁,d₂,...,d_k的部分所构成的子矩阵的行列式的值，

步骤S3.3、输出所述目标向量

x₁,…,x_N表示步骤S3.2中N次迭代得到的结果；

所述步骤S3.2包括：

该(2)式由步骤S3.2的(1)式以及行列式的几何意义

推出。其中，u_k(x_k)是一个由矩阵元

构成的列向量，而w_k是一个由线性方程组

定义的单位向量，该线性方程组有k个未知数和k-1个方程，故在规定了单位模长后，这个方程组的解可唯一确定，即w_k。我们可以通过高斯消元法或QR分解等方式求解w_k，其中最为简单的方式是通过从k-1到k步迭代进行高斯消元的方式高效求解，这是因为在对矩阵

和

的高斯消元过程中，前k-2行的消元过程完全相同，因此可以通过迭代的方式利用起之前的计算结果，从而完成整个步骤S3.2中求所有w_k的过程总共只需要的O(N³)计算复杂度。

所述步骤S4包括：在所述步骤S3被重复执行M次后，得到一系列采样结果

其中，

i＝1,2,...,M。而对于这个行列式采样过程最概然结果的推断，我们可以将重复采样M次中出现频率最高的结果作为这个行列式采样过程的最概然结果，或是采用贝叶斯最小风险(minimum Bayes risk,MBR)的统计方法来推断，即将这M次采样结果中与其他结果相关度最高的一个采样结果当作这个行列式采样过程的最概然结果。

综上所述，本实施例提供的文本总结方法是基于行列式采样的文本总结机器学习任务，其主要想法是把从文本中挑选句子这一行为处理为随机过程，并用行列式采样过程来刻画，由行列式采样的多样性可知，由这一随机过程可以挑选出句子之间句义重复最小的一组句子，可作为对文本的一个精简的总结。本发明通过降低行列式采样算法整体的采样复杂度使得其采样复杂度达到O(N³)级别，由此可以显著提高基于行列式采样(Determinantal Point Process)的机器学习的运算效率。数值计算表明在文本总结的机器学习任务中，获得较已知方法两倍的加速。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应当注意的是，在本文的实施方式中所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施方式仅仅是示意性的，例如，附图中的流程图和框图显示了根据本文的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用于执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本文各个实施方式中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。