CN116108831A

CN116108831A - 基于领域词提取文本摘要的方法、装置、设备及介质

Info

Publication number: CN116108831A
Application number: CN202310379800.8A
Authority: CN
Inventors: 丑晓慧
Original assignee: Ningbo Deepq Information Technology Co ltd
Current assignee: Ningbo Deepq Information Technology Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-05-12
Anticipated expiration: 2043-04-11
Also published as: CN116108831B

Abstract

本申请涉及一种基于领域词提取文本摘要的方法、装置、设备及介质。该方法包括：对各待处理句子进行相似度计算，并基于图排序对相似度矩阵进行图权重计算，得到第一句子序列；然后基于领域词库对各待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重；根据每个待处理句子的权重对各待处理句子进行排序，得到第二句子序列；将第一句子序列与第二句子序列进行权重融合，抽取第一句子序列中待处理句子在第二句子序列中权重靠前的句子作为待处理领域文本的摘要。本申请适用于金融、医疗、工业等领域，所提取更具有领域意义的文本摘要。

Description

基于领域词提取文本摘要的方法、装置、设备及介质

技术领域

本申请涉及文本提取技术领域，特别是涉及一种基于领域词提取文本摘要的方法、装置、设备及介质。

背景技术

所谓摘要，是以提供文献内容梗概为目的，不加评论和补充解释，简明、确切地记述文献重要内容的短文，即在保证能够反映原文档的重要内容的情况下，尽可能地保持简明扼要。质量良好的文摘能够在信息检索过程中发挥重要的作用，比如利用文本摘要参与索引，可以有效缩短检索的时间，同时也能减少检索结果中的冗余信息，提高用户体验。随着信息爆炸时代的到来，自动文摘逐渐成为自然语言处理领域的一项重要的研究课题。

传统的文本摘要提取方法主要分为抽取式和分布式的算法，抽取式算法主要是从原文中提取核心句组合作为摘要，生成式是通过原文生成新的短文本作为摘要。例如财经新闻看重内容数据的真实准确性，抽取式算法使用原文中的句子，相对完整的保留了原文中的原始信息，对于财经领域的数字地点关系等还原度高，不易出错。

然而，传统提取文本摘要的方式是使用textrank进行文本抽取计算，通过构建句子相似矩阵图能够计算出高权重句子，即核心关键句，但句子中涉及的领域含义并未被算法关注到，而在实际应用中，读者更关注领域意义突出的文本摘要，比如金融领域的读者更加关心文章提及的领域概念信息，句子中包含领域词汇会更加吸引读者注意，对文章领域内容的概括也具有更好的提炼效果。因此，传统的抽取式文本摘要方法提取的文本摘要核心句领域概念重要性不高，对于关注领域信息的读者参考性不强。

发明内容

基于此，有必要针对上述技术问题，提供一种能够强化领域概念、使提取的本文摘要为核心句的基于领域词提取文本摘要的方法、装置、设备及介质；通过基于图排序算法的句子权重计算得到第一句子序列，然后基于领域词分布的句子权重计算得到第二句子序列，最后将第一句子序列与第二句子序列进行权重融合，提取更具有领域意义的文本摘要。

一种基于领域词提取文本摘要的方法，包括：

对待处理领域文本进行处理，得到若干待处理句子；对各所述待处理句子进行相似度计算，得到待处理句子之间的相似度矩阵；基于图排序对所述相似度矩阵进行图权重计算，得到第一句子序列；

基于领域词库对各所述待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重；根据每个待处理句子的权重对各所述待处理句子进行排序，得到第二句子序列；

将所述第一句子序列与所述第二句子序列进行权重融合，抽取所述第一句子序列中待处理句子在所述第二句子序列中权重靠前的待处理句子作为所述待处理领域文本的摘要。

其中一个实施例中，对各所述待处理句子进行相似度计算，得到待处理句子之间的相似度矩阵之前还包括：

采用领域文本数据对预训练语言模型进行训练，得到领域预训练语言模型；通过所述领域预训练语言模型对待处理句子进行向量化表示，得到各所述待处理句子对应的句子向量；对各所述句子向量进行相似度计算，得到待处理句子之间的相似度矩阵。

其中一个实施例中，对各所述待处理句子进行相似度计算，得到句子之间的相似度矩阵，包括：

采用余弦相似度算法对各所述待处理句子进行文本相似度计算，所述余弦相似度算法表示为：

；

其中，表示句子的向量；表示句子的向量；

通过余弦相似度算法对句子进行相似度计算，得到句子之间的相似度矩阵。

其中一个实施例中，基于图排序对所述相似度矩阵进行图权重计算，得到第一句子序列，包括：

将各所述待处理句子的每个句子作为节点构建节点连接图，并将每个句子任意两两之间的相似度作为连接边权重，对当前句子进行权重计算；

迭代传播各节点的权重，得到最终收敛的图权重；根据所述最终收敛的图权重进行降权排序，得到第一句子序列。

其中一个实施例中，对当前句子进行权重计算的公式表示为：

；

其中，表示句子的权重；表示句子的权重；、表示任意两节点；表示指向节点的点集合；表示节点指向任意点的集合；表示节点与节点的相似度；表示节点与节点的相似度；表示阻尼系数；表示指向的节点。

其中一个实施例中，基于领域词库对各所述待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重，包括：

基于领域词库对各所述待处理句子中的领域词进行识别匹配，生成领域词分布图；

根据所述领域词分布图对各所述待处理句子中的领域词权重进行计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个句子的权重。

其中一个实施例中，根据所述领域词分布图对各所述待处理句子中的领域词权重进行计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个句子的权重，包括：

基于所述领域词分布图对各所述待处理句子中的领域词权重进行计算，所述领域词权重的计算表示为：

；

对每个待处理句子中所包含的领域词权重进行求和，得到每个句子的权重，为：

；

其中，表示连接边的数量；表示领域词的数量；表示个领域词；表示第个领域词的权重。

一种基于领域词提取文本摘要的装置，包括：

第一句子序列计算模块，用于对待处理领域文本进行处理，得到若干待处理句子；对各所述待处理句子进行相似度计算，得到待处理句子之间的相似度矩阵；基于图排序对所述相似度矩阵进行图权重计算，得到第一句子序列；

第二句子序列计算模块，用于基于领域词库对各所述待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重；根据每个待处理句子的权重对各所述待处理句子进行排序，得到第二句子序列；

摘要提取模块，用于将所述第一句子序列与所述第二句子序列进行权重融合，抽取所述第一句子序列中待处理句子在所述第二句子序列中权重靠前的待处理句子作为所述待处理领域文本的摘要。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

步骤102，对待处理领域文本进行处理，得到若干待处理句子；对各所述待处理句子进行相似度计算，得到待处理句子之间的相似度矩阵；基于图排序对所述相似度矩阵进行图权重计算，得到第一句子序列；

步骤104，基于领域词库对各所述待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重；根据每个待处理句子的权重对各所述待处理句子进行排序，得到第二句子序列；

步骤106，将所述第一句子序列与所述第二句子序列进行权重融合，抽取所述第一句子序列中待处理句子在所述第二句子序列中权重靠前的待处理句子作为所述待处理领域文本的摘要。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于领域词提取文本摘要的方法、装置、设备及介质，首先对待处理领域文本进行处理，得到若干待处理句子；对各待处理句子进行相似度计算，得到待处理句子之间的相似度矩阵；基于图排序对相似度矩阵进行图权重计算，得到第一句子序列；然后基于领域词库对各待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重；根据每个待处理句子的权重对各待处理句子进行排序，得到第二句子序列；将第一句子序列与第二句子序列进行权重融合，抽取第一句子序列中待处理句子在第二句子序列中权重靠前的待处理句子作为待处理领域文本的摘要。采用本申请的基于领域词提取文本摘要的方法，首先基于图排序算法的句子权重计算得到第一句子序列，然后基于领域词分布的句子权重计算得到第二句子序列，最后将第一句子序列与第二句子序列进行权重融合，提取更具有领域意义的文本摘要。

附图说明

图1为一个实施例中基于领域词提取文本摘要的方法流程示意图；

图2为一个实施例中基于领域词提取文本摘要的方法流程框架图；

图3为一个实施例中基于领域词提取文本摘要的方法中领域词分布图；

图4为一个实施例中基于领域词提取文本摘要的装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体地限定。

本申请提供的基于领域词提取文本摘要的方法、装置、设备及介质，适用于领域性较强的文本摘要提取，比如金融领域、医疗领域、工业领域等。通过基于图排序算法的句子权重计算得到第一句子序列，然后基于领域词分布的句子权重计算得到第二句子序列，最后将第一句子序列与第二句子序列进行权重融合，提取更具有领域意义的文本摘要。

在一个实施例中，如图1和图2所示，提供了一种基于领域词提取文本摘要的方法，包括以下步骤：

步骤102，对待处理领域文本进行处理，得到若干待处理句子；对各待处理句子进行相似度计算，得到待处理句子之间的相似度矩阵；基于图排序对相似度矩阵进行图权重计算，得到第一句子序列L1。

具体地，在进行计算之前，首先采用需要的领域文本数据对bert预训练语言模型进行further pretrain训练，得到针对性较强的领域预训练语言模型；通过领域预训练语言模型对各待处理句子进行向量化表示，得到各待处理句子对应的句子向量；通过对各句子向量进行相似度计算，得到待处理句子之间的相似度矩阵。比如，采用金融领域的数据对bert预训练语言模型进行further pretrain训练，得到金融领域预训练语言模型，然后通过金融领域预训练语言模型对金融领域的文本句子进行向量化表示。

相似度计算可以采用多种算法，一般采用余弦相似度算法进行文本相似度计算，余弦相似度算法表示为：

；

其中，表示句子的向量；表示句子的向量；通过余弦相似度算法对句子进行相似度计算，得到句子之间的相似度矩阵。

然后，将待处理领域文本基于标点符号分割成若干待处理句子，将各待处理句子的每个句子作为节点构建节点连接图，并将每个句子任意两两之间的相似度作为连接边权重，同时默认句子之间都是相邻关系，使用句子之间的相似度矩阵带入权重公式，对当前句子进行权重计算，当前句子的权重计算公式表示为：

；

迭代传播各节点的权重，直至收敛，得到最终收敛的图权重；根据所述最终收敛的图权重进行降权排序，得到第一句子序列L1。

将进行训练后的领域预训练语言模型应用在句子向量的计算，在对句子向量进行相似度计算时，其相似度得分在语义关系的相似度上效果比传统的BM25算法中直接使用词汇语素计算句子相似度的效果更佳。

步骤104，基于领域词库对各待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重；根据每个待处理句子的权重对各待处理句子进行排序，得到第二句子序列L2。

具体地，首先将待处理领域文本中的领域词按照顺序关系组成分布图（source-target），主要是通过命名实体识别的方式对待处理领域文本进行序列标注；然后基于领域词库对分割后的各待处理句子中的领域词进行识别匹配，生成领域词分布图。例如：原文为：xxxAxxxBxx，CxxxDxxxAxxxExxFxxxDxxxF；其中领域词为ABCDEF，x表示非领域词，通过命名实体识别的方式得到领域词序列：ABCDAEFDF，最后生成如图3所示的领域词分布图，采用分布图的方式，只要有连接关系即可，不需要有方向。

根据领域词分布图对各待处理句子中的领域词权重进行计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个句子的权重。

其中，领域词权重的计算表示为：

；

对每个待处理句子中所包含的领域词权重进行求和，得到的每个句子的权重表示为：

；

其中表示连接边的数量；表示领域词的数量；表示个领域词；表示第个领域词的权重。

根据每个句子的权重对各待处理句子进行排序，得到第二句子序列L2。

值得说明的是，本申请的领域词为具有领域含义的词汇，其扩充方式为：1）通过业务专家人工运营标签的词；2）使用命名实体识别算法扩充的领域词汇。比如，对于金融领域，领域词汇包括运营自定义金融标签体系中的词和使用序列标注方式收集的金融业务词汇，序列标注主要采用命名实体识别方式，其扩充的主要是比较关键的公司名、基金名、地名、人名，主要使用BERT+LSTM+CRF算法进行扩充。

步骤106，将第一句子序列与第二句子序列进行权重融合，抽取第一句子序列中待处理句子在第二句子序列中权重靠前的待处理句子作为待处理领域文本的摘要。

具体地，抽取第一句子序列L1中待处理句子在第二句子序列L2中权重靠前的句子作为候选的第三句子序列L3，删除第三句子序列L3句首的数字编号，其正则表达式表示为：^[0-9]([.、])；基于待处理领域文本的句子顺序关系对第三句子序列L3重新排序，得到第四句子序列L4；根据摘要长度的限制条件，对第三句子序列L3的文本进行截断，得到最终的文本摘要。

值得说明的是，第一句子序列L1是语义相似矩阵迭代运算优先的句子，更侧重句子语意重要性；第二句子序列L2是业务含义优先权重的句子，更侧重业务含义。通过二者的结合，既保障基于算法计算的结果基础上，又保证了包含业务的句子的优先性，可以得到兼顾语义和业务含义优先的最佳句子组合。

应该理解的是，虽然图1和图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于领域词提取文本摘要的装置，包括：第一句子序列计算模块、第二句子序列计算模块和摘要提取模块，其中：

第一句子序列计算模块，用于对待处理领域文本进行处理，得到若干待处理句子；对各待处理句子进行相似度计算，得到待处理句子之间的相似度矩阵；基于图排序对所述相似度矩阵进行图权重计算，得到第一句子序列；

第二句子序列计算模块，用于基于领域词库对各待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重；根据每个待处理句子的权重对各待处理句子进行排序，得到第二句子序列；

摘要提取模块，用于将第一句子序列与第二句子序列进行权重融合，抽取第一句子序列中待处理句子在第二句子序列中权重靠前的待处理句子作为待处理领域文本的摘要。

关于基于领域词提取文本摘要的装置的具体限定可以参见上文中对于基于领域词提取文本摘要的方法的限定，在此不再赘述。上述基于领域词提取文本摘要的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于领域词提取文本摘要的方法数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于领域词提取文本摘要的方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

步骤102，对待处理领域文本进行处理，得到若干待处理句子；对各待处理句子进行相似度计算，得到待处理句子之间的相似度矩阵；基于图排序对相似度矩阵进行图权重计算，得到第一句子序列；

步骤104，基于领域词库对各待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重；根据每个待处理句子的权重对各待处理句子进行排序，得到第二句子序列；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于领域词提取文本摘要的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于领域词提取文本摘要的方法，其特征在于，对各所述待处理句子进行相似度计算，得到待处理句子之间的相似度矩阵之前还包括：

采用领域文本数据对预训练语言模型进行训练，得到领域预训练语言模型；通过所述领域预训练语言模型对各待处理句子进行向量化表示，得到各所述待处理句子对应的句子向量；对各所述句子向量进行相似度计算，得到待处理句子之间的相似度矩阵。

3.根据权利要求2所述的基于领域词提取文本摘要的方法，其特征在于，对各所述待处理句子进行相似度计算，得到句子之间的相似度矩阵，包括：

；

其中，表示句子的向量；表示句子的向量；

4.根据权利要求3所述的基于领域词提取文本摘要的方法，其特征在于，基于图排序对所述相似度矩阵进行图权重计算，得到第一句子序列，包括：

将各所述待处理句子作为节点构建节点连接图，并将每个句子任意两两之间的相似度作为连接边权重，对当前句子进行权重计算；

5.根据权利要求4所述的基于领域词提取文本摘要的方法，其特征在于，对当前句子进行权重计算的公式表示为：

；

6.根据权利要求1或2所述的基于领域词提取文本摘要的方法，其特征在于，基于领域词库对各所述待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重，包括：

7.根据权利要求6所述的基于领域词提取文本摘要的方法，其特征在于，根据所述领域词分布图对各所述待处理句子中的领域词权重进行计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个句子的权重，包括：

；

8.一种基于领域词提取文本摘要的装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。