CN114741499B

CN114741499B - 一种基于句子语义模型的文本摘要生成方法和系统

Info

Publication number: CN114741499B
Application number: CN202210639620.4A
Authority: CN
Inventors: 周泽伟; 杨红飞; 金霞; 程东
Original assignee: Hangzhou Firestone Technology Co ltd
Current assignee: Huoshi Creation Technology Co ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-09-06
Anticipated expiration: 2042-06-08
Also published as: CN114741499A

Abstract

本申请涉及一种基于句子语义模型的文本摘要生成方法和系统，其中，该方法包括：获取文本与文本标签，对文本进行语句划分，并对划分后的文本语句进行切词处理，得到词向量；根据词向量聚合得到文本语句向量，根据文本语句向量与文本标签，获取待生成的文本摘要所在的段落；计算待生成的文本摘要所在的段落中每个文本语句向量与文本标签的语义距离，并对语义距离按照由近及远的规则进行排序，确定最终的文本摘要。通过本申请，不仅可以解决关键词频数方法的使用范围局限、逻辑不灵活和可扩展性差的问题，还能兼顾模型准确率与模型预测时间的平衡性，即能同时保证模型准确率与模型的预测时间可用性。

Description

一种基于句子语义模型的文本摘要生成方法和系统

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种基于句子语义模型的文本摘要生成方法和系统。

背景技术

现如今，对于文本摘要生成的方法，主要有关键词词频数方法与基于一般的机器学习方法。比如，专利《文本摘要生成方法、装置、设备及存储介质》通过Transformer和Seq2Seq模型获取丰富的编码向量进行文本摘要，提升文本摘要的准确性。专利《中文文本摘要生成系统及方法》利用神经网络让机器阅读全文，将理解后的文本表示在神经网络内，再序列化的输出简短精准的摘要。尽管采用机器学习可以更加精细的理解全文，但是对于这种基于一般的机器学习模型生成文本摘要的方法，其模型的准确率与模型预测时间的可用性很难平衡，会导致这类方法并不一定都适用于实际的大规模数据中，可应用性较低。而对于常见的关键词频数法，其缺点是使用范围有限、逻辑不灵活、可扩展性差。

因此，如何解决上述相关技术中存在的问题，是本领域亟待解决的技术问题。

发明内容

本申请实施例提供了一种基于句子语义模型的文本摘要生成方法和系统，以至少解决由于相关技术的限制和缺陷而导致的一个或者多个问题。

第一方面，本申请实施例提供了一种基于句子语义模型的文本摘要生成方法，所述方法包括：

获取文本与文本标签，对所述文本进行语句划分，并对划分后的文本语句进行切词处理，得到词向量；

根据所述词向量聚合得到文本语句向量，根据所述文本语句向量与所述文本标签，获取待生成的文本摘要所在的段落；

计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义距离，并对所述语义距离按照由近及远的规则进行排序，确定最终的文本摘要。

在其中一些实施例中，根据所述词向量聚合得到文本语句向量包括：

根据所述词向量，通过自定义计算方法聚合得到文本语句向量，其中，计算公式如下：

其中，Wi(Wij)为文本句子分词后的第i个词向量，n为词向量的维度，L为文本语句中的词个数，V_SENTENCE_k为聚合得到的文本语句向量。

在其中一些实施例中，根据所述文本语句向量与所述文本标签，获取待生成的文本摘要所在的段落包括：

根据所述文本语句向量与所述文本标签，通过自定义计算方法，计算得到待生成的文本摘要所在的段落，计算公式如下：

其中，KS为段落Paragraph_k的语句个数，KP为文本的段落个数, Wi 为文本句子分词后的第i个词向量，DISTANCE(TEXT, V_SENTENCE_k)为句子V_SENTENCE_k与标签向量TEXT的语义距离，DISTANCE(TEXT, Paragraph_k)为段落Paragraph_k与标签向量TEXT的语义距离，PARAGRAPH_SELECT为待生成的文本摘要所在的段落。

在其中一些实施例中，计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义距离包括：

通过自定义计算方法，计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义距离，计算公式如下：

其中，PS_V_SENTENCE_k为待生成的文本摘要所在的段落中每个文本语句向量，TEXT为文本标签向量，Wi 为文本句子分词后的第i个词向量。

在其中一些实施例中，对所述语义距离按照由近及远的规则进行排序，生成TopK语句包括：

通过自定义计算方法，对所述语义距离按照由近及远的规则进行排序，生成TopK语句，计算公式如下：

其中，ORDER_DISTANCE(TEXT, PS_V_SENTENCE_k)为每个文本语句与文本标签的语义距离排序。

在其中一些实施例中，对划分后的文本语句进行切词处理，得到词向量包括：

对所述划分后的文本语句进行切词处理，得到多个词，通过词向量生成法将得到的词生成相应的词向量。

在其中一些实施例中，对所述文本进行语句划分包括：

以句号为基准，对文本进行语句划分，每遇到一个句号则划分得到一个语句。

第二方面，本申请实施例提供了一种基于句子语义模型的文本摘要生成系统，所述系统包括：

语句划分模块，用于获取文本与文本标签，对所述文本进行语句划分，并对划分后的文本语句进行切词处理，得到词向量；

段落获取模块，用于根据所述词向量聚合得到文本语句向量，根据所述文本语句向量与所述文本标签，获取待生成的文本摘要所在的段落；

摘要生成模块，用于计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义距离，并对所述语义距离按照由近及远的规则进行排序，确定最终的文本摘要。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的基于句子语义模型的文本摘要生成方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的基于句子语义模型的文本摘要生成方法。

相比于相关技术，本申请实施例提供的基于句子语义模型的文本摘要生成方法，获取文本与文本标签，对文本进行语句划分，并对划分后的文本语句进行切词处理，得到词向量；根据词向量聚合得到文本语句向量，根据文本语句向量与文本标签，获取待生成的文本摘要所在的段落；计算待生成的文本摘要所在的段落中每个文本语句向量与文本标签的语义距离，并对语义距离按照由近及远的规则进行排序，确定最终的文本摘要。

通过本申请不仅可以解决关键词频数方法的使用范围局限、逻辑不灵活和可扩展性差的问题，还能兼顾模型准确率与模型预测时间的平衡性，即能同时保证模型准确率与模型的预测时间可用性。本申请方法的可扩展性、可解释性较强，覆盖范围较广，在不同类型的文本以及不同的项目中均可得到很好的实际应用。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基于句子语义模型的文本摘要生成方法的应用环境示意图；

图2是根据本申请实施例的基于句子语义模型的文本摘要生成方法的流程图；

图3是根据本申请实施例的基于句子语义模型的文本摘要生成系统的结构框图；

图4是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块（单元）的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请提供的基于句子语义模型的文本摘要生成方法，可以应用于如图1所示的应用环境中，图1是根据本申请实施例的基于句子语义模型的文本摘要生成方法的应用环境示意图，如图1所示。其中，终端11与服务器10通过网络进行通信。服务器10获取文本与文本标签，对文本进行语句划分，并对划分后的文本语句进行切词处理，得到词向量；根据词向量聚合得到文本语句向量，根据文本语句向量与文本标签，获取待生成的文本摘要所在的段落；计算待生成的文本摘要所在的段落中每个文本语句向量与文本标签的语义距离，并对语义距离按照由近及远的规则进行排序，确定最终的文本摘要，显示于终端11上。其中，终端11可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器10可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例提供了一种基于句子语义模型的文本摘要生成方法，图2是根据本申请实施例的基于句子语义模型的文本摘要生成方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取文本与文本标签，对文本进行语句划分，并对划分后的文本语句进行切词处理，得到词向量。

首先，获取待生成文本摘要的文本和文本标签，例如，以某一新闻报道为例，输入文本标签：新材料；然后，以句号为基准，对文本进行语句划分，即每遇到一个句号则划分得到一个语句。

接着，对划分后的文本语句进行切词处理，得到词向量。优选的，本实施例中对划分后的文本语句进行切词处理，得到多个词，然后通过词向量生成法，如word2vec、bert等方法，将得到的词生成相应的词向量。需要说明的是，可根据实际情况自定义设置词向量的空间维度。例如，通过上述步骤得到文本中的二维词向量“锂电池”等。

步骤S202，根据词向量聚合得到文本语句向量，根据文本语句向量与文本标签，获取待生成的文本摘要所在的段落；

优选的，本实施例中根据文本语句中每个词向量所在的空间，通过自定义计算方法聚合得到文本语句向量，其中，计算公式如下式（1）所示：

（1）

接着，根据文本语句向量与文本标签，通过自定义计算方法，计算得到待生成的文本摘要在整个文本中所在的段落，计算公式如下式（2）-（4）所示：

（2）

（3）

（4）

本实施例中将获取的任一词向量都可以进行聚合处理，可以多种文本语句向量，相比于传统的关键词频数方法，可以扩大使用范围，可扩展性更高

步骤S203，计算待生成的文本摘要所在的段落中每个文本语句向量与文本标签的语义距离，并对语义距离按照由近及远的规则进行排序，确定最终的文本摘要。

通过步骤S202获取得到待生成的文本摘要在整个文本中所在的段落之后，优选的，本实施例通过自定义计算方法，计算该待生成的文本摘要所在的段落中每个文本语句向量与文本标签“新材料”的语义向量距离，计算公式如下式（5）所示：

（5）

在通过上式得到相应的语义距离之后，通过自定义计算方法，对语义距离按照由近及远的规则进行排序，确定排在前面的K个语句为最终的文本摘要，其中K值可根据实际情况进行选取。具体计算公式如下（6）所示：

（6）

本实施例通过语义距离的计算，不仅精确而且能快速得到出最佳结果，因此能同时保证模型准确率与模型的预测时间可用性。使得本方法在不同类型的文本以及不同的项目中均可得到很好的实际应用。

通过上述步骤S201至步骤S203，本实施例基于句子语义模型对文本语句进行切割和向量聚合，得到文本语句向量，接着根据文本语句向量与标签向量之间的语义计算，获取文本摘要所在的段落，从而缩小生成计算范围。最后将待生成文本摘要所在的段落中的每个文本语句与标签进行语义距离计算和排序，确定最终的文本摘要。不仅可以解决关键词频数方法的使用范围局限、逻辑不灵活和可扩展性差的问题，还能兼顾模型准确率与模型预测时间的平衡性，即能同时保证模型准确率与模型的预测时间可用性。本申请方法的可扩展性、可解释性较强，覆盖范围较广，在不同类型的文本以及不同的项目中均可得到很好的实际应用。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种基于句子语义模型的文本摘要生成系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本申请实施例的基于句子语义模型的文本摘要生成系统的结构框图，如图3所示，该系统包括语句划分模块31、段落获取模块32和摘要生成模块33：

语句划分模块31，用于获取文本与文本标签，对文本进行语句划分，并对划分后的文本语句进行切词处理，得到词向量；段落获取模块32，用于根据词向量聚合得到文本语句向量，根据文本语句向量与文本标签，获取待生成的文本摘要所在的段落；摘要生成模块33，用于计算待生成的文本摘要所在的段落中每个文本语句向量与文本标签的语义距离，并对语义距离按照由近及远的规则进行排序，确定最终的文本摘要。

通过上述系统，本实施例基于句子语义模型对文本语句进行切割和向量聚合，得到文本语句向量，接着根据文本语句向量与标签向量之间的语义计算，获取文本摘要所在的段落，从而缩小生成计算范围。最后将待生成文本摘要所在的段落中的每个文本语句与标签进行语义距离计算和排序，确定最终的文本摘要。不仅可以解决关键词频数方法的使用范围局限、逻辑不灵活和可扩展性差的问题，还能兼顾模型准确率与模型预测时间的平衡性，即能同时保证模型准确率与模型的预测时间可用性。本申请方法的可扩展性、可解释性较强，覆盖范围较广，在不同类型的文本以及不同的项目中均可得到很好的实际应用。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

此外，需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

另外，结合上述实施例中的基于句子语义模型的文本摘要生成方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种基于句子语义模型的文本摘要生成方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于句子语义模型的文本摘要生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图4是根据本申请实施例的电子设备的内部结构示意图，如图4所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统和计算机程序的运行提供环境，计算机程序被处理器执行时以实现一种基于句子语义模型的文本摘要生成方法，数据库用于存储数据。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于句子语义模型的文本摘要生成方法，其特征在于，所述方法包括：

根据所述词向量聚合得到文本语句向量，根据所述文本语句向量与所述文本标签，获取待生成的文本摘要所在的段落，具体步骤包括：根据文本语句向量与文本标签，通过自定义计算方法，计算得到待生成的文本摘要在整个文本中所在的段落，计算公式如下式所示：

其中，KS为段落Paragraph_k的语句个数，KP为文本的段落个数, Wi 为文本句子分词后的词向量，DISTANCE(TEXT, V_SENTENCE_k)为句子V_SENTENCE_k与标签向量TEXT的语义距离，DISTANCE(TEXT, Paragraph_k)为段落Paragraph_k与标签向量TEXT的语义距离，PARAGRAPH_SELECT为待生成的文本摘要所在的段落；

2.根据权利要求1所述的方法，其特征在于，根据所述词向量聚合得到文本语句向量包括：

3.根据权利要求1所述的方法，其特征在于，计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义距离包括：

其中，PS_V_SENTENCE_k为待生成的文本摘要所在的段落中每个文本语句向量，TEXT为文本标签向量，Wi 为文本句子分词后的词向量。

4.根据权利要求1所述的方法，其特征在于，对所述语义距离按照由近及远的规则进行排序，生成TopK语句包括：

其中，ORDER_DISTANCE(TEXT, PS_V_SENTENCE_k)为每个文本语句与文本标签的语义距离排序，PS_V_SENTENCE_k为待生成的文本摘要所在的段落中每个文本语句向量，TEXT为文本标签向量。

5.根据权利要求1所述的方法，其特征在于，对划分后的文本语句进行切词处理，得到词向量包括：

6.根据权利要求1所述的方法，其特征在于，对所述文本进行语句划分包括：

7.一种基于句子语义模型的文本摘要生成系统，其特征在于，所述系统包括：

段落获取模块，用于根据所述词向量聚合得到文本语句向量，根据所述文本语句向量与所述文本标签，获取待生成的文本摘要所在的段落，具体步骤包括：根据文本语句向量与文本标签，通过自定义计算方法，计算得到待生成的文本摘要在整个文本中所在的段落，计算公式如下式所示：

8.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项所述的基于句子语义模型的文本摘要生成方法。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至6中任一项所述的基于句子语义模型的文本摘要生成方法。