CN118094019A

CN118094019A - 一种文本关联内容推荐方法、装置及电子设备

Info

Publication number: CN118094019A
Application number: CN202410524940.4A
Authority: CN
Inventors: 王伟萌; 朱韦桥; 张轩铭; 刘承亮; 张向阳; 麻磊; 孙晶; 惠伟; 贾晓非; 樊春雷; 马龙; 刘帅龙; 刘辰; 春意; 解辰辉; 郝伟俊; 阎胜勇; 曲左阳; 杨扬; 蔡宇晶
Original assignee: China Academy of Railway Sciences Corp Ltd CARS; Institute of Computing Technologies of CARS; Beijing Jingwei Information Technology Co Ltd
Current assignee: China Academy of Railway Sciences Corp Ltd CARS; Institute of Computing Technologies of CARS; Beijing Jingwei Information Technology Co Ltd
Priority date: 2024-04-29
Filing date: 2024-04-29
Publication date: 2024-05-28
Anticipated expiration: 2044-04-29
Also published as: CN118094019B

Abstract

本申请实施例涉及大模型技术领域，尤其涉及一种文本关联内容推荐方法、装置及电子设备。所述方法包括：获取待推荐公文文本；将所述待推荐公文文本输入至预训练生成式大模型，得到与所述待推荐公文文本相关的关键词；对所述关键词进行加权排序；根据所述关键词检索数据库，得到相关公文文本；将所述相关公文文本输入至摘要生成模型，得到多段摘要信息；根据所述关键词的加权排序对所述多段摘要信息进行排序并输出。通过增加关键词权重信息，为生成的摘要信息的文本重要性以及相关性等综合排序，实现用户可能最关心的摘要信息展现在最重要的位置，且仅展示某些关键信息，其他冗余或不相关的信息则被过滤掉。

Description

一种文本关联内容推荐方法、装置及电子设备

技术领域

本申请实施例涉及大模型技术领域，尤其涉及一种文本关联内容推荐方法、装置及电子设备。

背景技术

大语言模型是一种包含数千亿或更多的参数的深度学习模型，这些参数是通过大量的文本数据训练得到的。大语言模型基于Transformer架构，可以处理大量的自然语言文本，从中学习知识和语言规律，提高对自然语言的理解和生成能力，因此，大语言模型能够实现一些传统方法下难以实现的任务，例如文本生成、阅读理解、常识推理等。

现有的文本推荐方法是基于内容的文本推荐方法，通过分析输入文本的内容特征，计算输入文本与数据库中其他文本的相似度，将相似度最高的文本作为推荐文本。然而，根据文本相似度进行推荐无法很好的捕捉文本的抽象概念和概括性信息，导致推荐文本缺乏深度和广度。此外，根据文本相似度进行推荐，输出的是与输入文本相似的整篇文本，无法对推荐文本中的具体问题进行提炼归纳，需要用户对推荐文本全部阅读。

发明内容

本申请实施例提供了一种文本关联内容推荐方法、装置及电子设备，能够解决文本推荐内容缺失和突出性不强的问题。

第一方面，本申请实施例提供了一种文本关联内容推荐方法，所述方法包括：

获取待推荐公文文本；

将所述待推荐公文文本输入至预训练生成式大模型，得到与所述待推荐公文文本相关的关键词；

对所述关键词进行加权排序；

根据所述关键词检索数据库，得到相关公文文本；

将所述相关公文文本输入至摘要生成模型，得到多段摘要信息；

根据所述关键词的加权排序对所述多段摘要信息进行排序并输出。

在一种可能的设计中，还包括：

获取电子公文数据；

对所述电子公文数据进行预处理，包括：分词、去除停用词、词性标注；

使用低秩适配器方法训练大模型，得到预训练生成式大模型。

在一种可能的设计中，所述对所述关键词进行加权排序包括：

根据所述关键词在所述待推荐公文文本中出现的频率，设置每个关键词的权重。

在一种可能的设计中，还包括：

查询所述相关公文文本中包含所述关键词的语句；

结合所述包含所述关键词的语句生成多段摘要信息。

在一种可能的设计中，还包括：

统计每个摘要信息中包含的关键词的种类以及每种关键词的数量；

根据每种关键词的权重和每种关键词的数量计算第二权重；

根据所述第二权重对所述多段摘要信息进行排序。

第二方面，本申请实施例提供了一种文本关联内容推荐装置，所述装置包括：

接收模块，用于获取待推荐公文文本；

处理模块，用于将所述待推荐公文文本输入至预训练生成式大模型，得到与所述待推荐公文文本相关的关键词；对所述关键词进行加权排序；根据所述关键词检索数据库，得到相关公文文本；将所述相关公文文本输入至摘要生成模型，得到多段摘要信息；根据所述关键词的加权排序对所述多段摘要信息进行排序并输出。

第三方面，本申请实施例提供了一种电子设备，所述电子设备包括存储器和一个或多个处理器；其中，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述计算机指令被所述处理器执行时，使得所述电子设备执行第一方面或第一方面各种可能的实现方式中的方法的部分或全部步骤。

第四方面，本申请实施例提供了一种计算机存储介质，该计算机存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行第一方面或第一方面各种可能的实现方式中的方法的部分或全部步骤。

本申请提供了一种文本关联内容推荐方法，包括：获取待推荐公文文本；将所述待推荐公文文本输入至预训练生成式大模型，得到与所述待推荐公文文本相关的关键词；对所述关键词进行加权排序；根据所述关键词检索数据库，得到相关公文文本；将所述相关公文文本输入至摘要生成模型，得到多段摘要信息；根据所述关键词的加权排序对所述多段摘要信息进行排序并输出。通过增加关键词权重信息，为生成的摘要信息的文本重要性以及相关性等综合排序，实现用户可能最关心的摘要信息展现在最重要的位置，且仅展示某些关键信息，其他冗余或不相关的信息则被过滤掉。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本关联内容推荐方法流程图；

图2为本申请实施例提供的一种文本关联内容推荐装置200的示例性组成示意图；

图3为本申请实施例提供的电子设备300的示例性结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例的技术方案进行描述。

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”“一种”“所述”“上述”“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，尽管在以下实施例中可能采用术语第一、第二等来描述某一类对象，但所述对象不应限于这些术语。这些术语仅用来将该类对象的具体对象进行区分。例如，以下实施例中可能采用术语第一、第二等来描述权重，但权重不应限于这些术语。这些术语仅用来将不同的权重进行区分。以下实施例中可能采用术语第一、第二等来描述的其他类对象同理，此处不再赘述。

以下介绍本申请实施例涉及的实施场景，以及技术术语解释。

本申请实施例涉及预训练大模型技术领域，以公文文本库作为知识库，将公开的公文文本作为模型调参数据集，实现以关键词为中心的多段文本摘要生成并推荐。

以下通过几种实施方式介绍本申请实施例涉及的文本关联内容推荐方法。

如图1所示，图1示意了一种文本关联内容推荐方法100（以下简称方法100），方法100包括以下步骤：

步骤S101，获取待推荐公文文本。

该实施例中，待推荐公文文本可以是用户直接输入的短语、句子也可以是整篇公文，此外，本申请实施例还可以应用在企业综合协同办公等场景下，如在电子公文流转环节对于各类公文的审批，在审批环节可在相应位置对该公文重点内容进行分析。

步骤S102，将所述待推荐公文文本输入至预训练生成式大模型，得到与所述待推荐公文文本相关的关键词。

该实施例中，关键词可以为一个或者多个，用于表征待推荐公文文本的关键信息和主要内容。

步骤S103，对所述关键词进行加权排序。

步骤S104，根据所述关键词检索数据库，得到相关公文文本。

该实施例中，数据库中的公文数据是从电子公文系统中得到的，还包括已经公开的国家政策文件库中的内容，将全部公文数据汇总并进行预处理，得到本申请的检索数据库。

步骤S105，将所述相关公文文本输入至摘要生成模型，得到多段摘要信息。

该实施例中，可以是针对每一篇相关公文文本生成一个摘要信息，多篇相关公文文本生成多段摘要信息，也可以是针对每一篇相关公文文本生成多段摘要信息，本申请对此不做限制。

步骤S106，根据所述关键词的加权排序对所述多段摘要信息进行排序并输出。

一种可选的实施方式中，还包括：

获取电子公文数据；

使用低秩适配器方法训练大模型，得到预训练生成式大模型。该实施例中，首先从电子公文系统以及公开的国家政策文件库中采集电子公文数据，对所述电子公文数据进行整理和清洗，确保所述电子公文数据的准确性和完整性。随后进行数据预处理，包括：分词、去除停用词、词性标注等，以便后续模型训练。由于公文数据量较少，因此，采用低秩适配器方法微调预训练的生成式模型，低秩适配器方法能够减少训练要更新的参数数量，从而减少内存需求，且通过简化计算需求加速了预训练生成式大模型的训练和微调。

一种可选的实施方式中，所述对所述关键词进行加权排序包括：

根据所述关键词在所述待推荐公文文本中出现的频率，设置每个关键词的权重。该实施例中，通过词频-逆文本频率指数方法（term frequency–inverse documentfrequency，TF-IDF）对关键词进行加权，针对每个关键词，其权重与它在文件中出现的次数成正比增加，同时其权重与它在语料库中出现的频率成反比下降。通过TF-IDF方法对关键词进行加权排序，能够使得最能够表征待推荐文本的关键词的排序靠前。

一种可选的实施方式中，还包括：

查询所述相关公文文本中包含所述关键词的语句；

结合所述包含所述关键词的语句生成多段摘要信息。该实施例中，根据关键词检索数据库得到的相关公文文本中，并非全篇文本均是与关键词相关的内容，每篇公文都有重点描述的主题，也有相关性主题，如果不考虑关键词直接生成摘要可能导致关键信息在摘要中被忽略或丢失，从而降低了摘要的质量和有效性。因此，需要先找到相关公文文本中与关键词相关的内容，再结合与关键词相关的内容，通过摘要生成模型生成摘要信息。这样得到的摘要信息才是与关键词相关的内容，也是与待推荐公文文本相关的摘要信息。

一种可选的实施方式中，还包括：

根据每种关键词的权重和每种关键词的数量计算第二权重；

根据所述第二权重对所述多段摘要信息进行排序。

该实施例中，多篇相关公文文本对应着多个摘要信息，在向用户输出时，需要有先后顺序，且每篇公文文章的主题可能不同，因此，需要对多个摘要信息进行排序。一个摘要信息中可能包含多个关键词，同一个关键词也可能出现多次，因此，根据关键词的种类和数量计算每个摘要信息的第二权重，并根据第二权重进行排序。通过关键词权重进行摘要信息的排序可以让重点主题的内容排序在前，使得用户有更好的参考体验。

综上，本申请实施例的文本关联内容推荐方法，通过生成式大模型生成关键词，并根据关键词权重对摘要信息进行排序展示，可以更好的将与待推荐公文文本相关的内容进行推荐。且生成的结果是汇总性的，能够提炼文本中最具代表性和相关性的语句，无需用户阅读全篇内容即可得到与该篇公文主题最相近的内容。通过关键词检索相关文本不受用户输入的限制，可以应用于各种类型和长度的文本。且关键词通常具有较强的语义可解释性，可以直观地反应待推荐公文文本的主题和内容。此外，还将摘要信息进行排序展示，用户可以第一时间掌握最接近的推荐重点，直接反应推荐文本与待推荐文本的强相关性。

对应图1所述的方法，本申请实施例还提供了执行上述方法的装置。

如图2所示，图2示意了一种文本关联内容推荐装置200，所述装置包括：

接收模块201，用于获取待推荐公文文本；

处理模块202，用于将所述待推荐公文文本输入至预训练生成式大模型，得到与所述待推荐公文文本相关的关键词；对所述关键词进行加权排序；根据所述关键词检索数据库，得到相关公文文本；将所述相关公文文本输入至摘要生成模型，得到多段摘要信息；根据所述关键词的加权排序对所述多段摘要信息进行排序并输出。

可以理解的是，以上各个模块/单元的划分仅仅是一种逻辑功能的划分，实际实现时，该以上各模块的功能可以集成到硬件实体实现，例如，处理模块的功能可以集成到处理器实现，接收模块的功能可以集成到收发器实现，实现上述各模块功能的程序和指令，可以维护在存储器中。例如，图3提供了一种电子设备300，该电子设备300包括可以包括处理器301、收发器302和存储器303。其中，收发器302用于执行方法100中各数据和信号的收发。存储器303可以用于存储处理器301执行方法100所需的程序/代码等。

具体实现中，对应前述电子设备300，本申请实施例还提供一种计算机存储介质，其中，设置在电子设备300中的计算机存储介质可存储有程序，该程序执行时，可实施包括方法100至方法300的各实施例中的部分或全部步骤。该存储介质均可为磁碟、光盘、只读存储记忆体（read-only memory，ROM）或随机存储记忆体（random access memory，RAM）等。

所属领域的技术人员可以了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法，装置和系统，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，云游戏的控制装置，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-onlymemory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

尽管已描述了本申请的可选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种文本关联内容推荐方法，其特征在于，所述方法包括：

获取待推荐公文文本；

对所述关键词进行加权排序；

根据所述关键词检索数据库，得到相关公文文本；

2.如权利要求1所述的方法，其特征在于，还包括：

获取电子公文数据；

3.如权利要求1所述的方法，其特征在于，所述对所述关键词进行加权排序包括：

4.如权利要求1所述的方法，其特征在于，还包括：

查询所述相关公文文本中包含所述关键词的语句；

结合所述包含所述关键词的语句生成多段摘要信息。

5.如权利要求1所述的方法，其特征在于，还包括：

根据每种关键词的权重和每种关键词的数量计算第二权重；

根据所述第二权重对所述多段摘要信息进行排序。

6.一种文本关联内容推荐装置，其特征在于，所述装置包括：

接收模块，用于获取待推荐公文文本；

7.一种电子设备，其特征在于，所述电子设备包括存储器和一个或多个处理器；其中，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述计算机指令被所述处理器执行时，使得所述电子设备执行如权利要求1至5中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，包括计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至5中任一项所述的方法。