CN117633214A

CN117633214A - 一种文章大纲生成方法、装置和存储介质

Info

Publication number: CN117633214A
Application number: CN202410114030.9A
Authority: CN
Inventors: 张顺; 马永亮; 周明
Original assignee: Beijing Lanzhou Technology Co ltd
Current assignee: Beijing Lanzhou Technology Co ltd
Priority date: 2024-01-27
Filing date: 2024-01-27
Publication date: 2024-03-01
Anticipated expiration: 2044-01-27
Also published as: CN117633214B

Abstract

本发明涉及计算机技术领域，特别涉及一种文章大纲生成方法、装置和存储介质。本发明提供的文章大纲生成方法通过获取文章拆分为段落并基于LLM生成包括多个标题的通用大纲，针对段落基于语义相似度从通用大纲中选出初选标题，基于LLM按照语义概括关系构建标题‑段落集合，二次验证标题与段落语义关系，根据标题‑段落集合是否标题为空，分别更新得到更新标题集合及生成得到新生成标题集合，并基于LLM更新得到个性化大纲。本发明提供的文章大纲生成方法根据具体文章素材及用户要求，动态生成个性化大纲满足个性化需求，更有针对性和相关性，并具备大纲生成补充功能补充完善大纲信息，大纲可全局更新使得大纲标题逻辑性更强。

Description

一种文章大纲生成方法、装置和存储介质

技术领域

本发明涉及计算机技术领域，其特别涉及一种文章大纲生成方法、装置和存储介质。

背景技术

传统的大纲生成技术大多为基于模版的大纲，针对一种类型的文档，采用统一的一种或几种大纲逻辑。如公司研究报告中，通常以“公司概况”、“财务情况”、“行业分析”作为大纲中的标题，这使得大纲内容过于泛化，无法根据实际文章素材生成具体化、细节化的标题内容，从而阅读者无法从标题中获取有效信息；同时也会造成写作者难以根据大纲的关键信息进行素材的有效归纳总结。

发明内容

为了解决上述问题，本发明提供一种文章大纲生成方法、装置和存储介质。

本发明为解决上述技术问题，提供如下的技术方案：一种文章大纲生成方法，包括以下步骤：

步骤S1，获取文章并分段为多个段落；

步骤S2，基于LLM根据预设提示信息生成通用大纲，所述通用大纲包括多个标题；

步骤S3，获取所述段落和标题，针对每个段落从标题中基于语义相似度选出预设数目的初选标题；

步骤S4，基于LLM根据初选标题与段落的语义概括关系构建标题-段落集合；

步骤S5，判断标题-段落集合中的标题是否为空，若否，基于LLM更新标题得到更新标题集合；若是，基于LLM根据更新标题集合生成得到新生成标题集合；

步骤S6，基于LLM根据更新标题集合和新生成标题集合更新通用大纲得到个性化大纲。

优选地，所述步骤S1具体包括以下步骤：

步骤S11，获取文章进行解析，识别文章的文本内容；

步骤S12，对文本内容进行噪声过滤；

步骤S13，根据分隔符将文本内容拆分为多个段落并存储。

优选地，所述步骤S2中预设提示信息包括用户大纲需求信息、生成通用大纲的提示信息和通用大纲示例中的至少一种。

优选地，所述步骤S3具体包括以下步骤：

步骤S31，获取所述段落和标题；

步骤S32，基于BERT对所述段落和标题进行向量化处理；

步骤S33，计算向量化后的段落与标题两两之间的余弦相似度并作为相似度分数；

步骤S34，针对每个段落将标题按照相似度分数从大到小排序，以预设数目选取排序在前的标题作为初选标题。

优选地，所述步骤S4具体包括以下步骤：

步骤S41，获取段落及其对应的预设数目的初选标题；

步骤S42，构造判断初选标题是否包含段落表达的含义的提示信息并基于LLM判断初选标题是否包含段落表达的含义，若是，将段落添加至预设该初选标题对应的标题-段落集合；

步骤S43，判断是否所有段落及其对应的预设数目的初选标题均完成步骤S42，若是，执行步骤S44；若否，重复步骤S41-S42；

步骤S44，判断是否存在段落未添加至其初选标题对应的标题-段落集合，若是，将该段落添加至预设标题为空的标题-段落集合。

优选地，所述步骤S5中基于LLM更新标题得到更新标题集合具体包括以下步骤：

步骤S51，构造更新标题的提示信息；

步骤S52，基于LLM根据标题-段落集合中标题对应所有的段落内容，在标题的基础上更新标题，得到更新标题集合。

优选地，所述步骤S5中基于LLM根据更新标题集合生成得到新生成标题集合具体包括以下步骤：

步骤S51`，构造生成标题的提示信息；

步骤S52`，标题-段落集合中的标题为空的对应段落基于LLM，根据更新标题集合生成得到新生成标题集合。

优选地，所述步骤S6具体包括以下步骤：

步骤S61，将更新标题集合和新生成标题集合融入到通用大纲；

步骤S62，构造更新大纲的提示信息并基于LLM进行大纲更新，得到个性化大纲。

本发明为解决上述技术问题，提供又一技术方案如下：一种文章大纲生成装置，用于实施上述任意一项文章大纲生成方法，文章大纲生成装置包括以下模块：

文档解析模块，用于获取文章并分段为多个段落；

大纲生成模块，用于基于LLM根据预设提示信息生成通用大纲，所述通用大纲包括多个标题；

标题-段落匹配模块，用于获取所述段落和标题，针对每个段落从标题中基于语义相似度选出预设数目的初选标题；基于LLM根据初选标题与段落的语义概括关系构建标题-段落集合；

标题更新模块，用于判断标题-段落集合中的标题是否为空，若否，基于LLM更新标题得到更新标题集合；若是，基于LLM根据更新标题集合生成得到新生成标题集合；

大纲更新模块，用于基于LLM根据更新标题集合和新生成标题集合更新通用大纲得到个性化大纲。

本发明为解决上述技术问题，提供又一技术方案如下：一种计算机可读存储介质，计算机程序被执行时实现上述任意一项所述的文章大纲生成方法。

与现有技术相比，本发明所提供的一种文章大纲生成方法、装置和存储介质，具有如下的有益效果：

1、本发明实施例中提供的一种文章大纲生成方法，通过获取文章分段为多个段落，同时基于LLM生成包括多个标题的通用大纲，针对每个段落从标题中基于语义相似度选出预设数目的初选标题；基于LLM构建标题-段落集合；根据标题-段落集合中的标题是否为空分别进行标题更新和标题生成，得到更新标题集合和新生成标题集合；基于LLM根据更新标题集合和新生成标题集合更新通用大纲得到个性化大纲。上述设置使得所生成的大纲能够根据用户提供的素材文章及用户要求，动态生成不同的大纲，满足不同写作者的个性化需求；并且根据所提供的段落以及通用大纲的标题选出段落对应的初选标题，利用LLM根据语义概括关系进行二次验证，使得大纲和素材内容相关，更有针对性和关联性，使大纲本身具备更重要丰富的信息量；引入提示信息利用LLM进行标题生成和更新，使得该文章大纲生成方法具备大纲生成补充功能，可根据素材文章完善通用大纲中所包含的信息，全面反映素材文章内容；在得到更新标题集合和新生成标题集合之后，大纲将会进行全局更新，使标题之间具有更强的逻辑性。为写作人员提供完整的写作逻辑框架，扩展写作思路；从而有效解决了大纲内容泛化导致无法根据实际文章素材生成具体个性化标题内容，阅读者无法从标题中获取有效信息的技术问题，有力提升了帮助写作者根据大纲的关键信息进行素材归纳总结的技术效果。

2、本发明实施例中提供的获取文章进行解析，识别文章的文本内容；对文本内容进行噪声过滤；根据分隔符将文本内容拆分为多个段落并存储。上述设置使得文章的文本内容在进行分段时既能够实现高效分段，同时降噪处理使得容易影响文章拆分为段落的干扰因素能够被有效去除，保证了文章拆分为段落的操作能够精准高效完成。

3、本发明实施例中提供的预设提示信息包括用户大纲需求信息、生成通用大纲的提示信息和通用大纲示例中的至少一种。通过引入用户大纲需求信息对LLM施加用户需求影响，使得所生成的通用大纲进一步满足用户需求，提升用户侧对于个性化大纲生成的影响能力；生成通用大纲的提示信息和通用大纲示例作为预设提示信息，能够有效描述所需要的通用大纲的具体内容、格式等相关信息，引导LLM产生所需要的回应结果，从而得到较为符合预期的通用大纲。

4、本发明实施例获取段落和标题；基于BERT对段落和标题进行向量化处理；计算向量化后的段落与标题两两之间的余弦相似度并作为相似度分数；针对每个段落将标题按照相似度分数从大到小排序，以预设数目选取排序在前的标题作为初选标题。通过上述设置使得与段落较为接近的标题能够以高相似度的形式被筛选出来，将标题按照相似度分数从大到小排序，以预设数目选取排序在前的标题作为初选标题，从而使得与段落较为接近的数个标题形成了初步的筛选对象，缩小了选择范围，有利于后续二次验证筛选出合适标题的操作展开。

5、本发明实施例中提供的步骤S41，获取段落及其对应的预设数目的初选标题；步骤S42，构造判断初选标题是否包含段落表达的含义的提示信息并基于LLM判断初选标题是否包含段落表达的含义，若是，将段落添加至预设该初选标题对应的标题-段落集合；步骤S43，判断是否所有段落及其对应的预设数目的初选标题均完成步骤S42，若是，执行步骤S44；若否，重复步骤S41-S42；步骤S44，判断是否存在段落未添加至其初选标题对应的标题-段落集合，若是，将该段落添加至预设标题为空的标题-段落集合。通过上述设置使得在建立初选标题的基础上，根据LLM对于初选标题是否能够包含段落表达的含义进行判断，从而实现了标题与段落之间语义关系是否对应的二次验证，能够保证标题和段落内容的关联性，使得标题能够完整全面的对于段落内容进行概括，从而标题所组成的大纲具有更加重要详细的信息量。

6、本发明实施例中提供的构造更新标题的提示信息；基于LLM根据标题-段落集合中标题对应所有的段落内容，在标题的基础上更新标题，得到更新标题集合。通过构造更新标题的提示信息，能够使得LLM按照提示信息的指示，根据标题-段落集合中标题对应所有的段落内容，在标题的基础上更新标题，得到更新标题集合，所得到的更新标题集合更加符合所预期的标题集合，同时根据标题-段落集合中标题对应所有的段落内容在标题的基础上更新标题，能够使得所生成的更新标题内容覆盖范围与更新前的标题保持一致，全面反映段落内容，保证了标题反应段落内容的全面性和完整性。

7、本发明实施例中提供的构造生成标题的提示信息；标题-段落集合中的标题为空的对应段落基于LLM，根据更新标题集合生成得到新生成标题集合。通过构造生成标题的提示信息，能够使得基于LLM根据更新标题集合生成得到新生成标题集合更加符合所预期的标题集合，同时由于根据更新标题集合生成得到新生成标题集合，一方面能够有效概括这些段落的内容，另一方面能够与大纲中已有的标题相呼应，使新的标题与大纲之间的联系更紧密，更加具有针对性和相关性。

8、本发明实施例中将更新标题集合和新生成标题集合融入到通用大纲；构造更新大纲的提示信息并基于LLM进行大纲更新，得到个性化大纲。上述设置使得大纲能够做到在通用大纲的基础上根据二次验证所得到的更新标题集合和新生成标题集合进行全局更新，使标题之间具有更强的逻辑性，避免了由于标题更新以及更新标题集合和新生成标题集合的割裂对于整个大纲的逻辑所造成的破坏，保证了大纲各标题的逻辑完整性，为写作人员提供完整的写作逻辑框架，扩展了写作思路。

9、本发明实施例还提供一种文档大纲生成装置和计算机可读存储介质，具有与上述一种文档大纲生成方法相同的有益效果，在此不做赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种文档大纲生成方法的步骤流程图。

图2是本发明第一实施例提供的一种文档大纲生成方法之步骤S1的步骤流程图。

图3是本发明第一实施例提供的一种文档大纲生成方法之步骤S3的示意图。

图4是本发明第一实施例提供的一种文档大纲生成方法之步骤S4的步骤流程图。

图5是本发明第一实施例提供的一种文档大纲生成方法之步骤S5更新标题集合的步骤流程图。

图6是本发明第一实施例提供的一种文章大纲生成方法之步骤S5新生成标题集合的步骤流程图。

图7是本发明第一实施例提供的一种文档大纲生成方法之步骤S6的步骤流程图。

图8是本发明第二实施例提供的一种文章大纲生成装置的结构示意图。

附图标识说明：

1、文档解析模块；2、大纲生成模块；3、标题-段落匹配模块；4、标题更新模块；5、大纲更新模块。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明第一实施例提供一种文章大纲生成方法，包括以下步骤：

步骤S1，获取文章并分段为多个段落；

步骤S2，基于LLM根据预设提示信息生成通用大纲，通用大纲包括多个标题；

步骤S3，获取段落和标题，针对每个段落从标题中基于语义相似度选出预设数目的初选标题；

需要说明的是，LLM（Large Language Model，大语言模型）是一种基于机器学习和自然语言处理技术的模型，它通过对大量的文本数据进行训练，来学习服务人类语言理解和生成的能力。LLM的核心思想是通过大规模的无监督训练来学习自然语言的模式和语言结构，这在一定程度上能够模拟人类的语言认知和生成过程。与传统的NLP模型相比，LLM能够更好地理解和生成自然文本，同时还能够表现出一定的逻辑思维和推理能力。LLM可以生成自然语言文本或理解语言文本的含义，处理多种自然语言任务，如文本分类、问答、对话等，是通向人工智能的一条重要途径。具体地，OpenAI的GPT-4或者谷歌的LaMDA均为LLM中的典型代表。

LLM具有少样本学习，即Few-Shot Learning的能力。少样本学习是一种机器学习范式，旨在使模型能够在少量样本的情况下完成学习任务。通常，传统的机器学习算法需要大量的标注数据来训练模型，而少样本学习则以“少即是多”的思想，通过利用极少量的样本来实现模型的训练和泛化。少样本学习作为一种突破性的学习范式，为解决有限数据问题提供了新的思路。通过在少量样本上进行训练，模型可以获得出色的泛化能力，有助于在实际场景中应对数据稀缺的情况。

可以理解地，基于LLM根据预设提示信息生成包括多个标题的通用大纲，可以充分利用LLM少样本学习的能力生成具有较强概括性的通用大纲，通过给定预设提示信息，根据上下文学习的思想，使得LLM生成一份相对完整的通用大纲，大纲中的标题为一般性的标题，如“公司概况”、“行业分析”等。

作为一种具体实施方式，预设提示信息包括用户大纲需求信息、生成通用大纲的提示信息和通用大纲示例中的至少一种。可以理解地，用户大纲需求信息是指包含了用户对于大纲需求的个性化指示的提示信息，能够从用户侧对个性化大纲的生成施加用户影响。提示信息即prompt，在LLM中，prompt的作用主要是给大模型提示输入信息的上下文和输入模型的参数信息。可以帮助LLM更好地理解输入的意图，并作出相应的响应。此外，prompt还可以提高LLM的可解释性和可访问性。通俗地说，就是给LLM提供一个“提示”或“指引”，帮助它更好地理解和完成任务；通用大纲示例则是指可以供LLM进行模仿学习的学习范例。通过引入用户大纲需求信息对LLM施加用户需求影响，使得所生成的通用大纲进一步满足用户需求，提升用户侧对个性化大纲生成的影响能力；生成通用大纲的提示信息和通用大纲示例作为预设提示信息，能够有效描述所需要的通用大纲的具体内容、格式等相关信息，引导LLM产生所需要的回应结果，从而得到较为符合预期的通用大纲。

可以理解地，通过获取段落和标题，针对每个段落从标题中基于语义相似度选出预设数目的初选标题，使得与段落较为接近的标题能够以高相似度的形式被筛选出来形成初步的筛选对象，缩小了选择范围，有利于后续二次验证筛选出合适标题的操作展开。作为一种具体的实施方式，采用BERT（Bidirectional Encoder Representations fromTransformers，基于转换器模型的双向编码器表示）对段落和标题进行embedding，embedding翻译为嵌入，是指将文字或数字映射变换成一组向量的向量化处理，所得到的向量为段落或标题中的词频分量，计算向量化后的段落与标题两两之间的余弦相似度并作为相似度分数，基于相似度分数从大到小对标题进行排序，以预设数目选取排序在前的标题作为初选标题，优选地，预设数目可以设置为5。上述设置使得段落与标题之间的语义相似性能够以余弦相似度作为语义相似度，从而实现了语义相似性的具体量化，能够精准高效筛选出与段落匹配的初选标题。

可以理解地，初选标题与段落的语义概括关系是指初选标题是否能够完整准确地概括段落的信息内容，由于LLM具有理解和生成自然文本的逻辑思维和推理能力，在判断初选标题是否包含段落表达的含义时，具有较高的准确度，基于LLM根据初选标题与段落的语义概括关系构建标题-段落集合，当LLM判断初选标题包含段落表达的含义，将段落添加至该初选标题的相关段落集合中，如果标题没有匹配到任何段落，则对应的集合为空，最终，每个标题都将产生一个对应的相关段落集合。所有没有匹配到任何标题的段落将会被存储在一个标题为空的段落集合中，从而能够准确高效完成标题与段落之间语义关系是否对应的二次验证任务，保证标题及其对应的相关段落集合中的标题和段落内容的关联性，使得标题能够完整全面的对于段落内容进行概括。

可以理解地，判断标题-段落集合中的标题是否为空，若否，基于LLM更新标题得到更新标题集合；若是，基于LLM根据更新标题集合生成得到新生成标题集合。如果标题-段落集合中的标题不为空，基于LLM根据匹配到的所有段落内容更新原始标题。LLM具有理解语言文本的含义以及生成自然语言文本的能力，在标题更新时，构造更新标题的prompt，以原始标题作为基础，即新的标题内容覆盖范围与原始标题保持一致。如果标题-段落集合中的标题为空，构造生成标题的prompt，利用已经生成的更新标题集合基于LLM生成得到新生成标题集合。新生成标题集合一方面能够概括这些未匹配到标题的段落的内容，另一方面能够与大纲中已有的标题相呼应，使新的标题与大纲之间的联系更紧密。作为一种具体实施方式，新生成标题集合的标题作为大纲的一级标题，置于更新后的新的大纲尾部。

可以理解地，基于LLM根据更新标题集合和新生成标题集合更新通用大纲得到个性化大纲，使标题之间具有更强的逻辑性，避免了由于标题更新以及更新标题集合和新生成标题集合的割裂对于整个大纲的逻辑所造成的破坏，保证了大纲各标题的逻辑完整性。

可以理解地，上述设置使得所生成的大纲能够根据用户提供的素材文章及用户要求，动态生成不同的大纲，满足不同写作者的个性化需求；并且根据所提供的段落以及通用大纲的标题选出段落对应的初选标题，利用LLM根据语义概括关系进行二次验证，使得大纲和素材内容相关，更有针对性和关联性，使大纲本身具备更重要丰富的信息量；同时由于引入了提示信息利用LLM进行标题生成和更新，使得该文章大纲生成方法具备大纲生成补充功能，可根据素材文章完善通用大纲中所包含的信息，全面反映素材文章内容；在得到更新标题集合和新生成标题集合之后，大纲将会进行全局更新，使标题之间具有更强的逻辑性。为写作人员提供完整的写作逻辑框架，扩展写作思路；从而有效解决了大纲内容泛化导致无法根据实际文章素材生成具体个性化标题内容，阅读者无法从标题中获取有效信息的技术问题，有力提升了帮助写作者根据大纲的关键信息进行素材归纳总结的技术效果。

请参阅图2，进一步地，步骤S1具体包括以下步骤：

步骤S11，获取文章进行解析，识别文章的文本内容；

步骤S12，对文本内容进行噪声过滤；

步骤S13，根据分隔符将文本内容拆分为多个段落并存储。

可以理解地，首先获取文章进行解析，识别文章的文本内容。文本内容通常具有噪音需要过滤，常见的文本噪音包括HTML标签、非语义字符、乱码等，这些文本噪音将会干扰文本内容拆分为段落的后续操作。作为一种具体实施方式，可利用自然语言处理技术进行文本内容噪声过滤，具体包括采用正则表达式、规则匹配和机器学习等技术手段。最后根据分隔符将文本内容拆分为多个段落并存储。上述设置使得文章的文本内容在进行分段时既能够实现高效分段，同时降噪处理使得容易影响文章拆分为段落的干扰因素能够被有效去除，保证了文章拆分为段落的操作能够顺利完成。

请参阅图3，进一步地，步骤S3具体包括以下步骤：

步骤S31，获取段落和标题；

步骤S32，基于BERT对段落和标题进行向量化处理；

需要说明的是，BERT（Bidirectional Encoder Representations fromTransformers，基于转换器模型的双向编码器表示）是一种预训练语言模型 (pre-trainedlanguage model, PLM)，采用BERT对段落和标题进行embedding，embedding翻译为嵌入，是指将文字或数字映射变换成一组向量的向量化处理，所得到的向量为段落或标题中的词频分量，计算向量化后的段落与标题两两之间的余弦相似度并作为相似度分数，余弦相似性由段落向量化后的词频分量向量表示A和标题向量化后的词频分量向量表示B的点积和向量长度决定。

相似度分数的计算公式如下：

给出的相似度分数范围为-1到1：-1意味着两个向量指向的方向正好截然相反，1表示它们的指向是完全相同的，0通常表示它们之间是独立的，而在这之间的值则表示中间的相似性或相异性。可以利用相似度分数的大小对于标题与段落的匹配程度进行排序判断，基于相似度分数从大到小对标题进行排序，选取5个排序在前的标题作为初选标题。

可以理解地，通过上述设置使得与段落较为接近的标题能够以高相似度的形式被筛选出来，将标题按照相似度分数从大到小排序，以预设数目选取排序在前的标题作为初选标题，从而使得与段落较为接近的数个标题形成了初步的筛选对象，缩小了选择范围，有利于后续二次验证筛选出合适标题的操作展开。并且段落与标题之间的语义相似性能够以余弦相似度作为语义相似度，从而实现了语义相似性的具体量化，能够精准高效筛选出与段落匹配的初选标题。

请参阅图4，进一步地，步骤S4具体包括以下步骤：

步骤S41，获取段落及其对应的预设数目的初选标题；

可以理解地，通过上述设置使得在建立初选标题的基础上，根据LLM对于初选标题是否能够包含段落表达的含义进行判断，构造判断初选标题是否包含段落表达的含义的提示信息对LLM进行提示，要求LLM对于初选标题是否包含段落表达的含义进行判断，帮助LLM更好理解并完成二次验证，输出符合要求的判断结果。当LLM判断初选标题包含段落表达的含义，将段落添加至预设该初选标题对应的标题-段落集合，预设该初选标题对应的标题-段落集合为提前设置生成的该初选标题的相关段落集合，如果标题没有匹配到任何段落，则对应的集合为空，最终，每个标题都将产生一个对应的相关段落集合。所有没有匹配到任何标题的段落将会被存储在预设标题为空的标题-段落集合，预设标题为空的标题-段落集合为提前设置生成的标题为空的段落集合。通过上述设置实现了在进行初选标题的筛选后进行标题与段落之间语义关系是否对应的二次验证，能够保证标题和段落内容的关联性，使得标题能够完整全面的对于段落内容进行概括，从而标题所组成的大纲具有更加重要详细的信息量。

请参阅图5，进一步地，步骤S5中基于LLM更新标题得到更新标题集合具体包括以下步骤：

步骤S51，构造更新标题的提示信息；

可以理解地，构造更新标题的提示信息有助于LLM更好地理解并完成标题更新任务，从而输出得到符合要求的更新标题集合。同时根据标题-段落集合中标题对应所有的段落内容在标题的基础上更新标题，能够使得所生成的更新标题内容覆盖范围与更新前的标题保持一致，全面反映段落内容，保证了标题反应段落内容的全面性和完整性。

请参阅图6，进一步地，步骤S5中基于LLM根据更新标题集合生成得到新生成标题集合具体包括以下步骤：

步骤S51`，构造生成标题的提示信息；

可以理解地，通过构造生成标题的提示信息，能够使得基于LLM根据更新标题集合生成得到新生成标题集合更加符合所预期的标题集合，同时由于根据更新标题集合生成得到新生成标题集合，一方面能够有效概括这些段落的内容，另一方面能够与大纲中已有的标题相呼应，使新的标题与大纲之间的联系更紧密，更加具有针对性和相关性。

请参阅图7，进一步地，步骤S6具体包括以下步骤：

可以理解地，由于在步骤S5中更新了标题，并且新生成的标题放置在了大纲的尾部，这使得大纲的整体逻辑遭到了一定程度的破坏，而上述设置使得大纲能够做到在通用大纲的基础上根据二次验证所得到的更新标题集合和新生成标题集合进行全局更新，使标题之间具有更强的逻辑性，避免了由于标题更新以及更新标题集合和新生成标题集合的割裂对于整个大纲的逻辑所造成的破坏，使得新的大纲具有基本写作逻辑，保证了大纲各标题的逻辑完整性，为写作人员提供完整的写作逻辑框架，扩展了写作思路。

请参阅图8，本发明第二实施例提供一种文章大纲生成装置，包括以下模块：

文档解析模块1，用于获取文章并分段为多个段落；

大纲生成模块2，用于基于LLM根据预设提示信息生成通用大纲，通用大纲包括多个标题；

标题-段落匹配模块3，用于获取段落和标题，针对每个段落从标题中基于语义相似度选出预设数目的初选标题；基于LLM根据初选标题与段落的语义概括关系构建标题-段落集合；

标题更新模块4，用于判断标题-段落集合中的标题是否为空，若否，基于LLM更新标题得到更新标题集合；若是，基于LLM根据更新标题集合生成得到新生成标题集合；

大纲更新模块5，用于基于LLM根据更新标题集合和新生成标题集合更新通用大纲得到个性化大纲。

本发明第三实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明第一实施例提供的一种文章大纲生成方法。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明的附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方案中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，在此基于涉及的功能而确定。需要特别注意的是，框图和/或流程图中的每个方框、框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

与现有技术相比，本发明所提供的一种文章大纲生成方法、装置和存储介质具有如下的有益效果：

1、本发明实施例中提供的一种文章大纲生成方法，通过获取文章分段为多个段落，同时基于LLM生成包括多个标题的通用大纲，针对每个段落从标题中基于语义相似度选出预设数目的初选标题；基于LLM构建标题-段落集合；根据标题-段落集合中的标题是否为空分别进行标题更新和标题生成，得到更新标题集合和新生成标题集合；基于LLM根据更新标题集合和新生成标题集合更新通用大纲得到个性化大纲。上述设置使得所生成的大纲能够根据用户提供的素材文章及用户要求，动态生成不同的大纲，满足不同写作者的个性化需求；并且根据所提供的段落以及通用大纲的标题选出段落对应的初选标题，利用LLM根据语义概括关系进行二次验证，使得大纲和素材内容相关，更有针对性和关联性，使大纲本身具备更重要丰富的信息量；同时由于引入了提示信息利用LLM进行标题生成和更新，使得该文章大纲生成方法具备大纲生成补充功能，可根据素材文章完善通用大纲中所包含的信息，全面反映素材文章内容；在得到更新标题集合和新生成标题集合之后，大纲将会进行全局更新，使标题之间具有更强的逻辑性。为写作人员提供完整的写作逻辑框架，扩展写作思路；从而有效解决了大纲内容泛化导致无法根据实际文章素材生成具体个性化标题内容，阅读者无法从标题中获取有效信息的技术问题，有力提升了帮助写作者根据大纲的关键信息进行素材归纳总结的技术效果。

3、本发明实施例中提供的预设提示信息包括用户大纲需求信息、生成通用大纲的提示信息和通用大纲示例中的至少一种。通过引入用户大纲需求信息对LLM施加用户需求影响，使得所生成的通用大纲进一步满足用户需求，提升用户侧对个性化大纲生成的影响能力；生成通用大纲的提示信息和通用大纲示例作为预设提示信息，能够有效描述所需要的通用大纲的具体内容、格式等相关信息，引导LLM产生所需要的回应结果，从而得到较为符合预期的通用大纲。

以上对本发明实施例公开的一种文章大纲生成方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含在本发明的保护范围之内。

Claims

1.一种文章大纲生成方法，其特征在于，包括以下步骤：

步骤S1，获取文章并分段为多个段落；

2.如权利要求1所述的文章大纲生成方法，其特征在于：所述步骤S1具体包括以下步骤：

步骤S11，获取文章进行解析，识别文章的文本内容；

步骤S12，对文本内容进行噪声过滤；

步骤S13，根据分隔符将文本内容拆分为多个段落并存储。

3.如权利要求1所述的文章大纲生成方法，其特征在于：所述步骤S2中预设提示信息包括用户大纲需求信息、生成通用大纲的提示信息和通用大纲示例中的至少一种。

4.如权利要求1所述的文章大纲生成方法，其特征在于：所述步骤S3具体包括以下步骤：

步骤S31，获取所述段落和标题；

步骤S32，基于BERT对所述段落和标题进行向量化处理；

5.如权利要求1所述的文章大纲生成方法，其特征在于：所述步骤S4具体包括以下步骤：

步骤S41，获取段落及其对应的预设数目的初选标题；

6.如权利要求1所述的文章大纲生成方法，其特征在于：所述步骤S5中基于LLM更新标题得到更新标题集合具体包括以下步骤：

步骤S51，构造更新标题的提示信息；

7.如权利要求1所述的文章大纲生成方法，其特征在于：所述步骤S5中基于LLM根据更新标题集合生成得到新生成标题集合具体包括以下步骤：

步骤S51`，构造生成标题的提示信息；

8.如权利要求1所述的文章大纲生成方法，其特征在于：所述步骤S6具体包括以下步骤：

9.一种文档大纲生成装置，用于实施权利要求1~8任意一项所述的文档大纲生成方法，其特征在于，所述文档大纲生成装置包括以下模块：

文档解析模块，用于获取文章并分段为多个段落；

10.一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于：计算机程序被执行时实现如权利要求1-8任一项所述的文章大纲生成方法。