CN117725895A - 文档生成方法、装置、设备及介质 - Google Patents
文档生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117725895A CN117725895A CN202311550672.5A CN202311550672A CN117725895A CN 117725895 A CN117725895 A CN 117725895A CN 202311550672 A CN202311550672 A CN 202311550672A CN 117725895 A CN117725895 A CN 117725895A
- Authority
- CN
- China
- Prior art keywords
- vector
- candidate
- target
- document
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 432
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000005457 optimization Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 11
- 238000009877 rendering Methods 0.000 claims description 6
- 230000001172 regenerating effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000004590 computer program Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能和文本处理技术领域,提出了一种文档生成方法、装置、设备及介质,其中,方法包括:获取用户输入的预生成的文档名称,并确定与其匹配的目标文档写作模板;根据所述目标文档写作模板,构建文档生成对应的目标提示指令;根据所述目标提示指令,从预设的向量知识库中依次检索与其匹配的目标候选标题向量、目标候选大纲向量和目标候选章节段落向量;通过语言大模型,根据所述目标指示指令对所述目标候选标题向量、目标候选大纲向量和目标候选章节段落向量进行学习,生成目标文档。通过该技术方案,语言大模型在生成内容时充分利用知网海量的知识资源,保障生成内容的专业性和实时性,大幅提高文档质量。
Description
【技术领域】
本申请涉及人工智能和文本处理技术领域,尤其涉及一种文档生成方法、装置、设备及介质。
【背景技术】
ChatGPT的出现掀起了新一轮的人工智能革命,基于大模型的生成式人工智能得到了快速发展,生成式人工智能是一种自动生成内容的新型生产方式,在给定一个特定主题输入和提示后,会根据训练得到的模型预测期望进行启发式输出,从而创造出新的内容,进而加速内容创作速度、提高生产效率,广泛应用于智能客服、智能问答、机器翻译、智能写作等领域,成为推动数字生产力变革的重要力量。
当前大多数智能写作应用领域常见的技术路线是基于transformer框架的预训练大语言模型,让大模型学习获得尽可能多的语言知识,形成静态的海量知识库。在写作时根据用户输入的主题和背景知识支持两种生成模式,如图1所示,一种是以全局视角将大纲和内容作为整体,串行方式生成章节及期内容,另一种是先生成文档大纲框架,再以大纲中的章节标题为输入依次生成具体章节内容。由于完全依赖大模型原生语言生成能力和原始学习训练的数据,在生成过程中无法动态输入精准数据来提升生成内容的质量,无论是哪种模式都无法确保生成内容前后章节的逻辑连贯性以及生成内容的专业性和质量。
【发明内容】
本申请实施例提供了一种文档生成方法、装置、设备及介质,旨在解决相关技术中在文档生成过程中无法动态输入精准数据来提升生成内容的质量等技术问题。
第一方面,本申请实施例提供了一种文档生成方法,包括:
获取用户输入的预生成的文档名称,并确定与其匹配的目标文档写作模板;
根据所述目标文档写作模板,构建文档生成对应的目标提示指令,其中,所述目标提示指令至少包括文档主题和文档类型;
根据所述目标提示指令,从预设的向量知识库中依次检索与其匹配的目标候选标题向量、目标候选大纲向量和目标候选章节段落向量,其中,所述向量知识库包括标题向量库、大纲向量库和全文向量库;
通过语言大模型,根据所述目标指示指令对所述目标候选标题向量、目标候选大纲向量和目标候选章节段落向量进行学习,生成目标文档。
在一个实施例中,可选的,所述方法还包括:
获取海量知识文献;
按照预设筛选条件从所述海量知识文献中筛选出候选知识文献;
分别从文档标题、目录大纲和章节段落三个层次对每个候选知识文献进行加工标引和向量化处理,以生成所述标题向量库、大纲向量库和全文向量库。
在一个实施例中,可选的,分别从文档标题、目录大纲和章节段落三个层次对每个候选知识文献进行加工标引和向量化处理,以生成所述标题向量库、大纲向量库和全文向量库,包括:
针对文档标题层次,对每个候选知识文献的候选文档标题进行主题词拆分,得到至少一个候选标题主题词;
分别对每个候选知识文献的候选文档标题和所述至少一个候选标题主题词进行向量化处理,以得到对应的候选文档标题向量和至少一个候选标题主题词向量;
将所述至少一个候选标题主题词向量和对应的候选文档标题向量进行问题对标引后,存储至所述标题向量库;
针对目录大纲层次,对每个候选知识文献的候选目录大纲进行主题词拆分,得到至少一个候选大纲主题词,并确定候选文档标题;
对每个候选知识文献的候选目录大纲、候选文档标题和至少一个候选大纲主题词进行向量化处理,以得到对应的候选文档大纲向量、候选文档标题向量和至少一个候选大纲主题词向量;
将所述候选文档标题向量和所述至少一个候选大纲主题词向量与对应的候选文档大纲向量进行问题对标引后存储至所述大纲向量库;
针对章节段落层次,对每个候选知识文献进行候选文档标题和各候选章节标题进行提取;
对每个候选知识文献的各候选章节段落、所述候选文档标题和各候选章节标题进行向量化处理,以得到对应的候选章节段落向量、候选文档标题向量和候选章节标题向量;
将所述候选文档标题向量和各候选章节标题向量与对应的候选章节段落向量进行问题对标引后,存储至所述全文向量库。
在一个实施例中,可选的,根据所述目标提示指令,从预处理的向量知识库中检索与其匹配的目标候选标题向量、目标候选大纲向量和目标候选全文向量,包括:
根据所述目标指示指令中的文档主题和文档类型,从所述标题向量库中检索与其匹配的目标候选标题向量;
通过所述语言大模型,根据所述目标候选标题向量进行学习,生成所述目标文档的目标标题;
根据所述目标标题,从所述大纲向量库中检索与其匹配的目标候选大纲向量;
通过所述语言大模型,根据所述目标候选大纲向量进行学习,生成所述目标文档的目标文档大纲;
根据所述目标文档大纲,从所述全文向量库中检索与其匹配的目标候选章节段落。
在一个实施例中,可选的,所述目标提示指令还包括以下至少一项:任务类型、应用场景、文档内容提示、文档背景知识、文档语言风格和文档输出指标,所述通过语言大模型根据所述目标指示指令对所述目标标题向量、目标大纲向量和目标全文向量进行学习,生成目标文档,包括:
通过所述语言大模型,根据所述目标候选章节段落和所述目标指示指令进行学习,并根据学习结果重新生成所述目标文档。
在一个实施例中,可选的,所述根据所述目标指示指令中的文档主题和文档类型,从所述标题向量库中检索与其匹配的目标候选标题向量,包括:
对所述文档主题进行向量化处理,得到文档主题向量;
计算所述文档主题向量和所述标题向量库中各候选标题主题词向量之间的第一相似度;
根据第一相似度计算结果,选取第一相似度最高的至少一个候选标题主题词向量作为所述目标候选标题主题词向量;
根据所述目标候选标题主题词向量确定对应的目标候选标题向量;
所述根据所述目标标题,从所述大纲向量库中检索与其匹配的目标候选大纲向量,包括:
对所述目标标题进行向量化处理,得到目标标题向量;
计算所述目标标题向量,与所述大纲向量库中各候选大纲主题词向量之间的第二相似度;
根据所述第二相似度计算结果,选取第二相似度最高的至少一个候选大纲主题词向量,作为目标候选大纲主题词向量;
根据所述目标候选大纲主题词向量确定对应的目标候选大纲向量;
所述根据所述目标文档大纲,从所述全文向量库中检索与其匹配的目标章节段落向量,包括:
对所述目标文档大纲进行向量化处理,得到目标文档大纲向量;
计算所述目标文档大纲向量和所述全文向量库中各候选章节标题向量之间的第三相似度;
根据第三相似度计算结果,选取第三相似度最高的至少一个候选章节标题向量,作为所述目标候选章节标题向量;
根据目标候选章节标题向量确定对应的目标候选章节段落向量。
在一个实施例中,可选的,所述方法还包括:
获取用户输入的文档优化指令;
根据所述文档优化指令,确定所述目标文档的优化提示词;
根据所述优化提示词,对所述目标文档进行润色迭代处理,以得到最终目标文档。
第二方面,本申请实施例提供了一种文档生成装置,包括:
确定模块,用于获取用户输入的预生成的文档名称,并确定与其匹配的目标文档写作模板;
构建模块,用于根据所述目标文档写作模板,构建文档生成对应的目标提示指令,其中,所述目标提示指令至少包括文档主题和文档类型;
检索模块,用于根据所述目标提示指令,从预设的向量知识库中依次检索与其匹配的目标候选标题向量、目标候选大纲向量和目标候选章节段落向量,其中,所述向量知识库包括标题向量库、大纲向量库和全文向量库;
生成模块,用于通过语言大模型,根据所述目标指示指令对所述目标候选标题向量、目标候选大纲向量和目标候选章节段落向量进行学习,生成目标文档。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述文档生成方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述文档生成方法的步骤。
以上文档生成方法、装置、设备及介质所实现的方案中,获取用户输入的预生成的文档名称,并确定与其匹配的目标文档写作模板;根据所述目标文档写作模板,构建文档生成对应的目标提示指令,其中,所述目标提示指令至少包括文档主题和文档类型;根据所述目标提示指令,从预设的向量知识库中依次检索与其匹配的目标候选标题向量、目标候选大纲向量和目标候选章节段落向量,其中,所述向量知识库包括标题向量库、大纲向量库和全文向量库;通过语言大模型,根据所述目标指示指令对所述目标候选标题向量、目标候选大纲向量和目标候选章节段落向量进行学习,生成目标文档。在本发明中,在进行目标文档生成时,根据用户输入的文档名称在向量知识库进行目标候选标题向量、目标候选大纲向量和目标候选章节段落向量的检索,从而语言大模型根据这些目标候选标题向量、目标候选大纲向量和目标候选章节段落向量进行学习,学习后再重新进行文档生成,这样,语言大模型在生成内容时充分利用知网海量的知识资源,保障生成内容的专业性和实时性,大幅提高文档质量。
【附图说明】
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了相关技术中文档生成方法的示意图。
图2示出了根据本申请的一个实施例的文档生成方法的示意流程图。
图3示出了根据本申请的另一个实施例的文档生成方法的示意流程图。
图4示出了根据本申请的又一个实施例的文档生成方法的示意流程图。
图5示出了根据本申请的一个实施例的文档生成装置的框图。
图6示出了根据本申请的一个实施例的计算机设备的一结构示意图。
图7示出了根据本申请的一个实施例的计算机设备的另一结构示意图。
【具体实施方式】
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图2,图2示出了根据本申请的一个实施例的文档生成方法的示意流程图。该文档生成方法用于解决相关技术中在文档生成过程中无法动态输入精准数据来提升生成内容的质量等技术问题。
如图2所示,根据本申请的一个实施例的文档生成方法,流程包括:
步骤S201,获取用户输入的预生成的文档名称,并确定与其匹配的目标文档写作模板。针对不同类型的文档,可以设置与其对应的文档写作模板。例如,调研报告、规划报告、研究报告、咨询报告、技术方案、论文综述、工作总结、领导讲话稿、会议邀请函等,都可以设置与其对应的文档写作模板。
步骤S202,根据所述目标文档写作模板,构建文档生成对应的目标提示指令,其中,所述目标提示指令至少包括文档主题和文档类型;
其中,文档主题描述文档的主题内容,也就是文档标题,可以是主题关键词,文档类型是具体生成文档的类型,如演讲稿,论文等,即具体以何种角色和身份进行写作,提高专业度。
在该步骤中,在文档写作模板中,会有文档主题和文档类型等信息,因此,可以根据文档主题和文档类型构建目标提示指令,从而使语言大模型可以根据目标提示指令进行目标文档的生成。
步骤S203,根据所述目标提示指令,从预设的向量知识库中依次检索与其匹配的目标候选标题向量、目标候选大纲向量和目标候选章节段落向量,其中,所述向量知识库包括标题向量库、大纲向量库和全文向量库;
如图3所示,在一个实施例中,可选的,所述方法还包括:
步骤S301,获取海量知识文献;
步骤S302,按照预设筛选条件从所述海量知识文献中筛选出候选知识文献;
步骤S303,分别从文档标题、目录大纲和章节段落三个层次对每个候选知识文献进行加工标引和向量化处理,以生成所述标题向量库、大纲向量库和全文向量库。
在该实施例中,可以根据海量知识文献,生成所述标题向量库、大纲向量库和全文向量库。具体地,可以先对海量知识文献进行筛选,如根据预设筛选条件,筛选出高质量的知识文献,进而按照文档标题、目录大纲和章节段落三个层次进行加工标引和向量化处理,从而形成标题向量库、大纲向量库和全文向量库,分别用于写作标题推荐、大纲生成以及章节内容生成。
在一个具体实施例中,该标题向量库、大纲向量库和全文向量库可以实时或定时进行更新,从而使得向量库中可以涵盖目前比较常用或者最新的知识文献内容。
在一个实施例中,可选的,分别从文档标题、目录大纲和章节段落三个层次对每个候选知识文献进行加工标引和向量化处理,以生成所述标题向量库、大纲向量库和全文向量库,包括:
针对文档标题层次,对每个候选知识文献的候选文档标题进行主题词拆分,得到至少一个候选标题主题词;
分别对每个候选知识文献的候选文档标题和所述至少一个候选标题主题词进行向量化处理,以得到对应的候选文档标题向量和至少一个候选标题主题词向量;
将所述至少一个候选标题主题词向量和对应的候选文档标题向量进行问题对标引后,存储至所述标题向量库;
针对目录大纲层次,对每个候选知识文献的候选目录大纲进行主题词拆分,得到至少一个候选大纲主题词,并确定候选文档标题;
对每个候选知识文献的候选目录大纲、候选文档标题和至少一个候选大纲主题词进行向量化处理,以得到对应的候选文档大纲向量、候选文档标题向量和至少一个候选大纲主题词向量;
将所述候选文档标题向量和所述至少一个候选大纲主题词向量与对应的候选文档大纲向量进行问题对标引后存储至所述大纲向量库;
针对章节段落层次,对每个候选知识文献进行候选文档标题和各候选章节标题进行提取;
对每个候选知识文献的各候选章节段落、所述候选文档标题和各候选章节标题进行向量化处理,以得到对应的候选章节段落向量、候选文档标题向量和候选章节标题向量;
将所述候选文档标题向量和各候选章节标题向量与对应的候选章节段落向量进行问题对标引后,存储至所述全文向量库。
在该实施例中,问题对标引即将问题和答案作为问题对进行索引,即通过问题匹配,可以找到与其对应的答案。其中,标题向量库、大纲向量库和全文向量库的问题对标引内容如表1所示。对于文章标题,其问题可以是文章标题的主题词组合,答案是文章标题文本,例如,如果问题是一个标题主题词,通过该主题词,找到对应的目标问题,目标问题对应的答案,即为该主题词对应的答案,从而根据该答案推荐文档标题。同样的,对于文章大纲,可以根据文章标题和/或标题主题词,去大纲向量库中搜索对应的目标问题,根据目标问题,找到文章完整的大纲文本,从而根据该大纲文本,筛选相关大纲目录,推荐文档大纲。而对于文章全文,问题可以是文章标题和/或章节小标题,答案为章节段落内容,从而根据答案筛选生成素材。
在一个实施例中,可选的,步骤S203包括:
根据所述目标指示指令中的文档主题和文档类型,从所述标题向量库中检索与其匹配的目标候选标题向量;
通过所述语言大模型,根据所述目标候选标题向量进行学习,生成所述目标文档的目标标题;
根据所述目标标题,从所述大纲向量库中检索与其匹配的目标候选大纲向量;
通过所述语言大模型,根据所述目标候选大纲向量进行学习,生成所述目标文档的目标文档大纲;
根据所述目标文档大纲,从所述全文向量库中检索与其匹配的目标候选章节段落。
在该实施例中,如图4所示,将语言大模型生成能力与向量知识库、文档编辑器三者进行融合,针对不同类型的文档采取模板化、个性化的提示词指令,生成与应用场景高相关的结构框架和大纲,再从整体大纲结构出发让语言大模型生成逻辑连贯的章节内容摘要,最后以各章节内容提要为输入启发式带入上下文背景知识,从海量的向量知识库中精准获取碎片化素材,通过语言大模型的语义理解、提炼总结生成各章节内容,实现知识增强完成文档初稿的智能写作,大幅提升智能写作的效率和质量。
在一个实施例中,可选的,所述根据所述目标指示指令中的文档主题和文档类型,从所述标题向量库中检索与其匹配的目标候选标题向量,包括:
对所述文档主题进行向量化处理,得到文档主题向量;
计算所述文档主题向量和所述标题向量库中各候选标题主题词向量之间的第一相似度;
根据第一相似度计算结果,选取第一相似度最高的至少一个候选标题主题词向量作为所述目标候选标题主题词向量;
根据所述目标候选标题主题词向量确定对应的目标候选标题向量;
所述根据所述目标标题,从所述大纲向量库中检索与其匹配的目标候选大纲向量,包括:
对所述目标标题进行向量化处理,得到目标标题向量;
计算所述目标标题向量,与所述大纲向量库中各候选大纲主题词向量之间的第二相似度;
根据所述第二相似度计算结果,选取第二相似度最高的至少一个候选大纲主题词向量,作为目标候选大纲主题词向量;
根据所述目标候选大纲主题词向量确定对应的目标候选大纲向量;
所述根据所述目标文档大纲,从所述全文向量库中检索与其匹配的目标章节段落向量,包括:
对所述目标文档大纲进行向量化处理,得到目标文档大纲向量;
计算所述目标文档大纲向量和所述全文向量库中各候选章节标题向量之间的第三相似度;
根据第三相似度计算结果,选取第三相似度最高的至少一个候选章节标题向量,作为所述目标候选章节标题向量;
根据目标候选章节标题向量确定对应的目标候选章节段落向量。
在该实施例中,可以通过计算向量相似度的方式确定目标候选标题向量、目标候选大纲向量和目标候选章节段落向量,进而通过语言大模型进行学习后,生成目标文档。
在一个实施例中,可选的,所述目标提示指令还包括以下至少一项:任务类型、应用场景、文档内容提示、文档背景知识、文档语言风格和文档输出指标,所述通过语言大模型根据所述目标指示指令对所述目标标题向量、目标大纲向量和目标全文向量进行学习,生成目标文档,包括:
通过所述语言大模型,根据所述目标候选章节段落和所述目标指示指令进行学习,并根据学习结果重新生成所述目标文档。
任务类型可以是具体的写作任务命令,如生成大纲、生成全文、润色、扩写、缩写、修改和摘要等。应用场景可以描述文档的应用场景和用途,如研究成果撰写、调研报告撰写、领导讲话等。文档内容提示用于输入用户自己的写作思路和需要重点强调的内容等。文档背景知识可以是外部信息或附加上下文,包括前一章节内容以及从向量知识库中获取的素材等。文档语言风格用于限制生成内容的语言风格,用户可以根据需要进行设置,从而更符合用户不同的场景需求。文档输出指标可以制定文档生成时的输出限定,如文档长度、字数、格式和类型等。
步骤S204,通过语言大模型,根据所述目标指示指令对所述目标候选标题向量、目标候选大纲向量和目标候选章节段落向量进行学习,生成目标文档。
在一个实施例中,可选的,所述方法还包括:
获取用户输入的文档优化指令;
根据所述文档优化指令,确定所述目标文档的优化提示词;
根据所述优化提示词,对所述目标文档进行润色迭代处理,以得到最终目标文档。
在该实施例中,在文档生成过程中,用户还可以进行文档优化,即可以输入用户自己的想法或者想要撰写的内容和重点等,从而对文档进行润色迭代,使得文档可以更加满足用户的要求。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图5示出了根据本申请的一个实施例的文档生成装置的框图。
如图5所示,第二方面,本申请实施例提供了一种文档生成装置50,包括:
确定模块51,用于获取用户输入的预生成的文档名称,并确定与其匹配的目标文档写作模板;
构建模块52,用于根据所述目标文档写作模板,构建文档生成对应的目标提示指令,其中,所述目标提示指令至少包括文档主题和文档类型;
检索模块53,用于根据所述目标提示指令,从预设的向量知识库中依次检索与其匹配的目标候选标题向量、目标候选大纲向量和目标候选章节段落向量,其中,所述向量知识库包括标题向量库、大纲向量库和全文向量库;
生成模块54,用于通过语言大模型,根据所述目标指示指令对所述目标候选标题向量、目标候选大纲向量和目标候选章节段落向量进行学习,生成目标文档。
在一个实施例中,可选的,所述装置还包括:
第一获取模块,用于获取海量知识文献;
筛选模块,用于按照预设筛选条件从所述海量知识文献中筛选出候选知识文献;
处理模块,用于分别从文档标题、目录大纲和章节段落三个层次对每个候选知识文献进行加工标引和向量化处理,以生成所述标题向量库、大纲向量库和全文向量库。
在一个实施例中,可选的,所述处理模块用于:
针对文档标题层次,对每个候选知识文献的候选文档标题进行主题词拆分,得到至少一个候选标题主题词;
分别对每个候选知识文献的候选文档标题和所述至少一个候选标题主题词进行向量化处理,以得到对应的候选文档标题向量和至少一个候选标题主题词向量;
将所述至少一个候选标题主题词向量和对应的候选文档标题向量进行问题对标引后,存储至所述标题向量库;
针对目录大纲层次,对每个候选知识文献的候选目录大纲进行主题词拆分,得到至少一个候选大纲主题词,并确定候选文档标题;
对每个候选知识文献的候选目录大纲、候选文档标题和至少一个候选大纲主题词进行向量化处理,以得到对应的候选文档大纲向量、候选文档标题向量和至少一个候选大纲主题词向量;
将所述候选文档标题向量和所述至少一个候选大纲主题词向量与对应的候选文档大纲向量进行问题对标引后存储至所述大纲向量库;
针对章节段落层次,对每个候选知识文献进行候选文档标题和各候选章节标题进行提取;
对每个候选知识文献的各候选章节段落、所述候选文档标题和各候选章节标题进行向量化处理,以得到对应的候选章节段落向量、候选文档标题向量和候选章节标题向量;
将所述候选文档标题向量和各候选章节标题向量与对应的候选章节段落向量进行问题对标引后,存储至所述全文向量库。
在一个实施例中,可选的,根据所述目标提示指令,从预处理的向量知识库中检索与其匹配的目标候选标题向量、目标候选大纲向量和目标候选全文向量,包括:
根据所述目标指示指令中的文档主题和文档类型,从所述标题向量库中检索与其匹配的目标候选标题向量;
通过所述语言大模型,根据所述目标候选标题向量进行学习,生成所述目标文档的目标标题;
根据所述目标标题,从所述大纲向量库中检索与其匹配的目标候选大纲向量;
通过所述语言大模型,根据所述目标候选大纲向量进行学习,生成所述目标文档的目标文档大纲;
根据所述目标文档大纲,从所述全文向量库中检索与其匹配的目标候选章节段落。
在一个实施例中,可选的,所述目标提示指令还包括以下至少一项:任务类型、应用场景、文档内容提示、文档背景知识、文档语言风格和文档输出指标,所述通过语言大模型根据所述目标指示指令对所述目标标题向量、目标大纲向量和目标全文向量进行学习,生成目标文档,包括:
通过所述语言大模型,根据所述目标候选章节段落和所述目标指示指令进行学习,并根据学习结果重新生成所述目标文档。
在一个实施例中,可选的,所述检索模块用于:
对所述文档主题进行向量化处理,得到文档主题向量;
计算所述文档主题向量和所述标题向量库中各候选标题主题词向量之间的第一相似度;
根据第一相似度计算结果,选取第一相似度最高的至少一个候选标题主题词向量作为所述目标候选标题主题词向量;
根据所述目标候选标题主题词向量确定对应的目标候选标题向量;
所述检索模块还用于:
对所述目标标题进行向量化处理,得到目标标题向量;
计算所述目标标题向量,与所述大纲向量库中各候选大纲主题词向量之间的第二相似度;
根据所述第二相似度计算结果,选取第二相似度最高的至少一个候选大纲主题词向量,作为目标候选大纲主题词向量;
根据所述目标候选大纲主题词向量确定对应的目标候选大纲向量;
所述检索模块还用于:
对所述目标文档大纲进行向量化处理,得到目标文档大纲向量;
计算所述目标文档大纲向量和所述全文向量库中各候选章节标题向量之间的第三相似度;
根据第三相似度计算结果,选取第三相似度最高的至少一个候选章节标题向量,作为所述目标候选章节标题向量;
根据目标候选章节标题向量确定对应的目标候选章节段落向量。
在一个实施例中,可选的,所述装置还包括:
第二获取模块,用于获取用户输入的文档优化指令;
提示词确定模块,用于根据所述文档优化指令,确定所述目标文档的优化提示词;
优化模块,用于根据所述优化提示词,对所述目标文档进行润色迭代处理,以得到最终目标文档。
关于文档生成装置的具体限定可以参见上文中对于文档生成方法的限定,在此不再赘述。上述文档生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种文档生成方法服务端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种文档生成方法客户端侧的功能或步骤。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现文档生成方法的步骤。
需要说明的是,上述关于计算机可读存储介质或电子设备所能实现的功能或步骤,可对应参阅前述方法实施例中的相关描述,为避免重复,这里不再一一描述。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本申请实施例中可能采用术语第一、第二等来描述设置单元,但这些设置单元不应限于这些术语。这些术语仅用来将设置单元彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一设置单元也可以被称为第二设置单元,类似地,第二设置单元也可以被称为第一设置单元。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文档生成方法,其特征在于,所述方法包括:
获取用户输入的预生成的文档名称,并确定与其匹配的目标文档写作模板;
根据所述目标文档写作模板,构建文档生成对应的目标提示指令,其中,所述目标提示指令至少包括文档主题和文档类型;
根据所述目标提示指令,从预设的向量知识库中依次检索与其匹配的目标候选标题向量、目标候选大纲向量和目标候选章节段落向量,其中,所述向量知识库包括标题向量库、大纲向量库和全文向量库;
通过语言大模型,根据所述目标指示指令对所述目标候选标题向量、目标候选大纲向量和目标候选章节段落向量进行学习,生成目标文档。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取海量知识文献;
按照预设筛选条件从所述海量知识文献中筛选出候选知识文献;
分别从文档标题、目录大纲和章节段落三个层次对每个候选知识文献进行加工标引和向量化处理,以生成所述标题向量库、大纲向量库和全文向量库。
3.根据权利要求2所述的方法,其特征在于,分别从文档标题、目录大纲和章节段落三个层次对每个候选知识文献进行加工标引和向量化处理,以生成所述标题向量库、大纲向量库和全文向量库,包括:
针对文档标题层次,对每个候选知识文献的候选文档标题进行主题词拆分,得到至少一个候选标题主题词;
分别对每个候选知识文献的候选文档标题和所述至少一个候选标题主题词进行向量化处理,以得到对应的候选文档标题向量和至少一个候选标题主题词向量;
将所述至少一个候选标题主题词向量和对应的候选文档标题向量进行问题对标引后,存储至所述标题向量库;
针对目录大纲层次,对每个候选知识文献的候选目录大纲进行主题词拆分,得到至少一个候选大纲主题词,并确定候选文档标题;
对每个候选知识文献的候选目录大纲、候选文档标题和至少一个候选大纲主题词进行向量化处理,以得到对应的候选文档大纲向量、候选文档标题向量和至少一个候选大纲主题词向量;
将所述候选文档标题向量和所述至少一个候选大纲主题词向量与对应的候选文档大纲向量进行问题对标引后存储至所述大纲向量库;
针对章节段落层次,对每个候选知识文献进行候选文档标题和各候选章节标题进行提取;
对每个候选知识文献的各候选章节段落、所述候选文档标题和各候选章节标题进行向量化处理,以得到对应的候选章节段落向量、候选文档标题向量和候选章节标题向量;
将所述候选文档标题向量和各候选章节标题向量与对应的候选章节段落向量进行问题对标引后,存储至所述全文向量库。
4.根据权利要求1所述的方法,其特征在于,根据所述目标提示指令,从预处理的向量知识库中检索与其匹配的目标候选标题向量、目标候选大纲向量和目标候选全文向量,包括:
根据所述目标指示指令中的文档主题和文档类型,从所述标题向量库中检索与其匹配的目标候选标题向量;
通过所述语言大模型,根据所述目标候选标题向量进行学习,生成所述目标文档的目标标题;
根据所述目标标题,从所述大纲向量库中检索与其匹配的目标候选大纲向量;
通过所述语言大模型,根据所述目标候选大纲向量进行学习,生成所述目标文档的目标文档大纲;
根据所述目标文档大纲,从所述全文向量库中检索与其匹配的目标候选章节段落。
5.根据权利要求4所述的方法,其特征在于,所述目标提示指令还包括以下至少一项:任务类型、应用场景、文档内容提示、文档背景知识、文档语言风格和文档输出指标,所述通过语言大模型根据所述目标指示指令对所述目标标题向量、目标大纲向量和目标全文向量进行学习,生成目标文档,包括:
通过所述语言大模型,根据所述目标候选章节段落和所述目标指示指令进行学习,并根据学习结果重新生成所述目标文档。
6.根据权利要求4所述的方法,其特征在于,所述根据所述目标指示指令中的文档主题和文档类型,从所述标题向量库中检索与其匹配的目标候选标题向量,包括:
对所述文档主题进行向量化处理,得到文档主题向量;
计算所述文档主题向量和所述标题向量库中各候选标题主题词向量之间的第一相似度;
根据第一相似度计算结果,选取第一相似度最高的至少一个候选标题主题词向量作为所述目标候选标题主题词向量;
根据所述目标候选标题主题词向量确定对应的目标候选标题向量;
所述根据所述目标标题,从所述大纲向量库中检索与其匹配的目标候选大纲向量,包括:
对所述目标标题进行向量化处理,得到目标标题向量;
计算所述目标标题向量,与所述大纲向量库中各候选大纲主题词向量之间的第二相似度;
根据所述第二相似度计算结果,选取第二相似度最高的至少一个候选大纲主题词向量,作为目标候选大纲主题词向量;
根据所述目标候选大纲主题词向量确定对应的目标候选大纲向量;
所述根据所述目标文档大纲,从所述全文向量库中检索与其匹配的目标章节段落向量,包括:
对所述目标文档大纲进行向量化处理,得到目标文档大纲向量;
计算所述目标文档大纲向量和所述全文向量库中各候选章节标题向量之间的第三相似度;
根据第三相似度计算结果,选取第三相似度最高的至少一个候选章节标题向量,作为所述目标候选章节标题向量;
根据目标候选章节标题向量确定对应的目标候选章节段落向量。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
获取用户输入的文档优化指令;
根据所述文档优化指令,确定所述目标文档的优化提示词;
根据所述优化提示词,对所述目标文档进行润色迭代处理,以得到最终目标文档。
8.一种文档生成装置,其特征在于,包括:
确定模块,用于获取用户输入的预生成的文档名称,并确定与其匹配的目标文档写作模板;
构建模块,用于根据所述目标文档写作模板,构建文档生成对应的目标提示指令,其中,所述目标提示指令至少包括文档主题和文档类型;
检索模块,用于根据所述目标提示指令,从预设的向量知识库中依次检索与其匹配的目标候选标题向量、目标候选大纲向量和目标候选章节段落向量,其中,所述向量知识库包括标题向量库、大纲向量库和全文向量库;
生成模块,用于通过语言大模型,根据所述目标指示指令对所述目标候选标题向量、目标候选大纲向量和目标候选章节段落向量进行学习,生成目标文档。
9.一种计算机设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311550672.5A CN117725895A (zh) | 2023-11-20 | 2023-11-20 | 文档生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311550672.5A CN117725895A (zh) | 2023-11-20 | 2023-11-20 | 文档生成方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117725895A true CN117725895A (zh) | 2024-03-19 |
Family
ID=90207727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311550672.5A Pending CN117725895A (zh) | 2023-11-20 | 2023-11-20 | 文档生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117725895A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118133973A (zh) * | 2024-05-10 | 2024-06-04 | 北京网智天元大数据科技有限公司 | 基于大语言模型的报告生成方法及装置 |
-
2023
- 2023-11-20 CN CN202311550672.5A patent/CN117725895A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118133973A (zh) * | 2024-05-10 | 2024-06-04 | 北京网智天元大数据科技有限公司 | 基于大语言模型的报告生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN112364660B (zh) | 语料文本处理方法、装置、计算机设备及存储介质 | |
CN110968695A (zh) | 基于弱监督技术主动学习的智能标注方法、装置及平台 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN109189894B (zh) | 一种答案抽取方法及装置 | |
CN111190997A (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
CN104573099A (zh) | 题目的搜索方法及装置 | |
CN110929094A (zh) | 一种视频标题处理方法和装置 | |
CN107798123A (zh) | 知识库及其建立、修改、智能问答方法、装置及设备 | |
CN117725895A (zh) | 文档生成方法、装置、设备及介质 | |
CN116049397A (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
CN112115252A (zh) | 智能辅助写作处理方法、装置、电子设备及存储介质 | |
CN111414735A (zh) | 文本数据的生成方法和装置 | |
CN117077679B (zh) | 命名实体识别方法和装置 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN115757720A (zh) | 基于知识图谱的项目信息搜索方法、装置、设备和介质 | |
CN116414961A (zh) | 基于军事领域知识图谱的问答方法和系统 | |
CN116974554A (zh) | 代码数据处理方法、装置、计算机设备和存储介质 | |
CN112905763B (zh) | 会话系统开发方法、装置、计算机设备及存储介质 | |
US20230142351A1 (en) | Methods and systems for searching and retrieving information | |
CN113822039A (zh) | 近义词挖掘方法及相关设备 | |
CN117725190B (zh) | 基于大语言模型的多轮问答方法、系统、终端及存储介质 | |
CN117151247B (zh) | 机器学习任务建模的方法、装置、计算机设备和存储介质 | |
Wu et al. | Research on intelligent retrieval model of multilingual text information in corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |