CN117807963B

CN117807963B - 一种指定领域的文本生成方法及装置

Info

Publication number: CN117807963B
Application number: CN202410236990.2A
Authority: CN
Inventors: 李亚玲; 董波; 牛大明; 何晓琴; 高金莎; 王云云
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-04-30
Anticipated expiration: 2044-03-01
Also published as: CN117807963A

Abstract

本说明书公开了一种指定领域的文本生成方法及装置，对获取到的指定领域的原始文件进行数据清洗和格式转化得到目标文件，通过主题分类模型确定目标文件的目标主题，根据目标文件中的文本构建目标主题的问答对，问答对中的问题是目标文件中的标题文本，答案则是目标文件中的正文文本，根据目标主题对应的问答对优化预训练的自然语言模型的模型参数得到目标主题的文本生成模型，从而通过目标主题对应的文本生成模型，生成目标主题的输出文本。可见，通过上述方式，将提取到的领域知识融合入预训练的自然语言模型，提升了模型对指定领域的适用性，从而提高了输出文本的质量。

Description

一种指定领域的文本生成方法及装置

技术领域

本说明书涉及计算机技术领域，尤其涉及一种指定领域的文本生成方法及装置。

背景技术

随着互联网信息的爆炸性增长，人们对于文本内容生成的需求越发频繁。大语言模型（Large Language Model，LLM）能够根据用户输入的需求生成与人类表达类似的文本，已逐渐在智能写作领域应用。尽管通用的大语言模型具有一定的泛化能力，但由于其是在通用语料库中训练得到，难以覆盖指定领域的指定术语和知识，导致模型在垂直领域上缺乏足够的理解和表达能力，因而在指定专业领域仍表现不佳。

改善大语言模型在指定领域下生成文本的性能的关键在于：对大语言模型注入和融合指定领域的知识。但这一过程往往充满挑战。这是由于，指定领域的语料搜集难度较高，且结构化程度低，难以直接构造形成适用于大语言模型训练的问答对。

目前，为了提升指定领域的语料的结构化程度，通常需要对指定领域的语料进行人工标注，这一过程费时费力，极大地降低了模型训练的效率，进而提升了通过适用于指定领域的大语言模型生成符合指定领域的文本的难度。

发明内容

本说明书提供一种指定领域的文本生成方法及装置，以部分地解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种指定领域的文本生成方法，包括：

获取指定领域的原始文件；所述指定领域包括公文写作领域；

根据数据清洗规则对所述指定领域的原始文件进行数据清洗，并对数据清洗后的各原始文件进行格式转化，得到目标文件；

将所述目标文件输入到预先训练的主题分类模型中，得到所述主题分类模型输出的所述目标文件对应的目标主题；

根据所述目标文件中的文本，构建所述目标主题对应的问答对；其中，所述问答对中的问题是从所述目标文件中提取出的标题文本，所述问答对中的答案是从所述目标文件中提取出的所述标题文本对应的正文文本；

根据所述目标主题对应的问答对，优化预训练的自然语言模型的模型参数，得到所述目标主题对应的文本生成模型；

通过所述目标主题对应的文本生成模型，生成所述目标主题的输出文本。

可选地，所述获取指定领域的原始文件，具体包括：

预先根据指定领域的若干个文件类型，确定爬取规则；所述爬取规则至少包括从所述指定领域的若干个文件类型分别对应的文件目录下分别获取文件；

根据所述爬取规则，获取所述指定领域的各文件类型分别对应的文件，作为所述指定领域的原始文件。

可选地，所述数据清洗规则包括文本长度筛选规则；

所述根据数据清洗规则对所述指定领域的原始文件进行数据清洗，具体包括：

确定所述指定领域的各原始文件包含的文本分别对应的文本长度；

获取多个不同的文本长度阈值；

针对每个文本长度阈值，将所述指定领域的各原始文件包含的文本分别对应的文本长度，依次与该文本长度阈值进行比对，确定文本长度大于该文本长度阈值的指定领域的原始文件，作为该文本长度阈值对应的选中文件；

根据该文本长度阈值对应的选中文件的数量与所述各原始文件的数量之间的比值，确定该文本长度阈值对应的参考指标；

根据各文本长度阈值对应的参考指标，从所述各文本长度阈值中选择目标文本长度阈值；

根据所述目标文本长度阈值，将文本长度不大于所述目标文本长度阈值的指定领域的原始文件剔除，将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。

可选地，所述数据清洗规则包括文本层级结构筛选规则；

获取多个不同的文本层级结构标识，并从各文本层级结构标识中确定各指定标识；

针对所述指定领域的每个原始文件，将所述各文本层级结构标识与该原始文件的文本进行匹配，确定该原始文件的文本中包含的文本层级结构标识，作为目标标识；

若所述目标标识与所述各指定标识均不匹配，则剔除该原始文件；

将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。

可选地，所述数据清洗规则包括文件类型筛选规则；

根据所述指定领域的先验知识，确定多个参考文件类型对应的关键词；

将各参考文件类型对应的关键词与所述指定领域的原始文件中的文本进行匹配，并将文本命中所述各参考文件类型对应的关键词中的至少一个关键词的原始文件剔除，将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。

可选地，所述对数据清洗后的原始文件进行格式转化，得到目标文件，具体包括：

创建指定格式的文件；

将多个预设的文本层级结构标识，与数据清洗后的原始文件进行匹配，从所述数据清洗后的原始文件中提取目标标识；

根据所述目标标识，确定所述原始文件中包含的多级标题文本，以及所述多级标题文本分别对应的层级；

根据所述多级标题文本分别对应的层级，将所述多级标题文本分别标注为所述指定格式的文件中不同级别的标题元素；

根据所述多级标题文本在所述原始文件中的位置，确定所述多级标题文本分别对应的正文文本，并将所述多级标题文本分别对应的正文文本标注为所述指定格式的文件中不同级别的标题元素对应的正文元素；

根据所述不同级别的标题元素、所述不同级别的标题元素对应的正文元素和所述指定格式的文件，确定目标文件。

可选地，预先训练主题分类模型，具体包括：

预先获取多个预设主题，以及各预设主题对应的第一参考文本；

针对每个预设主题，根据该预设主题的第一参考文本以及该预设主题类型，优化预训练的自然语言模型，得到该预设主题的生成模型；

通过该预设主题的生成模型，生成该预设主题的第二参考文本；

根据所述各预设主题的第一参考文本，以及所述各预设主题的第二参考文本确定训练样本，并根据所述各预设主题确定所述训练样本的标注；

根据所述训练样本以及所述训练样本的标注，训练待训练的主题分类模型，得到训练完成的主题分类模型。

可选地，所述根据所述目标文件中的文本，构建所述目标主题对应的问答对，具体包括：

根据所述目标文件中不同级别的标题元素，从所述目标文件中提取多级标题文本；

根据所述目标文件中不同级别的标题元素对应的正文元素，从所述目标文件中提取所述多级标题文本分别对应的正文文本；

依次针对每一级标题文本，将排列在该级标题文本之前的至少一级标题文本，与该级标题文本拼接，得到该级标题文本对应的问题；

将该级标题文本对应的正文文本作为该级标题文本对应的答案；

根据该级标题文本对应的文本，以及该级标题文本对应的答案，确定该级标题文本对应的问答对；

根据所述目标文件中多级标题文本分别对应的问答对，确定所述目标主题对应的问答对。

可选地，所述通过所述目标主题对应的文本生成模型，生成所述目标主题的输出文本，具体包括：

响应于文本生成请求，获取目标主题的至少一级标题文本；

根据所述目标主题的至少一级标题文本以及预设的提示词模板，得到提示文本；

将所述提示文本输入到优化得到的目标主题对应的文本生成模型，得到所述目标主题的输出文本。

本说明书提供了一种指定领域的文本生成装置，包括：

原始文件获取模块，用于获取指定领域的原始文件；所述指定领域包括公文写作领域；

目标文件确定模块，用于根据数据清洗规则对所述指定领域的原始文件进行数据清洗，并对数据清洗后的各原始文件进行格式转化，得到目标文件；

分类模块，用于将所述目标文件输入到预先训练的主题分类模型中，得到所述主题分类模型输出的所述目标文件对应的目标主题；

问答对构建模块，用于根据所述目标文件中的文本，构建所述目标主题对应的问答对；其中，所述问答对中的问题是从所述目标文件中提取出的标题文本，所述问答对中的答案是从所述目标文件中提取出的所述标题文本对应的正文文本；

优化模块，用于根据所述目标主题对应的问答对，优化预训练的自然语言模型的模型参数，得到所述目标主题对应的文本生成模型；

文本生成模块，用于通过所述目标主题对应的文本生成模型，生成所述目标主题的输出文本。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述指定领域的文本生成方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述指定领域的文本生成方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

本说明书提供的指定领域的文本生成方法中，对获取到的指定领域的原始文件进行数据清洗和格式转化得到目标文件，通过主题分类模型确定目标文件的目标主题，根据目标文件中的文本构建目标主题的问答对，问答对中的问题是目标文件中的标题文本，答案则是目标文件中的正文文本，根据目标主题对应的问答对优化预训练的自然语言模型的模型参数得到目标主题的文本生成模型，从而通过目标主题对应的文本生成模型，生成目标主题的输出文本。可见，通过对目标文件进行主题分类，依据目标文件中的标题文本和正文文本构建目标主题的问答对的方式，可以有效提取出目标文件中指定领域下目标主题的知识，从而通过微调的方式，将提取到的知识融合入预训练的自然语言模型，提升了模型对指定领域的适用性，从而提高了输出文本的质量。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种指定领域的文本生成方法的流程示意图；

图2为本说明书中一种指定领域的文本生成方法的流程示意图；

图3为本说明书中一种指定领域的文本生成方法的流程示意图；

图4为本说明书中一种指定领域的文本生成方法的流程示意图；

图5为本说明书中一种指定领域的文本生成方法的流程示意图；

图6为本说明书提供的一种指定领域的文本生成装置的示意图；

图7为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

另外，需要说明的是，本说明书中所有获取信号、信息或数据的动作都是在遵照所在地相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

需要说明的是，在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

如前所述，适用于指定领域的大语言模型的训练难度实际上在于构建指定领域的文本语料库。另外，在实际应用中，指定领域所涵盖的主题实际上非常多。

由此可见，构建指定领域的文本语料库时，还需根据指定领域所涉及的不同主题进一步细分文本语料库，将指定领域的文件或文本进行主题分类，从而分别构建不同主题分别对应的文本语料库，进而，基于指定领域下不同主题分别对应的文本语料库，分别优化得到适用于指定领域下不同主题的文本生成模型。

基于上述阐述，对指定领域的文本或者文本进行主题分类尤为重要，但是，由于指定领域属于特定的专业化知识领域，带标注的监督样本十分耗费人力。采用无监督的隐含狄利克雷分布（Latent Dirichlet Allocation，LDA）主题聚类的方法对指定领域的文本进行分类时，形成的主题由聚类生成，缺乏实际上的逻辑完备性和意义，难以恰当地描述文本的实际分配特征，且形成的语料结构化程度较低，噪声较多，难以直接应用在对语言模型的优化中。

基于此，本说明书提供一种指定领域的文本生成方法，通过对目标文件进行主题分类，依据目标文件中的标题文本和正文文本构建目标主题的问答对的方式，可以有效提取出目标文件中指定领域下目标主题的知识，从而通过微调的方式，将提取到的知识融合入预训练的自然语言模型。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书提供的一种指定领域的文本生成方法的流程示意图。

S100：获取指定领域的原始文件，所述指定领域包括公文写作领域。

本说明书实施例中提供的一种指定领域的文本生成方法，该方法的执行过程可由用于生成指定领域的文本的服务器等电子设备执行。另外，在执行该方法的过程中，所涉及到的采用预先训练的主题分类模型，以及对预训练的自然语言模型进行优化，执行前述模型的模型训练的电子设备和执行该方法的电子设备可以相同也可以不同，本说明书对此不做限定。

在本说明书中，指定领域可以是具有较多专业化知识、文本复杂度高、逻辑性强的知识密集型领域。指定领域的文件或文本通常包含大量的专业知识和经验，其中的数据、信息和细节复杂度高、组织性强。通常而言，指定领域（知识密集型）的文件中的文本是为了某种知识或者理论体系而编写的，需要将知识按照一定的逻辑结构组织起来。因此，指定领域的文件中的文本通常会存在明显的层级结构、篇章结构、递进关系等。

如前所述，本说明书中指定领域指的是知识密集型领域，包括法律咨询领域、医学领域、科学研究领域、公文写作领域。当然还可以存在其他领域，比如工程设计领域，本说明书对指定领域的具体类型不做限定。

在本说明书中，指定领域的原始文件可以通过用户人工搜集获取，例如人工从法律法规网站上下载法律领域的法条文件，人工从期刊数据库中下载科学研究领域的期刊文章，人工从相关组织和机构的官方网站上下载公文写作领域的公文文件。或者，也可以是采用预先编写的爬取程序从公开渠道爬取得到，如科学研究领域的期刊文章可以从期刊网站上爬取得到，法律领域的法条文件可以从法律法规网站上爬取得到，公文写作领域的公文文件可以从相关组织和机构的官方网站上爬取得到。

另外，获取到的指定领域的原始文件可以以其原本的格式进行存储，形成指定领域的文本集。原始文件的格式可以是txt、doc、excel、pdf等，本说明书对此不做限定。

S102：根据数据清洗规则对所述指定领域的原始文件进行数据清洗，并对数据清洗后的各原始文件进行格式转化，得到目标文件。

具体的，为了提升指定领域下不同主题的文本语料库的质量，还需要对指定领域的原始文件进行数据清洗。S100中获取到的指定领域的原始文件可能存在下述噪声数据：不属于指定领域的文件、文本长度较短的文件、文本结构简单的文件、文件类型不符合训练意图的文件。

针对不同的噪声数据的类型，可以预先指定不同的数据清洗规则，如对获取到的原始文件中的文本采用自然语言理解的方案，识别其文本的语义，将予以不符合指定领域的文件剔除；确定原始文件的文本长度，将文本长度较短的文件剔除；或者确定原始文件的文本结构层级，将文本结构层级过于简单的文件剔除；又或者，基于关键词匹配的方式确定原始文件所属的文件类型，将文件类型不符合训练意图的文件剔除。

经过数据清洗的指定领域的原始文件通常具备丰富的内容和完备的段落层级，是后续构建指定领域的不同主题的文本语料库的高质量语料。

进一步的，为了提升后续步骤中从原始文件中提取文本的效率，可将原始文件的文件格式进行转化，尤其是转化为结构化程度较高的指定格式，如可扩展标记语言（eXtensible Markup Language，XML）格式。从而，格式转化得到的目标文件具有结构化、规范化程度高的特点，便于后续步骤构建问答对这一形式的语料。

S104：将所述目标文件输入到预先训练的主题分类模型中，得到所述主题分类模型输出的所述目标文件对应的目标主题。

具体的，本说明书中，虽然在S102数据清洗的过程中剔除掉了不符合训练意图的原始文件，经过数据清洗、格式转换后的目标文件的文件类型虽然符合训练意图，但是依然没有对目标文件中文本的主题进行进一步的细分，不同的主题的目标文件依然混杂在一起。因此，在此步骤中，采用预先训练的主题分类模型对目标文件进行主题分类，从而针对每个不同的主题构建问答对，进而优化得到不同主题的文本生成模型。

本说明书所采用的预先训练的主题分类模型采用有监督学习的方式训练得到。训练主题分类模型所使用的训练样本是不同预设主题的参考文本，标注是参考文本相对应的预设主题。其中，训练样本及其标注的获取方式可以是人工，也可以是自动生成的，本说明书对此不做限定。

S106：根据所述目标文件中的文本，构建所述目标主题对应的问答对；其中，所述问答对中的问题是从所述目标文件中提取出的标题文本，所述问答对中的答案是从所述目标文件中提取出的所述标题文本对应的正文文本。

经过S102后得到的目标文件通常包含有完备的段落层级，也即目标文件中的文本包括标题文本，并且目标文件中包括标题文本对应的正文文本。一般的，一个标题文本对应于一段或多段正文文本。并且，一个目标文件包含的标题文本可以是多级标题文本，即一级标题、文本、二级标题文本、三级标题文本等等。不同层级的标题文本对应的层级结构标识也互不相同，例如，一级标题：一、二、三、……，二级标题：（一）（二）（三）……，三级标题：1.2.3.……；或者也可以是：一级标题：第一篇第二篇第三篇……，二级标题：第一章第二章第三章……，三级标题：第一节第二节第三节……。

由此，从目标文件中提取标题文本的方式可以是基于标题文本的层级结构标识匹配的方式，将目标文件中层级结构标识对应的文本作为标题文本。进而，将标题文本附近的正文作为该标题文本对应的正文文本。

在此步骤中，从目标主题的目标文件中提取出的标题文本和正文文本构建目标主题的问答对。可以理解的是，不同的目标文件可能对应于不同的目标主题，因此，针对每个不同的目标主题，根据该目标主题的目标文件，可以构建该目标主题的问答对。

例如，以指定领域为科学研究领域为例，指定领域的目标文件是期刊论文《基于深度学习的图像识别算法研究》，其中，包含的标题文本是“第1章绪论”，标题文本对应的正文文本是“随着科学技术的发展和进步，识别技术的应用日益广泛，如语音识别、图像识别……，图像识别技术已经从简单的数字识别到物体的识别、人脸的识别，各项技术正在不断地发展和成熟”。

又如，以指定领域为公文写作领域为例，指定领域的目标文件是《关于XX市全面优化营商环境的意见》，其中，包含的标题文本是“二、重点任务”，标题文本对应的正文文本是“充分发挥标准化在优化营商环境中的基础性作用，按照简化、统一、协调、最优原则……”。

S108：根据所述目标主题对应的问答对，优化预训练的自然语言模型的模型参数，得到所述目标主题对应的文本生成模型。

具体的，将目标主题对应的问答对中的问题输入到预训练的自然语言模型中，得到模型输出的生成文本，确定生成文本与目标主题对应的问答对的答案之间的差异，并以该差异的最小化为优化目标，优化预训练的自然语言模型的模型参数，经过迭代优化后，根据优化后的模型参数，得到目标主题对应的文本生成模型。

可以理解的是，当S102得到的不同的目标文件对应于不同的目标主题时，通过S106实际上针对每个不同的目标主题构建了问答对，因此，通过S108可以优化得到多个不同目标主题对应的文本生成模型。

例如，科学研究领域的两个目标文件分别属于学术期刊论文类型和科研项目报告类型，基于学术期刊论文类型的目标文件可构建学术期刊论文类型的问答对，根据学术期刊论文类型的问答对可优化得到学术期刊论文类型的文本生成模型；基于科研项目报告类型的目标文件可构建科研项目报告类型的问答对，根据科研项目报告类型的问答对可优化得到科研项目报告类型的文本生成模型。

又如，公文写作领域的两个目标文件分别属于数字经济主题和营商环境主题，基于数字经济主题的目标文件可构建数字经济主题的问答对，根据数字经济主题的问答对可优化得到数字经济主题的文本生成模型；基于营商环境主题类型的目标文件可构建营商环境主题的问答对，根据营商环境主题的问答对可优化得到营商环境主题的文本生成模型。

S110：通过所述目标主题对应的文本生成模型，生成所述目标主题的输出文本。

由于目标主题对应的文本生成模型是在预训练的自然语言模型的基础上优化得到的，因此，在实际应用中，也可以构造提示文本，并将提示文本输入到目标主题对应的文本生成模型中。提示文本中可以包括用于描述文本生成意图的文本，以及待生成的输出文本的特征的文本，由此可见，提示文本用于引导目标主题对应的文本生成模型生成符合文本生成意图，以及符合待生成的输出文本的特征的输出文本。

前述提示文本中用于描述文本生成意图的文本，以及待生成的输出文本的特征的文本可以由用户输入，也可以基于目标主题自动生成，本说明书对此不做限定。

本说明提供的指定领域的文本生成方法中，对获取到的指定领域的原始文件进行数据清洗和合适转化得到目标文件，通过主题分类模型确定目标文件的目标主题，根据目标文件中的文本构建目标主题的问答对，问答对中的问题是目标文件中的标题文本，答案则是目标文件中的正文文本，根据目标主题对应的问答对优化预训练的自然语言模型的模型参数得到目标主题的文本生成模型，从而通过目标主题对应的文本生成模型，生成目标主题的输出文本。

可见，通过对目标文件进行分类，依据目标文件中的标题文本和正文文本构建目标主题的问答对的方式，可以有效提取出目标文件中指定领域下目标主题的知识，从而通过微调的方式，将提取到的知识融合入预训练的自然语言模型，提升了模型对指定领域的适用性，从而提高了输出文本的质量。

在本说明书一个或多个实施例中，S100获取指定领域的原始文件可按照下述方案实现：

首先，预先根据指定领域的若干个文件类型，确定爬取规则；所述爬取规则至少包括从所述指定领域的若干个文件类型分别对应的文件目录下分别获取文件。

在实际应用中，通过爬取的方式获取指定领域的原始文件时，可首先确定指定领域的文件爬取网站，并基于多个文件爬取网站构成指定领域的网站列表，从网站列表记录的各个文件爬取网站上爬取到的文件，通常就是指定领域的原始文件。

进一步的，为了提高数据采集过程的效率，降低S104中分类的难度，以及确保文件的文件类型是适用于预训练的自然语言模型训练和优化的数据类型，可在文件爬取时，基于指定领域的若干个文件类型，预先确定爬取规则，该爬取规则用于获取前述指定领域的若干个文件类型的文件作为指定领域的原始文件。这样，在数据采集阶段就限制了原始文件的文件类型，能够有效减少指定领域的原始文件中可能包含的噪声数据，提高了数据采集环节的效率，也提高了S104分类的效率。

如前所述，本说明书实施例中提供的爬取规则用于获取指定领域的若干个文件类型的文件作为指定领域的原始文件，因此，爬取规则中至少包括从前述指定领域的网站列表所记录的各个文件爬取网站包含的指定领域的若干个文件类型分别对应的文件目录下分别获取文件，作为指定领域的若干个文件类型的原始文件。

具体的，针对指定领域的网站列表所记录的每个文件爬取网站，确定该文件爬取网站包含的指定领域的若干个文件类型分别对应的文件目录，分别爬取所述若干个文件类型分别对应的文件目录下记录的各文件，作为指定领域的原始文件。

例如，法律咨询领域涉及的文件类型包括法律条文、合同文件、标准文件、案例判例、判决书和裁定书等。医学领域涉及的文件类型包括医学书籍和期刊文章、病历记录、实验室检查报告、影像学报告、医嘱单、诊断证明等。科学研究领域涉及的文件类型可包括学术期刊论文、科研项目申请书、中期/结题报告、学术会议摘要和演示材料、实验室记录等。公文写作领域所涵盖的文件类型包括规章、行政规范性文件、审批文件、规划计划、其他文件、政策解读等。

其中，在科学研究领域，文件类型包括学术期刊论文类型和科研项目报告类型，网站列表中记录有学术搜索网站，在学术搜索网站中记录有科学研究领域不同文件类型的目录，如期刊论文目录、科研项目报告目录。基于前述爬取规则，从学术搜索网站的期刊论文目录中爬取的文件即为学术期刊论文类型的原始文件，从科研项目报告目录中爬取的文件即为科研项目报告类型的原始文件，这两种文件类型的原始文件均作为科学研究领域的原始文件。

除前述爬取规则之外，爬取规则还包括从指定领域的网站列表所记录的各个文件爬取网站中获取与所述指定领域的若干个文件类型的关键词匹配的文件。具体的，针对指定领域的网站列表所记录的每个文件爬取网站，从该文件爬取网站上爬取各候选文件，从所述各候选文件中提取待匹配字段，将所述各候选文件的待匹配字段与所述指定领域的若干个文件类型的关键词匹配，将与所述指定领域的若干个文件类型的关键词匹配的候选文件，作为指定领域的原始文件。其中，指定领域的若干个文件类型的关键词可基于指定领域的若干个文件类型确定，如科学研究领域的学术期刊论文类型的关键词可以是“研究”。科研项目报告类型的关键词可以是“项目”。各候选文件的待匹配字段可以是从各候选文件的文件标题、绪论、摘要、正文等文本中提取出来的。如果候选文件的待匹配字段与关键词匹配，则可确定该候选文件属于匹配的关键词所对应的文件类型的文件，例如，文件《基于人工智能的医疗影像项目分析报告》的标题命中“项目”这一关键词，因此，该文件属于科研项目报告类型的文件；文件《神经网络在药物发现中的研究》的标题命中“研究”这一关键词，因此，该文件属于学术期刊论文类型的文件。

另外，在此步骤中，实际上并不需要对原始文件所属的文件类型进行细分，如果一个候选文件的待匹配字段命中了多个关键词，可爬取该候选文件，并随机确定该候选文件的文件类型，在S104采用主题分类模型精准分类该文件的文件类型即可。例如，文件《绿色能源研究项目》就命中了“研究”以及“项目”这两个关键词，此处，可随机确定该文件的文件类型，可以是学术期刊论文类型，也可以是科研项目报告类型。

之后，根据所述爬取规则，获取所述指定领域的各文件类型分别对应的文件，作为所述指定领域的原始文件。

需要说明的是，虽然基于爬取规则获取到了指定领域的若干个文件类型分别对应的文件，但在数据采集阶段并不需要对原始文件进行主题分类，因此，无需将指定领域的原始文件进行分类存储，但可以根据具体的应用场景，标注原始文件的初始主题。

在本说明书一个或多个实施例中，指定领域可以是知识密集型领域，优化预训练的自然语言模型得到的目标主题的文本生成模型所生成的输出文本需要具备指定领域内的文本的特征，即S100中所述的知识专业化程度高、文本复杂度高、逻辑性强，并且存在明显的层级结构、篇章结构、递减关系等。因此，优化预训练的自然语言模型所采用的原始文件所包含的文本也需要具备指定领域的文本的特征。因此，S102中数据清洗规则可以包括文本长度筛选规则、文本层级结构筛选规则、文件类型筛选规则中的一个或多个，下述按照不同的数据清洗规则一次阐述对原始文件的数据清洗方案：

第一种情况：数据清洗规则是文本长度筛选规则。具体方案如下，如图2所示。

S200：确定所述指定领域的各原始文件包含的文本分别对应的文本长度。

具体的，如前所述，优化预训练的自然语言模型所采用的原始文件包含的文本需要具备指定领域的文本特征，利用数据清洗规则将不具备指定领域的文本的特征的原始文件剔除，从而进一步提升原始文件的质量。

通常情况下，文本复杂度高、逻辑性强、知识专业化除了体现在文本语义本身之外，客观而言，还能够体现在文本长度上。一般的，文本复杂度越高、逻辑性越强、知识越专业，原始文件包含的文本所对应的文本长度越长，反之，如果文本复杂度较低、逻辑性不强、文本所描述的是非专业性知识，则原始文件包含的文本所对应的文本长度通常较短。因此，在第一种情况中，将文本对应的文本长度较短的原始文件作为不具备指定领域的文本的特征的原始文件。从而，在S200中首先针对指定领域的各原始文件所包含的文本，确定分别对应的文本长度，以文本长度作为清洗原始文件的依据。

S202：获取多个不同的文本长度阈值。

在实际应用中，在不同指定领域下，对原始文件进行数据清洗所选用的文本长度阈值通常不同。因此，在本说明书中，基于不同文本长度阈值清洗原始文件后，剩余的原始文件的比例选用适当的文本长度阈值，避免选用不合适的文本长度阈值，将包含重要知识的原始文件清洗掉。

在此步骤中，多个不同的文本长度阈值可以是根据先验经验确定的，各文本长度阈值之间的差异可以相同也可以不同，本说明书对各个文本长度阈值的具体取值不做限定。可选地，获取五个不同的文本长度阈值，分别为1000字符、1500字符、2000字符、2500字符、3000字符。

S204：针对每个文本长度阈值，将所述指定领域的各原始文件包含的文本分别对应的文本长度，依次与该文本长度阈值进行比对，确定文本长度大于该文本长度阈值的指定领域的原始文件，作为该文本长度阈值对应的选中文件。

在此步骤中，将指定领域的原始文件包含的文本对应的文本长度与每个文本长度阈值进行比对，如果文本长度大于相应的文本长度阈值，则将该原始文件作为该文本长度阈值对应的选中文件。

例如，原始文件X₁的文本长度是1499个字符，文本长度阈值A₁是1000字符，文本长度阈值A₂是1500字符，显然，将原始文件X₁的文本长度大于文本长度阈值A₁，因此，原始文件X₁是文本长度阈值A₁对应的选中文件。而原始文件X₁的文本长度小于文本长度阈值A₂，则原始文件X₁不是文本长度阈值A₂的选中文件。

S206：根据该文本长度阈值对应的选中文件的数量与所述各原始文件的数量之间的比值，确定该文本长度阈值对应的参考指标。

将参考指标定义为清洗后剩余的原始文件的数量，占清洗前原始文件的数量的比例。由于本说明书中，基于文本长度筛选规则对原始文件进行数据清洗是将文本长度不大于确定出的文本长度阈值的原始文件剔除，将文本长度大于确定出的文本长度阈值的原始文件保留，因此，S204中各文本长度阈值对应的选中文件实际上就是基于不同的文本长度阈值清洗后剩余的原始文件。

因此，基于该文本长度阈值对应的选中文件的数量，与原始文件的数量之间的比值，确定该文本长度阈值对应的参考指标。

在本说明书中，文本长度阈值对应的选中文件的数量，与原始文件的数量之间的比值越大，说明基于该文本长度阈值对原始文件进行数据清洗后剩余的文件的数量越多，该文本长度阈值对应的参考指标越高，数据清洗的效果越好。

S208：根据各文本长度阈值对应的参考指标，从所述各文本长度阈值中选择目标文本长度阈值。

具体的，将各个不同的文本长度阈值中参考指标最高的文本长度阈值，作为目标文本长度阈值。

当然，还可以根据参考指标较高的多个文本长度阈值的统计结果（如平均数），确定目标文本长度阈值。

S210：根据所述目标文本长度阈值，将文本长度不大于所述目标文本长度阈值的指定领域的原始文件剔除，将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。

第二种情况：数据清洗规则是文本层级结构筛选规则。具体方案如下，如图3所示。

S300：获取多个不同的文本层级结构标识，并从各文本层级结构标识中确定各指定标识。

如前所述，具备指定领域的文本的特征的原始文件，其中的文本的层级结构通常层级结构较多、篇章结构复杂，不同层级之间逻辑关系紧密，这样才能够将专业化的知识按照一定的逻辑结构组织起来，形成逻辑性强、文本复杂度高的原始文件。由此，本说明书中，基于文本层级结构筛选规则，将文本层级结构简单的原始文件清洗掉，剩余的原始文件即为文本层级结构复杂的文件。

因此，需要确定指定领域的原始文件中所包含的层级结构的层级数量、层级深度等与文本层级相关的信息，并基于这些与文本层级相关的信息，判断原始文件的文本层级是否复杂。

在此步骤中，基于指定领域的专家经验和先验经验，获取多个不同的文本层级结构标识。

在实际应用中，文本层级结构标识可以是文本大纲中多级列表的编号，可以是文本、数字和符号的组合，如第一级编号为“一、二、三、”，第二级编号为“（一）、（二）、（三）、”，第三级编号为“1. 2. 3.”。可以是文本的形式，如“首先、其次、再次、最后”，“第一步、第二步、第三步”，“第一章、第二章、第三章”。本说明书对文本层级结构标识的具体数量和形式不做限定。

从获取到的多个文本层级结构标识中选择部分作为指定标识。指定标识用于在后续确定原始文本的文本层级结构是否复杂，因此，指定标识实际上是具有典型性和通用性的文本层级结构标识。从多个文本层级结构标识中选择指定标识的方式可以是基于人工确定的方式、基于先验经验的方式、或者是基于历史匹配记录的方式确定，本说明书对此不做限定。

S302：针对所述指定领域的每个原始文件，将所述各文本层级结构标识与该原始文件的文本进行匹配，确定该原始文件的文本中包含的文本层级结构标识，作为目标标识。

具体的，将原始文件的文本与S300或获取到的各文本层级结构标识进行匹配，若匹配成功，则原始文件中包含有各文本层级结构标识中至少一个标识，将匹配到的文本层级结构标识作为该原始文件的目标标识。若均不匹配，则说明该原始文件中不包含与所述各文本层级结构标识相同的任一标识，也即，该原始文件不包含任何文本层级。

在本说明书中，可将无法确定目标标识的原始文件在此步骤中从指定领域的原始文件中剔除。

S304：若所述目标标识与所述各指定标识均不匹配，则剔除该原始文件。

进一步的，判断目标标识是否与各指定标识匹配，相当于判断目标标识是否命中各指定标识中的至少一个标识，若是，则目标标识与各指定标识匹配，说明该原始文件包含的文本层级结构具有典型性和通用性，可以认为该原始文件包含了复杂的文本层级结构。

如果该原始文件的目标标识与各指定标识均不匹配，则说明目标标识没有命中任何一个指定标识，说明该原始文件包含的文本层级不具备典型性和通用性，可以认为该原始文件不包含文本层级结构或者包含的文本层级结构较为简单或不典型。

S306：将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。

第三种情况：数据清洗规则是文件类型筛选规则。

首先，根据所述指定领域的先验知识，确定多个参考文件类型对应的关键词。

之后，将各参考文件类型对应的关键词与所述指定领域的原始文件中的文本进行匹配，并将文本命中所述各参考文件类型对应的关键词中的至少一个关键词的原始文件剔除，将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。

具体的，获取到的指定领域的原始文件由于涉及的内容和侧重点不同，往往具有不同的文本分类，如科学研究领域中，学术期刊文论文与科研项目报告虽然都是科学研究领域的文件，但是由于内容和侧重点不同，分属于不同的文件类型。又如公文写作领域中，由于涉及的工作不同，往往具有不同的分类，如官员任免、会议通知、意见征集、精神传达等工作分别对应于公文写作领域的不同文件类型。

由于本说明书中，数据清洗后的原始文件会作为优化预训练的自然语言模型的样本，优化得到的目标主题的文本生成模型的目的实际上是生成符合指定领域的文本的特征、并且文件类型典型、含义丰富的目标主题的文本。而原始文件中的文本所对应的文件类型可能较为简单或不典型，如果用这种文件类型的原始文件作为样本优化预训练的自然语言模型，最终得到的文本生成模型生成的输出文本可能存在文件类型简单、含义浅薄的问题。

由此，基于文件类型筛选规则对指定领域的原始文件进行数据清洗，实际上是将不符合本说明书文本生成意图的文件类型的原始文件剔除，保留文件类型较为典型和复杂，含义丰富的原始文件作为后续优化预训练的自然语言模型所采用的训练样本。

具体的，根据所述指定领域的先验知识，确定多个参考文件类型对应的关键词。其中，参考文件类型是基于先验知识确定的较为简单、浅薄的文件类型。

例如，科学研究领域中，参考文件类型可以是学术会议摘要类型、实验记录类型，其对应的关键词可以分别是“会议摘要”、“实验记录”。又如，公文写作领域虽然是专业性较强的指定领，但其中涉及任免、会议通知、征文活动等日常工作的文件其内容较为简单和浅薄，因此，公文写作领域的参考文件类型可以是任免类型、会议通知类型、征文活动类型，其对应的关键词可以分别是“任免”、“会议”、“征文”。

当原始文件的文本与参考文件类型的关键词进行匹配，确定原始文本包含的文本中均不命中各参考文件类型的关键词中的任意一个，则说明书原始文件不属于各参考文件类型中的任何一个，可以将该原始文件保留。如果原始文件包含的文本命中各参考文件类型的关键词中的至少一个，则说明该原始文件属于各参考文件类型中的一个或多个类型，可将该原始文件剔除，也即，将文本命中所述各参考文件类型对应的关键词中的至少一个关键词的原始文件剔除。

需要注意的是，在实际应用中，可以根据具体的应用场景和需求，灵活选择上述三种数据清洗规则中的一个或多个，本说明书对上述三种数据清洗规则的组合方式不做限定。

在本说明书一个或多个实施例中，S102对数据清洗后的原始文件进行格式转化，得到目标文件具体可通过下述方案实现：

第一步：创建指定格式的文件。

具体的，首先创建一个新的指定格式的文件，该指定格式可以是现有的任意类型的结构化数据的文件，如XML格式。在新创建的指定格式的文件中定义根元素。

第二步：将多个预设的文本层级结构标识，与数据清洗后的原始文件进行匹配，从所述数据清洗后的原始文件中提取目标标识。

之后，对指定领域的原始文件包含的各层级结构映射为指定格式的文件中的各级元素。

具体的，为了将原始文件中各层级结构映射为指定格式的文本中的各级元素，需要首先从指定领域的原始文件包含的文本中确定用于表征各文本层级结构的目标标识，确定目标标识的方式即为基于预设的各文本层级结构标识与原始文件中的文本进行匹配，将原始文件中与预设的各文本层级结构标识匹配的标识作为目标标识。

一个原始文件中可包括多个目标标识，各目标标识可以属于同一文本层级，也可以属于不同文本层级。本说明书对此不做限定。

例如，预设的文本层级结构标识可以存在下述四种情况：第一种，一级标题：一、二、三、……，二级标题：（一）、（二）、（三）……，三级标题：1.2.3.……；第二种，一级标题：第一篇、第二篇、第三篇……，二级标题：第一章、第二章、第三章……，三级标题：第一节、第二节、第三节……；第三种，一级标题：第一篇、第二篇、第三篇……，二级标题：第一章、第二章、第三章……，三级标题：第一节、第二节、第三节……，四级标题：一、二、三、……；第四种，一级标题：第一章、第二章、第三章……，二级标题：第一节、第二节、第三节……，三级标题：1.2.3.……。

基于原始文件与预设的文本层级结构标识的匹配，可确定原始文件的目标标识为：一级标题：第一篇、第二篇、第三篇……，二级标题：第一章、第二章、第三章……，三级标题：第一节、第二节、第三节……，四级标题：一、二、三、……。其中，第一篇和第二篇属于同一文本层级的不同目标标识，第一篇和第一章属于不同文本层级的不同目标标识。

第三步：根据所述目标标识，确定所述原始文件中包含的多级标题文本，以及所述多级标题文本分别对应的层级。

进一步的，基于匹配得到的目标标识，确定原始文件中各级标题文本。一般的，原始文件中，用于表征文本层级的目标标识之后，会写明该文本层级对应叙述的文本内容，或者这一文本层级的主体，一般以标题的形式记录在原始文件中。因此，本说明书中将原始文件所包含的文本中，排序在目标标识之后的字段作为标题文本。

另外，由于各目标标识分别表征的文本层级可以相同也可以不同，基于目标标识确定的各标题文本之间的文本层级同样可以相同也可以不同。一般的，根据目标标识对应的文本层级，确定标题文本对应的层级。

第四步：根据所述多级标题文本分别对应的层级，将所述多级标题文本分别标注为所述指定格式的文件中不同级别的标题元素。

第五步：根据所述多级标题文本在所述原始文件中的位置，确定所述多级标题文本分别对应的正文文本，并将所述多级标题文本分别对应的正文文本标注为所述指定格式的文件中不同级别的标题元素对应的正文元素。

在原始文件中，通常在标题文本之后，记录与该标题文本主题相同的正文文本，以便详细阐述标题文本所要表达的内容和主题。因此，在此步骤中，基于标题文本在原始文件中的位置，确定各级标题文本分别对应的正文文本。

进而，基于上述第四步中标注的不同级别的标题元素，以及多级标题文本与正文文本之间的对应关系，确定正文元素，以及正文元素与标题元素之间的对应关系。

第六步：根据所述不同级别的标题元素、所述不同级别的标题元素对应的正文元素和所述指定格式的文件，确定目标文件。

基于上述将原始文件进行格式转化得到目标文件的方案，在上述S106构建目标主题的问答对时，由于目标文件是结构化程度高的文件，可提高从目标文件中提取所需标题文本和正文文本的效率，具体可按照下述方案实现，如图4所示：

S400：根据所述目标文件中不同级别的标题元素，从所述目标文件中提取多级标题文本。

如前所述，目标文件中存在多个不同级别的标题元素，每个标题元素对应于不同的标题文本。并且，基于标题元素所对应的级别，还可以确定标题文本对应的级别。

因此，根据所述目标文件中不同级别的标题元素，从所述目标文件中提取多级标题文本。

S402：根据所述目标文件中不同级别的标题元素对应的正文元素，从所述目标文件中提取所述多级标题文本分别对应的正文文本。

如前述图3所示，格式转化后的目标文件中存在不同级别的标题元素，与不同级别的正文元素之间的对应关系，因此，基于不同级别的标题元素，可以确定相对应的不同级别的正文元素，从而确定多级标题文本分别对应的正文文本。

S404：依次针对每一级标题文本，将排列在该级标题文本之前的至少一级标题文本，与该级标题文本拼接，得到该级标题文本对应的问题。

在本说明书中，以构造结构化的问答对作为优化预训练的自然语言模型的训练样本。为了使得预训练的自然语言模型能够在生成文本内容时考虑文件整体和段落上下文的结构信息，本说明书中，不仅根据同一文本级别的标题文本和正文文本构建问答对，还引入了当前级别的标题文本之前的若干个级别的标题文本作为上下文信息。

具体的，基于S400提取的多个级别的标题文本，针对多个级别的标题文本中的每个级别的标题文本，确定该级别的标题文本在多级标题文本中的排列次序，根据该级标题文本在多级标题文本中的排列次序，确定该级标题文本之前的各级标题文本，并基于该级标题文本之前的至少一级标题文本与该级标题文本进行拼接，得到该级标题文本对应的问题。

需要说明的是，对于多级标题文本中的级别最高（或者是第一级）的标题文本而言，不存在排列在之前的标题文本，此时，只能给予该级标题文本本身构建该级标题文本对应的问题。

S406：将该级标题文本对应的正文文本作为该级标题文本对应的答案。

在实际应用中，目标文件中的标题文本通常概括了相对应的正文文本的主题或主要内容，而正文文本通常是标题所概括的主题的详细阐述和解释，为标题文本所描述的主题提供更多的细节、事实或理论的支撑。

因此，可将标题文本视为问题，将正文文本视为答案，构建问答对。

S408：根据该级标题文本对应的文本，以及该级标题文本对应的答案，确定该级标题文本对应的问答对。

S410：根据所述目标文件中多级标题文本分别对应的问答对，确定所述目标主题对应的问答对。

在本说明书一个或多个实施例中，S104所采用的主题分类模型可按照下述方案预先迭代训练得到，如图5所示，具体方案如下：

S500：预先获取多个预设主题，以及各预设主题对应的第一参考文本。

具体的，预设主题可基于指定领域的先验经验确定。由于指定领域可以是知识密集型领域，对于指定领域的文件的分类包含了很强的隐式语义，因此，可基于领域专家对文本进行标注和筛选，得到各预设主题对应的第一参考文本。

S502：针对每个预设主题，根据该预设主题的第一参考文本以及该预设主题，优化预训练的自然语言模型，得到该预设主题的生成模型。

然而，仅基于领域专家人工表述和筛选得到的各预设主题对应的第一参考文本的样本规模较少，直接以第一参考文本作为主题分类模型的训练样本会出现训练规模不足，难以训练得到主题分类模型的问题。因此，本说明书中，通过迁移学习的思想，以每个预设主题的第一参考文本为小规模样本，微调预训练的自然语言模型的模型参数，得到每个预设主题的生成模型。

S504：通过该预设主题的生成模型，生成该预设主题的第二参考文本。

进一步的，基于每个预设主题的生成模型，生成每个预设主题的第二参考文本，从而实现基于自动生成和人工标注得到两种形式的参考文本，以便扩大参考文本的规模。

S506：根据所述各预设主题对应的第一参考文本，以及所述各预设主题对应的第二参考文本确定训练样本，并根据所述各预设主题确定所述训练样本的标注。

S508：根据所述训练样本以及所述训练样本的标注，训练待训练的主题分类模型，得到训练完成的主题分类模型。

具体的，采用有监督学习的方式，对主题分类模型进行训练。具体的，将训练样本输入到待训练的主题分类模型中，得到主题分类模型输出的训练样本对应的预测类型，以主题分类模型输出的训练样本对应的预测类型和训练样本的标注之间的差异的最小化为训练目标，训练主题分类模型。由于训练样本的样本规模经过前述方案的扩充，经过迭代训练后，主题分类模型能够准确的将包含文本的不同目标文件进行分类，得到目标文件对应的目标主题。

在本说明书一个或多个实施例中，S110中通过目标主题对应的文本生成模型，生成所述目标主题的输出文本，具体可按照下述方案实现：

第一步：响应于文本生成请求，获取目标主题的至少一级标题文本。

具体的，由于目标主题的文本生成模型在训练时所采用的目标主题的问答对中所包含的问题可以包含多级标题文本，因此，当接收到文本生成请求时，可获取目标主题的一级或多级标题文本，以便构建输入到目标主题的文本生成模型中的提示文本。

第二步：根据所述目标主题的至少一级标题文本以及预设的提示词模板，得到提示文本。

具体的，目标主题的至少一级标题文本中，包括了用于描述文件整体和段落上下文的结构信息的文本层级较高的标题文本，以及针对所需要生成的目标主题的输出文本的概括的标题文本。基于此构建的提示文本能够提示目标主题对应的文本生成模型上下文信息以及文本生成目标，从而提升生成的输出文本的质量。

第三步：将所述提示文本输入到优化得到的目标主题对应的文本生成模型，得到所述目标主题的输出文本。

以上为本说明书的一个或多个实施例提供的指定领域的文本生成方法，基于同样的思路，本说明书还提供了相应的指定领域的文本生成装置，如图6所示。

图6为本说明书提供的一种指定领域的文本生成装置示意图，具体包括：

原始文件获取模块600，用于获取指定领域的原始文件；所述指定领域包括公文写作领域；

目标文件确定模块602，用于根据数据清洗规则对所述指定领域的原始文件进行数据清洗，并对数据清洗后的各原始文件进行格式转化，得到目标文件；

分类模块604，用于将所述目标文件输入到预先训练的主题分类模型中，得到所述主题分类模型输出的所述目标文件对应的目标主题；

问答对构建模块606，用于根据所述目标文件中的文本，构建所述目标主题对应的问答对；其中，所述问答对中的问题是从所述目标文件中提取出的标题文本，所述问答对中的答案是从所述目标文件中提取出的所述标题文本对应的正文文本；

优化模块608，用于根据所述目标主题对应的问答对，优化预训练的自然语言模型的模型参数，得到所述目标主题对应的文本生成模型；

文本生成模块610，用于通过所述目标主题对应的文本生成模型，生成所述目标主题的输出文本。

可选地，所述原始文件获取模块600具体用于，预先根据指定领域的若干个文件类型，确定爬取规则；所述爬取规则至少包括从所述指定领域的若干个文件类型分别对应的文件目录下分别获取文件；根据所述爬取规则，获取所述指定领域的各文件类型分别对应的文件，作为所述指定领域的原始文件。

可选地，所述数据清洗规则包括文本长度筛选规则；

可选地，所述目标文件确定模块602具体用于，确定所述指定领域的各原始文件包含的文本分别对应的文本长度；获取多个不同的文本长度阈值；针对每个文本长度阈值，将所述指定领域的各原始文件包含的文本分别对应的文本长度，依次与该文本长度阈值进行比对，确定文本长度大于该文本长度阈值的指定领域的原始文件，作为该文本长度阈值对应的选中文件；根据该文本长度阈值对应的选中文件的数量与所述各原始文件的数量之间的比值，确定该文本长度阈值对应的参考指标；根据各文本长度阈值对应的参考指标，从所述各文本长度阈值中选择目标文本长度阈值；根据所述目标文本长度阈值，将文本长度不大于所述目标文本长度阈值的指定领域的原始文件剔除，将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。

可选地，所述数据清洗规则包括文本层级结构筛选规则；

可选地，所述目标文件确定模块602具体用于，获取多个不同的文本层级结构标识，并从各文本层级结构标识中确定各指定标识；针对所述指定领域的每个原始文件，将所述各文本层级结构标识与该原始文件的文本进行匹配，确定该原始文件的文本中包含的文本层级结构标识，作为目标标识；若所述目标标识与所述各指定标识均不匹配，则剔除该原始文件；将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。

可选地，所述数据清洗规则包括文件类型筛选规则；

可选地，所述目标文件确定模块602具体用于，根据所述指定领域的先验知识，确定多个参考文件类型对应的关键词；将各参考文件类型对应的关键词与所述指定领域的原始文件中的文本进行匹配，并将文本命中所述各参考文件类型对应的关键词中的至少一个关键词的原始文件剔除，将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。

可选地，所述目标文件确定模块602具体用于，创建指定格式的文件；将多个预设的文本层级结构标识，与数据清洗后的原始文件进行匹配，从所述数据清洗后的原始文件中提取目标标识；根据所述目标标识，确定所述原始文件中包含的多级标题文本，以及所述多级标题文本分别对应的层级；根据所述多级标题文本分别对应的层级，将所述多级标题文本分别标注为所述指定格式的文件中不同级别的标题元素；根据所述多级标题文本在所述原始文件中的位置，确定所述多级标题文本分别对应的正文文本，并将所述多级标题文本分别对应的正文文本标注为所述指定格式的文件中不同级别的标题元素对应的正文元素；根据所述不同级别的标题元素、所述不同级别的标题元素对应的正文元素和所述指定格式的文件，确定目标文件。

可选地，所述装置还包括：

训练模块612，具体用于预先获取多个预设主题，以及各预设主题对应的第一参考文本；针对每个预设主题，根据该预设主题的第一参考文本以及该预设主题类型，优化预训练的自然语言模型，得到该预设主题的生成模型；通过该预设主题的生成模型，生成该预设主题的第二参考文本；根据所述各预设主题的第一参考文本，以及所述各预设主题的第二参考文本确定训练样本，并根据所述各预设主题确定所述训练样本的标注；根据所述训练样本以及所述训练样本的标注，训练待训练的主题分类模型，得到训练完成的主题分类模型。

可选地，所述问答对构建模块606具体用于，根据所述目标文件中不同级别的标题元素，从所述目标文件中提取多级标题文本；根据所述目标文件中不同级别的标题元素对应的正文元素，从所述目标文件中提取所述多级标题文本分别对应的正文文本；依次针对每一级标题文本，将排列在该级标题文本之前的至少一级标题文本，与该级标题文本拼接，得到该级标题文本对应的问题；将该级标题文本对应的正文文本作为该级标题文本对应的答案；根据该级标题文本对应的文本，以及该级标题文本对应的答案，确定该级标题文本对应的问答对；根据所述目标文件中多级标题文本分别对应的问答对，确定所述目标主题对应的问答对。

可选地，所述文本生成模块610具体用于，响应于文本生成请求，获取目标主题的至少一级标题文本；根据所述目标主题的至少一级标题文本以及预设的提示词模板，得到提示文本；将所述提示文本输入到优化得到的目标主题对应的文本生成模型，得到所述目标主题的输出文本。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1所示的指定领域的文本生成方法。

本说明书还提供了图7所示的电子设备的示意结构图。如图7所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所示的指定领域的文本生成方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用指定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以指定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行指定任务或实现指定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种指定领域的文本生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述获取指定领域的原始文件，具体包括：

3.如权利要求1所述的方法，其特征在于，所述数据清洗规则包括文本长度筛选规则；

获取多个不同的文本长度阈值；

4.如权利要求1所述的方法，其特征在于，所述数据清洗规则包括文本层级结构筛选规则；

5.如权利要求1所述的方法，其特征在于，所述数据清洗规则包括文件类型筛选规则；

6.如权利要求1所述的方法，其特征在于，所述对数据清洗后的原始文件进行格式转化，得到目标文件，具体包括：

创建指定格式的文件；

7.如权利要求1所述的方法，其特征在于，预先训练主题分类模型，具体包括：

8.如权利要求6所述的方法，其特征在于，所述根据所述目标文件中的文本，构建所述目标主题对应的问答对，具体包括：

9.如权利要求1所述的方法，其特征在于，所述通过所述目标主题对应的文本生成模型，生成所述目标主题的输出文本，具体包括：

响应于文本生成请求，获取目标主题的至少一级标题文本；

10.一种指定领域的文本生成装置，其特征在于，包括：

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~9任一项所述的方法。

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~9任一项所述的方法。