CN116757172A - 一种档案编研方法、装置、设备及存储介质 - Google Patents
一种档案编研方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116757172A CN116757172A CN202310739187.6A CN202310739187A CN116757172A CN 116757172 A CN116757172 A CN 116757172A CN 202310739187 A CN202310739187 A CN 202310739187A CN 116757172 A CN116757172 A CN 116757172A
- Authority
- CN
- China
- Prior art keywords
- abstract
- file
- preset
- archive
- compiling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000011835 investigation Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 45
- 230000008520 organization Effects 0.000 claims description 41
- 239000010985 leather Substances 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 12
- 238000011160 research Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007730 finishing process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001343 mnemonic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种档案编研方法、装置、设备及存储介质,涉及档案编研技术领域,包括:从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案‑摘要示例模板;获取还未确定摘要的第二预设档案,并基于所述档案‑摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;基于文档编撰规则指令选择对应的编撰规则对所述目标摘要进行编撰以得到对应的编研文档。这样一来,可根据用户的指令自动化完成档案编研工作。
Description
技术领域
本发明涉及档案编研技术领域,特别涉及一种档案编研方法、装置、设备及存储介质。
背景技术
档案编研在研究历史、保护文化遗产等诸多领域都具有重要意义,传统档案编研方法人工对系统地对档案文件进行检索、选择和研究,占用大量的人力资源。传统方法主要依赖于基于规则的方法,即根据专家知识和历史数据提取规则来指导档案整理过程。这些方法耗时费力,无法处理大规模、多维度的数据,无法满足日益增长的用户需求和应用场景。
近年来,随着人工智能技术的发展,人们对使用该技术增强档案机构的能力。例如用于索引和分类档案材料的自动化工具,以及使用自然语言处理和计算机视觉对档案内容深入分析与理解的方法。基于深度学习的方法虽然可以完成多个相关任务,但需要大量标记数据进行模型训练,难以应用于训练数据有限的档案编研场景。因此需要更强大的模型,这些模型本身需要拥有丰富的知识和语言能力。因此,如何使用人工智能技术完成档案编研工作是需要解决的。
发明内容
有鉴于此,本发明的目的在于提供一种档案编研方法、装置、设备及存储介质,能够根据用户的指令自动化完成档案编研工作。其具体方案如下:
第一方面,本申请公开了一种档案编研方法,包括:
从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板;
获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集;
利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;
基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档。
可选的,所述从已确定摘要的第一预设档案中挑选一个档案作为提示档案,包括:
从已确定摘要的非保密档案中挑选第一预设数量的档案以得到第一预设档案;并从所述第一预设档案中随机挑选一个档案作为提示档案。
可选的,所述获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集,包括:
从预设档案官方网址中收集第二预设数量的还未确定摘要的档案以得到第二预设档案;
调用预设语言生成模型接口并基于所述档案-摘要示例模板和预设编研文件模板生成所述第二预设档案的摘要以得到语料库数据集。
可选的,所述利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要之前,还包括:
获取目标主题数据,并利用预设元数据匹配算法将所述目标主题数据与预设元数据值进行比对,根据比对结果对目标馆藏中的档案进行排序;
基于排序结果从所述目标馆藏中爬取第三预设数量的档案以得到待编撰档案。
可选的,所述基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档,包括:
获取下发的大事记编撰指令,并利用所述大事记编撰指令对应的预设大事记编撰规则从所述目标摘要中提取出时间数据;
基于所述时间数据生成所述待编撰档案对应的大事记。
可选的,所述基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档,包括:
获取下发的组织沿革编撰指令,并利用所述组织沿革编撰指令对应的预设组织沿革编撰规则调用预设分类模型确定所述目标摘要对应的内容归属分类;
基于所述内容归属分类生成所述待编撰档案对应的组织沿革。
可选的,所述利用所述组织沿革编撰指令对应的预设组织沿革编撰规则确定所述目标摘要对应的内容归属分类之前,还包括:
从公开的组织沿革摘要文档中提取出相应的内容归属训练数据;
利用所述内容归属训练数据进行模型训练以得到所述预设分类模型。
第二方面,本申请公开了一种档案编研装置,包括:
示例模板生成模块,用于从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板;
数据集获取模块,用于获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集;
摘要生成模块,用于利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;
文档编研模块,用于基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现前述的档案编研方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的档案编研方法。
可见,本申请中,从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板;获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集;利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档。即,通过基于档案-摘要示例模板生成第二预设档案的摘要生成语料库数据集,扩大了模型训练的训练集,提高数据多样性;生成对应的摘要提取模型。使用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要,然后根据下发的文档编撰规则指令选择对应的编撰规则对得到的所述目标摘要进行编撰生成对应的编研文档。这样一来,通过生成的摘要,对数据进行扩充得到的语料库数据集,使得模型训练的训练集数量增大,解决了模型训练数据不够的情况。另外使用生成的摘要提取模型提取出的所述待编撰档案的目标摘要,基于所述文档编撰规则指令选择对应的编撰规则对得到的所述目标摘要进行编撰生成对应的编研文档符合用户的需求,并且降低了整理档案的人力成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种档案编研方法流程图;
图2为本申请公开的一种具体的档案编研方法流程图;
图3为本申请公开的一种具体的摘要输入方法流程图;
图4为本申请公开的一种具体的模型训练数据输入方法流程图;
图5为本申请公开的一种具体的档案编研方法流程图;
图6为本申请公开的一种具体的档案编研方法流程图;
图7为本申请公开的一种具体的档案编研方法流程图;
图8为本申请公开的一种档案编研装置结构示意图;
图9为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
档案编研在研究历史、保护文化遗产等诸多领域都具有重要意义,传统档案编研方法人工对系统地对档案文件进行检索、选择和研究,占用大量的人力资源。近年来,利用人工智能技术档案自动编研领域取得了重大进展,然而,因档案具备的保密特性使得在有限的可用数据上训练模型无法达到档案编研的目标。本申请将具体介绍一种档案编研方法,可以根据用户的意图,自动化完成档案编研工作,无需专业人员参与,极大提升工作效率。
参见图1所示,本申请实施例公开了一种档案编研方法,包括:
步骤S11:从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板。
本实施例中,所述从已确定摘要的第一预设档案中挑选一个档案作为提示档案,包括:从已确定摘要的非保密档案中挑选第一预设数量的档案以得到第一预设档案;并从所述第一预设档案中随机挑选一个档案作为提示档案其中,所述第一预设数量根据实际情况可以设置为20。即,从已确定摘要的非保密档案中挑选20个档案以得到第一预设档案,然后从所述20个档案中挑选一个档案作为提示档案,然后,基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板。
步骤S12:获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集。
本实施例中,如图2所示,由于档案数据的保密性,选取模型训练所需的样本时,大多情况下只能访问有限的数据。因此,为了解决数据有限的问题,本申请将采用数据增强技术。所述获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集,包括:从预设档案官方网址中收集第二预设数量的还未确定摘要的档案以得到第二预设档案;调用预设语言生成模型接口并基于所述档案-摘要示例模板和预设编研文件模板生成所述第二预设档案的摘要以得到语料库数据集。其中所述第二预设数量可以设置为10000。即从预设档案官方网址收集一组10000份公开可用的档案文档,这些文档没有摘要数据。也即还未确定摘要的第二预设档案。其中所述预设语言生成模型接口为使用了text-davinci-003模型API(ApplicationProgrammingInterface,即应用程序接口),它代表了最新版本的InstructGPT(Generative Pre-Trained Transformer,即预训练语言模型)模型,可利用当前先进的语言生成技术来生成简洁和信息丰富的摘要。生成的摘要如图3所示。生成摘要后,本发明用随机的相似词替换频繁出现的实体词。例如,对于在大多数文档中频繁出现的实体词“福州市”,用同义术语(如其他城市名称)替换它,提升数据多样性,避免模型陷入模式坍塌。
步骤S13:利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要。
本实施例中,利用所述语料库数据集进行模型训练以得到摘要提取模型,实际上是对ChatGLM-6B(一个开源的对话机器人)模型作为预训练模型并进行模型微调的过程。ChatGLM-6B是一个基于通用语言模型架构的开源中英双语会话语言模型,拥有6.2亿个参数,使用与ChatGPT类似的技术,本申请中将ChatGLM-6B模型视为序列到序列模型,其中输入文档与如图4所示的必要指令相结合。为了对模型进行微调,本申请采用P-tuning v2方法,可训练0.1%参数,达到与微调所有参数相当的性能,训练在NVIDIA A100 GPU上执行。超参数设置中,本发明设置为批大小为4,初始学习率设置为0.02,前缀序列长度设置为64,梯度累积步长设置为4,总训练步长设置为3000。微调过程大约需要5小时完成。所述利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要之前,还包括:获取目标主题数据,并利用预设元数据匹配算法将所述目标主题数据与预设元数据值进行比对,根据比对结果对目标馆藏中的档案进行排序;基于排序结果从所述目标馆藏中爬取第三预设数量的档案以得到待编撰档案。即基于用户输入的目标主题数据,利用元数据匹配方法,从大量馆藏中找到相关档案文档。元数据是指与文档相关的描述性信息,如标题、作者、日期和主题。首先,本系统利用光学字符识别等技术识别档案文本,之后对文档进行分词,并使用模糊匹配和精确匹配相结合的技术,将用户输入的主题词与元数据值进行相似性计算。根据该相似性对档案相关程度进行排序。即,首先获取到用户输入的目标主题数据后,从目标馆藏中提取相关的元数据,如果是扫描版可以利用光学字符识别技术将档案转化为文本格式。然后使用“jieba”Python库对用户查询主题进行中文分词。然后,采用模糊匹配和精确匹配相结合的技术,将用户的关键字与元数据值进行比较。这样一来,可以确保待编撰档案的检索过程更将灵活和准确。最后,根据元数据与用户查询的相关性对文档进行排序。可以选择从大到小的顺序进行选择。为了保证有限的档案数量,本申请将第三预设数量的最大值设置为50。
步骤S14:基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档。
本实施例中,基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档。即根据用户需求对档案关键信息进行特定规则的组合,最后输出一份完整的档案编研结果文档。本申请支持两个编撰规则:“大事记”和“组织沿革”规则。“大事记”规则侧重于捕捉和记录与特定主题相关的所有重要事件,需要编译多个文档摘要,按时间顺序排列,并将它们组合生成一份完整的文档。“组织沿革”除了需要按时间顺序排序之外,还增加在不同章节下组织文档摘要的需求,例如组织结构变化、人员调整等。根据用户下发的文档编撰规则指令总两个编撰规则中短则对应的编撰规则,然后利用所述编撰规则对所述目标摘要进行编撰得到的编研文档。这样一来,自动化完成档案编研工作,无需专业人员参与,极大提升工作效率。
可见,本申请中,如图5所示,从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板;获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集;利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档。即,通过基于档案-摘要示例模板生成第二预设档案的摘要生成语料库数据集,扩大了模型训练的训练集,提高数据多样性;生成对应的摘要提取模型。使用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要,然后根据下发的文档编撰规则指令选择对应的编撰规则对得到的所述目标摘要进行编撰生成对应的编研文档。这样一来,通过生成的摘要扩充得到的语料库数据集使得模型训练的训练集数量增大,解决了模型训练数据不够的情况。另外使用生成的摘要提取模型提取出的所述待编撰档案的目标摘要,基于所述文档编撰规则指令选择对应的编撰规则对得到的所述目标摘要进行编撰生成对应的编研文档符合用户的需求,并且降低了整理档案的人力成本。
上述实施例介绍一种档案编研方法,可以根据用户的意图,自动化完成档案编研工作,本实施例将具体介绍大事记的生成方法。
参见图6所示,本申请实施例公开了一种具体的档案编研方法,包括:
步骤S21:从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板。
步骤S22:获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集。
步骤S23:利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要。
步骤S24:获取下发的大事记编撰指令,并利用所述大事记编撰指令对应的预设大事记编撰规则从所述目标摘要中提取出时间数据。
步骤S25:基于所述时间数据生成所述待编撰档案对应的大事记。
本实施例中,由于“大事记”需编研多个文档摘要,按时间顺序排序,并进行组合,构建一份完整的编撰内容。由于档案中时间表达式的各种形式和时间内容多次出现的可能性,利用大模型能力,在生成摘要时,同时提取了与事件相关的时间。因此在获取到下发的大事记编撰指令后,根据所述大事记编撰指令对应的预设大事记编撰规则,在生成所述待编撰档案的摘要的同时,提取出与事件相关的时间。然后按照所述时间顺序将所述待编撰档案生成的摘要进行排序组合。构建出一份完整的大事记。最后,将大事记返回至用户。
其中,关于上述步骤S21至S23的具体过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
可见,本发明中,首先从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板;获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集;利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;获取下发的大事记编撰指令,并利用所述大事记编撰指令对应的预设大事记编撰规则从所述目标摘要中提取出时间数据;基于所述时间数据生成所述待编撰档案对应的大事记。这样一来,通过生成的摘要扩充得到的语料库数据集使得模型训练的训练集数量增大,解决了模型训练数据不够的情况。另外使用生成的摘要提取模型提取出的所述待编撰档案的目标摘要,基于所述大事记编撰指令选择对应的大事记编撰规则对得到的所述目标摘要进行编撰生成对应的大事记符合用户的需求,并且降低了整理档案的人力成本。
前一实施例具体了介绍大事记的生成方法,本实施例将具体介绍组织沿革编撰的生成方法。
参见图7所示,本申请实施例公开了一种具体的档案编研方法,包括:
步骤S31:从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板。
步骤S32:获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集。
步骤S33:利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要。
步骤S34:获取下发的组织沿革编撰指令,并利用所述组织沿革编撰指令对应的预设组织沿革编撰规则调用预设分类模型确定所述目标摘要对应的内容归属分类。
步骤S35:基于所述内容归属分类生成所述待编撰档案对应的组织沿革。
本实施例中,所述利用所述组织沿革编撰指令对应的预设组织沿革编撰规则确定所述目标摘要对应的内容归属分类之前,还包括:从公开的组织沿革摘要文档中提取出相应的内容归属训练数据;利用所述内容归属训练数据进行模型训练以得到所述预设分类模型。即使用BERT(Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型)和TextCNN(Convolutional Neural Networks for SentenceClassification,即文本分类卷积神经网络)模型的组合作为一个额外的分类模型,具体地,将BERT的每一层的类标记(class token)拼接,并将其用作TextCNN组件的输入。TextCNN模型负责从连接的令牌中进一步提取相关的特征和模式,输出每个摘要的预测分类。在对所属预设分类模型进行训练的过程中收集公开可用的、人工整理的组织沿革摘要文档,这些文档提供了包括组织结构变化、人员调整等在内的摘要内容归属,并根据这些数据进行模型训练。然后在获取到下发的组织沿革编撰指令后,利用所述组织沿革编撰指令对应的预设组织沿革编撰规则调用预设分类模型输出每个摘要的内容归属分类,然后根据所述内容归属分类生成所述待编撰档案对应的组织沿革。
其中,关于上述步骤S31至S33的具体过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
可见,本实施例中,从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板;获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集;利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;获取下发的组织沿革编撰指令,并利用所述组织沿革编撰指令对应的预设组织沿革编撰规则调用预设分类模型确定所述目标摘要对应的内容归属分类;基于所述内容归属分类生成所述待编撰档案对应的组织沿革。这样一来,通过生成的摘要扩充得到的语料库数据集使得模型训练的训练集数量增大,解决了模型训练数据不够的情况。另外使用生成的摘要提取模型提取出的所述待编撰档案的目标摘要,基于所述组织沿革编撰指令选择对应的预设组织沿革编撰规则对得到的所述目标摘要进行编撰生成对应的大事记符合用户的需求,并且降低了整理档案的人力成本。
参考图8所述,本申请实施例还相应公开了一种档案编研装置,包括:
示例模板生成模块11,用于从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板;
数据集获取模块12,用于获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集;
摘要生成模块13,用于利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;
文档编研模块14,用于基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档。
可见,本申请中,从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板;获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集;利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档。即,通过基于档案-摘要示例模板生成第二预设档案的摘要生成语料库数据集,扩大了模型训练的训练集,提高数据多样性;生成对应的摘要提取模型。使用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要,然后根据下发的文档编撰规则指令选择对应的编撰规则对得到的所述目标摘要进行编撰生成对应的编研文档。这样一来,通过生成的摘要扩充得到的语料库数据集使得模型训练的训练集数量增大,解决了模型训练数据不够的情况。另外使用生成的摘要提取模型提取出的所述待编撰档案的目标摘要,基于所述文档编撰规则指令选择对应的编撰规则对得到的所述目标摘要进行编撰生成对应的编研文档符合用户的需求,并且降低了整理档案的人力成本。
在一些具体的实施例中,所述示例模板生成模块11,具体可以用于从已确定摘要的非保密档案中挑选第一预设数量的档案以得到第一预设档案;并从所述第一预设档案中随机挑选一个档案作为提示档案;
在一些具体的实施例中,所述数据集获取模块12,具体可以包括:
档案收集单元,用于从预设档案官方网址中收集第二预设数量的还未确定摘要的档案以得到第二预设档案;
语料库数据集生成单元,用于调用预设语言生成模型接口并基于所述档案-摘要示例模板和预设编研文件模板生成所述第二预设档案的摘要以得到语料库数据集。
在一些具体的实施例中,所述档案编研装置,具体还可以包括:
目标主题数据获取模块,用于获取目标主题数据,并利用预设元数据匹配算法将所述目标主题数据与预设元数据值进行比对,根据比对结果对目标馆藏中的档案进行排序;
待编撰档案获取模块,用于基于排序结果从所述目标馆藏中爬取第三预设数量的档案以得到待编撰档案。
在一些具体的实施例中,所述文档编研模块14,具体可以包括:
时间数据提取单元,用于获取下发的大事记编撰指令,并利用所述大事记编撰指令对应的预设大事记编撰规则从所述目标摘要中提取出时间数据;
大事记编撰单元,用于基于所述时间数据生成所述待编撰档案对应的大事记。
在一些具体的实施例中,所述文档编研模块14,具体可以包括:
内容归属分类单元,用于获取下发的组织沿革编撰指令,并利用所述组织沿革编撰指令对应的预设组织沿革编撰规则调用预设分类模型确定所述目标摘要对应的内容归属分类;
组织沿革编撰单元,用于基于所述内容归属分类生成所述待编撰档案对应的组织沿革。
在一些具体的实施例中,所述档案编研装置,具体还可以包括:
训练数据获取模块,用于从公开的组织沿革摘要文档中提取出相应的内容归属训练数据;
模型生成模块,用于利用所述内容归属训练数据进行模型训练以得到所述预设分类模型。
进一步的,本申请实施例还公开了一种电子设备,图9是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图9为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的档案编研方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的档案编研方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的档案编研方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种档案编研方法,其特征在于,包括:
从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板;
获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集;
利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;
基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档。
2.根据权利要求1所述的档案编研方法,其特征在于,所述从已确定摘要的第一预设档案中挑选一个档案作为提示档案,包括:
从已确定摘要的非保密档案中挑选第一预设数量的档案以得到第一预设档案;并从所述第一预设档案中随机挑选一个档案作为提示档案。
3.根据权利要求2所述的档案编研方法,其特征在于,所述获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集,包括:
从预设档案官方网址中收集第二预设数量的还未确定摘要的档案以得到第二预设档案;
调用预设语言生成模型接口并基于所述档案-摘要示例模板和预设编研文件模板生成所述第二预设档案的摘要以得到语料库数据集。
4.根据权利要求1所述的档案编研方法,其特征在于,所述利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要之前,还包括:
获取目标主题数据,并利用预设元数据匹配算法将所述目标主题数据与预设元数据值进行比对,根据比对结果对目标馆藏中的档案进行排序;
基于排序结果从所述目标馆藏中爬取第三预设数量的档案以得到待编撰档案。
5.根据权利要求1至4任一项所述的档案编研方法,其特征在于,所述基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档,包括:
获取下发的大事记编撰指令,并利用所述大事记编撰指令对应的预设大事记编撰规则从所述目标摘要中提取出时间数据;
基于所述时间数据生成所述待编撰档案对应的大事记。
6.根据权利要求1至4任一项所述的档案编研方法,其特征在于,所述基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档,包括:
获取下发的组织沿革编撰指令,并利用所述组织沿革编撰指令对应的预设组织沿革编撰规则调用预设分类模型确定所述目标摘要对应的内容归属分类;
基于所述内容归属分类生成所述待编撰档案对应的组织沿革。
7.根据权利要求6所述的档案编研方法,其特征在于,所述利用所述组织沿革编撰指令对应的预设组织沿革编撰规则确定所述目标摘要对应的内容归属分类之前,还包括:
从公开的组织沿革摘要文档中提取出相应的内容归属训练数据;
利用所述内容归属训练数据进行模型训练以得到所述预设分类模型。
8.一种档案编研装置,其特征在于,包括:
示例模板生成模块,用于从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案-摘要示例模板;
数据集获取模块,用于获取还未确定摘要的第二预设档案,并基于所述档案-摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集;
摘要生成模块,用于利用所述语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;
文档编研模块,用于基于文档编撰规则指令选择对应的编撰规则,并利用所述编撰规则对所述目标摘要进行编撰以得到所述待编撰档案对应的编研文档。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的档案编研方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的档案编研方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310739187.6A CN116757172A (zh) | 2023-06-21 | 2023-06-21 | 一种档案编研方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310739187.6A CN116757172A (zh) | 2023-06-21 | 2023-06-21 | 一种档案编研方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116757172A true CN116757172A (zh) | 2023-09-15 |
Family
ID=87951074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310739187.6A Pending CN116757172A (zh) | 2023-06-21 | 2023-06-21 | 一种档案编研方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116757172A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361111A (zh) * | 2014-11-28 | 2015-02-18 | 青岛大学 | 一种档案自动编研方法 |
CN114722832A (zh) * | 2022-04-06 | 2022-07-08 | 北京金山数字娱乐科技有限公司 | 一种摘要提取方法、装置、设备以及存储介质 |
-
2023
- 2023-06-21 CN CN202310739187.6A patent/CN116757172A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361111A (zh) * | 2014-11-28 | 2015-02-18 | 青岛大学 | 一种档案自动编研方法 |
CN114722832A (zh) * | 2022-04-06 | 2022-07-08 | 北京金山数字娱乐科技有限公司 | 一种摘要提取方法、装置、设备以及存储介质 |
Non-Patent Citations (1)
Title |
---|
GIOVANNI COLAVIZZA ET AL.: "An Overview of Current Debates and Future Perspectives", ACM JOURNAL ON COMPUTING AND CULTURAL HERITAGE, vol. 15, no. 1, 31 December 2021 (2021-12-31), pages 1 - 15, XP058690163, DOI: 10.1145/3479010 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7366715B2 (en) | Processing, browsing and extracting information from an electronic document | |
CN109033229A (zh) | 问答处理方法和装置 | |
CN110334343B (zh) | 一种合同中个人隐私信息抽取的方法和系统 | |
Gibbs | Grounded theory, coding and computer-assisted analysis | |
CN117076693A (zh) | 一种数字人教师多模态大语言模型预训练学科语料库的构建方法 | |
WO2008094970A2 (en) | Method and apparatus for creating a tool for generating an index for a document | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
CN109948128B (zh) | 一种辅助编辑系统 | |
CN115062135B (zh) | 一种专利筛选方法与电子设备 | |
CN111966946A (zh) | 一种页面权威值的识别方法、装置、设备和存储介质 | |
CN116757172A (zh) | 一种档案编研方法、装置、设备及存储介质 | |
Landthaler et al. | Semantic text matching of contract clauses and legal comments in tenancy law | |
CN111753540A (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN117828050B (zh) | 基于长文档检索增强生成的中医问答方法、设备及介质 | |
Rao et al. | Smart Legal Contract Migration using Machine Learning | |
KR102640454B1 (ko) | 도메인 용어사전을 활용한 딥러닝 기반 생성형 ai 모델의 요약 정확도를 개선하는 방법 | |
CN113807429B (zh) | 企业的分类方法、装置、计算机设备和存储介质 | |
CN117056519B (zh) | 面向跨领域的立法意见综合报告自动生成方法 | |
CN113449513B (zh) | 工作总结自动生成方法、系统、计算机设备和存储介质 | |
CN117216226A (zh) | 一种知识定位方法、装置、存储介质及设备 | |
CN117874204A (zh) | 一种知识问答方法、系统、存储介质和计算机设备 | |
Li | Construction of English Big Data Corpus under Artificial Intelligence Translation | |
Dreher | Automatic semantic trend analysis of the Bled eConference: 2001-2011 | |
Scheir et al. | The ontologymapper plug-in: Supporting semantic annotation of text-documents by classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |