CN116663525B - 一种文档审核方法、装置、设备及存储介质 - Google Patents
一种文档审核方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116663525B CN116663525B CN202310901193.7A CN202310901193A CN116663525B CN 116663525 B CN116663525 B CN 116663525B CN 202310901193 A CN202310901193 A CN 202310901193A CN 116663525 B CN116663525 B CN 116663525B
- Authority
- CN
- China
- Prior art keywords
- auditing
- document
- text
- task
- audit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012550 audit Methods 0.000 claims abstract description 335
- 238000012549 training Methods 0.000 claims description 166
- 238000012937 correction Methods 0.000 claims description 37
- 238000009877 rendering Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 34
- 238000002372 labelling Methods 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 13
- 230000000750 progressive effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文档审核方法、装置、设备及存储介质,其中,文档审核方法包括:获取目标文档内容文本,目标文档内容文本为待审核文档中的待审核内容文本;从审核参考信息库中,检索与目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,目标审核参考信息为用于判断目标文档内容文本是否符合要求的标准;调用预置的大语言模型,基于目标文档内容文本以及目标审核参考信息,生成目标文档内容文本的审核建议。本发明可自动生成目标文档内容文本的审核建议,相比于纯人工的审核方式,大大降低了人工参与程度,显著提升了审核效率,另外,由于本发明基于大语言模型对目标文档内容文本进行审核,因此,可获得高质量的审核结果。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文档审核方法、装置、设备及存储介质。
背景技术
文档审核(比如合同审核)是企业工作中的常见场景。目前大部分的文档审核方案都是基于纯人工的审核方案,可以理解的是,基于纯人工的审核方案不仅效率比较低,而且由于工作枯燥繁重,可能会遗漏一些信息,导致风险。可见,目前的文档审核方案对人工的依赖程度比较高,导致审核效率低以及审核效果不佳。
发明内容
有鉴于此,本发明提供了一种文档审核方法、装置、设备及存储介质,用以解决现有的文档审核方案对人工的依赖程度比较高,导致审核效率低以及审核效果不佳的问题,其技术方案如下:
一种文档审核方法,包括:
获取目标文档内容文本,所述目标文档内容文本为待审核文档中的待审核内容文本;
从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,所述目标审核参考信息为用于判断所述目标文档内容文本是否符合要求的标准;
调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,其中,所述大语言模型为通过训练得到的具备对文档内容文本进行审核能力的大模型。
可选的,所述审核参考信息库包括审核规则库,或者,包括法律法规知识库和审核规则库;
所述审核参考信息库包含的审核规则库为原始审核规则库,或者,为对所述原始审核规则库中的部分或全部审核规则进行规范化处理后的审核规则库;
对所述原始审核规则库中的审核规则进行规范化处理的过程包括:
调用所述大语言模型,对所述原始审核规则库中的审核规则进行规范化处理。
可选的,所述大语言模型的训练过程包括:
采用训练文档内容文本和训练审核参考信息,对构建的大语言模型进行无监督训练,得到第一大语言模型;
采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练,得到第二大语言模型,作为最终的大语言模型,其中,所述目标任务至少包括文档审核任务。
可选的,所述文档审核任务对应的prompt指令中包括:训练文档内容文本、训练文档内容文本对应的审核参考信息,以及用于指示第一大语言模型执行文档审核任务的任务指示信息;
所述文档审核任务对应的prompt指令用于指示第一大语言模型参考训练文档内容文本对应的审核参考信息对训练文档内容文本进行审核;
所述文档审核任务对应的prompt指令的标注信息为训练文档内容文本的真实审核建议。
可选的,所述目标任务还包括如下任务中的一个或多个:要素抽取任务、文本润色任务、文本纠错任务;
所述要素抽取任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行要素抽取任务的任务指示信息;所述要素抽取任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行要素抽取;所述要素抽取任务对应的prompt指令的标注信息为训练文档内容文本中的真实要素信息;
所述文本润色任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本润色任务的任务指示信息;所述文本润色任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行润色;所述文本润色任务对应的prompt指令的标注信息为训练文档内容文本的真实润色后文本;
所述文本纠错任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本纠错任务的任务指示信息;所述文本纠错任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行纠错;所述文本纠错任务对应的prompt指令的标注信息为训练文档内容文本的正确文本。
可选的,所述采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练,包括:
将所述目标任务对应的prompt指令输入第一大语言模型,得到第一大语言模型输出的任务执行结果;
根据第一大语言模型输出的任务执行结果以及输入的prompt指令的标注信息,确定第一大语言模型的预测损失;
根据第一大语言模型的预测损失,对第一大语言模型进行参数更新。
可选的,所述从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,包括:
确定所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的文本相似度和关键词匹配度;
根据确定出的文本相似度和关键词匹配度,确定所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度;
根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定与所述目标文档内容文本匹配的审核参考信息。
可选的,所述根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定与所述目标文档内容文本匹配的审核参考信息,包括:
根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定若干条候选审核参考信息;
利用预先训练得到的相关度确定模型,确定所述目标文档内容文本与每条候选审核参考信息的第二相关度,其中,所述相关度确定模型以使训练文档内容文本与正例文本的相关度大于与负例文本的相关度为目标训练得到,所述正例文本和所述负例文本依次为与训练文档内容文本相关的文本、与训练文档内容文本无关的文本;
根据所述目标文档内容文本与每条候选审核参考信息的第二相关度,确定与所述目标文档内容文本匹配的审核参考信息。
可选的,所述调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,包括:
获取文档审核任务对应的prompt格式模板,所述文档审核任务对应的prompt格式模板包括文档信息槽、审核参考信息槽以及用于指示大语言模型执行文档审核任务的任务指示信息,所述文档审核任务对应的prompt格式模板用于指示大语言模型结合所述审核参考信息槽内的信息对所述文档信息槽内的信息进行审核;
将所述目标文档内容文本填充至所述文档信息槽,以及,将所述目标审核参考信息填充至所述审核参考信息槽,得到所述文档审核任务对应的prompt指令;
将所述文档审核任务对应的prompt指令输入大语言模型,得到所述大语言模型输出的审核建议。
可选的,所述文档审核任务对应的prompt格式模板还包括:用于指示所述大语言模型逐步审核的引导信息;
所述文档审核任务对应的prompt格式模板用于指示大语言模型结合所述审核参考信息槽内的信息对所述文档信息槽内的信息逐步审核。
可选的,所述调用所述大语言模型,对所述原始审核规则库中的审核规则进行规范化处理,包括:
获取审核规则规范化任务对应的prompt格式模板,所述审核规则规范化任务对应的prompt格式模板包括审核规则信息槽以及用于指示所述大语言模型执行审核规则规范化任务的任务指示信息,所述审核规则规范化任务对应的prompt格式模板用于指示所述大语言模型对所述审核规则信息槽内的信息进行规范化处理;
将所述原始审核规则库中的审核规则填充至所述审核规则信息槽,得到所述审核规则规范化任务对应的prompt指令;
将所述审核规则规范化任务对应的prompt指令输入所述大语言模型,得到所述大语言模型输出的规范化的审核规则。
一种文档审核装置,包括:文本获取模块、审核参考信息检索模块和文档审核模块;
所述文本获取模块,用于获取目标文档内容文本,所述目标文档内容文本为待审核文档中的待审核内容文本;
所述审核参考信息检索模块,用于从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,所述目标审核参考信息为用于判断所述目标文档内容文本是否符合要求的标准;
所述文档审核模块,用于调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,其中,所述大语言模型为通过训练得到的具备对文档内容文本进行审核能力的大模型。
一种文档审核设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的文档审核方法的各个步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的文档审核方法的各个步骤。
本发明提供文档审核方法、装置、设备及存储介质,首先获取待审核文档中的待审核内容文本,即目标文档内容文本,然后从审核参考信息库中检索与目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,最后调用预置的大语言模型,基于目标文档内容文本以及目标审核参考信息,生成目标文档内容文本的审核建议。本发明提供的文档审核方法可自动生成目标文档内容文本的审核建议,相比于纯人工的审核方式,大大降低了人工参与程度,相应降低了主观因素对于审核结果的影响,显著提升了审核效率,另外,由于本发明提供的文档审核方法基于大语言模型对目标文档内容文本进行审核(大语言模型具有超强的语义理解能力和信息生成能力),因此,可获得高质量的审核结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的文档审核方法的流程示意图;
图2为本发明实施例提供的训练大语言模型的流程示意图;
图3为本发明实施例提供的从审核参考信息库中检索与目标文档内容文本匹配的审核参考信息的流程示意图;
图4为本发明实施例提供的调用预置的大语言模型,基于目标文档内容文本和目标审核参考信息,生成目标文档内容文本的审核建议的流程示意图;
图5为本发明实施例提供的文档审核装置的结构示意图;
图6为本发明实施例提供的文档审核设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对纯人工的审核方案存在审核效率低、审核效果不佳等问题,进行了研究,起初的思路是:预先构建要素库和审核规则库,其中,要素库中包含文档(比如合同)的要素(即审核关键点),审核规则库中包含文档的审核规则,审核规则库中的审核规则为人工制定的规则,对于审核规则库中的审核规则,需要将其处理成机器可理解的规则,在对待审核文档进行审核时,首先从要素库中获取待审核文档对应的要素,然后基于预先训练得到的要素抽取模型从待审核文档中抽取待审核文档对应的要素的要素信息,接着,获取待审核文档对应的审核规则(机器可理解的规则),最后根据待审核文档对应的审核规则(机器可理解的规则)对抽取的要素信息进行审核,上述过程均由机器完成,在获得机器的审核结果后,可由审核人员对机器的审核结果进一步审核。相比于纯人工的审核方式,上述思路降低了对人工的依赖程度,在一定程度上提高了审核效率。
对上述思路进行研究发现,上述思路虽然降低了对人工的依赖程度,在一定程度上提高了审核效率,但仍存在一些问题,比如,在审核规则库中的审核规则更新时,需要重新将审核规则库中的审核规则处理成机器可理解的规则,而这个过程通常是较为繁琐且耗时的,因此,审核规则的维护成本比较高,再比如,审核规则库中的审核规则通常为人工制定的规则,由于人工难以制定一套完整且适用于所有场景的审核规则,因此,审核规则库中的审核规则会存在覆盖不全的情况,审核规则库中的规则覆盖不全将导致一些待审核内容无法得到妥善处理,进而导致后续人工审核的负担加重。
针对上述思路存在的问题,继续进行研究,通过不断研究,最终提出了一种对人工的依赖程度较低,能够克服上述思路所存在缺陷的文档审核方法。
本发明提供的文档审核方法可应用于具有数据处理能力的设备,该设备可以为用户侧使用的终端,比如智能手机、PC、笔记本电脑、平板电脑等,该设备也可以为服务器,服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务器中心,服务器可以包括处理器、存储器以及网络接口等。
本领域技术人员应能理解,上述终端和服务器仅为举例,其它现有的或今后可能出现的终端或服务器如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在介绍本发明方案之前,首先对本文中涉及到的英文及术语进行解释:
Prompt指令:在借助AI(如大语言模型)进行信息生成时,需要向AI发送的指令,其可以是一段文字描述,也可以是按照一定格式的参数描述。
大语言模型:(Large language model,LLM)是指基于 Transformer结构的生成式深度神经网络模型,其具备超强的语义理解及信息生成能力。
接下来通过下述实施例对本发明提供的文档审核方法进行介绍。
请参阅图1,示出了本发明实施例提供的文档审核方法的流程示意图,可以包括:
步骤S101:获取目标文档内容文本。
本实施例中,目标文档内容文本为指定领域的待审核文档中的待审核内容文本。
示例性的,待审核文档可以为合同文档,目标文档内容文本可以为合同文档中的合同条款。
步骤S102:从审核参考信息库中检索与目标文档内容文本匹配的审核参考信息,得到目标审核参考信息。
本实施例中,审核参考信息库中的审核参考信息为用于判断文档内容文本是否符合要求的标准,与目标文档内容文本匹配的审核参考信息为用于判断目标文档内容文本是否符合要求的标准。
在一种可能的实现方式中,审核参考信息库可以包括审核规则库,考虑到审核规则库中的审核规则存在覆盖不全的情况,再加之某类文档(比如合同文档)既要符合法律法规,又要符合公司管理的规定,在另一种可能的实现方式中,审核参考信息库可以包括审核规则库和法律法规知识库。需要说明的是,审核规则库中的审核规则以及法律法规知识库中的法律法规可进行更新。
若审核参考信息库只包括审核规则库,则从审核规则库中检索与目标文档内容文本匹配的审核规则,即,目标审核参考信息为与目标文档内容文本匹配的审核规则;若审核参考信息库包括审核规则库和法律法规知识库,则从审核规则库中检索与目标文档内容文本匹配的审核规则,并从法律法规知识库中检索与目标文档内容文本匹配的法律法规,即,目标审核参考信息为与目标文档内容文本匹配的审核规则以及与目标文档内容文本匹配的法律法规。
需要说明的是,法律法规知识库的引入使得,在审核规则库中不包含与目标文档内容文本匹配的审核规则的情况下,可根据与目标文档内容文本匹配的法律法规进行审核,即,对于审核规则覆盖不到的内容,依然可得到妥善处理,另外,在审核规则库中包含与目标文档内容文本匹配的审核规则的情况下,同时根据与目标文档内容文本匹配的审核规则以及与目标文档内容文本匹配的法律法规对目标文档内容文本进行审核,能够获得更为全面、准确的审核结果。
步骤S103:调用预置的大语言模型,基于目标文档内容文本和目标审核参考信息,生成目标文档内容文本的审核建议。
若目标审核参考信息为与目标文档内容文本匹配的审核规则,则调用预置的大语言模型,基于目标文档内容文本和与目标文档内容文本匹配的审核规则,生成目标文档内容文本的审核建议,若目标审核参考信息为与目标文档内容文本匹配的审核规则以及与目标文档内容文本匹配的法律法规,则调用预置的大语言模型,基于目标文档内容文本、与目标文档内容文本匹配的审核规则以及与目标文档内容文本匹配的法律法规,生成目标文档内容文本的审核建议。
本实施例中的大语言模型为通过训练得到的具备对文档内容文本进行审核能力的大模型。大语言模型的具体训练过程将在后续实施例介绍。
在获得目标文档内容文本的审核建议后,可由审核人员进一步对目标文档内容文本的审核建议进行审核。
本发明实施例提供的文档审核方法,首先获取待审核文档中的待审核内容文本,即目标文档内容文本,然后从审核参考信息库中检索与目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,最后调用预置的大语言模型,基于目标文档内容文本以及目标审核参考信息,生成目标文档内容文本的审核建议。本发明实施例提供的文档审核方法可自动生成目标文档内容文本的审核建议,相比于纯人工的审核方式,大大降低了人工参与程度,相应降低了人工审核对于审核结果的影响,显著提升了审核效率,另外,由于本发明实施例提供的文档审核方法基于大语言模型对目标文档内容文本进行审核,而大语言模型具有超强的语义理解和信息生成能力,因此,最终可获得高质量的审核建议,由于本发明实施例提供的文档审核方法无需将审核规则库中的审核规则处理成机器可理解的规则,因此,无需较高的审核规则维护成本。
在本发明的另一实施例中,对大语言模型的训练过程进行介绍。
请参阅图2,示出了训练大语言模型的流程示意图,可以包括:
步骤S201:采用训练文档内容文本和训练审核参考信息,对构建的大语言模型进行无监督训练,得到第一大语言模型。
以对合同文档进行审核为例:可采用大量的训练合同条款、大量的合同审核规则、大量的法律法规对构建的大语言模型进行无监督训练,以使大语言模型学习合同知识以及合同审核知识。
可选的,可从指定途径(比如互联网上)获取大量的指定领域的审核参考信息(比如法律法规、合同审核规则)、文档(比如合同文档),对这些数据进行预处理(比如去重、剔除用户隐私信息等),将预处理后的数据处理成若干条用于对构建的大语言模型进行无监督训练的训练数据。
可选的,大语言模型可以为基于Transformer架构的模型。在对构建的大语言模型进行无监督训练时,可让大语言模型根据训练数据的前k个词预测下一个词,然后计算训练数据对应的最大似然估计值,进而根据训练数据对应的最大似然估计值对大语言模型进行参数更新。其中,最大似然估计值的计算方式如下所示:
(1)
其中,表示第i个词/>前的k个词,/>为一个变量。
步骤S202:采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练,得到第二大语言模型,作为最终的大语言模型。
本实施例中的目标任务可以包括文档审核任务。文档审核任务对应的prompt指令可根据训练文档内容文本和文档审核任务对应的prompt格式模板构造。
在一种可能的实现方式中,根据训练文档内容文本和文档审核任务对应的prompt格式模板构造文档审核任务对应的prompt指令的过程可以包括:
步骤a1、获取针对文档审核任务预配置的prompt格式模板,即文档审核任务对应的prompt格式模板。
本实现方式中,文档审核任务对应的prompt格式模板中包括文档信息槽、审核参考信息槽以及用于指示第一大语言模型执行文档审核任务的任务指示信息。
文档审核任务对应的prompt格式模板用于指示第一大语言模型结合审核参考信息槽内的信息对文档信息槽内的信息进行审核。
步骤a2、将训练文档内容文本填充至文档审核任务对应的prompt格式模板中的文档信息槽,将训练文档内容文本对应的审核参考信息填充至文档审核任务对应的prompt格式模板中的审核参考信息槽,得到文档审核任务对应的prompt指令。
将训练文档内容文本以及训练文档内容文本对应的审核参考信息填充至文档审核任务对应的prompt格式模板中对应的信息槽内,即可得到文档审核任务对应的prompt指令。
文档审核任务对应的prompt指令用于指示第一大语言模型参考该指令中的审核参考信息槽内的审核参考信息对文档信息槽内的训练文档内容文本进行审核。
文档审核任务对应的prompt指令的标注信息为该指令中的训练文档内容文本的真实审核建议。
下表出了文档审核任务对应的prompt指令以及文档审核任务对应的prompt指令的标注信息的一示例:
表1 文档审核任务对应的prompt格式模板及标注信息
在另一种可能的实现方式中,根据训练文档内容文本和文档审核任务对应的prompt格式模板构造文档审核任务对应的prompt指令的过程可以包括:
步骤b1、获取针对文档审核任务预配置的prompt格式模板,即文档审核任务对应的prompt格式模板。
本实现方式中,文档审核任务对应的prompt格式模板中包括文档信息槽、审核参考信息槽、用于指示第一大语言模型执行文档审核任务的任务指示信息以及用于指示第一大语言模型逐步审核的引导信息。
步骤b2、将训练文档内容文本填充至文档审核任务对应的prompt格式模板中的文档信息槽,将训练文档内容文本对应的审核参考信息填充至文档审核任务对应的prompt格式模板中的审核参考信息槽,得到文档审核任务对应的prompt指令。
文档审核任务对应的prompt指令用于指示第一大语言模型参考该指令中的审核参考信息槽内的审核参考信息对文档信息槽内的训练文档内容文本进行逐步审核。
文档审核任务对应的prompt指令的标注信息为训练文档内容文本的真实审核建议(分步审核的建议)。
下表出了本实现方式中文档审核任务对应的prompt指令,以及文档审核任务对应的prompt指令的标注信息的一示例:
表2 文档审核任务对应的prompt格式模板及标注信息
当审核规则比较复杂和抽象的时候,大语言模型很难一步到位进行解决,在prompt指令中加入引导信息,能够引导大语言模型逐步关注审核关键点,提高审核质量和准确性,从而输出更优质的审核建议。
对于简单的审核规则,可采用上述第一种实现方式(当然,也可采用上述的第二种实现方式),对于复杂的审核规则,可采用上述的第二种实现方式(当然,也可采用上述的第一种实现方式)。
为了提升大语言模型的性能,可在文档审核任务对应的有标注prompt指令的基础上,结合上其他任务对应的有标注prompt指令,对第一大语言模型进行监督训练。
可选的,可结合上要素抽取任务对应的有标注prompt指令、和/或文本润色任务对应的有标注prompt指令、和/或文本纠错任务对应的有标注prompt指令等对第一大语言模型进行监督训练。
其中,要素抽取任务对应的prompt指令可根据训练文档内容文本和要素抽取任务对应的prompt格式模板构造。具体的,根据训练文档内容文本和要素抽取任务对应的prompt格式模板构造要素抽取任务对应的prompt指令的过程可以包括:
步骤c1、获取针对要素抽取任务预配置的prompt格式模板,即要素抽取任务对应的prompt格式模板。
其中,要素抽取任务对应的prompt格式模板中包括文档信息槽以及用于指示第一大语言模型执行要素抽取任务的任务指示信息。
步骤c2、将训练文档内容文本填充至要素抽取任务对应的prompt格式模板中的文档信息槽内,得到要素抽取任务对应的prompt指令。
要素抽取任务对应的prompt指令用于指示第一大语言模型对该指令中的文档信息槽内的训练文档内容文本抽取要素。
要素抽取任务对应的prompt指令的标注信息为该指令中的训练文档内容文本中的真实要素。
其中,文本润色任务对应的prompt指令可根据训练文档内容文本和文本润色任务对应的prompt格式模板构造。具体的,根据训练文档内容文本和文本润色任务对应的prompt格式模板构造文本润色任务对应的prompt指令的过程可以包括:
步骤d1、获取针对文本润色任务预配置的prompt格式模板,即文本润色任务对应的prompt格式模板。
其中,文本润色任务对应的prompt格式模板中包括文档信息槽以及用于指示第一大语言模型执行文本润色任务的任务指示信息。
步骤d2、将训练文档内容文本填充至文本润色任务对应的prompt格式模板中的文档信息槽内,得到文本润色任务对应的prompt指令。
文本润色任务对应的prompt指令用于指示第一大语言模型对该指令中的文档信息槽内的训练文档内容文本进行文本润色。
文本润色任务对应的prompt指令的标注信息为训练文档内容文本的真实润色后文本。
其中,文本纠错任务对应的prompt指令可根据训练文档内容文本和文本纠错任务对应的prompt格式模板构造。具体的,根据训练文档内容文本和文本纠错任务对应的prompt格式模板构造文本纠错任务对应的prompt指令的过程可以包括:
步骤e1、获取针对文本纠错任务预配置的prompt格式模板,即文本纠错任务对应的prompt格式模板。
其中,文本纠错任务对应的prompt格式模板中包括文档信息槽以及用于指示一大语言模型执行文本纠错任务的任务指示信息。
步骤e2、将训练文档内容文本填充至文本纠错任务对应的prompt格式模板中的文档信息槽内,得到文本纠错任务对应的prompt指令。
文本纠错任务对应的prompt指令用于指示第一大语言模型对该指令中的文档信息槽内的训练文档内容文本进行文本纠错。
文本纠错任务对应的prompt指令的标注信息为训练文档内容文本的正确文本。
采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练的过程可以包括:
步骤S2021、将目标任务对应的prompt指令输入第一大语言模型,得到第一大语言模型输出的任务执行结果。
可将文档审核任务对应的prompt指令输入第一大语言模型,得到文档审核任务对应的prompt指令中训练文档内容文本的审核建议。
可将要素抽取任务对应的prompt指令输入第一大语言模型,得到从要素抽取任务对应的prompt指令中的训练文档内容文本中抽取的要素。
可将文本润色任务对应的prompt指令输入第一大语言模型,得到文本润色任务对应的prompt指令中的训练文档内容文本的润色后文本。
可将文本纠错任务对应的prompt指令输入第一大语言模型,得到文本纠错任务对应的prompt指令中的训练文档内容文本的纠错后文本。
步骤S2022:根据第一大语言模型输出的任务执行结果以及目标任务对应的prompt指令的标注信息,确定第一大语言模型的预测损失。
步骤S2023:根据第一大语言模型的预测损失,对第一大语言模型进行参数更新。
上述实施例提到,审核参考信息库可以包括审核规则库,也可以包括审核规则库和法律法规知识库。在一种可能的实现方式中,审核参考信息库包含的审核规则库可以为原始审核规则库,原始审核规则库中的审核规则为人工制定的审核规则。
为了提升文档审核效果,在另一种可能的实现方式中,审核参考信息库包含的审核规则库可以为对原始审核规则库中的部分或全部审核规则进行规范化处理后的审核规则库,可调用大语言模型(通过上述实施例提供的训练方式训练得到的大语言模型)对原始审核规则库中的审核规则进行规范化处理。
具体的,调用大语言模型对原始审核规则库中的审核规则进行规范化处理的过程可以包括:
步骤f1、获取针对审核规则规范化任务预配置的prompt格式模板,即审核规则规范化任务对应的prompt格式模板。
其中,审核规则规范化任务对应的prompt格式模板中包括审核规则信息槽以及用于指示大语言模型执行审核规则规范化任务的任务指示信息。
步骤f2、将原始审核规则库中的审核规则填充至审核规则规范化任务对应的prompt格式模板中的审核规则信息槽,得到审核规则规范化任务对应的prompt指令。
审核规则规范化任务对应的prompt指令用于指示大语言模型对该指令中的审核规则信息槽内的审核规则进行规范化处理。
步骤f3、将审核规则规范化任务对应的prompt指令输入大语言模型,得到大语言模型输出的规范化的审核规则。
将审核规则规范化任务对应的prompt指令输入大语言模型后,大语言模型对输入的prompt指令中的审核规则进行规范化处理,输出规范化的审核规则。
下表示出了审核规则规范化任务对应的prompt指令以及将该指令输入大语言模型所得到的规范化的审核规则的示例:
表3 审核规则规范化任务对应的prompt指令及规范化的审核规则
在本发明的另一实施例中,对“步骤S102:从审核参考信息库中检索与目标文档内容文本匹配的审核参考信息,得到目标审核参考信息”的具体实现过程进行介绍。
请参阅图3,示出了从审核参考信息库中检索与目标文档内容文本匹配的审核参考信息的流程示意图,可以包括:
步骤S301:确定目标文档内容文本与审核参考信息库中每条审核参考信息的文本相似度以及关键词匹配度。
其中,确定目标文档内容文本与审核参考信息库中每条审核参考信息的文本相似度的过程可以包括:获取目标文档内容文本的文本表示向量;计算目标文档内容文本的文本表示向量与审核参考信息库中每条审核参考信息的文本表示向量的相似度,得到目标文档内容文本与审核参考信息库中每条审核参考信息的文本相似度。
可选的,可基于Sentence-BERT模型获取目标文档内容文本的文本表示向量。审核参考信息库中每条审核参考信息的文本表示向量也可通过Sentence-BERT模型获取。
需要说明的是,审核参考信息库中每条审核参考信息的文本表示向量可预先获取,当然,本实施例并不限定于此,审核参考信息库中每条审核参考信息的文本表示向量也可在需要计算目标文档内容文本与审核参考信息库中每条审核参考信息的文本相似度时再确定。
其中,确定目标文档内容文本与审核参考信息库中每条审核参考信息的关键词匹配度的过程可以包括:从目标文档内容文本中提取关键词;根据从目标文档内容文本中提取的关键词以及从审核参考信息库中的每条审核参考信息中提取的关键词,计算目标文档内容文本与审核参考信息库中每条审核参考信息的关键词匹配度。可选的,可采用TF-IDF方法从目标文档内容文本中提取关键词,审核参考信息库中的每条审核参考信息中的关键词也可采用TF-IDF方法提取。
需要说明的是,可预先从审核参考信息库中的每条审核参考信息中提取关键词,当然,本实施例并不限定于此,比如,也可在需要计算目标文档内容文本与审核参考信息库中每条审核参考信息的关键词匹配度时,再从审核参考信息库中的每条审核参考信息中提取关键词。
上述实施例提到,审核参考信息库可以包括审核规则库和法律法规知识库,若审核参考信息库包括审核规则库和法律法规知识库,则在确定目标文档内容文本与审核参考信息库中每条审核参考信息的文本相似度以及关键词匹配度时,确定目标文档内容文本与审核规则库中每条审核规则的文本相似度以及关键词匹配度,并确定目标文档内容文本与法律法规知识库中每条法律法规的文本相似度以及关键词匹配度。
步骤S302:根据确定出的文本相似度以及关键词匹配度,确定目标文档内容文本与审核参考信息库中每条审核参考信息的第一相关度。
具体的,针对审核参考信息库中的每条审核参考信息ri(第i条审核参考信息),若将目标文档内容文本与该条审核参考信息ri的文本相似度表示为si1,将目标文档内容文本与该条审核参考信息ri的关键词匹配度表示为si2,则可将si1与si2融合,融合结果作为目标文档内容文本与该条审核参考信息ri的第一相关度Si。
可选的,可采用加权求和的方式将si1与si2融合,具体的,加权融合的方式如下所示:
Si= α ×si1+ (1 - α) ×si2 (2)
其中,α为si1对应的权重,1 – α为si2对应的权重,α为大于0且小于1的值,需要说明的是,α的具体取值可根据实际情况设定。
另外需要说明的是,本实施例并不限定采用步骤S301~步骤S302的方式确定目标文档内容文本与审核参考信息库中每条审核参考信息的第一相关度,还可采用其他方式,比如,确定目标文档内容文本与审核参考信息库中每条审核参考信息的文本相似度,将目标文档内容文本与审核参考信息库中每条审核参考信息的文本相似度作为目标文档内容文本与审核参考信息库中每条审核参考信息的第一相关度。
步骤S303:根据目标文档内容文本与审核参考信息库中每条审核参考信息的第一相关度,确定与目标文档内容文本匹配的审核参考信息。
根据目标文档内容文本与审核参考信息库中每条审核参考信息的第一相关度,确定与目标文档内容文本匹配的审核参考信息的实现方式有多种,本实施例提供如下两种实现方式:
第一种实现方式:将与目标文档内容文本的第一相关度大于预设的第一相关度阈值的审核参考信息,确定为与目标文档内容文本匹配的审核参考信息,或者,将与目标文档内容文本的第一相关度最大的M(M可根据实际情况设定)个审核参考信息,确定为与目标文档内容文本匹配的审核参考信息。
为了能够更准确地确定出与目标文档内容文本匹配的审核参考信息,本实施例提供了第二种实现方式:
首先根据目标文档内容文本与审核参考信息库中每条审核参考信息的第一相关度,从审核参考信息库中筛选若干条候选审核参考信息,然后从若干条候选审核参考信息中确定与目标文档内容文本匹配的审核参考信息。
可选的,将与目标文档内容文本的第一相关度大于预设的第二相关度阈值的审核参考信息(比如,与目标文档内容文本的第一相关度大于预设的第二相关度阈值的审核规则,以及与目标文档内容文本的第一相关度大于预设的第二相关度阈值的法律法规)确定为候选审核参考信息,或者,将与目标文档内容文本的第一相关度最大的N(N可根据实际情况设定)个审核参考信息(比如,与目标文档内容文本的第一相关度最大的N条审核规则,以及与目标文档内容文本的第一相关度最大的N条法律法规),确定为候选审核参考信息。
可选的,在获得若干候选审核参考信息后,可先利用预先训练得到的相关度确定模型,确定目标文档内容文本与每条候选审核参考信息的第二相关度,然后根据目标文档内容文本与每条候选审核参考信息的第二相关度,确定与目标文档内容文本匹配的审核参考信息。
其中,相关度确定模型采用训练文档内容文本、正例文本(与训练文档内容文本相关的文本)和负例文本(与训练文档内容文本无关的文本),以使训练文档内容文本与正例文本的相关度大于训练文档内容文本与负例文本的相关度为训练目标训练得到。
由于相关度确定模型以使训练文档内容文本与正例文本的相关度大于训练文档内容文本与负例文本的相关度为训练目标训练得到,因此,基于训练得到的相关度确定模型针对目标文档内容文本与候选审核参考信息确定的第二相关度能够表征两个文本的真实相关程度。
可选的,可将与目标文档内容文本的第二相关度大于预设的第三相关度阈值的候选审核参考信息,确定为与目标文档内容文本匹配的审核参考信息,即目标审核参考信息。
在本发明的另一实施例中,对上述实施例中的“步骤S203:调用预置的大语言模型,基于目标文档内容文本和目标审核参考信息,生成目标文档内容文本的审核建议”的具体实现过程进行介绍。
请参阅图4,示出了调用预置的大语言模型,基于目标文档内容文本和目标审核参考信息,生成目标文档内容文本的审核建议的流程示意图,可以包括:
步骤S401:获取文档审核任务对应的prompt格式模板。
其中,文档审核任务对应的prompt格式模板为针对文档审核任务预配置的prompt格式模板,其包括文档信息槽、审核参考信息槽以及用于指示大语言模型执行文档审核任务的任务指示信息。
文档审核任务对应的prompt格式模板用于指示大语言模型结合审核参考信息槽内的信息对文档信息槽内的信息进行审核。
可选的,文档审核任务对应的prompt格式模板中还可以包括用于指示大语言模型逐步审核的引导信息。
步骤S402:将目标文档内容文本填充至文档审核任务对应的prompt格式模板中的文档信息槽内,将目标审核参考信息填充至文档审核任务对应的prompt格式模板中的审核参考信息槽内,得到文档审核任务对应的prompt指令。
在获得文档审核任务对应的prompt格式模板后,可将目标文档内容文本和目标审核参考信息填充至文档审核任务对应的prompt格式模板中对应的信息槽内。
步骤S403:将文档审核任务对应的prompt指令输入大语言模型,得到大语言模型输出的审核建议。
将文档审核任务对应的prompt指令输入大语言模型后,大语言模型参考输入指令中的审核参考信息槽内的目标审核参考信息对文档信息槽内的目标文档内容文本进行审核,并输出审核建议。
需要说明的是,若文档审核任务对应的prompt格式模板中不包含用于指示大语言模型逐步审核的引导信息,则大语言模型输出最终的审核建议,若文档审核任务对应的prompt格式模板中包含用于指示大语言模型逐步审核的引导信息,则大语言模型输出分步审核建议。
本发明实施例提供了一种文档审核装置,下面对本发明实施例提供的文档审核装置进行描述,下文描述的文档审核装置与上文描述的文档审核方法可相互对应参照。
请参阅图5,示出了本发明实施例提供的文档审核装置的结构示意图,该文档审核装置可以包括:文本获取模块501、审核参考信息检索模块502和文档审核模块503。
文本获取模块501,用于获取目标文档内容文本,所述目标文档内容文本为待审核文档中的待审核内容文本。
审核参考信息检索模块502,用于从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,所述目标审核参考信息为用于判断所述目标文档内容文本是否符合要求的标准。
文档审核模块503,用于调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,其中,所述大语言模型为通过训练得到的具备对文档内容文本进行审核能力的大模型。
可选的,所述审核参考信息库包括审核规则库,或者,包括法律法规知识库和审核规则库;所述审核参考信息库包含的审核规则库为原始审核规则库,或者,为对所述原始审核规则库中的部分或全部审核规则进行规范化处理后的审核规则库。
本发明实施例提供的文档审核装置还可以包括:对所述原始审核规则库中的审核规则进行规范化处理的审核规则规范化模块。
审核规则规范化模块,具体用于调用所述大语言模型,对所述原始审核规则库中的审核规则进行规范化处理。
本发明实施例提供的文档审核装置还可以包括:模型训练模块。模型训练模块,用于:
采用训练文档内容文本和训练审核参考信息,对构建的大语言模型进行无监督训练,得到第一大语言模型;
采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练,得到第二大语言模型,作为最终的大语言模型,其中,所述目标任务至少包括文档审核任务。
可选的,所述文档审核任务对应的prompt指令中包括:训练文档内容文本、训练文档内容文本对应的审核参考信息,以及用于指示第一大语言模型执行文档审核任务的任务指示信息;所述文档审核任务对应的prompt指令用于指示第一大语言模型参考训练文档内容文本对应的审核参考信息对训练文档内容文本进行审核;所述文档审核任务对应的prompt指令的标注信息为训练文档内容文本的真实审核建议。
可选的,所述目标任务还包括如下任务中的一个或多个:要素抽取任务、文本润色任务、文本纠错任务;
所述要素抽取任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行要素抽取任务的任务指示信息;所述要素抽取任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行要素抽取;所述要素抽取任务对应的prompt指令的标注信息为训练文档内容文本中的真实要素信息;
所述文本润色任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本润色任务的任务指示信息;所述文本润色任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行润色;所述文本润色任务对应的prompt指令的标注信息为训练文档内容文本的真实润色后文本;
所述文本纠错任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本纠错任务的任务指示信息;所述文本纠错任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行纠错;所述文本纠错任务对应的prompt指令的标注信息为训练文档内容文本的正确文本。
可选的,模型训练模块在采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练时,具体用于:
将所述目标任务对应的prompt指令输入第一大语言模型,得到第一大语言模型输出的任务执行结果;
根据第一大语言模型输出的任务执行结果以及输入的prompt指令的标注信息,确定第一大语言模型的预测损失;
根据第一大语言模型的预测损失,对第一大语言模型进行参数更新。
可选的,审核参考信息检索模块502包括:第一相关度确定模块和审核参考信息确定模块。
第一相关度确定模块,用于确定所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的文本相似度和关键词匹配度,根据确定出的文本相似度和关键词匹配度,确定所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度。
审核参考信息确定模块,用于根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定与所述目标文档内容文本匹配的审核参考信息。
可选的,核参考信息确定模块在根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定与所述目标文档内容文本匹配的审核参考信息时,具体用于:
根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定若干条候选审核参考信息;
利用预先训练得到的相关度确定模型,确定所述目标文档内容文本与每条候选审核参考信息的第二相关度,其中,所述相关度确定模型以使训练文档内容文本与正例文本的相关度大于与负例文本的相关度为目标训练得到,所述正例文本和所述负例文本依次为与训练文档内容文本相关的文本、与训练文档内容文本无关的文本;
根据所述目标文档内容文本与每条候选审核参考信息的第二相关度,确定与所述目标文档内容文本匹配的审核参考信息。
可选的,文档审核模块503在调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议时,具体用于:
获取文档审核任务对应的prompt格式模板,所述文档审核任务对应的prompt格式模板包括文档信息槽、审核参考信息槽以及用于指示大语言模型执行文档审核任务的任务指示信息,所述文档审核任务对应的prompt格式模板用于指示大语言模型结合所述审核参考信息槽内的信息对所述文档信息槽内的信息进行审核;
将所述目标文档内容文本填充至所述文档信息槽,以及,将所述目标审核参考信息填充至所述审核参考信息槽,得到所述文档审核任务对应的prompt指令;
将所述文档审核任务对应的prompt指令输入大语言模型,得到所述大语言模型输出的审核建议。
可选的,所述文档审核任务对应的prompt格式模板还包括:用于指示所述大语言模型逐步审核的引导信息;
所述文档审核任务对应的prompt格式模板用于指示大语言模型结合所述审核参考信息槽内的信息对所述文档信息槽内的信息逐步审核。
可选的,审核规则规范化模块在调用所述大语言模型,对所述原始审核规则库中的审核规则进行规范化处理时,具体用于:
获取审核规则规范化任务对应的prompt格式模板,所述审核规则规范化任务对应的prompt格式模板包括审核规则信息槽以及用于指示所述大语言模型执行审核规则规范化任务的任务指示信息,所述审核规则规范化任务对应的prompt格式模板用于指示所述大语言模型对所述审核规则信息槽内的信息进行规范化处理;
将所述原始审核规则库中的审核规则填充至所述审核规则信息槽,得到所述审核规则规范化任务对应的prompt指令;
将所述审核规则规范化任务对应的prompt指令输入所述大语言模型,得到所述大语言模型输出的规范化的审核规则。
本发明实施例提供的文档审核装置,首先获取待审核文档中的待审核内容文本,即目标文档内容文本,然后从审核参考信息库中检索与目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,最后调用预置的大语言模型,基于目标文档内容文本以及目标审核参考信息,生成目标文档内容文本的审核建议。本发明实施例提供的文档审核装置可自动生成目标文档内容文本的审核建议,相比于纯人工的审核方式,大大降低了人工参与程度,相应降低了人工审核对于审核结果的影响,显著提升了审核效率,另外,由于本发明实施例提供的文档审核装置基于大语言模型对目标文档内容文本进行审核,大语言模型具有超强的语义理解和信息生成能力,因此,最终可获得高质量的审核建议。
本发明实施例提供了一种文档审核设备,请参阅图6,示出了该文档审核设备的结构示意图,该文档审核设备可以包括:处理器601、通信接口602、存储器603和通信总线604;
在本发明实施例中,处理器601、通信接口602、存储器603、通信总线604的数量为至少一个,且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;
处理器601可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器603可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取目标文档内容文本,所述目标文档内容文本为待审核文档中的待审核内容文本;
从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,所述目标审核参考信息为用于判断所述目标文档内容文本是否符合要求的标准;
调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,其中,所述大语言模型为通过训练得到的具备对文档内容文本进行审核能力的大模型。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本发明实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取目标文档内容文本,所述目标文档内容文本为待审核文档中的待审核内容文本;
从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,所述目标审核参考信息为用于判断所述目标文档内容文本是否符合要求的标准;
调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,其中,所述大语言模型为通过训练得到的具备对文档内容文本进行审核能力的大模型。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种文档审核方法,其特征在于,包括:
获取目标文档内容文本,所述目标文档内容文本为待审核文档中的待审核内容文本;
从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,所述目标审核参考信息为用于判断所述目标文档内容文本是否符合要求的标准;
调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,其中,所述大语言模型为通过训练得到的具备对文档内容文本进行审核能力的大模型;
其中,所述大语言模型的训练过程包括:
采用训练文档内容文本和训练审核参考信息,对构建的大语言模型进行无监督训练,得到第一大语言模型;
采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练,得到第二大语言模型,作为最终的大语言模型,其中,所述目标任务至少包括文档审核任务;
所述目标任务还包括如下任务中的一个或多个:要素抽取任务、文本润色任务、文本纠错任务;
所述要素抽取任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行要素抽取任务的任务指示信息;所述要素抽取任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行要素抽取;所述要素抽取任务对应的prompt指令的标注信息为训练文档内容文本中的真实要素信息;
所述文本润色任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本润色任务的任务指示信息;所述文本润色任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行润色;所述文本润色任务对应的prompt指令的标注信息为训练文档内容文本的真实润色后文本;
所述文本纠错任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本纠错任务的任务指示信息;所述文本纠错任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行纠错;所述文本纠错任务对应的prompt指令的标注信息为训练文档内容文本的正确文本。
2.根据权利要求1所述的文档审核方法,其特征在于,所述审核参考信息库包括审核规则库,或者,包括法律法规知识库和审核规则库;
所述审核参考信息库包含的审核规则库为原始审核规则库,或者,为对所述原始审核规则库中的部分或全部审核规则进行规范化处理后的审核规则库;
对所述原始审核规则库中的审核规则进行规范化处理的过程包括:
调用所述大语言模型,对所述原始审核规则库中的审核规则进行规范化处理。
3.根据权利要求1所述的文档审核方法,其特征在于,所述文档审核任务对应的prompt指令中包括:训练文档内容文本、训练文档内容文本对应的审核参考信息,以及用于指示第一大语言模型执行文档审核任务的任务指示信息;
所述文档审核任务对应的prompt指令用于指示第一大语言模型参考训练文档内容文本对应的审核参考信息对训练文档内容文本进行审核;
所述文档审核任务对应的prompt指令的标注信息为训练文档内容文本的真实审核建议。
4.根据权利要求1~3中任一项所述的文档审核方法,其特征在于,所述采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练,包括:
将所述目标任务对应的prompt指令输入第一大语言模型,得到第一大语言模型输出的任务执行结果;
根据第一大语言模型输出的任务执行结果以及输入的prompt指令的标注信息,确定第一大语言模型的预测损失;
根据第一大语言模型的预测损失,对第一大语言模型进行参数更新。
5.根据权利要求1所述的文档审核方法,其特征在于,所述从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,包括:
确定所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的文本相似度和关键词匹配度;
根据确定出的文本相似度和关键词匹配度,确定所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度;
根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定与所述目标文档内容文本匹配的审核参考信息。
6.根据权利要求5所述的文档审核方法,其特征在于,所述根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定与所述目标文档内容文本匹配的审核参考信息,包括:
根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定若干条候选审核参考信息;
利用预先训练得到的相关度确定模型,确定所述目标文档内容文本与每条候选审核参考信息的第二相关度,其中,所述相关度确定模型以使训练文档内容文本与正例文本的相关度大于与负例文本的相关度为目标训练得到,所述正例文本和所述负例文本依次为与训练文档内容文本相关的文本、与训练文档内容文本无关的文本;
根据所述目标文档内容文本与每条候选审核参考信息的第二相关度,确定与所述目标文档内容文本匹配的审核参考信息。
7.根据权利要求1所述的文档审核方法,其特征在于,所述调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,包括:
获取文档审核任务对应的prompt格式模板,所述文档审核任务对应的prompt格式模板包括文档信息槽、审核参考信息槽以及用于指示大语言模型执行文档审核任务的任务指示信息,所述文档审核任务对应的prompt格式模板用于指示大语言模型结合所述审核参考信息槽内的信息对所述文档信息槽内的信息进行审核;
将所述目标文档内容文本填充至所述文档信息槽,以及,将所述目标审核参考信息填充至所述审核参考信息槽,得到所述文档审核任务对应的prompt指令;
将所述文档审核任务对应的prompt指令输入大语言模型,得到所述大语言模型输出的审核建议。
8.根据权利要求7所述的文档审核方法,其特征在于,所述文档审核任务对应的prompt格式模板还包括:用于指示所述大语言模型逐步审核的引导信息;
所述文档审核任务对应的prompt格式模板用于指示大语言模型结合所述审核参考信息槽内的信息对所述文档信息槽内的信息逐步审核。
9.根据权利要求2所述的文档审核方法,其特征在于,所述调用所述大语言模型,对所述原始审核规则库中的审核规则进行规范化处理,包括:
获取审核规则规范化任务对应的prompt格式模板,所述审核规则规范化任务对应的prompt格式模板包括审核规则信息槽以及用于指示所述大语言模型执行审核规则规范化任务的任务指示信息,所述审核规则规范化任务对应的prompt格式模板用于指示所述大语言模型对所述审核规则信息槽内的信息进行规范化处理;
将所述原始审核规则库中的审核规则填充至所述审核规则信息槽,得到所述审核规则规范化任务对应的prompt指令;
将所述审核规则规范化任务对应的prompt指令输入所述大语言模型,得到所述大语言模型输出的规范化的审核规则。
10.一种文档审核装置,其特征在于,包括:文本获取模块、审核参考信息检索模块和文档审核模块;
所述文本获取模块,用于获取目标文档内容文本,所述目标文档内容文本为待审核文档中的待审核内容文本;
所述审核参考信息检索模块,用于从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,所述目标审核参考信息为用于判断所述目标文档内容文本是否符合要求的标准;
所述文档审核模块,用于调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,其中,所述大语言模型为通过训练得到的具备对文档内容文本进行审核能力的大模型;
其中,该文档审核装置还包括:模型训练模块;
所述模型训练模块用于采用训练文档内容文本和训练审核参考信息,对构建的大语言模型进行无监督训练,得到第一大语言模型;采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练,得到第二大语言模型,作为最终的大语言模型,其中,所述目标任务至少包括文档审核任务;
所述目标任务还包括如下任务中的一个或多个:要素抽取任务、文本润色任务、文本纠错任务;
所述要素抽取任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行要素抽取任务的任务指示信息;所述要素抽取任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行要素抽取;所述要素抽取任务对应的prompt指令的标注信息为训练文档内容文本中的真实要素信息;
所述文本润色任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本润色任务的任务指示信息;所述文本润色任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行润色;所述文本润色任务对应的prompt指令的标注信息为训练文档内容文本的真实润色后文本;
所述文本纠错任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本纠错任务的任务指示信息;所述文本纠错任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行纠错;所述文本纠错任务对应的prompt指令的标注信息为训练文档内容文本的正确文本。
11.一种文档审核设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~9中任一项所述的文档审核方法的各个步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~9中任一项所述的文档审核方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310901193.7A CN116663525B (zh) | 2023-07-21 | 2023-07-21 | 一种文档审核方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310901193.7A CN116663525B (zh) | 2023-07-21 | 2023-07-21 | 一种文档审核方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116663525A CN116663525A (zh) | 2023-08-29 |
CN116663525B true CN116663525B (zh) | 2023-12-01 |
Family
ID=87715533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310901193.7A Active CN116663525B (zh) | 2023-07-21 | 2023-07-21 | 一种文档审核方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116663525B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494701B (zh) * | 2023-11-10 | 2024-04-30 | 杭州市余杭区数据资源管理局 | 基于改进的自然语言处理的数据审核方法 |
CN117634468B (zh) * | 2023-11-30 | 2024-05-28 | 北京智谱华章科技有限公司 | 一种基于大语言模型的通用文本质量评价方法 |
CN117473339B (zh) * | 2023-12-28 | 2024-04-30 | 智者四海(北京)技术有限公司 | 内容审核方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674255A (zh) * | 2019-09-24 | 2020-01-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 文本内容审核方法及装置 |
CN111916067A (zh) * | 2020-07-27 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
WO2021169208A1 (zh) * | 2020-02-25 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
CN113657605A (zh) * | 2020-05-12 | 2021-11-16 | 埃森哲环球解决方案有限公司 | 基于人工智能ai的文档处理器 |
CN114186019A (zh) * | 2021-11-03 | 2022-03-15 | 北京来也网络科技有限公司 | 结合rpa和ai的企业项目的审核方法及装置 |
WO2022134588A1 (zh) * | 2020-12-21 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 信息审核分类模型的构建方法和信息审核方法 |
CN115481599A (zh) * | 2022-09-21 | 2022-12-16 | 北京百度网讯科技有限公司 | 文档的处理方法、装置、电子设备和存储介质 |
CN115630843A (zh) * | 2022-11-01 | 2023-01-20 | 卓望信息技术(北京)有限公司 | 合同条款自动审核方法及系统 |
-
2023
- 2023-07-21 CN CN202310901193.7A patent/CN116663525B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674255A (zh) * | 2019-09-24 | 2020-01-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 文本内容审核方法及装置 |
WO2021169208A1 (zh) * | 2020-02-25 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
CN113657605A (zh) * | 2020-05-12 | 2021-11-16 | 埃森哲环球解决方案有限公司 | 基于人工智能ai的文档处理器 |
CN111916067A (zh) * | 2020-07-27 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
WO2022134588A1 (zh) * | 2020-12-21 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 信息审核分类模型的构建方法和信息审核方法 |
CN114186019A (zh) * | 2021-11-03 | 2022-03-15 | 北京来也网络科技有限公司 | 结合rpa和ai的企业项目的审核方法及装置 |
CN115481599A (zh) * | 2022-09-21 | 2022-12-16 | 北京百度网讯科技有限公司 | 文档的处理方法、装置、电子设备和存储介质 |
CN115630843A (zh) * | 2022-11-01 | 2023-01-20 | 卓望信息技术(北京)有限公司 | 合同条款自动审核方法及系统 |
Non-Patent Citations (4)
Title |
---|
《【实在智能】 文档审阅革命,从此告别低效率——Chat-IDP》;网友;《https://www.bilibili.com/video/BV1zm4y12742/?from=search&seid=7473232758410159665&spm_id_from=333.337.0.0&vd_source=875879256b2dfdeaa7fa78a7b09275c1》;全文 * |
《产品前瞻丨积极拥抱大模型技术,实在 智能Chat-IDP推动文档审核实现AIGC智 能化应用》;网友;《https://zhuanlan.zhihu.com/p/619306897》;全文 * |
《大模型的开源和普及,将带来哪些新的 潜在应用可能性?》;网友;《https://www.zhihu.com/question/596918962?utm_id=0》;全文 * |
《没想到人工智能是这样审查合同的?!》;网友;《https://zhuanlan.zhihu.com/p/392039298》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116663525A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765244B (zh) | 获取应答话术的方法、装置、计算机设备及存储介质 | |
CN116663525B (zh) | 一种文档审核方法、装置、设备及存储介质 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN110162771A (zh) | 事件触发词的识别方法、装置、电子设备 | |
Zhong et al. | E3: Entailment-driven extracting and editing for conversational machine reading | |
WO2022042297A1 (zh) | 文本聚类方法、装置、电子设备及存储介质 | |
US20220351634A1 (en) | Question answering systems | |
CN112671985A (zh) | 基于深度学习的坐席质检方法、装置、设备及存储介质 | |
CN111177307A (zh) | 一种基于语义理解相似度阀值配置的测试方案及系统 | |
US11379527B2 (en) | Sibling search queries | |
CN117520523B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN112087473A (zh) | 文档下载方法、装置、计算机可读存储介质和计算机设备 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN116150306A (zh) | 问答机器人的训练方法、问答方法及装置 | |
CN111177378B (zh) | 一种文本挖掘方法、装置及电子设备 | |
Shrestha et al. | Do We Need Subject Matter Experts? A Case Study of Measuring Up GPT-4 Against Scholars in Topic Evaluation | |
CN111460206A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN116451678B (zh) | 数据关系识别及数据表整合方法 | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 | |
CN117556264B (zh) | 一种评估模型的训练方法、装置及电子设备 | |
CN113378543B (zh) | 数据分析方法、训练数据分析模型的方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |