CN117708315A - 一种基于层级化生成的长文档简化处理方法及系统 - Google Patents
一种基于层级化生成的长文档简化处理方法及系统 Download PDFInfo
- Publication number
- CN117708315A CN117708315A CN202311709130.8A CN202311709130A CN117708315A CN 117708315 A CN117708315 A CN 117708315A CN 202311709130 A CN202311709130 A CN 202311709130A CN 117708315 A CN117708315 A CN 117708315A
- Authority
- CN
- China
- Prior art keywords
- document
- paragraph
- simplification
- long
- paragraphs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 230000014509 gene expression Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000000694 effects Effects 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 14
- 102100023006 Basic leucine zipper transcriptional factor ATF-like 2 Human genes 0.000 claims description 10
- 101000903615 Homo sapiens Basic leucine zipper transcriptional factor ATF-like 2 Proteins 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 6
- 238000013138 pruning Methods 0.000 claims description 4
- 101150071111 FADD gene Proteins 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000009966 trimming Methods 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于层级化生成的长文档简化处理方法及系统,涉及长文档处理技术领域,包括将获取的文档进行筛选处理,利用大语言模型提供接口构建长文档简化提示框架;对输入文档进行句法分析,将文档划分为多个段落,存储在列表中,进行初次段落级别简化,对进行初次段落级别简化后得到的文档,进行二次词法级别简化;通过构建的提示框架对句子中的表达进行最终简化,得到长文档简化处理结果,验证简化处理效果。本发明可以简化更加复杂、体裁、语言、篇幅更长的文档,简化程度较高、效果更好。生成的简化文档在保证与原文含义尽量相同的情况下,拥有更小的出错率,拥有更符合人类阅读习惯的简化结果。
Description
技术领域
本发明涉及长文档处理技术领域,特别是一种基于层级化生成的长文档简化处理方法及系统。
背景技术
现有的长文档简化方法对于原始英文文档的编辑率不高、同时未能考虑文章连贯性和简化性等需求、难以处理篇幅较长的文档,基于传统模型(例如BART等)的文档简化方法强烈受限于平行语料库的质量,这也决定了简化文档的效果对比人类专家的简化文档难以望其项背。
此外传统模型的参数规模较小,上下文窗口较小,很难同时学习到多种层次的文档简化要点,无法处理较长篇幅的文档。通过直接提示大语言模型并输入原始文档使其完成文档简化任务,但是效果一般,并不符合读者对于简化文档的需求。目前还没有工作尝试设计提示策略来驱使大语言模型完成文档简化的任务,尝试根据人类专家的简化写作模式为大语言模型设计提示框架并应用于文档简化任务。
发明内容
鉴于现有的基于层级化生成的长文档简化处理方法存在的问题,提出了本发明。拆解原始文档并使用层级化生成的方法从不同的方面逐步简化文档。可以先后处理篇章级别、段落级别、词法级别的文章内容,这些级别的简化效果合并作用可以使得简化文档的可读性更好。因此,本发明所要解决的问题在于如何提供一种基于层级化生成的长文档简化处理方法及系统。
为解决上述技术问题,本发明提供如下技术方案:
第一方面,本发明实施例提供了一种基于层级化生成的长文档简化处理方法,其包括,将获取的文档进行筛选处理,利用大语言模型提供接口构建长文档简化提示框架;对输入文档进行句法分析,利用文档中标点符号将文档划分为多个段落,存储在列表D中;对得到的文档D,进行初次段落级别简化,对进行初次段落级别简化后得到的文档D,进行二次词法级别简化;通过构建的提示框架对句子中的表达进行最终简化,得到长文档简化处理结果,验证简化处理效果。
作为本发明所述基于层级化生成的长文档简化处理方法的一种优选方案,其中:所述接口在调用时,分别输入第一角色和第二角色,将相关长文档简化需求指令赋给第一角色,将上下文学习所需要的案例输入给第二角色,接口的temperature参数设置为0.3,top_p设置为1,frequency_penalty设置为0.6,presence_penalty设置为0.3;设计提示模板,提示模板包括不同级别的简化操作指令,准备相应的长文档示例进行小样本学习和使用思维链,采用多次输出并筛选的策略找出符合格式需求的生成结果。
作为本发明所述基于层级化生成的长文档简化处理方法的一种优选方案,其中:所述筛选处理包括,多次调用大语言模型来生成多个候选的文本片段,对于每个生成的文本片段进行筛选,定义适当的正则表达式限制输出格式,匹配特定的结构、格式和内容;提取模型输出中所需的特定结果,评估文档状态,判断文档是否为长文档,从长文档提取信息,控制大语言模型的输出符合格式要求,对输出进行定制化处理,满足特定任务或需求;评估文档状态具体为,根据文档长度计算获取段落权重,遍历文档中段落,获取段落数目N和所有段落的行数Ri,对于每个段落Pi,计算段落行数与段落数的比例R,确定段落行数权重Wi,相关计算公式如下:
S=Ri*Wi
式中,R为段落行数占总段落数的比例,Wi为每个段落的行数权重,k为控制曲线陡峭度的参数,T为控制参数,决定范围内段落行数的变化对权重影响,S为段落大小得分;当段落大小得分S≥f1时,表示此段落为一级段落,则确定段落中句子数目大小,对所有一级段落的句子数目进行平均计算,得到文档的平均句子数目A1;当段落大小得分S<f1时,表示此段落为二级段落,则确定段落中字词数目大小,对所有二级段落的字词数目进行平均计算,得到平均字词数目字词A2;根据获取的平均句子数目A1和平均字词数目字词A2确定文档状态,当存在平均句子数目A1<f2或平均字词数目字词A2<f3时,判定文档为不允许提取的非长文档,向用户输出明确的提示信息,无法进行信息提取,检查文档内容确保信息的完整性,降低模型的敏感性,提高对精确性的要求,或者选择适用于短文档的处理策略;当平均句子数目A1≥f2且平均字词数目字词A2≥f3时,判定文档为模型允许提取信息的长文档,利用模型执行信息提取操作,识别文档中的关键信息,以易读的方式展示关键信息,对输入文档进行句法分析。
作为本发明所述基于层级化生成的长文档简化处理方法的一种优选方案,其中:所述句法分析包括,使用正则表达式在长文档每个段落开头添加唯一的序号标记;假设原始文档为D={p1,p2,p3,...,pn},其中pi代表每个标记序号的段落,i表示段落的索引或编号,范围从1到n,n为段落总数;段落表示为pi={s1,s2,s3,...,se},si代表段落中的句子,i表示句子的索引,段落中句子总数为e;句子表示为si={t1,t2,t3,...,tk},ti代表句子中的词汇,i表示词汇的索引,句子中词汇总数为k;对原始文档进行篇章级别简化,包括主题划分和段落删减,所述主题划分包括将多个连续的段落归类到同一主题中,并创建副标题;所述段落删减包括将蕴含信息量不大或者不重要的段落根据制定的提示模板驱动模型进行删除;完成篇章级别简化后文档表示为
D={{t1,p1,p2,p3},{t2,p4,p6,p7},...,{tq,...,pm}},其中ti代表每个主题前的副标题,i表示副标题的索引,范围从1到q,m代表该文档中段落的总数,m≤n。
作为本发明所述基于层级化生成的长文档简化处理方法的一种优选方案,其中:所述初次段落级别简化包括,制定提示模板使用大语言模型对段落结构、句子之间的组合、句子本身的结构进行简化;将段落中重要句子转移至段落开头,将长度较长且结构复杂的句子进行拆解,将冗余句子融合为简明句子;当执行完段落级别简化后,段落pi改变为{r1,r2,r3,...,ro},其中r代表修改后的句子,o代表段落中的句子总数,o不等于e,简化后的句子顺序和数量已经改变。
作为本发明所述基于层级化生成的长文档简化处理方法的一种优选方案,其中:所述二次词法级别简化包括针对复杂表达进行替换,使用更简单常见的表达代替,替换之后需要简单修整句子结构以保证句子仍然通顺,二次词法级别简化后,句子si改变为{w1,w2,w3,...,wb},其中,w代表修改后的词法表达,b代表句子中的词汇总数,b不等于k,简化后部分词法表达已被替换。
作为本发明所述基于层级化生成的长文档简化处理方法的一种优选方案,其中:验证简化处理效果相关评价指标包括SARI、D-SARI和FKGL,FKGL用于测量文本可读性的文件级指标,基于句子长度和音节数评估文本的阅读难度,相关计算公式如下:
FKGL=0.39×(总词数/总句数)+11.8×(总音节数/总词数)-15.59
Dkeep=Fkeep*LP2*SLP
Dadd=Fadd*LP1
Ddel=Pdel*LP2
D-SARI=(Dkeep+Ddel+Dadd)*1/3
SARI为基于n-gram编辑距离的评估指标,用于衡量模型生成的简化文本质量,测量生成文本与参考简化文本之间的相似性;
SARI=d1*Addition_Score+d2*Deletion_Score+d3*Keep_Score
其中,Addition_Score为添加操作的得分,Deletion_Score为删除操作的得分,Keep_Score为保持原词的得分,d1、d2和d3为平衡添加、删除和保留操作的权重。
第二方面,本发明实施例提供了一种基于层级化生成的长文档简化处理系统,其包括:构建模块,用于将获取的文档进行筛选处理,利用大语言模型提供接口构建长文档简化提示框架;分析模块,用于对输入文档进行句法分析,利用文档中标点符号将文档划分为多个段落,存储在列表D中;简化模块,用于对得到的文档D,进行初次段落级别简化,对进行初次段落级别简化后得到的文档D,进行二次词法级别简化;验证模块,用于通过构建的提示框架对句子中的表达进行最终简化,得到长文档简化处理结果,验证简化处理效果。
第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中:所述处理器执行所述计算机程序时实现上述方法的任一步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中:所述计算机程序被处理器执行时实现上述方法的任一步骤。
本发明有益效果为可以简化更加复杂、更多体裁、更多语言、篇幅更长的文档,并且简化程度较高、效果更好。生成的简化文档在保证与原文含义尽量相同的情况下,拥有更小的出错率,更少的幻觉现象,拥有更符合人类阅读习惯的简化结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。其中:
图1为基于层级化生成的长文档简化处理方法的流程图。
图2为传统文档简化方法图。
图3为基于层级化生成的长文档简化处理方法的工作流程图。
图4为基于层级化生成的长文档简化处理方法的篇章级别简化提示模板。
图5为基于层级化生成的长文档简化处理方法的段落级别简化提示模板。
图6为基于层级化生成的长文档简化处理方法的词法级别简化提示模板。
具体实施方式
为使本发明的上述目的、特征和优点能够更加浅显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
实施例1
参照图1,为本发明第一个实施例,该实施例提供了一种基于层级化生成的长文档简化处理方法,包括:
S1:将获取的文档进行筛选处理,利用大语言模型提供接口构建长文档简化提示框架。
具体的,文档简化(document simplification)任务是通过从多种层面编辑原始文档的方式,使得编辑后的简化文档可读性更高。这里使用的是ChatGPT的“gpt-3.5-turbo”接口。ChatGPT是一种基于海量文本数据训练并经过人类指令和偏好微调的大语言模型,是由OpenAI公司研发的,该模型的参数量至少为1750亿。在调用“gpt-3.5-turbo”接口时,需要分别输入“system”角色和“user”角色,我们将相关的需求指令赋给前者,将上下文学习所需要的案例输入给后者。该接口的temperature参数设置为0.3,top_p设置为1,frequency_penalty设置为0.6,presence_penalty设置为0.3。对于需要更长输入窗口的样本,我们使用“gpt-3.5-turbo-16k”接口。设计提示模板,包含不同级别的简化操作指令,并准备相应的示例进行Few-ShotLearning(小样本学习)和使用Chain-Of-Thought(思维链)。对于输出内容不符合要求的情况,我们采用over-generate-then-filter(多次输出并筛选)的策略来找出符合格式需求的生成结果。
多次调用大语言模型来生成多个候选的文本片段,对于每个生成的文本片段进行筛选,定义适当的正则表达式限制输出格式,匹配特定的结构、格式和内容;
提取模型输出中所需的特定结果,评估文档状态,判断文档是否为长文档,从长文档提取信息,控制大语言模型的输出符合格式要求,对输出进行定制化处理,满足特定任务或需求;
评估文档状态具体为,根据文档长度计算获取段落权重,遍历文档中段落,获取段落数目N和所有段落的行数Ri,对于每个段落Pi,计算段落行数与段落数的比例R,确定段落行数权重Wi,相关计算公式如下:
S=Ri*Wi
式中,R为段落行数占总段落数的比例,Wi为每个段落的行数权重,k为控制曲线陡峭度的参数,T为控制参数,决定范围内段落行数的变化对权重影响,S为段落大小得分;
当段落大小得分S≥f1时,表示此段落为一级段落,则确定段落中句子数目大小,对所有一级段落的句子数目进行平均计算,得到文档的平均句子数目A1;
当段落大小得分S<f1时,表示此段落为二级段落,则确定段落中字词数目大小,对所有二级段落的字词数目进行平均计算,得到平均字词数目字词A2;
根据获取的平均句子数目A1和平均字词数目字词A2确定文档状态,当存在平均句子数目A1<f2或平均字词数目字词A2<f3时,判定文档为不允许提取的非长文档,向用户输出明确的提示信息,无法进行信息提取,检查文档内容确保信息的完整性,降低模型的敏感性,提高对精确性的要求,或者选择适用于短文档的处理策略;
当平均句子数目A1≥f2且平均字词数目字词A2≥f3时,判定文档为模型允许提取信息的长文档,利用模型执行信息提取操作,识别文档中的关键信息,以易读的方式展示关键信息,对输入文档进行句法分析。
S2:对输入文档进行句法分析,将文档划分为多个段落,存储在列表中,进行初次段落级别简化,对进行初次段落级别简化后得到的文档,进行二次词法级别简化。
具体的,使用正则表达式在每个段落开头添加唯一的序号标记。
假设给定一篇原始文档D={p1,p2,p3,...,pn}。其中pi代表每个标记序号的段落,i表示段落的索引或编号,范围从1到n,其中n是段落的总数。
段落pi={s1,s2,s3,...,se},si代表该段落中的句子,i表示句子的索引,该段落中句子总数为e。
句子si={t1,t2,t3,...,tk},ti代表该句子中的词汇,i表示词汇的索引,该句子中词汇总数为k。
首先对该原始文档进行篇章级别的简化,具体包含两个主要操作,即主题划分和段落删减。主题划分指的是将多个连续的段落归类到同一个主题中,并为这个主题创建一个副标题。
段落删减指的是对于蕴含信息量不大或者不重要的段落,由模型决定可以删除。以上两个操作均有制定的提示模板来驱动大语言模型完成,完成篇章级别简化后的文档可以表示为D={{t1,p1,p2,p3},{t2,p4,p6,p7},...,{tq,...,pm}}。其中ti代表每个主题前的副标题,i表示主题(副标题)的索引,范围从1到q。m代表该文档中段落的总数,由于存在段落删减的操作,所以m是小于等于n的。这样的文章结构具有更高的可读性和连贯性。
针对每一个段落进行简化,通过制定提示模板使得大语言模型对段落结构、句子之间的组合、句子本身的结构进行简化。可执行的操作相比以往的方法更加灵活和可靠,例如将本段中尤其重要的句子转移至段落开头,将长度较长且结构复杂的句子进行拆解,将多个冗余啰嗦的句子融合为一个简明的句子等等。当执行完段落级别简化后,文档D的整体架构是没有改变的,但是段落pi改变为{r1,r2,r3,...,ro}。其中r代表修改后的句子,o代表段落中的句子总数,o不等于e。简化后的句子顺序和数量都已经改变,具有更简明易读的结构。
S3:通过构建的提示框架对句子中的表达进行最终简化,得到长文档简化处理结果,验证简化处理效果。
具体的,针对每一个句子进行简化,通过制定提示模板使得大语言模型对句子中的复杂难懂的词汇、词组、俚语等表达进行简化。
具体的,执行的操作主要是针对复杂表达进行替换,用一个更简单常见的表达代替,在替换之后还需要简单修整一下句子结构以保证句子在变得简单的同时仍然通顺。当执行完词法级别简化后,文档D的整体架构是没有改变的,但是句子si改变为{w1,w2,w3,...,wb}。其中w代表修改后的词法表达,b代表句子中的词汇总数,b不等于k。简化后的许多词法表达已经被替换,成为更简明易读的表达。
使用到的评估指标有:SARI基于n-gram编辑计算评估模型生成文本的简化质量。D-SARI在SARI的基础上增加文件级别的惩罚项,更适合文件级文本的简化评估。BARTScore最新概括指标,用于评估生成文本的含义保留和流畅度。FKGL广泛用于测量文本可读性的文件级指标,与人工简化相关性最强。GPT-pair-wise利用LM的提示模板让ChatGPT对生成文本进行pairwise比较评分。相关计算公式如下:
FKGL=0.39×(总词数/总句数)+11.8×(总音节数/总词数)-15.59
Dkeep=Fkeep*LP2*SLP
Dadd=Fadd*LP1
Ddel=Pdel*LP2
D-SARI=(Dkeep+Ddel+Dadd)*1/3
SARI为基于n-gram编辑距离的评估指标,用于衡量模型生成的简化文本质量,测量生成文本与参考简化文本之间的相似性。
SARI=d1*Addition_Score+d2*Deletion_Score+d3*Keep_Score
其中,Addition_Score为添加操作的得分,Deletion_Score为删除操作的得分,Keep_Score为保持原词的得分,d1、d2和d3为平衡添加、删除和保留操作的权重。
进一步的,本实施例还提供一种基于层级化生成的长文档简化处理系统,包括:构建模块,用于将获取的文档进行筛选处理,利用大语言模型提供接口构建长文档简化提示框架;简化模块,对输入文档进行句法分析,将文档划分为多个段落,存储在列表中,进行初次段落级别简化,对进行初次段落级别简化后得到的文档,进行二次词法级别简化;验证模块,用于通过构建的提示框架对句子中的表达进行最终简化,得到长文档简化处理结果,验证简化处理效果。
本实施例还提供一种计算机设备,适用于基于层级化生成的长文档简化处理方法的情况,包括:存储器和处理器;存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,实现如上述实施例提出的本发明实施例所述方法的全部或部分步骤。
本实施例还提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read OnlyMemory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本实施例提出的存储介质与上述实施例提出的数据存储方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
本发明为可以简化更加复杂、更多体裁、更多语言、篇幅更长的文档,并且简化程度较高、效果更好。生成的简化文档在保证与原文含义尽量相同的情况下,拥有更小的出错率,更少的幻觉现象,拥有更符合人类阅读习惯的简化结果。
实施例2
参照图2-图3,为本发明第二个实施例,该实施例提供了一种基于层级化生成的长文档简化处理方法,为了验证本发明的有益效果,通过经济效益计算和仿真实验进行科学论证。
在三个数据集上测试了效果,并且和其他方法进行对比。这三个数据集包括Wiki-auto,Newsela-A,Newsela-B,其中Wiki-auto包括500个随机选取的样本对,文本长度从300个tokens到500个tokens不等。第二个数据集(Newsela-A)由来自Newsela数据集的500个样本对组成,文章长度小于1000个tokens。最后,第三个数据集(Newsela-B)由来自Newsela数据集的500个样本对组成,文章长度超过1000个tokens。
表1实验结果表
由表可知,本方法为ProSimp(progressive simplification),即层级化简化方法,ICL指的是(In-ContextLearning),即上下文学习能力,Iteration指的是按照我们的方法生成的简化文档可以再次作为原始文档输入简化管道,重复执行简化流程可以得到效果更佳的简化文档。
对比的方法有:Keep it Simple(KIS)为一种无监督的段落级文本简化方法,通过优化简单度、流畅度和突出度的奖励函数,在自动评估指标上优于当时的强监督模型。BART-SWIPE-C为在Wikipedia的大规模文档级简化数据集SWIPE上微调的模型,通过收集英文Wikipedia和简易英文Wikipedia的页面构造文档对。PGDyn为一种计划引导的系统,针对每个句子预测操作并将其作为控制令牌提供给句子级BART简化模型,通过上下文化的计划过程实现文档级简化。ChatGPT直接在ChatGPT输入长文本,测试其文档级简化性能,作为基准模型。
传统方法对于在许多文本语料上经过预训练的模型,再根据对齐的复杂-简化文档语料进行微调,使其可以适应文档简化任务,或者使用复杂-简单句子语料进行微调,然后再将需要简化的文档拆解为句子逐个简化然后组合。这样的核心就是预训练模型+平行语料库微调。本方法对于在海量文本上训练且经过指令微调的大语言模型,通过设计不同的提示模板来创造一些不同的人工智能代理,这些代理分别可以完成适合自己的任务。将原始文档拆分为多个层级,分别包括篇章级别、段落级别、词法级别,这几个级别分别由对应的代理处理,这起到了化繁为简、分工解决任务的效果。
针对长文档简化任务,直接使用大语言模型的表现已经被证明是不理想的,因为模型将该任务视为文档摘要任务去完成,得到了不符合预期的效果。对于长文档简化任务而言,生成的长序列不仅必须在整个过程中保持与原始文档的一致性,还必须完成包括篇章、句子和词级简化在内的适度简化操作。进一步说明了基于层级化生成的框架更适合简化较长的文档级内容。主要体现在编辑率更高以及整体连贯性和可读性的优化方面。基于层级化的文本生成方法在各项指标上的得分几乎都是最高的。结果还表明,采用上下文学习方法可以显著提高自动评估指标的得分和ChatGPT评估的成功率。这表明,在任务理解和任务优化方面,适当的示例和推理可以使大语言模型给出更准确、更高质量的答案。大语言模型在大量文本数据上进行训练,使其对复制编辑任务有更好的理解。此外,由于大语言模型经过人类偏好的指导调优,可以设计巧妙的提示框架并驱使大语言模型基于提示框架来完成我们的任务,消除了传统方法中高数据和计算要求的限制。遵循人类专家的简化方法,根据内容和层次划分的原则,整合了篇章级、主题级和词汇级简化。缓解了大语言模型通过直接提示无法简化长文档的限制。实现了更全面的简化结果,与传统方法相比,修改率更高,而不是过度地保留原文内容。可以迭代地确定简化水平,提供比传统方法更高质量、更灵活的解决方案。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于层级化生成的长文档简化处理方法,其特征在于:包括,
将获取的文档进行筛选处理,利用大语言模型提供接口构建长文档简化提示框架;
对输入文档进行句法分析,将文档划分为多个段落,存储在列表中,进行初次段落级别简化,对进行初次段落级别简化后得到的文档,进行二次词法级别简化;
通过构建的提示框架对句子中的表达进行最终简化,得到长文档简化处理结果,验证简化处理效果。
2.如权利要求1所述的基于层级化生成的长文档简化处理方法,其特征在于:所述接口在调用时,分别输入第一角色和第二角色,将相关长文档简化需求指令赋给第一角色,将上下文学习所需要的案例输入给第二角色,接口的temperature参数设置为0.3,top_p设置为1,frequency_penalty设置为0.6,
presence_penalty设置为0.3;
设计提示模板,提示模板包括不同级别的简化操作指令,准备相应的长文档示例进行小样本学习和使用思维链,采用多次输出并筛选的策略找出符合格式需求的生成结果。
3.如权利要求2所述的基于层级化生成的长文档简化处理方法,其特征在于:所述筛选处理包括,
多次调用大语言模型来生成多个候选的文本片段,对于每个生成的文本片段进行筛选,定义适当的正则表达式限制输出格式,匹配特定的结构、格式和内容;
提取模型输出中所需的特定结果,评估文档状态,判断文档是否为长文档,从长文档提取信息,控制大语言模型的输出符合格式要求,对输出进行定制化处理,满足特定任务或需求;
评估文档状态具体为,根据文档长度计算获取段落权重,遍历文档中段落,获取段落数目N和所有段落的行数Ri,对于每个段落Pi,计算段落行数与段落数的比例R,确定段落行数权重Wi,相关计算公式如下:
S=Ri*Wi
式中,R为段落行数占总段落数的比例,Wi为每个段落的行数权重,k为控制曲线陡峭度的参数,T为控制参数,决定范围内段落行数的变化对权重影响,S为段落大小得分;
当段落大小得分S≥f1时,表示此段落为一级段落,则确定段落中句子数目大小,对所有一级段落的句子数目进行平均计算,得到文档的平均句子数目A1;
当段落大小得分S<f1时,表示此段落为二级段落,则确定段落中字词数目大小,对所有二级段落的字词数目进行平均计算,得到平均字词数目字词A2;
根据获取的平均句子数目A1和平均字词数目字词A2确定文档状态,当存在平均句子数目A1<f2或平均字词数目字词A2<f3时,判定文档为不允许提取的非长文档,向用户输出明确的提示信息,无法进行信息提取,检查文档内容确保信息的完整性,降低模型的敏感性,提高对精确性的要求,或者选择适用于短文档的处理策略;
当平均句子数目A1≥f2且平均字词数目字词A2≥f3时,判定文档为模型允许提取信息的长文档,利用模型执行信息提取操作,识别文档中的关键信息,以易读的方式展示关键信息,对输入文档进行句法分析。
4.如权利要求3所述的基于层级化生成的长文档简化处理方法,其特征在于:所述句法分析包括,使用正则表达式在长文档每个段落开头添加唯一的序号标记;
假设原始文档为D={p1,p2,p3,...,pn},其中pi代表每个标记序号的段落,i表示段落的索引或编号,范围从1到n,n为段落总数;段落表示为pi={s1,s2,s3,...,se},si代表段落中的句子,i表示句子的索引,段落中句子总数为e;句子表示为si={t1,t2,t3,...,tk},ti代表句子中的词汇,i表示词汇的索引,句子中词汇总数为k;
对原始文档进行篇章级别简化,包括主题划分和段落删减,所述主题划分包括将多个连续的段落归类到同一主题中,并创建副标题;所述段落删减包括将蕴含信息量不大或者不重要的段落根据制定的提示模板驱动模型进行删除;
完成篇章级别简化后文档表示为D={{t1,p1,p2,p3},{t2,p4,p6,p7},...,{tq,...,pm}},其中ti代表每个主题前的副标题,i表示副标题的索引,范围从1到q,m代表该文档中段落的总数,m≤n。
5.如权利要求4所述的基于层级化生成的长文档简化处理方法,其特征在于:所述初次段落级别简化包括,
制定提示模板使用大语言模型对段落结构、句子之间的组合、句子本身的结构进行简化;
将段落中重要句子转移至段落开头,将长度较长且结构复杂的句子进行拆解,将冗余句子融合为简明句子;
当执行完段落级别简化后,段落pi改变为{r1,r2,r3,...,ro},其中r代表修改后的句子,o代表段落中的句子总数,o不等于e,简化后的句子顺序和数量已经改变。
6.如权利要求5所述的基于层级化生成的长文档简化处理方法,其特征在于:所述二次词法级别简化包括针对复杂表达进行替换,使用更简单常见的表达代替,替换之后需要简单修整句子结构以保证句子仍然通顺,二次词法级别简化后,句子si改变为{w1,w2,w3,...,wb},其中,w代表修改后的词法表达,b代表句子中的词汇总数,b不等于k,简化后部分词法表达已被替换。
7.如权利要求6所述的基于层级化生成的长文档简化处理方法,其特征在于:验证简化处理效果相关评价指标包括SARI、D-SARI和FKGL,FKGL用于测量文本可读性的文件级指标,基于句子长度和音节数评估文本的阅读难度,相关计算公式如下:
FKGL=0.39×(总词数/总句数)+11.8×(总音节数/总词数)-15.59
Dkeep=Fkeep*LP2*SLP
Dadd=Fadd*LP1
Ddel=Pdel*LP2
D-SARI=(Dkeep+Ddel+Dadd)*1/3
SARI为基于n-gram编辑距离的评估指标,用于衡量模型生成的简化文本质量,测量生成文本与参考简化文本之间的相似性;
SARI=d1*Addition_Score+d2*Deletion_Score+d3*Keep_Score
其中,Addition_Score为添加操作的得分,Deletion_Score为删除操作的得分,Keep_Score为保持原词的得分,d1、d2和d3为平衡添加、删除和保留操作的权重。
8.一种基于层级化生成的长文档简化处理系统,基于权利要求1~7任一所述的基于层级化生成的长文档简化处理方法,其特征在于:包括,
构建模块,用于将获取的文档进行筛选处理,利用大语言模型提供接口构建长文档简化提示框架;
简化模块,对输入文档进行句法分析,将文档划分为多个段落,存储在列表中,进行初次段落级别简化,对进行初次段落级别简化后得到的文档,进行二次词法级别简化;
验证模块,用于通过构建的提示框架对句子中的表达进行最终简化,得到长文档简化处理结果,验证简化处理效果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述基于层级化生成的长文档简化处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1~7任一所述基于层级化生成的长文档简化处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311709130.8A CN117708315A (zh) | 2023-12-13 | 2023-12-13 | 一种基于层级化生成的长文档简化处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311709130.8A CN117708315A (zh) | 2023-12-13 | 2023-12-13 | 一种基于层级化生成的长文档简化处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117708315A true CN117708315A (zh) | 2024-03-15 |
Family
ID=90159977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311709130.8A Pending CN117708315A (zh) | 2023-12-13 | 2023-12-13 | 一种基于层级化生成的长文档简化处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708315A (zh) |
-
2023
- 2023-12-13 CN CN202311709130.8A patent/CN117708315A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Malmi et al. | Encode, tag, realize: High-precision text editing | |
CN109344236B (zh) | 一种基于多种特征的问题相似度计算方法 | |
CN108091328B (zh) | 基于人工智能的语音识别纠错方法、装置及可读介质 | |
CN108052499B (zh) | 基于人工智能的文本纠错方法、装置及计算机可读介质 | |
CN110502744B (zh) | 一种针对历史公园评价的文本情感识别方法及装置 | |
US11934781B2 (en) | Systems and methods for controllable text summarization | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
Agrawal et al. | A non-autoregressive edit-based approach to controllable text simplification | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
CN110008309A (zh) | 一种短语挖掘方法及装置 | |
CN109033066A (zh) | 一种摘要形成方法及装置 | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
CN114757203A (zh) | 基于对比学习的中文句子精简方法和系统 | |
CN112257442B (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
Sobh et al. | An optimized dual classification system for Arabic extractive generic text summarization | |
CN117708315A (zh) | 一种基于层级化生成的长文档简化处理方法及系统 | |
CN117150002B (zh) | 一种基于动态知识引导的摘要生成方法、系统及装置 | |
RU2796208C1 (ru) | Способ и система генерации текста для цифрового ассистента | |
Alkaldi | Enhancing text readability using deep learning techniques | |
RU2817524C1 (ru) | Способ и система генерации текста | |
Menta et al. | Reaching quality and efficiency with a parameter-efficient controllable sentence simplification approach | |
Wei et al. | Teaching Chinese Pattern Extraction and Its Knowledge Base Construction for Specific Domain Texts | |
Lin et al. | Memory-enhanced text style transfer with dynamic style learning and calibration | |
Zhang et al. | AuxPOS: Improving Grammatical Correctness with Big Data Based Text Summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |