CN116775822A - 一种布局和任务感知的文本提示零样本文档图片问答方法 - Google Patents

一种布局和任务感知的文本提示零样本文档图片问答方法 Download PDF

Info

Publication number
CN116775822A
CN116775822A CN202310607370.0A CN202310607370A CN116775822A CN 116775822 A CN116775822 A CN 116775822A CN 202310607370 A CN202310607370 A CN 202310607370A CN 116775822 A CN116775822 A CN 116775822A
Authority
CN
China
Prior art keywords
text
question
document
task
prompt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310607370.0A
Other languages
English (en)
Inventor
张寅�
王文瑾
罗聪
李昀昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310607370.0A priority Critical patent/CN116775822A/zh
Publication of CN116775822A publication Critical patent/CN116775822A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种布局和任务感知的文本提示零样本文档图片问答方法。本发明包括如下步骤:1)根据文档图片包含的内容构造包含布局信息的文档内容提示文本;2)根据具体的任务需求构造任务描述提示文本模板;3)根据任务描述提示文本模板以及内容提示文本和具体的问题生成完整的提示文本,将其输入大语言模型得到最后的问答结果。和现有技术相比,本发明通过人为精心设计提示文本有效利用了指令微调大语言模型强大的能力,实现了对文档图片的零样本问答,并且取得了与预训练微调范式下同类型模型相当的性能。

Description

一种布局和任务感知的文本提示零样本文档图片问答方法
技术领域
本发明属于图像理解、自然语言处理的交叉领域,具体涉及基于指令微调大语言练模型的提示学习在零样本文档图片问答上的应用。
背景技术
智能文档图像问答作为文档智能的重要应用,旨在开发能理解文档并自动回答自然语言形式问题的人工智能系统。与文本文档相比,文档图像包含文本、视觉和布局信息,这对机器理解提出了独特的挑战。
最近,预训练-微调范式下的布局感知的多模态预训练模型在文档图像问答方面取得了重大进展,它们的核心策略是在语言模型之上引入额外的视觉感知模块和布局感知模块,然后通过理解文本、视觉内容和布局的预训练任务来学习这些模块。然而,针对视觉、布局和任务模块的预训练和微调阻止了这些方法直接利用现有的指令调整大型语言基础模型,从而无法利用这些模型在零样本学习方面的强大能力。
因此,如何让指令微调的语言基础模型能够直接解决文档图像问答任务,是目前亟待解决的技术问题。
发明内容
本发明目的是解决现有技术中存在的问题,并提供一种布局和任务感知的文本提示零样本文档图片问答方法。
受指令微调的大型语言基础模型具有强大零样本学习能力的启发,本发明提出了一种能感知布局和任务的文本提示,使得指令微调的语言基础模型能够直接用来解决文档图像问答任务。本发明通过使用适当的空格和换行符,使得文档内容提示文本尽可能保留原始文档布局信息,同时针对不同的问答任务设计了不同的任务描述模板,使模型能够生成满足文档图像问答任务要求的答案。
本发明具体采用的技术方案如下:
一种布局和任务感知的文本提示零样本文档图片问答方法,其步骤如下:
S1:对文档图片进行OCR处理,提取出文档图片中包含的所有文本片段和每个文本片段对应的文本框坐标;
S2:将S1中提取的所有文本片段按照对应的文本框坐标判断在文档图片中所处的原始行,并通过加空格和换行符的方式将所有文本片段组合成文档内容提示文本;且组合过程中,所有文本片段按照对应的原始行进行排序,处于同一原始行中的文本片段继续放置于文档内容提示文本的同一行中,且上下两行之间通过添加换行符进行换行,而同一行的相邻文本片段之间通过添加空格来保证其横向间距与两者在文档图片中的原始布局一致,从而使组合后的文档内容提示文本保留原始文档中的布局信息;
S3:读取针对目标问答任务设计的任务描述提示文本模板,该模板中包含具体任务描述、含有布局信息的文档内容提示占位符和具体问题占位符,将S2中组合形成的文档内容提示文本和用户输入的具体问题替换模板中相应的占位符,得到最终的任务描述提示文本并将其输入指令微调后的语言模型中,通过模型解码输出最后的问答结果。
作为优选,所述S2中,通过加空格和换行符的方式将所有文本片段组合成文档内容提示文本的具体方法如下:
S21、首先根据每个文本片段的提取文本框的坐标,按照从上到下、从左到右的顺序对所有文本片段进行排列,记录在文档图片中处于同一原始行的文本片段以及其对应的文本框坐标,然后将单行中的所有文本框宽度之和除以这一行中的总字符数量,得到单个字符的平均字符宽度;
S22、然后将在文档图片中处于同一原始行的文本片段按照各自在文档图片中的横向空间顺序进行组合,相邻两个文本片段之间通过添加空格来维持其横向布局信息,且添加的空格数量由两个文本片段对应的文本框最小水平间距除以所述平均字符宽度得到;
S23、将每一行组合文本按照其在文档图片中的竖向空间顺序从上到下排列,相邻两行组合文本之间通过添加换行符进行分隔。
作为优选,所述S21中,计算单个字符的平均字符宽度时,先查找到字符数量最多的行,然后以这一行作为基准计算平均字符宽度,进而表征整个文档图片中所有行的平均字符宽度。
作为优选,所述S3中,对于不同的问答任务设置不同的任务描述提示文本模板。
作为优选,所述S3中,对于复杂问答任务,所述语言模型在输出问答结果的同时还需要输出相应的置信度,并选取置信度最高的问答结果作为最终的输出结果。
作为优选,所述指令微调后的语言模型包括GPT-3.5,Claude或GPT-4。
相对于现有技术而言,本发明的有益效果如下:
和现有技术相比,本发明对文档图片的OCR结果通过加空格和换行符的方式组合成尽可能保留原始文档中布局信息的文档内容提示文本,从而能够利用指令微调大语言模型强大的零样本学习能力,实现了对文档图片的零样本问答,并且取得了与预训练微调范式下同类型模型相当的性能。
附图说明
图1为布局和任务感知的文本提示零样本文档图片问答方法的步骤示意图。
图2为本发明的方法的流程图。
图3为本发明针对DocVQA的任务描述提示文本模板(输入语言为英文)。
图4为本发明针对InfographicVQA的任务描述提示文本模板(输入语言为英文)。
图5为本发明针对MP-DocVQA的任务描述提示文本模板(输入语言为英文)。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述和说明。
如图1所示,在本发明的一个较佳实施例中,提供了一种布局和任务感知的文本提示零样本文档图片问答方法,其步骤如S1~S3所示:
S1:对文档图片进行OCR处理,提取出文档图片中包含的所有文本片段S={s1,s2,…,sn}和对应的文本框坐标B={b1,b2,…,bn},其中n表示提取的文本片段数量。
S2:使用S1中OCR得到的结果,将所有文本片段按照对应的文本框坐标判断在文档图片中所处的原始行,通过加空格和换行符的方式将所有的文本片段组合成文档内容提示文本,尽可能保留原始文档中的布局信息。
上述组合形成文档内容提示文本的过程可以用如下式子表示:
S′=Recover(S,B)
其中字符串S′即为文档内容提示文本,Recover()表示恢复文档布局信息的函数。Recover()函数的组合过程,本质上可以表达如以下过程:所有文本片段按照对应的原始行进行排序,处于同一原始行中的文本片段继续放置于文档内容提示文本的同一行中,且上下两行之间通过添加换行符进行换行,而同一行的相邻文本片段之间通过添加空格来保证其横向间距与两者在文档图片中的原始布局一致,从而使组合后的文档内容提示文本保留原始文档中的布局信息。
作为本发明实施例的一种较佳实现方式,Recover()的实现步骤为:
S21、首先根据提取文本框的坐标按照从上到下、从左到右的顺序对所有文本片段进行排列,记录在文档图片中处于同一原始行的文本片段以及其对应的文本框坐标,其中处在第i行的文本以及其对应文本框的坐标可分别插入到列表Si和Bi中实现记录。然后对字符宽度进行统计,将单行中的所有文本框宽度之和除以这一行中的总字符数量,得到单个字符的平均字符宽度。在本实施例中,为了使计算结果具有代表性,在计算单个字符的平均字符宽度时,先查找到字符数量最多的行,然后以这一行作为基准计算平均字符宽度,进而表征整个文档图片中所有行的平均字符宽度。用ci和wi分别表示第i行的字符数量和第i行所有文本框并集的宽度,上述平均字符宽度可以通过以下公式计算得到:
即第i*行是所有行中字符数量最多的一行。
S22、然后需要从左到右对同一行中相邻的文本片段之间依次添加空格。将在文档图片中处于同一原始行的文本片段按照各自在文档图片中的横向空间顺序进行组合,相邻两个文本片段之间通过添加空格来维持其横向布局信息,且添加的空格数量由两个文本片段对应的文本框最小水平间距除以所述平均字符宽度得到。具体而言,第i行相邻的两个文本段Si,j和Si,k之间添加的空行数量为其中hi,jk为相邻两个文本框Bi,j和Bi,k之间的最小水平距离。
S23、将每一行组合文本按照其在文档图片中的竖向空间顺序从上到下排列,相邻两行组合文本之间通过添加换行符进行分隔。
S3:根据具体的目标问答任务设计具体的任务描述提示文本模板P,这个模板包含了具体的任务描述、含有布局信息的文档内容提示占位符和具体问题占位符。
作为本发明实施例的一种较佳实现方式,上述任务描述提示文本模板P对于不同的问答任务是各不相同的,对于较为复杂的问答问题可以指示模型输出问答结果时同时输出相应的置信度,并选取置信度最高的预测结果作为最终的输出结果。针对不同问答任务得任务描述提示文本模板示例如图3、图4和图5所示。
在实际执行任务时,使用S2中组合形成的文档内容提示文本S′和用户输入的相应问题q替换掉S3中模板P相应的占位符得到最终的提示文本P(S′,q),将其输入指令微调后的语言模型得到最后的问答结果,用式子表示如下:
a′=fM(P(S′,q))
其中a′表示模型的预测结果,fM()表示模型的解码过程。
上述S1~S3的方法流程在一个示例中的具体实现过程参见图2所示。
需要说明的是,本发明中所用的指令微调后的语言模型具体形式不限。作为本发明实施例的一种较佳实现方式,上述指令微调大语言模型可选用GPT-3.5,Claude或GPT-4。
为了进一步展示本发明的技术效果,下面将上述S1~S3所述的一种布局和任务感知的文本提示零样本文档图片问答方法应用于具体数据集实例中。
实施例
本实施例中具体的布局和任务感知的文本提示零样本文档图片问答方法步骤如前述S1~S3所述,此处不再赘述。为了便于描述,将上述布局和任务感知的文本提示零样本文档图片问答方法简称为LATIN-Prompt。
本实施例采用DocVQA,InfographicVQA,MP-DocVQA三个文档图像问答数据集,评估了本发明在该任务上的性能。
DocVQA是一项抽取式问答任务,由在12767个文档图像上定义的50000个问题组成。训练集有39463个问题,验证集有5,349个问题,测试集有5,188个问题。DocVQA包含大量与图像中的表格、布局相关的问题,对模型理解文档图像布局的能力提出了很高的要求。InfographicVQA由5485个信息图表组成,包含各种文本、图形和视觉元素。与DocVQA相比,InfographicVQA任务还需要基本推理和算术能力,答案来源更为复杂。MP-DocVQA将文档视觉问答任务扩展到更现实的多页场景,其中一个文档通常由多个页面组成,这些页面应该一起处理。它包含46000个问题,涉及6000份行业文档的48000张扫描页,页面图像包含不同的布局。MP-DocVQA中文档之间的可变性非常高。每份文档的页数从1到20不等,识别的OCR字数从1到42,313不等。图3、图4和图5分别展示了本发明针对DocVQA、InfographicVQA和MP-DocVQA所设计的任务描述提示文本模板P。其中的两个{}标出的placeholder位置为需要替换的两个占位符。
本实施例使用了三种指令微调语言模型来验证方法有效性,分别是Claude,GPT-3.5和Alpaca模型。本实施按照上述S1~S4所述的流程,分别验证了方法在三个数据集上的性能,结果如表1、表2和表3所示。其中Plaiin Prompt用于作为本发明中的LATIN-Prompt的对比。与本发明的LATIN-Prompt不同的是,Plain Prompt使用得提示文本是“Document:{document}Questiion:{question}Directly extract the answer of the questionfrom the document.Answer:”,{document}和{question}分别表示通过OCR得到的原始文本片段和问题的占位符。
表1 DocVQA数据集上模型性能
*表示OpenAI博客中报告GPT-4的结果。尽管缺少细节描述,和Cluade和GPT-3.5相比,GPT-4使用了视觉信息。LATIN-Prompt和GPT-4是正交的。
表2 InfographicVQA数据集上模型性能
表3 MP-DocVQA数据集上模型性能
本发明的LATIN-Prompt除了向模型输入具体问题之外,主要包含两个组成部分:包含布局信息的文档内容提示文本和任务描述提示文本,为了验证每个部分的有效性,本实施例在DocVQA和InfographicVQA的验证数据集进行了消融实验,结果如表4和表5所示,其中Plain表示作为对比的Plain Prompt,而Layout表示仅输入包含布局信息的文档内容提示文本,Task表示仅输入任务描述提示文本,LATIN-Prompt即对应于本发明中包含布局信息的文档内容提示文本和任务描述提示文本同时输入的情况。
表4 Claude模型在DocVQA和InfographicVQA数据集上消融实验结果
表5 GPT-3.5模型在DocVQA和InfographicVQA数据集上消融实验结果
从上述表格中结果可以看出包含布局信息的文档内容提示文本和任务描述提示文本都可以显著提高模型的零样本预测性能。任务描述提示文本带来的提升更为显著,因为它确保了模型生成的答案格式符合任务要求。在正确格式的基础上,包含布局信息的文档内容提示文本进一步提高了模型的性能,因为它使模型能够利用文本段之间的布局信息。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (6)

1.一种布局和任务感知的文本提示零样本文档图片问答方法,其特征在于,步骤如下:
S1:对文档图片进行OCR处理,提取出文档图片中包含的所有文本片段和每个文本片段对应的文本框坐标;
S2:将S1中提取的所有文本片段按照对应的文本框坐标判断在文档图片中所处的原始行,并通过加空格和换行符的方式将所有文本片段组合成文档内容提示文本;且组合过程中,所有文本片段按照对应的原始行进行排序,处于同一原始行中的文本片段继续放置于文档内容提示文本的同一行中,且上下两行之间通过添加换行符进行换行,而同一行的相邻文本片段之间通过添加空格来保证其横向间距与两者在文档图片中的原始布局一致,从而使组合后的文档内容提示文本保留原始文档中的布局信息;
S3:读取针对目标问答任务设计的任务描述提示文本模板,该模板中包含具体任务描述、含有布局信息的文档内容提示占位符和具体问题占位符,将S2中组合形成的文档内容提示文本和用户输入的具体问题替换模板中相应的占位符,得到最终的任务描述提示文本并将其输入指令微调后的语言模型中,通过模型解码输出最后的问答结果。
2.如权利要求1所述的布局和任务感知的文本提示零样本文档图片问答方法,其特征在于,所述S2中,通过加空格和换行符的方式将所有文本片段组合成文档内容提示文本的具体方法如下:
S21、首先根据每个文本片段的提取文本框的坐标,按照从上到下、从左到右的顺序对所有文本片段进行排列,记录在文档图片中处于同一原始行的文本片段以及其对应的文本框坐标,然后将单行中的所有文本框宽度之和除以这一行中的总字符数量,得到单个字符的平均字符宽度;
S22、然后将在文档图片中处于同一原始行的文本片段按照各自在文档图片中的横向空间顺序进行组合,相邻两个文本片段之间通过添加空格来维持其横向布局信息,且添加的空格数量由两个文本片段对应的文本框最小水平间距除以所述平均字符宽度得到;
S23、将每一行组合文本按照其在文档图片中的竖向空间顺序从上到下排列,相邻两行组合文本之间通过添加换行符进行分隔。
3.如权利要求2所述的布局和任务感知的文本提示零样本文档图片问答方法,其特征在于,所述S21中,计算单个字符的平均字符宽度时,先查找到字符数量最多的行,然后以这一行作为基准计算平均字符宽度,进而表征整个文档图片中所有行的平均字符宽度。
4.如权利要求1所述的布局和任务感知的文本提示零样本文档图片问答方法,其特征在于,所述S3中,对于不同的问答任务设置不同的任务描述提示文本模板。
5.如权利要求1所述的布局和任务感知的文本提示零样本文档图片问答方法,其特征在于,所述S3中,对于复杂问答任务,所述语言模型在输出问答结果的同时还需要输出相应的置信度,并选取置信度最高的问答结果作为最终的输出结果。
6.如权利要求1所述的布局和任务感知的文本提示零样本文档图片问答方法,其特征在于,所述指令微调后的语言模型包括GPT-3.5,Claude或GPT-4。
CN202310607370.0A 2023-05-26 2023-05-26 一种布局和任务感知的文本提示零样本文档图片问答方法 Pending CN116775822A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310607370.0A CN116775822A (zh) 2023-05-26 2023-05-26 一种布局和任务感知的文本提示零样本文档图片问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310607370.0A CN116775822A (zh) 2023-05-26 2023-05-26 一种布局和任务感知的文本提示零样本文档图片问答方法

Publications (1)

Publication Number Publication Date
CN116775822A true CN116775822A (zh) 2023-09-19

Family

ID=88009057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310607370.0A Pending CN116775822A (zh) 2023-05-26 2023-05-26 一种布局和任务感知的文本提示零样本文档图片问答方法

Country Status (1)

Country Link
CN (1) CN116775822A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828050A (zh) * 2023-12-29 2024-04-05 北京智谱华章科技有限公司 基于长文档检索增强生成的中医问答方法、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828050A (zh) * 2023-12-29 2024-04-05 北京智谱华章科技有限公司 基于长文档检索增强生成的中医问答方法、设备及介质

Similar Documents

Publication Publication Date Title
CN109190722B (zh) 基于满文字符图片的字体风格迁移变换方法
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
Choi et al. Visualizing for the non‐visual: Enabling the visually impaired to use visualization
CN101253514B (zh) 文档可视结构的语法剖析
CN111597908A (zh) 试卷批改方法和试卷批改装置
CN116775822A (zh) 一种布局和任务感知的文本提示零样本文档图片问答方法
JP2007316929A (ja) 情報処理装置、情報処理方法およびプログラム
CA2777930A1 (en) System and method for increasing the accuracy of optical character recognition (ocr)
CN110033054A (zh) 基于协同笔画优化的个性化手写体迁移方法和系统
CN112784531A (zh) 一种基于深度学习和部件拼接的中文字形及字库生成方法
JP7082333B2 (ja) 設問自動生成プログラム及び設問自動生成装置
CN114399775A (zh) 文档标题生成方法、装置、设备及存储介质
DE102022129588A1 (de) Erleichterte Identifizierung von ausfüllbaren Bereichen in einem Formular
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN117037136B (zh) 场景文本识别方法、系统、设备及存储介质
CN118097688A (zh) 一种基于大语言模型的通用证件识别方法
Wang Document analysis: table structure understanding and zone content classification
Baloun et al. ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles.
CN113139547B (zh) 文本识别方法、装置、电子设备及存储介质
CN114861595A (zh) 一种基于矢量线条变换的个性字体生成方法
CN114331932A (zh) 目标图像生成方法和装置、计算设备以及计算机存储介质
Garcia Castro et al. Bibliometric review on teaching methods with artificial intelligence in education
CN116721185A (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
Ojumah et al. A database for handwritten yoruba characters
Davydkin et al. Data Generation for Post-OCR correction of Cyrillic handwriting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination