CN116775822A

CN116775822A - 一种布局和任务感知的文本提示零样本文档图片问答方法

Info

Publication number: CN116775822A
Application number: CN202310607370.0A
Authority: CN
Inventors: 张寅�; 王文瑾; 罗聪; 李昀昊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-09-19

Abstract

本发明公开了一种布局和任务感知的文本提示零样本文档图片问答方法。本发明包括如下步骤：1)根据文档图片包含的内容构造包含布局信息的文档内容提示文本；2)根据具体的任务需求构造任务描述提示文本模板；3)根据任务描述提示文本模板以及内容提示文本和具体的问题生成完整的提示文本，将其输入大语言模型得到最后的问答结果。和现有技术相比，本发明通过人为精心设计提示文本有效利用了指令微调大语言模型强大的能力，实现了对文档图片的零样本问答，并且取得了与预训练微调范式下同类型模型相当的性能。

Description

一种布局和任务感知的文本提示零样本文档图片问答方法

技术领域

本发明属于图像理解、自然语言处理的交叉领域，具体涉及基于指令微调大语言练模型的提示学习在零样本文档图片问答上的应用。

背景技术

智能文档图像问答作为文档智能的重要应用，旨在开发能理解文档并自动回答自然语言形式问题的人工智能系统。与文本文档相比，文档图像包含文本、视觉和布局信息，这对机器理解提出了独特的挑战。

最近，预训练-微调范式下的布局感知的多模态预训练模型在文档图像问答方面取得了重大进展，它们的核心策略是在语言模型之上引入额外的视觉感知模块和布局感知模块，然后通过理解文本、视觉内容和布局的预训练任务来学习这些模块。然而，针对视觉、布局和任务模块的预训练和微调阻止了这些方法直接利用现有的指令调整大型语言基础模型，从而无法利用这些模型在零样本学习方面的强大能力。

因此，如何让指令微调的语言基础模型能够直接解决文档图像问答任务，是目前亟待解决的技术问题。

发明内容

本发明目的是解决现有技术中存在的问题，并提供一种布局和任务感知的文本提示零样本文档图片问答方法。

受指令微调的大型语言基础模型具有强大零样本学习能力的启发，本发明提出了一种能感知布局和任务的文本提示，使得指令微调的语言基础模型能够直接用来解决文档图像问答任务。本发明通过使用适当的空格和换行符，使得文档内容提示文本尽可能保留原始文档布局信息，同时针对不同的问答任务设计了不同的任务描述模板，使模型能够生成满足文档图像问答任务要求的答案。

本发明具体采用的技术方案如下：

一种布局和任务感知的文本提示零样本文档图片问答方法，其步骤如下：

S1：对文档图片进行OCR处理，提取出文档图片中包含的所有文本片段和每个文本片段对应的文本框坐标；

S2：将S1中提取的所有文本片段按照对应的文本框坐标判断在文档图片中所处的原始行，并通过加空格和换行符的方式将所有文本片段组合成文档内容提示文本；且组合过程中，所有文本片段按照对应的原始行进行排序，处于同一原始行中的文本片段继续放置于文档内容提示文本的同一行中，且上下两行之间通过添加换行符进行换行，而同一行的相邻文本片段之间通过添加空格来保证其横向间距与两者在文档图片中的原始布局一致，从而使组合后的文档内容提示文本保留原始文档中的布局信息；

S3：读取针对目标问答任务设计的任务描述提示文本模板，该模板中包含具体任务描述、含有布局信息的文档内容提示占位符和具体问题占位符，将S2中组合形成的文档内容提示文本和用户输入的具体问题替换模板中相应的占位符，得到最终的任务描述提示文本并将其输入指令微调后的语言模型中，通过模型解码输出最后的问答结果。

作为优选，所述S2中，通过加空格和换行符的方式将所有文本片段组合成文档内容提示文本的具体方法如下：

S21、首先根据每个文本片段的提取文本框的坐标，按照从上到下、从左到右的顺序对所有文本片段进行排列，记录在文档图片中处于同一原始行的文本片段以及其对应的文本框坐标，然后将单行中的所有文本框宽度之和除以这一行中的总字符数量，得到单个字符的平均字符宽度；

S22、然后将在文档图片中处于同一原始行的文本片段按照各自在文档图片中的横向空间顺序进行组合，相邻两个文本片段之间通过添加空格来维持其横向布局信息，且添加的空格数量由两个文本片段对应的文本框最小水平间距除以所述平均字符宽度得到；

S23、将每一行组合文本按照其在文档图片中的竖向空间顺序从上到下排列，相邻两行组合文本之间通过添加换行符进行分隔。

作为优选，所述S21中，计算单个字符的平均字符宽度时，先查找到字符数量最多的行，然后以这一行作为基准计算平均字符宽度，进而表征整个文档图片中所有行的平均字符宽度。

作为优选，所述S3中，对于不同的问答任务设置不同的任务描述提示文本模板。

作为优选，所述S3中，对于复杂问答任务，所述语言模型在输出问答结果的同时还需要输出相应的置信度，并选取置信度最高的问答结果作为最终的输出结果。

作为优选，所述指令微调后的语言模型包括GPT-3.5，Claude或GPT-4。

相对于现有技术而言，本发明的有益效果如下：

和现有技术相比，本发明对文档图片的OCR结果通过加空格和换行符的方式组合成尽可能保留原始文档中布局信息的文档内容提示文本，从而能够利用指令微调大语言模型强大的零样本学习能力，实现了对文档图片的零样本问答，并且取得了与预训练微调范式下同类型模型相当的性能。

附图说明

图1为布局和任务感知的文本提示零样本文档图片问答方法的步骤示意图。

图2为本发明的方法的流程图。

图3为本发明针对DocVQA的任务描述提示文本模板(输入语言为英文)。

图4为本发明针对InfographicVQA的任务描述提示文本模板(输入语言为英文)。

图5为本发明针对MP-DocVQA的任务描述提示文本模板(输入语言为英文)。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述和说明。

如图1所示，在本发明的一个较佳实施例中，提供了一种布局和任务感知的文本提示零样本文档图片问答方法，其步骤如S1～S3所示：

S1：对文档图片进行OCR处理，提取出文档图片中包含的所有文本片段S＝{s₁,s₂,…,s_n}和对应的文本框坐标B＝{b₁,b₂,…,b_n}，其中n表示提取的文本片段数量。

S2：使用S1中OCR得到的结果，将所有文本片段按照对应的文本框坐标判断在文档图片中所处的原始行，通过加空格和换行符的方式将所有的文本片段组合成文档内容提示文本，尽可能保留原始文档中的布局信息。

上述组合形成文档内容提示文本的过程可以用如下式子表示：

S′＝Recover(S,B)

其中字符串S′即为文档内容提示文本，Recover()表示恢复文档布局信息的函数。Recover()函数的组合过程，本质上可以表达如以下过程：所有文本片段按照对应的原始行进行排序，处于同一原始行中的文本片段继续放置于文档内容提示文本的同一行中，且上下两行之间通过添加换行符进行换行，而同一行的相邻文本片段之间通过添加空格来保证其横向间距与两者在文档图片中的原始布局一致，从而使组合后的文档内容提示文本保留原始文档中的布局信息。

作为本发明实施例的一种较佳实现方式，Recover()的实现步骤为：

S21、首先根据提取文本框的坐标按照从上到下、从左到右的顺序对所有文本片段进行排列，记录在文档图片中处于同一原始行的文本片段以及其对应的文本框坐标，其中处在第i行的文本以及其对应文本框的坐标可分别插入到列表S_i和B_i中实现记录。然后对字符宽度进行统计，将单行中的所有文本框宽度之和除以这一行中的总字符数量，得到单个字符的平均字符宽度。在本实施例中，为了使计算结果具有代表性，在计算单个字符的平均字符宽度时，先查找到字符数量最多的行，然后以这一行作为基准计算平均字符宽度，进而表征整个文档图片中所有行的平均字符宽度。用c_i和w_i分别表示第i行的字符数量和第i行所有文本框并集的宽度，上述平均字符宽度可以通过以下公式计算得到：

即第i^*行是所有行中字符数量最多的一行。

S22、然后需要从左到右对同一行中相邻的文本片段之间依次添加空格。将在文档图片中处于同一原始行的文本片段按照各自在文档图片中的横向空间顺序进行组合，相邻两个文本片段之间通过添加空格来维持其横向布局信息，且添加的空格数量由两个文本片段对应的文本框最小水平间距除以所述平均字符宽度得到。具体而言，第i行相邻的两个文本段S_i,j和S_i,k之间添加的空行数量为其中h_i,jk为相邻两个文本框B_i,j和B_i,k之间的最小水平距离。

S3：根据具体的目标问答任务设计具体的任务描述提示文本模板P，这个模板包含了具体的任务描述、含有布局信息的文档内容提示占位符和具体问题占位符。

作为本发明实施例的一种较佳实现方式，上述任务描述提示文本模板P对于不同的问答任务是各不相同的，对于较为复杂的问答问题可以指示模型输出问答结果时同时输出相应的置信度，并选取置信度最高的预测结果作为最终的输出结果。针对不同问答任务得任务描述提示文本模板示例如图3、图4和图5所示。

在实际执行任务时，使用S2中组合形成的文档内容提示文本S′和用户输入的相应问题q替换掉S3中模板P相应的占位符得到最终的提示文本P(S′,q)，将其输入指令微调后的语言模型得到最后的问答结果，用式子表示如下：

a′＝f_M(P(S′,q))

其中a′表示模型的预测结果，f_M()表示模型的解码过程。

上述S1～S3的方法流程在一个示例中的具体实现过程参见图2所示。

需要说明的是，本发明中所用的指令微调后的语言模型具体形式不限。作为本发明实施例的一种较佳实现方式，上述指令微调大语言模型可选用GPT-3.5，Claude或GPT-4。

为了进一步展示本发明的技术效果，下面将上述S1～S3所述的一种布局和任务感知的文本提示零样本文档图片问答方法应用于具体数据集实例中。

实施例

本实施例中具体的布局和任务感知的文本提示零样本文档图片问答方法步骤如前述S1～S3所述，此处不再赘述。为了便于描述，将上述布局和任务感知的文本提示零样本文档图片问答方法简称为LATIN-Prompt。

本实施例采用DocVQA，InfographicVQA，MP-DocVQA三个文档图像问答数据集，评估了本发明在该任务上的性能。

DocVQA是一项抽取式问答任务，由在12767个文档图像上定义的50000个问题组成。训练集有39463个问题，验证集有5,349个问题，测试集有5,188个问题。DocVQA包含大量与图像中的表格、布局相关的问题，对模型理解文档图像布局的能力提出了很高的要求。InfographicVQA由5485个信息图表组成，包含各种文本、图形和视觉元素。与DocVQA相比，InfographicVQA任务还需要基本推理和算术能力，答案来源更为复杂。MP-DocVQA将文档视觉问答任务扩展到更现实的多页场景，其中一个文档通常由多个页面组成，这些页面应该一起处理。它包含46000个问题，涉及6000份行业文档的48000张扫描页，页面图像包含不同的布局。MP-DocVQA中文档之间的可变性非常高。每份文档的页数从1到20不等，识别的OCR字数从1到42,313不等。图3、图4和图5分别展示了本发明针对DocVQA、InfographicVQA和MP-DocVQA所设计的任务描述提示文本模板P。其中的两个{}标出的placeholder位置为需要替换的两个占位符。

本实施例使用了三种指令微调语言模型来验证方法有效性，分别是Claude，GPT-3.5和Alpaca模型。本实施按照上述S1～S4所述的流程，分别验证了方法在三个数据集上的性能，结果如表1、表2和表3所示。其中Plaiin Prompt用于作为本发明中的LATIN-Prompt的对比。与本发明的LATIN-Prompt不同的是，Plain Prompt使用得提示文本是“Document:{document}Questiion:{question}Directly extract the answer of the questionfrom the document.Answer:”，{document}和{question}分别表示通过OCR得到的原始文本片段和问题的占位符。

表1 DocVQA数据集上模型性能

^*表示OpenAI博客中报告GPT-4的结果。尽管缺少细节描述，和Cluade和GPT-3.5相比，GPT-4使用了视觉信息。LATIN-Prompt和GPT-4是正交的。

表2 InfographicVQA数据集上模型性能

表3 MP-DocVQA数据集上模型性能

本发明的LATIN-Prompt除了向模型输入具体问题之外，主要包含两个组成部分：包含布局信息的文档内容提示文本和任务描述提示文本，为了验证每个部分的有效性，本实施例在DocVQA和InfographicVQA的验证数据集进行了消融实验，结果如表4和表5所示，其中Plain表示作为对比的Plain Prompt，而Layout表示仅输入包含布局信息的文档内容提示文本，Task表示仅输入任务描述提示文本，LATIN-Prompt即对应于本发明中包含布局信息的文档内容提示文本和任务描述提示文本同时输入的情况。

表4 Claude模型在DocVQA和InfographicVQA数据集上消融实验结果

表5 GPT-3.5模型在DocVQA和InfographicVQA数据集上消融实验结果

从上述表格中结果可以看出包含布局信息的文档内容提示文本和任务描述提示文本都可以显著提高模型的零样本预测性能。任务描述提示文本带来的提升更为显著，因为它确保了模型生成的答案格式符合任务要求。在正确格式的基础上，包含布局信息的文档内容提示文本进一步提高了模型的性能，因为它使模型能够利用文本段之间的布局信息。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种布局和任务感知的文本提示零样本文档图片问答方法，其特征在于，步骤如下：

2.如权利要求1所述的布局和任务感知的文本提示零样本文档图片问答方法，其特征在于，所述S2中，通过加空格和换行符的方式将所有文本片段组合成文档内容提示文本的具体方法如下：

3.如权利要求2所述的布局和任务感知的文本提示零样本文档图片问答方法，其特征在于，所述S21中，计算单个字符的平均字符宽度时，先查找到字符数量最多的行，然后以这一行作为基准计算平均字符宽度，进而表征整个文档图片中所有行的平均字符宽度。

4.如权利要求1所述的布局和任务感知的文本提示零样本文档图片问答方法，其特征在于，所述S3中，对于不同的问答任务设置不同的任务描述提示文本模板。

5.如权利要求1所述的布局和任务感知的文本提示零样本文档图片问答方法，其特征在于，所述S3中，对于复杂问答任务，所述语言模型在输出问答结果的同时还需要输出相应的置信度，并选取置信度最高的问答结果作为最终的输出结果。

6.如权利要求1所述的布局和任务感知的文本提示零样本文档图片问答方法，其特征在于，所述指令微调后的语言模型包括GPT-3.5，Claude或GPT-4。