CN117573839B

CN117573839B - 文档检索方法、人机交互方法、电子设备及存储介质

Info

Publication number: CN117573839B
Application number: CN202410047118.3A
Authority: CN
Inventors: 余海洋; 李永彬; 黄非
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-04-19
Anticipated expiration: 2044-01-12
Also published as: CN117573839A

Abstract

本申请公开了一种文档检索方法、人机交互方法、电子设备及存储介质，方法包括：提取文档的多模态表征信息，所述多模态表征信息包括视觉信息、文档布局信息以及文字信息；通过已训练的大语言模型，根据所述多模态表征信息获得提问问题的回复信息。通过将多种模态表征输入大语言模型，大语言模型在使用文字信息做问答预测过程中，可以根据文档的视觉信息和文档布局信息获得文档结构上的信息，能够更好的理解文档，从而提升大语言模型的问答效果。

Description

文档检索方法、人机交互方法、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种文档检索方法、人机交互方法、电子设备及存储介质。

背景技术

随着大语言模型效果明显提升，基于大语言模型的文档问答广泛应用。其主要流程是先通过版面识别技术（例如OCR（Optical Character Recognition，光学字符识别）、PDF-Parser（一种PDF分析工具）等）对文档进行解析，以识别文档里面的文字信息，然后再使用大语言模型根据识别的文字信息进行问答。

然而，采用版面识别技术识别出来的文字信息，通常会带来一些识别错误，例如将标题文字识别为正文文字、将页眉文字识别为标题文字等，这些错误识别结果将影响后面大语言模型的问答效果。

发明内容

本申请的目的是针对上述现有技术的不足提出的一种文档检索方法、人机交互方法、电子设备及存储介质，该目的是通过以下技术方案实现的。

本申请的第一方面提出了一种文档检索方法，所述方法包括：

提取文档的多模态表征信息，所述多模态表征信息包括视觉信息、文档布局信息以及文字信息；

通过已训练的大语言模型，根据所述多模态表征信息获得提问问题的回复信息，所述提问问题为用户针对所述文档输入所述大语言模型的问题信息。

本申请的第二方面提出了一种人机交互方法，所述方法包括：

提取文档的多模态表征信息，其中，所述多模态表征信息包括视觉信息、文档布局信息以及文字信息；

接收用户针对所述文档输入的提问问题；

通过已训练的大语言模型，根据所述多模态表征信息获得所述提问问题的回复信息。

本申请的第三方面提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序以实现如上述第一方面或第二方面所述的方法。

本申请的第四方面提出了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行以实现如上述第一方面或第二方面所述的方法。

基于上述第一方面和第二方面所述的文档检索方法和人机交互方法，本申请至少具有如下有益效果或优点：

本申请除了提取文档的文字信息之外，还提取文档的视觉信息和文档布局信息，以获得文档的多种模态表征，通过将多种模态表征输入大语言模型，大语言模型在使用文字信息做问答预测过程中，可以根据文档的视觉信息和文档布局信息获得文档结构上的信息，能够更好的理解文档，从而提升大语言模型的问答效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为根据一示例性实施例示出的一种文档检索方法的实施例流程图；

图2A为根据一示例性实施例示出的一种原始文档图；

图2B为根据图2B获得的版面识别结果图；

图3为根据一示例性实施例示出的一种文档分割示意图；

图4A-图4B为根据一示例性实施例示出的不同类型文档的示意图；

图5为根据一示例性实施例示出的一种大语言模型的输入预测示意图；

图6为根据一示例性实施例示出的一种大语言模型的训练流程图；

图7为根据一示例性实施例示出的一种文档检索装置的结构示意图；

图8为根据一示例性实施例示出的一种电子设备的硬件结构示意图；

图9为根据一示例性实施例示出的一种存储介质的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

目前，考虑到文档数据量比较大的问题，版面识别技术一般是用一些较小的模型或者规则来对文档进行解析，因此会存在一些识别错误，而这些识别错误输入大语言模型进行问答预测时，会影响大语言模型的问答效果。

为了解决上述技术问题，本申请提出一种文档检索方法，通过提取文档的文字信息之外，还提取文档的视觉信息和文档布局信息，将文字信息、视觉信息和文档布局信息的结合作为文档的多种模态表征，通过将多种模态表征输入大语言模型，从而大语言模型在使用文字信息做问答预测过程中，可以根据文档的视觉信息和文档布局信息获得文档结构上的信息，提高文档的理解能力，进而提升大语言模型的问答效果。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决前述技术问题进行详细说明。所列举的若干具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。以下将结合附图，对本申请的实施例进行详细描述。

图1为根据一示例性实施例示出的一种文档检索方法的实施例流程图，本实施例中涉及的大语言模型（LLM, Large Language Model）是一种自然语言模型，其通过对文档内容进行检索，可实现即问即答的能力。

如图1所示，文档检索方法包括如下步骤：

步骤101：提取文档的多模态表征信息，该多模态表征信息包括视觉信息、文档布局信息、以及文字信息。

步骤102：通过已训练的大语言模型，根据该多模态表征信息获得提问问题的回复信息。

在本申请实施例中，文字信息表征文档内容，包括文档中的每个文字和每个文字所属的版块信息（例如标题、正文、页眉、页脚等）。文档布局信息可以包括文字位置信息，即文档中每个文字的位置坐标，视觉信息表征文档图像模态的特征，可以包括图像特征信息，因此文档布局信息和视觉信息均可以表征文档的结构。由此可见，文字信息、文档布局信息和视觉信息的结合可以作为文档的多种模态表征。

在步骤102中，提问问题为用户针对文档输入大语言模型的问题信息，也称为用户query。回复信息是大语言模型根据文档的多模态表征信息检索输出的提问问题的答案。如前所述，多模态表征信息包括视觉信息、文档布局信息以及文字信息，大语言模型在使用文字信息做问答预测过程中，可以根据文档的视觉信息和文档布局信息获得文档结构上的信息，提高大语言模型对文档的理解能力。

至此，完成上述图1所示的文档检索流程，通过提取文档的文字信息之外，还提取文档的视觉信息和文档布局信息，将文字信息、视觉信息和文档布局信息的结合作为文档的多种模态表征，通过将多种模态表征输入大语言模型，从而大语言模型在使用文字信息做问答预测过程中，可以根据文档的视觉信息和文档布局信息获得文档结构上的信息，提高大语言模型对文档的理解能力，进而提升大语言模型的问答效果。

作为一种可行实施例，如前所述，视觉信息包括图像特征信息，文档布局信息包括文字位置信息。针对提取文档的多模态表征信息的过程，一方面，可以通过图像编码器提取文档的图像特征信息；另一方面，通过对文档进行版面识别，以获得文档中每个文字的文字信息和对应的文字位置信息，然后将提取的图像特征信息、文字信息和文字位置信息统一作为文档的多模态表征信息。

其中，文档的版面识别可以采用相关技术实现，例如可以采用OCR、PDF-Parser等技术进行文档的版面识别，本申请对此不做具体限定。如图2A-图2B所示，通过对图2A的文档进行版面识别，得到如图2B所示的文字信息和文字位置信息。由图2B可以看出，通过版面识别可以得到文档中的文字、每个文字所属的版块信息和对应的位置坐标，版块信息包括标题、正文两种版块，即有的文字属于标题，有的文字属于正文，文字对应的位置坐标由相应文字框的左上角坐标和右下角坐标表示。

这里需要补充说明的是，在通过版面识别获得文字和每个文字所属的版块信息之后，还可以将文字信息中属于页眉或页脚版块的文字信息和对应的文字位置信息删除，以减少不必要的检索信息。

在一种具体实施方式中，针对通过图像编码器提取文档的图像特征信息的过程，可以对文档中的每页内容进行图像分割，得到多个图像分块和各个图像分块在文档中的位置，而后通过图像编码器提取各个图像分块的特征向量，最后将各个图像分块的特征向量、在文档中的位置作为图像特征信息。

在上述实施方式，考虑到大语言模型的输入向量长度限制，为了避免整个文档提取特征带来的特征分辨率下降，通过将文档中的每页分割为多个图像分块进行特征提取，以提升特征分辨率。

进一步地，在将文档进行图像分割后，通过为分割后的每个图像分块标记在文档中的位置和排序，标记的这些信息可以方便大语言模型识别图像特征信息在文档中的位置顺序。如图3所示，将文档的一页内容分割为2个图像分块，每个图像分块的位置可以使用左上角坐标和右下角坐标表示，2个图像分块的排序依次为：0、1。

这里需要说明的是，上述图3给出的纯文本类型文档仅为一种示例，本申请方案适用于不同类型的文档，如图4A所示为流程图文档，如图4B所示为包含图形的文档，这些类型的文档均适用于本申请方案。

作为一种可行实施例，针对通过已训练的大语言模型，根据该多模态表征信息获得提问问题的回复信息的过程，可以根据文档的多模态表征信息生成有序序列，然后将该有序序列和提问问题输入已训练的大语言模型，输出该提问问题的回复信息。

其中，有序序列是按照大语言模型输入格式要求生成的输入序列，并且该有序序列为多模态表征信息中视觉信息、文字信息和文档布局信息组成的序列。

基于上述所述，视觉信息包括多个图像分块的图像特征信息，文字信息包括多个文字的文字信息。

在一种实施方式中，针对根据多模态表征信息生成有序序列的过程，针对每个图像分块，根据该图像分块的视觉信息生成该图像分块的向量序列，以及根据文字信息和文档布局信息生成各个文字的向量序列，而后将各个图像分块的向量序列和各个文字的向量序列组成有序序列。

由此可见，每个图像分块对应有一个向量序列，每个文字也对应有一个向量序列，并且每个向量序列的长度一致。

在具体实施时，针对使用大语言模型输出提问问题的回复信息的过程包括如下步骤：

首先，将有序序列和提问问题输入大语言模型，获得一个预测文字。

然后，将有序序列、提问问题、及已获得的预测文字输入大语言模型，再获得一个预测文字。

而后，返回执行将有序序列、提问问题、及已获得的预测文字输入大语言模型的步骤循环执行，直至获得的预测文字为预设结束符为止。

最后，将已获得的预测文字组成的文本作为提问问题的回复信息。

基于上述回复信息的输出过程举个例子来说明，如图5所示，在图像表示部分：每个图像分块对应一个向量序列，在文字表示部分：每个文字对应一个向量序列，图像表示部分与文字表示部分、以及文字表示部分与问题表示分均使用分割序列隔开，同时生成的回复部分与问题表示部分也使用分割序列隔开，以便于大语言模型进行区分。

其中，每个向量序列均由5组向量组成，第一行表示向量序列的模态种类：0-图像、1-标题、2-正文、3-其他；第二行表示向量序列的内容类型：0-图像、1-文字、2-问题、3-回复；第三行表示向量序列的排序信息：0-第一个序列、1-第二个序列、3-第三个序列，依次类推；第四行表示输入的位置信息：Box-v1-第一个图像分块位置坐标的向量表示、Box-v2-第二个图像分块位置坐标的向量表示、Box-t1-文档中第一个文字位置坐标的向量表示、Box-t2-文档中第二个文字位置坐标的向量表示、Box-t3-文档中第三个文字位置坐标的向量表示、PAD-填充值；第五行表示输入的特征向量：v1-第一个图像分块的特征向量、v2-第二个图像分块的特征向量、Token1-第一个文字的特征向量、Token2-第二个文字的特征向量、Token3-第三个文字的特征向量、以此类推。

由图5可以看出，大语言模型已获得的预测文字为Token6，当前输出的预测文字为Token7，Token6和Token7均属于问题的回复表示。

在大语言模型中，token是指文本中的一个最小单位。通常一个token可以是一个单词、一个标点符号、一个数字、一个符号等。可以理解为，大语言模型接收一串tokens作为输入，尝试预测下一个最可能的token。

基于上述所示实施例，在应用大语言模型进行文档问答之前，由于传统大语言模型已具有文档文本学习的能力，但并不具有文档的视觉信息和文档布局信息学习能力，因此还需要对大语言模型进行训练，以使大语言模型学习到利用文档的视觉信息和文档布局信息的能力。

图6为根据一示例性实施例示出的一种大语言模型的训练流程图，对于大语言模型训练过程主要包括预训练（Pre-training）和监督微调（SFT，SupervisedFine-tuning）两个阶段，如图6所示，训练过程包括如下步骤601-步骤604：

步骤601：通过图像编码器提取文档样本的图像特征信息，对文档样本进行版面识别，获得文档样本中每个文字的文字信息和对应的文字位置信息。

在该步骤中，图像特征信息包括文档样本的各个图像分块的特征向量和在文档中的位置，每个文字的文字位置信息由对应文字框的左上角坐标和右下角坐标表示。对于文档样本的图像特征信息、文字信息、文字位置信息的获取过程，可以参见上述实施例中针对文档的图像特征信息、文字信息、文字位置信息的获取过程的相关描述，本申请在此不再赘述。

步骤602：利用文档样本的图像特征信息、文字信息和文字位置信息对大语言模型进行预训练。

在该步骤中，利用大量文档样本的图像特征信息文字信息和文字位置信息对大语言模型进行预训练，以让模型学习到利用图像特征和文字位置的能力，提高模型对文档的理解能力。

由此可见，预训练的目标是让模型掌握语言的基本知识和规律，为后续的下游问答任务，提供一个比较好的初始化状态。

步骤603：获取针对文档样本的提问问题对应的答案。

步骤604：利用文档样本的图像特征信息、文字信息、文字位置信息、提问问题和对应的答案对预训练后的大语言模型进行微调，得到训练好的大语言模型。

在该步骤中，经过预训练后的大语言模型有较强的文档理解能力，通过输入提示词可以完成预测输出下一个词的任务，但还不能回答问题，为了让其具备问答能力，需要进行有监督的微调，通过在下游问答任务的数据集上重新训练模型的所有参数，以提高模型在问答任务上的性能，使得经过监督微调之后的模型具备问答能力。

在具体实施时，利用图像特征信息、文字信息、文字位置信息生成有序序列，将有序序列和提问问题输入预训练后的大语言模型，获得一个预测文字，并将有序序列、提问问题、及已获得的预测文字输入预训练后的大语言模型，再获得一个预测文字，继续返回执行将有序序列、提问问题、及已获得的预测文字输入大语言模型的步骤循环执行，直至获得的预测文字为预设结束符为止，从而利用已获得的预测文字与提问问题对应的答案进行损失计算，并根据损失计算结果对大语言模型的参数进行微调。可以通过循环执行上述过程，直至损失计算结果达到要求结束。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

与前述文档检索方法的实施例相对应，本申请还提供了文档检索装置的实施例。

图7为根据一示例性实施例示出的一种文档检索装置的结构示意图，该装置用于执行上述任一实施例提供的文档检索方法，如图7所示，该文档检索装置包括：

信息提取模块710，用于提取文档的多模态表征信息，所述多模态表征信息包括视觉信息、文档布局信息以及文字信息；

检索模块720，用于通过已训练的大语言模型，根据所述多模态表征信息获得提问问题的回复信息，所述提问问题为用户针对所述文档输入所述大语言模型的问题信息。

在一可选实现方式中，所述视觉信息包括图像特征信息，所述文档布局信息包括文字位置信息，所述信息提取模块710，具体用于通过图像编码器提取所述文档的图像特征信息；对所述文档进行版面识别，以获得文档中每个文字的文字信息和对应的文字位置信息。

在一可选实现方式中，所述信息提取模块710，具体用于在通过图像编码器提取所述文档的图像特征信息过程中，对所述文档中的每页内容进行图像分割，得到多个图像分块和各个图像分块在文档中的位置和排序；通过图像编码器提取各个图像分块的特征向量；将各个图像分块的特征向量、在文档中的位置作为图像特征信息。

在一可选实现方式中，所述检索模块720，具体用于根据所述多模态表征信息生成有序序列；所述有序序列为所述多模态表征信息中视觉信息、文字信息和文档布局信息组成的序列；将所述有序序列和提问问题输入已训练的大语言模型，输出所述提问问题的回复信息。

在一可选实现方式中，所述视觉信息包括多个图像分块的图像特征信息，所述文字信息包括多个文字的文字信息；所述检索模块720，具体用于在根据所述多模态表征信息生成有序序列过程中，针对每个图像分块，根据所述图像分块的视觉信息生成所述图像分块的向量序列；根据所述文字信息和所述文档布局信息生成各个文字的向量序列；将各个图像分块的向量序列和各个文字的向量序列组成有序序列。

在一可选实现方式中，所述检索模块720，具体用于在将所述有序序列和提问问题输入已训练的大语言模型，输出所述提问问题的回复信息过程中，将所述有序序列和提问问题输入所述大语言模型，获得一个预测文字；将所述有序序列、提问问题、及已获得的预测文字输入所述大语言模型，再获得一个预测文字；返回执行将所述有序序列、提问问题、及已获得的预测文字输入所述大语言模型的步骤循环执行，直至获得的预测文字为预设结束符为止；将已获得的预测文字组成的文本作为提问问题的回复信息。

在一可选实现方式中，所述装置还包括（图7中未示出）：

训练模块，用于通过图像编码器提取文档样本的图像特征信息，对文档样本进行版面识别，获得文档样本中每个文字的文字信息和对应的文字位置信息；利用所述文档样本的图像特征信息、文字信息和文字位置信息对所述大语言模型进行预训练；获取针对所述文档样本的提问问题对应的答案；利用所述文档样本的图像特征信息、文字信息、文字位置信息、提问问题和对应的答案对预训练后的大语言模型进行微调，得到训练好的大语言模型。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

基于上述描述的实施例，本申请实施方式还提供一种人机交互方法，该方法包括：提取文档的多模态表征信息，其中，所述多模态表征信息包括视觉信息、文档布局信息以及文字信息；接收用户针对所述文档输入的提问问题；通过已训练的大语言模型，根据所述多模态表征信息获得所述提问问题的回复信息。

本申请实施方式还提供一种与前述实施方式所提供的文档检索方法对应的电子设备，以执行上述文档检索方法。

图8为根据一示例性实施例示出的一种电子设备的硬件结构图，该电子设备包括：通信接口801、处理器802、存储器803和总线804；其中，通信接口801、处理器802和存储器803通过总线804完成相互间的通信。处理器802通过读取并执行存储器803中与文档检索方法的控制逻辑对应的机器可执行指令，可执行上文描述的文档检索方法，该方法的具体内容参见上述实施例，此处不再累述。

本申请中提到的存储器803可以是任何电子、磁性、光学或其它物理存储装置，可以包含存储信息，如可执行指令、数据等等。具体地，存储器803可以是RAM（Random AccessMemory，随机存取存储器）、闪存、存储驱动器（如硬盘驱动器）、任何类型的存储盘（如光盘、DVD等），或者类似的存储介质，或者它们的组合。通过至少一个通信接口801（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线804可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器803用于存储程序，所述处理器802在接收到执行指令后，执行所述程序。

处理器802可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802可以是通用处理器，包括网络处理器(Network Processor，简称NP)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。

本申请实施例提供的电子设备与本申请实施例提供的文档检索方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的文档检索方法对应的计算机可读存储介质，请参考图9所示，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的文档检索方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的文档检索方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种文档检索方法，其特征在于，所述方法包括：

提取文档的多模态表征信息，其中，所述多模态表征信息包括视觉信息、文档布局信息以及文字信息；所述视觉信息包括文档的多个图像分块的图像特征信息，所述文字信息包括文档中的各个文字和各个文字所属的版块信息；

通过已训练的大语言模型，根据所述多模态表征信息获得提问问题的回复信息，所述提问问题为用户针对所述文档输入所述大语言模型的问题信息；

所述通过已训练的大语言模型，根据所述多模态表征信息获得提问问题的回复信息，包括：

根据所述多模态表征信息生成有序序列；所述有序序列包括各个图像分块的向量序列和各个文字的向量序列，各个向量序列包括模态种类、内容类型、向量序列的排序、向量序列表示内容在文档中的位置信息、向量序列表示内容的特征信息的组合；

将所述有序序列和所述提问问题输入已训练的大语言模型，输出所述提问问题的回复信息。

2.根据权利要求1所述的方法，其特征在于，所述视觉信息包括图像特征信息，所述文档布局信息包括文字位置信息，所述提取文档的多模态表征信息，包括：

通过图像编码器提取所述文档的图像特征信息；

对所述文档进行版面识别，以获得文档中每个文字的文字信息和对应的文字位置信息。

3.根据权利要求2所述的方法，其特征在于，所述通过图像编码器提取所述文档的图像特征信息，包括：

对所述文档中的每页内容进行图像分割，得到多个图像分块和各个图像分块在文档中的位置；

通过所述图像编码器提取各个图像分块的特征向量；

将各个图像分块的特征向量、在文档中的位置作为图像特征信息。

4.根据权利要求1所述的方法，其特征在于，所述视觉信息包括多个图像分块的图像特征信息，所述文字信息包括多个文字的文字信息；

所述根据所述多模态表征信息生成有序序列，包括：

针对每个图像分块，根据所述图像分块的图像特征信息生成所述图像分块的向量序列；

根据所述文字信息和所述文档布局信息生成各个文字的向量序列；

将各个图像分块的向量序列和各个文字的向量序列组成所述有序序列。

5.根据权利要求1所述的方法，其特征在于，所述将所述有序序列和提问问题输入已训练的大语言模型，输出所述提问问题的回复信息，包括：

将所述有序序列和所述提问问题输入所述大语言模型，获得一个预测文字；

将所述有序序列、所述提问问题、及已获得的预测文字输入所述大语言模型，再获得一个预测文字；

返回执行将所述有序序列、所述提问问题、及已获得的预测文字输入所述大语言模型的步骤循环执行，直至获得的预测文字为预设结束符为止；

将已获得的预测文字组成的文本作为所述提问问题的回复信息。

6.根据权利要求2-5任一项所述的方法，其特征在于，所述大语言模型的训练过程包括：

通过图像编码器提取文档样本的图像特征信息，对文档样本进行版面识别，获得文档样本中每个文字的文字信息和对应的文字位置信息；

利用所述文档样本的图像特征信息、文字信息和文字位置信息对所述大语言模型进行预训练；

获取针对所述文档样本的提问问题对应的答案；

利用所述文档样本的图像特征信息、文字信息、文字位置信息、提问问题和对应的答案对预训练后的大语言模型进行微调，得到训练好的大语言模型。

7.一种人机交互方法，其特征在于，所述方法包括：

接收用户针对所述文档输入的提问问题；

通过已训练的大语言模型，根据所述多模态表征信息获得所述提问问题的回复信息；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序以实现如权利要求1-7任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行以实现如权利要求1-7任一项所述的方法。