CN114495130A

CN114495130A - 基于跨模态信息的文档阅读理解模型训练方法及装置

Info

Publication number: CN114495130A
Application number: CN202111618355.3A
Authority: CN
Inventors: 吕尚文; 李弘宇; 刘璟; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-05-13
Anticipated expiration: 2041-12-27
Also published as: EP4105791A3; EP4105791A2; JP2023012522A; CN114495130B; US20230061398A1

Abstract

本申请公开了一种基于跨模态信息的文档阅读理解模型训练方法及装置，涉及数据处理领域，尤其涉及自然语言处理NLP及深度学习技术。该文档阅读理解模型训练方法的实现方案为：获取问题样本和富文本文档样本；其中，富文本文档样本中包含问题样本的真实答案；对富文本文档样本的图像信息进行光学字符识别OCR处理，得到富文本文档样本的文本信息和布局信息；将富文本文档样本的文本信息、布局信息和图像信息输入至预设的阅读理解模型，获得问题样本的预测答案；根据真实答案和预测答案，训练阅读理解模型。本申请能够提升模型对富文本文档理解的能力，并节省人工成本。

Description

基于跨模态信息的文档阅读理解模型训练方法及装置

技术领域

本申请涉及数据处理领域，尤其涉及自然语言处理NLP及深度学习技术，特别涉及一种基于跨模态信息的文档阅读理解模型训练方法及文档视觉问答方法、装置、电子设备及存储介质。

背景技术

相关技术中，基于纯文本的阅读理解技术，需要预先对文档文本进行信息抽取，以从文档中获得文本信息。但针对不同来源的文档需要设计不同的抽取方案，极其耗时耗力。

发明内容

本申请提供了一种基于跨模态信息的文档阅读理解模型训练方法、装置、电子设备以及存储介质。

根据本申请的第一方面，提供了一种基于跨模态信息的文档阅读理解模型训练方法，包括：获取问题样本和富文本文档样本；其中，所述富文本文档样本中包含所述问题样本的真实答案；对所述富文本文档样本的图像信息进行光学字符识别OCR处理，得到所述富文本文档样本的文本信息和布局信息；将所述富文本文档样本的文本信息、所述布局信息和所述图像信息输入至预设的阅读理解模型，获得所述问题样本的预测答案；根据所述真实答案和所述预测答案，训练所述阅读理解模型。

根据本申请的第二方面，提供了一种文档视觉问答方法，包括：响应于接收到的问题信息，获取与所述问题信息对应的候选富文本文档；对所述候选富文本文档的图像信息进行光学字符识别OCR处理，得到所述候选富文本文档的文本信息和布局信息；按照预设步长对所述候选富文本文档进行切分，获得多个段落文本，并将所述问题信息分别与每个所述段落文本相拼接，获得多个段落拼接文本；根据所述多个段落拼接文本、所述布局信息和所述图像信息，生成所述问题信息对应的答案信息。

根据本申请第三方面，提供一种基于跨模态信息的文档阅读理解模型训练装置，包括：获取模块，用于获取问题样本和富文本文档样本；其中，所述富文本文档样本中包含所述问题样本的真实答案；第一处理模块，用于对所述富文本文档样本的图像信息进行光学字符识别OCR处理，得到所述富文本文档样本的文本信息和布局信息；第二处理模块，用于将所述富文本文档样本的文本信息、所述布局信息和所述图像信息输入至预设的阅读理解模型，获得所述问题样本的预测答案；训练模块，用于根据所述真实答案和所述预测答案，训练所述阅读理解模型。

根据本申请第四方面，提供一种文档视觉问答装置，包括：获取模块，用于响应于接收到的问题信息，获取与所述问题信息对应的候选富文本文档；第一处理模块，用于对所述候选富文本文档的图像信息进行光学字符识别OCR处理，得到所述候选富文本文档的文本信息和布局信息；第二处理模块，用于按照预设步长对所述候选富文本文档进行切分，获得多个段落文本，并将所述问题信息分别与每个所述段落文本相拼接，获得多个段落拼接文本；生成模块，用于根据所述多个段落拼接文本、所述布局信息和所述图像信息，生成所述问题信息对应的答案信息。

根据本申请第五方面，提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面，或第二方面所述的方法。

根据本申请第六方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行第一方面，或第二方面所述的方法。

根据本申请第七方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面，或第二方面所述方法的步骤。

根据本申请的技术方案，可以利用跨模态信息(文本、布局和视觉)建模，可以提升文档理解的能力；利用富文本文档样本进行建模，能够提升阅读理解模型对富文本文档的理解能力；另外，本申请利用OCR识别技术取代了信息抽取，无需针对不同来源文档，设计特定的信息抽取方案，使得全流程更加端到端，节省人工成本。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是根据本申请第三实施例的示意图；

图4是根据本申请第四实施例的示意图；

图5是根据本申请实施例的一种基于跨模态信息的文档阅读理解模型训练装置示意图；

图6是根据本申请实施例的另一种基于跨模态信息的文档阅读理解模型训练装置示意图；

图7是根据本申请实施例的一种文档视觉问答装置示意图；

图8是根据本申请实施例的另一种文档视觉问答装置示意图；

图9是根据本申请实施例的又一种文档视觉问答装置示意图；

图10是用来实现本申请实施例的基于跨模态信息的文档阅读理解模型训练方法，或文档视觉问答方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

请参见图1，图1是根据本申请第一实施例的基于跨模态信息的文档阅读理解模型训练方法流程图，该方法可应用于对问答类应用程序中的所需的阅读理解模型进行训练。如图1所示，该基于跨模态信息的文档阅读理解模型训练方法可以包括以下步骤。

步骤S101，获取问题样本和富文本文档样本。

其中，长富文本文档样本中包含问题样本的真实答案。长富文本文档指带有较多字符信息，且包含多种格式(例如字体颜色、图片和表格等)的文档，其来源包括但不限于：网页、PDF(Portable Document Format，可携带便携式文档)及纸质文档的扫描件等。

举例而言，可以响应于使用问答应用的用户提出的问题，将该问题作为问题样本，获取该问题对应的长富文本文档，作为长富文本文档样本，其中该长富文本文档样本中具有该问题的答案内容。

步骤S102，对富文本文档样本的图像信息进行光学字符识别OCR处理，得到富文本文档样本的文本信息和布局信息。

举例而言，可以通过图像获取装置，获得长富文本文档样本的图像数据，对该图像数据进行OCR(Optical Character Recognition，光学字符识别)处理，得到长富文本文档样本的文本信息和布局信息。例如，可以将该长富文本文档样本看作文档图像，利用OCR识别技术解析文档图像，得到其文本信息和布局信息。

步骤S103，将富文本文档样本的文本信息、布局信息和图像信息输入至预设的阅读理解模型，获得问题样本的预测答案。

举例而言，将富文本文档样本的文本信息、布局信息和图像信息作为输入数据，输入至阅读理解模型，将该阅读理解模型的输出，作为问题样本的预测答案。

步骤S104，根据真实答案和预测答案，训练阅读理解模型。

举例而言，可以根据真实答案和预测答案的差别，调整阅读理解模型的相关参数，以减小真实答案和预测答案之间的偏差，训练阅读理解模型。

通过实施本申请实施例，可以利用跨模态信息(文本、布局和视觉)建模，可以提升文档理解的能力；利用富文本文档样本进行建模，能够提升阅读理解模型对富文本文档的理解能力；另外，本申请利用OCR识别技术取代了信息抽取，无需针对不同来源文档，设计特定的信息抽取方案，使得全流程更加端到端，节省人工成本。

请参见图2，图2是根据本申请第二实施例的基于跨模态信息的文档阅读理解模型训练方法流程图，本申请实施例中，富文本为长富文本，可将长富文本进行拆分并处理。该于跨模态信息的文档阅读理解模型训练方法可以包括以下步骤。

步骤S201,获取问题样本和长富文本文档样本。

其中，长富文本文档样本中包含问题样本的真实答案。

在本申请的实施例中，步骤S201可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤S202，对长富文本文档样本的图像信息进行光学字符识别OCR处理，得到长富文本文档样本的文本信息和布局信息。

在本申请的实施例中，步骤S202可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述

步骤S203，按照预设步长对长富文本文档样本的文本信息进行切分，获得多个段落文本，并将问题样本分别与每个段落文本相拼接，获得多个段落拼接文本。

举例而言，将获得的长富文本文档样本的文本信息，按顺序拆分为多个段落，每个段落中都包含预先设置的相同字符数目。例如，以预设步长为512为例，可按照步长为512将长富文本文档样本切分成多个段落文本。分别将每个段落与问题样本进行拼接，得到段落拼接文本。

步骤S204，将多个段落拼接文本、布局信息和图像信息输入至预设的阅读理解模型，获得问题样本的预测答案。

举例而言，将多个段落拼接文本、布局信息和图像信息作为输入数据，输入至阅读理解模型，将该阅读理解模型的输出，作为问题样本的预测答案。

步骤S205，根据真实答案和预测答案，训练阅读理解模型。

在本申请的实施例中，步骤S205可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

通过实施本申请实施例，可以长富文本文档进行拆分，利用拆分得到的文档进行建模，能够提升阅读理解模型对长富文本文档的理解能力。

请参见图3，图3是根据本申请第三实施例的基于跨模态信息的文档阅读理解模型训练方法流程图，在本申请实施例中，阅读理解模型包括段落编码器、文档编码器、图像编码器和CRF(Conditional Random Field，条件随机场)模块。如图3所示，该基于跨模态信息的文档阅读理解模型训练方法可以包括以下步骤。

步骤S301，获取问题样本和长富文本文档样本。

在本申请的实施例中，步骤S301可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤S302，对长富文本文档样本的图像信息进行光学字符识别OCR处理，得到长富文本文档样本的文本信息和布局信息。

在本申请的实施例中，步骤S302可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤S303，按照预设步长对长富文本文档样本进行切分，获得多个段落文本，并将问题样本分别与每个段落文本相拼接，获得多个段落拼接文本。

在本申请的实施例中，步骤S303可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤S304，将多个段落拼接文本、布局信息和图像信息输入至预设的阅读理解模型。

在本申请的实施例中，步骤S304可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤S305，基于段落编码器对每个段落拼接文本和布局信息进行编码，获得每个段落拼接文本的文本编码。

举例而言，可以将每个段落拼接文本，与该段落拼接文本对应的布局信息，经段落编码器进行整合并编码，生成每个段落拼接文本的文本编码。

步骤S306，基于文档编码器对每个段落拼接文本的文本编码进行拼接处理，获得长富文本文档样本的文档编码。

举例而言，可以通过文档编码器，将多个段落拼接文本的文本编码按顺序依次拼接，获得长富文本文档样本的文档编码。

步骤S307，基于图像编码器对图像信息进行编码，获得长富文本文档样本的视觉特征。

其中，在本申请的实施例中，文档样本的视觉特征，指文档中某些部分具有的，区别于文档中其他部分的外观特征，包括但不限于：字体加粗、字体颜色改变及下划线等。

举例而言，可以通过图像编码器，按照预设的规则对图像信息进行变换和组合，将其转换为能够供计算机进行处理的数字化信息数据，从而得到长富文本文档样本的视觉特征。

步骤S308，将长富文本文档样本的文档编码和视觉特征进行融合处理，得到长富文本文档样本的多模态融合编码，并将多模态融合编码输入至CRF模块，获得问题样本的预测答案。

举例而言，将长富文本文档样本的文档编码和视觉特征，使用预设的特征融合算法模型进行处理，得到长富文本文档样本的多模态融合编码，将该多模态融合编码作为输入数据，输入CRF模块，将CRF模块的输出数据作为问题样本的预测答案。

作为一种示例，特征融合算法模型可以为转换Transformer模型，多模态融合的具体方式可以包括但不限于：将文档编码和视觉特征的特征向量线性融合；分别计算文档编码和视觉特征的相似度矩阵，按照相似度进行融合；直接拼接文档编码和视觉特征的特征向量等。

举例而言，通过对多模态融合编码进行序列标注，完成对子片段的归属的区分，将同一归属的答案子片段进行筛选，去除其中不属于答案片段的部分，并与其他不处于答案子片段内的部分整合，将不连续答案片段转换为连续片段，从而得到问题信息对应的答案信息。

步骤S309，根据真实答案和预测答案，训练阅读理解模型。

在本申请的实施例中，步骤S309可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

通过实施本申请实施例，可以基于问题样本和长富文本文档样本进行处理，得到多模态融合编码，基于多模态融合编码完成对文档信息的抽取，提升了对文档的理解能力，且无需针对不同来源文档，设计特定的信息抽取方案，节省人工成本。

在本申请的一些实施例中，阅读理解模型还包括分类器；该基于跨模态信息的文档阅读理解模型训练方法还包括：将多模态融合编码与问题样本的编码进行拼接，获得拼接编码；将拼接编码输入至分类器，获得问题样本与长富文本文档样本间的相似度预测值。

可选地，根据真实答案和预测答案，训练阅读理解模型，包括：根据真实答案和预测答案，生成第一损失值；根据相似度预测值和问题样本与长富文本文档样本间的相似度真实值，生成第二损失值；根据第一损失值和第二损失值，训练阅读理解模型。

举例而言，根据真实答案和预测答案的相似度真实值，基于预设的第一损失函数，生成第一损失值；将根据相似度预测值和问题样本与长富文本文档样本间的相似度真实值，带入预设的第二损失函数，得到第二损失值，根据第一及第二损失值，调整阅读模型相关参数，以减少损失值，训练阅读理解模型。

通过实施本申请实施例，可以基于损失值，训练阅读理解模型，以提升该阅读理解模型生成的答案信息的准确性。

一种可选地实现方式中，将多模态融合编码输入至CRF模块，获得问题信息对应的答案信息，包括：将多模态融合编码输入至CRF模块；获取CRF模块输出的答案序列标注；其中，答案序列标注包括答案开始标注、答案内部标注、答案外部标注、答案结束标注和单个字符的答案标注；基于答案序列标注，从候选富文本文档中抽取出问题信息对应的答案信息。

答案序列标注为CRF模块基于B(Begin，开始)I(Inside，内部)O(outside，外部)E(End，结束)S(Single，单个)的序列标注方式，从长富文本文档样本标注答案序列而得到的；答案序列标注包括答案开始标注B、答案内部标注I、答案外部标注O、答案结束标注E和单个字符的答案标注S。

需要说明的是，由于答案片段可能是不连续的，导致答案片段可能会包含多个答案子片段，因此需对多个答案子片段进行标注，以便于进行后续处理。其中，答案开始标注，用于标注答案序列中一个答案子片段的起始字符位置；答案片段内的非答案文本标注，用于标注一个答案子片段内不属于答案信息的字符；答案外部标注，用于标注不处于任一答案子片段内的，与答案信息有关的字符；答案结束标注，用于标注答案序列中一个答案子片段的结束位置的字符；单个字符的答案标注，用于标注代表一个独立答案信息实体的字符。

可选地，答案序列标注还包括答案片段内的非答案文本标注。

需要说明的是，答案片段内的非答案文本标注，用于标注一个答案子片段内不属于答案信息的其他噪音信息，以对中断答案进行处理。

举例而言，可对因表格或页面布局等原因，造成的答案信息的不连续，而导致的同一答案文本的中断进行标注。

请参见图4，图4是根据本申请第三实施例的文档视觉问答方法流程图，如图4所示，该文档视觉问答方法可以包括以下步骤：

步骤S401，响应于接收到的问题信息，获取与问题信息对应的候选富文本文档。

举例而言，可以响应于问答应用中接收到的用户提出的问题信息，获取包含问题信息相关信息的富文本文档，将该富文本文档作为候选富文本文档。

步骤S402，对候选富文本文档的图像信息进行光学字符识别OCR处理，得到候选富文本文档的文本信息和布局信息。

在本申请的实施例中，步骤S402可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤S403，按照预设步长对候选富文本文档进行切分，获得多个段落文本，并将问题信息分别与每个段落文本相拼接，获得多个段落拼接文本。

在本申请的实施例中，步骤S403可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤S404，根据多个段落拼接文本、布局信息和图像信息，生成问题信息对应的答案信息。

在一种实现方式中，根据多个段落拼接文本、布局信息和图像信息，生成问题信息对应的答案信息，包括：将多个段落拼接文本、布局信息和图像信息输入至预先建立的阅读理解模型，获得问题信息对应的答案信息。

在本申请的实施例中，阅读理解模型可以分别通过本申请的各实施例中的任一种方式得到，本申请实施例并不对此作出限定，也不再赘述。

举例而言，将多个段落拼接文本、布局信息和图像信息作为输入数据，输入至预先建立的阅读理解模型，将该模型的输出数据作为问题信息对应的答案信息。

在一种可选地实现方式中，阅读理解模型包括段落编码器、文档编码器、图像编码器和CRF模块；将多个段落拼接文本、布局信息和图像信息输入至预先建立的阅读理解模型，获得问题信息对应的答案信息，包括：将多个段落拼接文本、布局信息和图像信息输入至阅读理解模型；基于段落编码器对每个段落拼接文本和布局信息进行编码，获得每个段落拼接文本的文本编码；基于文档编码器对每个段落拼接文本的文本编码进行拼接处理，获得候选富文本文档的文档编码；基于图像编码器对图像信息进行编码，获得候选富文本文档的视觉特征；将候选富文本文档的文档编码和视觉特征进行融合处理，得到候选富文本文档的多模态融合编码，并将多模态融合编码输入至CRF模块，获得问题信息对应的答案信息。

在本申请的一些实施例中，阅读理解模型还包括分类器；方法还包括：将多模态融合编码与问题样本的编码进行拼接，获得拼接编码；将拼接编码输入至分类器，获得问题信息与候选富文本文档间的相似度预测值。

可选地，响应于相似度预测值大于或等于阈值，输出答案信息。

举例而言，响应于问题信息与候选富文本文档间的相似度预测值大于或等于预设的相似度阈值时，则将生成的答案信息作为文档问答的答案信息输出。

可选地，其中，输出答案信息，包括：基于布局信息，确定答案信息中各文字的坐标信息；基于坐标信息，在候选富文本文档中将答案信息进行高亮显示。

举例而言，基于坐标信息，确定答案信息中各文字在候选富文本文档的具体坐标，基于坐标信息，在候选富文本文档中将答案信息对应的文本进行高亮显示，并可在用户打开该候选富文本文档后，直接跳转至高亮显示的答案文本。

可选地，响应于相似度预测值小于阈值，忽略答案信息。

举例而言，响应于问题信息与候选富文本文档间的相似度预测值小于预设的相似度阈值时，则忽略生成的答案信息。

通过实施本申请实施例，可在生成答案信息之后，根据相似度来确定是否向用户提供该生成的答案，以此对不包含答案信息的文档样本进行压制，提升生成答案的准确率。

可选地，将多模态融合编码输入至CRF模块，获得问题信息对应的答案信息，包括：将多模态融合编码输入至CRF模块；获取CRF模块输出的答案序列标注；其中，答案序列标注包括答案开始标注、答案内部标注、答案外部标注、答案结束标注和单个字符的答案标注；基于答案序列标注，从候选富文本文档中抽取出问题信息对应的答案信息。

在本申请的实施例中，以上步骤可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

通过实施本申请实施例，可以对候选富文本文档进行建模，通过预先训练的到的阅读理解模型，基于跨模态信息(文本、布局和视觉)，对文档进行更为准确的理解问答。同时利用OCR识别技术取代信息抽取，无需针对不同来源文档，设计特定的信息抽取方案，使得全流程更加端到端，节省人工成本。

请参见图5，图5是根据本申请实施例的基于跨模态信息的文档阅读理解模型训练装置示意图。该基于跨模态信息的文档阅读理解模型训练装置包括获取模块501、第一处理模块502、第二处理模块503及训练模块504。

获取模块501用于获取问题样本和富文本文档样本；其中，富文本文档样本中包含问题样本的真实答案；第一处理模块502用于对富文本文档样本的图像信息进行光学字符识别OCR处理，得到富文本文档样本的文本信息和布局信息；第二处理模块503用于将富文本文档样本的文本信息、多个段落拼接文本、布局信息和图像信息输入至预设的阅读理解模型，获得问题样本的预测答案；训练模块504用于根据真实答案和预测答案，训练阅读理解模型。

在一种实现方式中，富文本为长富文本；第二处理模块503具体用于：按照预设步长对长富文本文档样本的文本信息进行切分，获得多个段落文本，并将问题样本分别与每个段落文本相拼接，获得多个段落拼接文本；将多个段落拼接文本、布局信息和图像信息输入至预设的阅读理解模型，获得问题样本的预测答案。在一种实现方式中，阅读理解模型包括段落编码器、文档编码器、图像编码器和CRF模块；第二处理模块503具体用于：将多个段落拼接文本、布局信息和图像信息输入至预设的阅读理解模型；基于段落编码器对每个段落拼接文本和布局信息进行编码，获得每个段落拼接文本的文本编码；基于文档编码器对每个段落拼接文本的文本编码进行拼接处理，获得长富文本文档样本的文档编码；基于图像编码器对图像信息进行编码，获得长富文本文档样本的视觉特征；将长富文本文档样本的文档编码和视觉特征进行融合处理，得到长富文本文档样本的多模态融合编码，并将多模态融合编码输入至CRF模块，获得问题样本的预测答案。

在一种可选地实现方式中，阅读理解模型还包括分类器；该基于跨模态信息的文档阅读理解模型训练装置还包括：第三处理模块。作为一种示例，如图6所示，该基于跨模态信息的文档阅读理解模型训练装置还包括第三处理模块605，用于将多模态融合编码与问题样本的编码进行拼接，获得拼接编码，并将拼接编码输入至分类器，获得问题样本与长富文本文档样本间的相似度预测值。其中，图6中601-604和图5中501-504具有相同功能和结构。

可选地，训练模块504具体用于：根据真实答案和预测答案，生成第一损失值；根据相似度预测值和问题样本与长富文本文档样本间的相似度真实值，生成第二损失值；根据第一损失值和第二损失值，训练阅读理解模型。

在一种可选地实现方式中，第二处理模块503具体用于：将多模态融合编码输入至CRF模块；获取CRF模块输出的答案序列标注；其中，答案序列标注包括答案开始标注、答案内部标注、答案外部标注、答案结束标注和单个字符的答案标注；基于答案序列标注，从长富文本文档样本中抽取出问题样本的预测答案。

请参见图7，图7是根据本申请实施例的文档视觉问答装置示意图，该文档视觉问答装置包括获取模块701、第一处理模块702、第二处理模块703及生成模块704。其中，获取模块701用于响应于接收到的问题信息，获取与问题信息对应的候选富文本文档；第一处理模块702用于对候选富文本文档的图像信息进行光学字符识别OCR处理，得到候选富文本文档的文本信息和布局信息；第二处理模块703用于按照预设步长对候选富文本文档进行切分，获得多个段落文本，并将问题信息分别与每个段落文本相拼接，获得多个段落拼接文本；生成模块704用于根据多个段落拼接文本、布局信息和图像信息，生成问题信息对应的答案信息。

在一种实现方式中，生成模块704具体用于：将多个段落拼接文本、布局信息和图像信息输入至预先建立的阅读理解模型，获得问题信息对应的答案信息；其中，阅读理解模型通过本申请实施例中任一项的模型训练方法训练得到。

在一种可选地实现方式中，阅读理解模型包括段落编码器、文档编码器、图像编码器和CRF模块；生成模块704具体用于：将多个段落拼接文本、布局信息和图像信息输入至阅读理解模型；基于段落编码器对每个段落拼接文本和布局信息进行编码，获得每个段落拼接文本的文本编码；基于文档编码器对每个段落拼接文本的文本编码进行拼接处理，获得候选富文本文档的文档编码；基于图像编码器对图像信息进行编码，获得候选富文本文档的视觉特征；将候选富文本文档的文档编码和视觉特征进行融合处理，得到候选富文本文档的多模态融合编码，并将多模态融合编码输入至CRF模块，获得问题信息对应的答案信息。

可选地，阅读理解模型还包括分类器；文档视觉问答装置还包括：第三处理模块。作为一种示例，请参见图8，如图8所示，该文档视觉问答装置还包括第三处理模块805，用于将多模态融合编码与问题样本的编码进行拼接，获得拼接编码，并将拼接编码输入至分类器，获得问题信息与候选富文本文档间的相似度预测值。其中，图8中801-804和图7中701-704具有相同功能和结构。

可选地，该文档视觉问答装置还包括显示模块。作为一种示例，请参见图9，如图9所示，该文档视觉问答装置还包括显示模块905，用于响应于相似度预测值大于或等于阈值，输出答案信息。其中，图9中901-904和图7中701-704具有相同功能和结构。

可选地，显示模块具体用于：基于布局信息，确定答案信息中各文字的坐标信息；基于坐标信息，在候选富文本文档中将答案信息进行高亮显示。

可选地，生成模块704具体用于：将多模态融合编码输入至CRF模块；获取CRF模块输出的答案序列标注；其中，答案序列标注包括答案开始标注、答案内部标注、答案外部标注、答案结束标注和单个字符的答案标注；基于答案序列标注，从候选富文本文档中抽取出问题信息对应的答案信息。可选地，答案序列标注还包括答案片段内的非答案文本标注。

通过实施本申请实施例，可以利用跨模态信息(文本、布局和视觉)建模，可以提升文档理解的能力；利用长富文本文档样本进行建模，能够提升阅读理解模型对长富文本文档的理解能力；另外，本申请利用OCR识别技术取代了信息抽取，无需针对不同来源文档，设计特定的信息抽取方案，使得全流程更加端到端，节省人工成本。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图10所示，是根据本申请实施例的基于跨模态信息的文档阅读理解模型训练方法，或文档视觉问答方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，该存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的基于跨模态信息的文档阅读理解模型训练方法，或文档视觉问答方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的基于跨模态信息的文档阅读理解模型训练方法，或文档视觉问答方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的基于跨模态信息的文档阅读理解模型训练方法，或文档视觉问答方法对应的程序指令/模块(例如，附图5所示的获取模块501、第一处理模块502、第二处理模块503及训练模块504，或附图6所示的第三处理模块605，或附图7所示的获取模块701、第一处理模块702、第二处理模块703及生成模块704，或附图8所示的第三处理模块805，或附图9所示的显示模块905)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的基于跨模态信息的文档阅读理解模型训练方法，或文档视觉问答方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据基于跨模态信息的文档阅读理解模型训练，或文档视觉问答的电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至基于跨模态信息的文档阅读理解模型训练，或文档视觉问答的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

基于跨模态信息的文档阅读理解模型训练方法，或文档视觉问答方法的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与基于跨模态信息的文档阅读理解模型训练，或文档视觉问答的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，提升了文本阅读理解模型对长富文本文档的理解能力，且无需针对不同来源文档，设计特定的信息抽取方案，节省人工成本。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种基于跨模态信息的文档阅读理解模型训练方法，包括：

获取问题样本和富文本文档样本；其中，所述富文本文档样本中包含所述问题样本的真实答案；

对所述富文本文档样本的图像信息进行光学字符识别OCR处理，得到所述富文本文档样本的文本信息和布局信息；

将所述富文本文档样本的文本信息、所述布局信息和所述图像信息输入至预设的阅读理解模型，获得所述问题样本的预测答案；

根据所述真实答案和所述预测答案，训练所述阅读理解模型。

2.根据权利要求1所述的方法，其中，所述富文本为长富文本；所述将所述富文本文档样本的文本信息、所述布局信息和所述图像信息输入至预设的阅读理解模型，获得所述问题样本的预测答案，包括：

按照预设步长对所述长富文本文档样本的文本信息进行切分，获得多个段落文本，并将所述问题样本分别与每个所述段落文本相拼接，获得多个段落拼接文本；

将所述多个段落拼接文本、所述布局信息和所述图像信息输入至预设的阅读理解模型，获得所述问题样本的预测答案。

3.根据权利要求2所述的方法，其中，所述阅读理解模型包括段落编码器、文档编码器、图像编码器和条件随机场CRF模块；所述将所述多个段落拼接文本、所述布局信息和所述图像信息输入至预设的阅读理解模型，获得所述问题样本的预测答案，包括：

将所述多个段落拼接文本、所述布局信息和所述图像信息输入至预设的阅读理解模型；

基于所述段落编码器对每个所述段落拼接文本和所述布局信息进行编码，获得每个所述段落拼接文本的文本编码；

基于所述文档编码器对每个所述段落拼接文本的文本编码进行拼接处理，获得所述长富文本文档样本的文档编码；

基于所述图像编码器对所述图像信息进行编码，获得所述长富文本文档样本的视觉特征；

将所述长富文本文档样本的文档编码和所述视觉特征进行融合处理，得到所述长富文本文档样本的多模态融合编码，并将所述多模态融合编码输入至所述CRF模块，获得所述问题样本的预测答案。

4.根据权利要求3所述的方法，其中，所述阅读理解模型还包括分类器；所述方法还包括：

将所述多模态融合编码与所述问题样本的编码进行拼接，获得拼接编码；

将所述拼接编码输入至所述分类器，获得所述问题样本与所述长富文本文档样本间的相似度预测值。

5.根据权利要求4所述的方法，其中，所述根据所述真实答案和所述预测答案，训练所述阅读理解模型，包括：

根据所述真实答案和所述预测答案，生成第一损失值；

根据所述相似度预测值和所述问题样本与所述长富文本文档样本间的相似度真实值，生成第二损失值；

根据所述第一损失值和所述第二损失值，训练所述阅读理解模型。

6.根据权利要求3至5中任一项所述的方法，其中，所述将所述多模态融合编码输入至所述CRF模块，获得所述问题样本的预测答案，包括：

将所述多模态融合编码输入至所述CRF模块；

获取所述CRF模块输出的答案序列标注；其中，所述答案序列标注包括答案开始标注、答案内部标注、答案外部标注、答案结束标注和单个字符的答案标注；

基于所述答案序列标注，从所述长富文本文档样本中抽取出所述问题样本的预测答案。

7.根据权利要求6所述的方法，其中，所述答案序列标注还包括答案片段内的非答案文本标注。

8.一种文档视觉问答方法，包括：

响应于接收到的问题信息，获取与所述问题信息对应的候选富文本文档；

对所述候选富文本文档的图像信息进行光学字符识别OCR处理，得到所述候选富文本文档的文本信息和布局信息；

按照预设步长对所述候选富文本文档进行切分，获得多个段落文本，并将所述问题信息分别与每个所述段落文本相拼接，获得多个段落拼接文本；

根据所述多个段落拼接文本、所述布局信息和所述图像信息，生成所述问题信息对应的答案信息。

9.根据权利要求8所述的方法，所述根据所述多个段落拼接文本、所述布局信息和所述图像信息，生成所述问题信息对应的答案信息，包括：

将所述多个段落拼接文本、所述布局信息和所述图像信息输入至预先建立的阅读理解模型，获得所述问题信息对应的答案信息；其中，所述阅读理解模型通过如权利要求1至7中任一项所述的模型训练方法训练得到。

10.根据权利要求9所述的方法，其中，所述阅读理解模型包括段落编码器、文档编码器、图像编码器和条件随机场CRF模块；所述将所述多个段落拼接文本、所述布局信息和所述图像信息输入至预先建立的阅读理解模型，获得所述问题信息对应的答案信息，包括：

将所述多个段落拼接文本、所述布局信息和所述图像信息输入至所述阅读理解模型；

基于所述文档编码器对每个所述段落拼接文本的文本编码进行拼接处理，获得所述候选富文本文档的文档编码；

基于所述图像编码器对所述图像信息进行编码，获得所述候选富文本文档的视觉特征；

将所述候选富文本文档的文档编码和所述视觉特征进行融合处理，得到所述候选富文本文档的多模态融合编码，并将所述多模态融合编码输入至所述CRF模块，获得所述问题信息对应的答案信息。

11.根据权利要求10所述的方法，其中，所述阅读理解模型还包括分类器；所述方法还包括：

将所述拼接编码输入至所述分类器，获得所述问题信息与所述候选富文本文档间的相似度预测值。

12.根据权利要求11所述的方法，还包括：

响应于所述相似度预测值大于或等于阈值，输出所述答案信息。

13.根据权利要求12所述的方法，其中，所述输出所述答案信息，包括：

基于所述布局信息，确定所述答案信息中各文字的坐标信息；

基于所述坐标信息，在所述候选富文本文档中将所述答案信息进行高亮显示。

14.根据权利要求12所述的方法，还包括：

响应于所述相似度预测值小于所述阈值，忽略所述答案信息。

15.根据权利要求10至14中任一项所述的方法，其中，所述将所述多模态融合编码输入至所述CRF模块，获得所述问题信息对应的答案信息，包括：

将所述多模态融合编码输入至所述CRF模块；

获取所述CRF模块输出的答案序列标注；其中，答案序列标注包括答案开始标注、答案内部标注、答案外部标注、答案结束标注和单个字符的答案标注；

基于所述答案序列标注，从所述候选富文本文档中抽取出所述问题信息对应的答案信息。

16.根据权利要求15所述的方法，其中，所述答案序列标注还包括答案片段内的非答案文本标注。

17.一种基于跨模态信息的文档阅读理解模型训练装置，包括：

获取模块，用于获取问题样本和富文本文档样本；其中，所述富文本文档样本中包含所述问题样本的真实答案；

第一处理模块，用于对所述富文本文档样本的图像信息进行光学字符识别OCR处理，得到所述富文本文档样本的文本信息和布局信息；

第二处理模块，用于将所述富文本文档样本的文本信息、所述布局信息和所述图像信息输入至预设的阅读理解模型，获得所述问题样本的预测答案；

训练模块，用于根据所述真实答案和所述预测答案，训练所述阅读理解模型。

18.根据权利要求17所述的装置，其中，所述富文本为长富文本；所述第二处理模块具体用于：

19.根据权利要求18所述的装置，其中，所述阅读理解模型包括段落编码器、文档编码器、图像编码器和条件随机场CRF模块；所述第二处理模块，具体用于：

20.根据权利要求19所述的装置，其中，所述阅读理解模型还包括分类器；所述装置还包括：

第三处理模块，用于将所述多模态融合编码与所述问题样本的编码进行拼接，获得拼接编码，并将所述拼接编码输入至所述分类器，获得所述问题样本与所述长富文本文档样本间的相似度预测值。

21.根据权利要求20所述的装置，其中，所述训练模块具体用于：

根据所述真实答案和所述预测答案，生成第一损失值；

22.根据权利要求19至21中任一项所述的装置，其特征在于，所述第二处理模块，具体用于：

将所述多模态融合编码输入至所述CRF模块；

23.根据权利要求22所述的装置，其中，所述答案序列标注还包括答案片段内的非答案文本标注。

24.一种文档视觉问答装置，包括：

获取模块，用于响应于接收到的问题信息，获取与所述问题信息对应的候选富文本文档；

第一处理模块，用于对所述候选富文本文档的图像信息进行光学字符识别OCR处理，得到所述候选富文本文档的文本信息和布局信息；

第二处理模块，用于按照预设步长对所述候选富文本文档进行切分，获得多个段落文本，并将所述问题信息分别与每个所述段落文本相拼接，获得多个段落拼接文本；

生成模块，用于根据所述多个段落拼接文本、所述布局信息和所述图像信息，生成所述问题信息对应的答案信息。

25.根据权利要求24所述的装置，所述生成模块具体用于：

将所述多个段落拼接文本、所述布局信息和所述图像信息输入至预先建立的阅读理解模型，获得所述问题信息对应的答案信息；其中，所述阅读理解模型通过如权利要求17至23中任一项所述的模型训练方法训练得到。

26.根据权利要求25所述的装置，其中，所述阅读理解模型包括段落编码器、文档编码器、图像编码器和条件随机场CRF模块；所述生成模块具体用于：

27.根据权利要求26所述的装置，其中，所述阅读理解模型还包括分类器；所述装置还包括：

第三处理模块，用于将所述多模态融合编码与所述问题样本的编码进行拼接，获得拼接编码，并将所述拼接编码输入至所述分类器，获得所述问题信息与所述候选富文本文档间的相似度预测值。

28.根据权利要求27所述的装置，还包括：

显示模块，用于响应于所述相似度预测值大于或等于阈值，输出所述答案信息。

29.根据权利要求28所述的装置，其中，所述显示模块具体用于：

30.根据权利要求25至29中任一项所述的装置，其中，所述生成模块具体用于：

将所述多模态融合编码输入至所述CRF模块；

31.根据权利要求30所述的装置，其中，所述答案序列标注还包括答案片段内的非答案文本标注。

32.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法，或权利要求8-16中任一项所述的方法。

33.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法，或权利要求8-16中任一项所述的方法。

34.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-7中任一项所述的方法，或权利要求8-16中任一项所述的方法的步骤。