CN117312601A

CN117312601A - 一种多模态信息融合的文档内容增强检索系统及方法

Info

Publication number: CN117312601A
Application number: CN202311454975.7A
Authority: CN
Inventors: 邱光球; 侯海宾; 汪涌; 刘思寒; 张俊
Original assignee: Hangzhou Ruicheng Information Technology Co ltd
Current assignee: Hangzhou Ruicheng Information Technology Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2023-12-29

Abstract

本发明涉及内容处理技术领域，尤其涉及一种多模态信息融合的文档内容增强检索系统及方法，为了针对现有对文档中文本及图像等材料进行分析和检索时存在不准确及效率底的问题，本发明提供了一种多模态信息融合的文档内容增强检索系统及方法，方法首先针对不同模态的内容进行预处理，采用文本融合技术，将文档中的文本内容和文档中图像的描述文本进行融合，形成最终的包含了文档文本信息及文档中图像描述信息的文本内容，通过各自模态的特征提取算法，并通过已有的主成分分析方法抽取出各类型数据的特征向量调整为统一维度的向量，采用融合技术将不同模态的特征进行融合，形成多模态特征表示，通过建立索引和使用相应的检索算法，实现对原始文件的高效检索和分析。

Description

一种多模态信息融合的文档内容增强检索系统及方法

技术领域

本发明涉及内容处理技术领域，尤其涉及一种多模态信息融合的文档内容增强检索系统及方法。

背景技术

随着科技的进步和社会的发展，信息爆炸和海量数据的积累给文档、图像、视频等各类材料的管理和检索带来了巨大挑战。为了更高效地处理和利用这些多媒体材料，多模态融合技术应运而生。

目前，针对文档中文本及图像等各类材料进行分析和检索的方法存在一些问题。例如，传统的对文本进行检索的方法无法准确捕捉到文件材料中的图像内容；而图像检索的处理方法则忽略了文本中的信息。并且由于多模态材料之间存在复杂的相关性和依赖关系，仅仅对各个模态的特征进行独立处理会导致信息的丢失和分析的不准确性，不仅如此，同一张图片在不同的上下文中可能也有着决然不同的含义。

发明内容

本发明的目的是为了解决背景技术中的问题，更准确的分析检索文档，提高办公的效率及体验，为了实现上述目的，本发明采用了如下技术方案：

一种多模态信息融合的文档内容增强检索系统，所述系统包括文件读取模块：将文档输入文件读取模型，按行提取文档中的文本、文本所在行号、图像、图像所在行号、图像上下文文本、图像上下文所在行号；

图像描述信息提取模块：将所述文档中的图像数据生成描述图像内容的文字；

文本融合模块：将所述文档中的图像上下文的文字及文本行号、图像描述信息提取模块提取的描述图像的文字及图像行号通过该文本融合模块的融合模型融合为文本A；

文本修正模块：将图像上下文的最小行号到最大行号中的所有内容使用上述的文本A进行替换，获得最终的文本B；

文字信息向量提取模块：将文本特征进行信息向量抽取；

图像特征向量提取模块：将图像特征进行信息向量抽取；

向量维度统一模块：将所述文档的全部信息向量通过已有的主成分分析方法抽取出其特征向量，并调整为统一维度的向量；

向量融合模块：将所述文档的调整后的统一维度的向量通过该模块生成一个最终的特征向量；

数据存储模块：将上述的最终的特征向量存储至此模块；

问题检索模块：将输入的问题通过文字信息向量提取模块转化为向量后，再使用向量融合模块中模型的权重转化为新的向量，再通过计算向量余弦距离的方式比较问题和内容的相关度从而返回和问题相关的内容。

一种多模态信息融合的文档内容增强检索方法，包括以下步骤：

S1：构建图像描述信息提取模型；

S2：构建文本融合模型；

S3：读取文档内容，按行提取文档中每行的文本内容及行号、图像及图像在文档中的行号、图像上下文的文本内容及行号；

S4：将S3中提取的图像输入图像描述信息提取模块，获取图像内容的文字描述；

S5：将S3中提取的文档中图像上下文的文本、文本行号、S4中获取的图像内容的文字描述及S3中提取的图像行号，分别组合在一起输入文本融合模块，获得图像上下文和图像文字描述信息融合后的文本A；

S6：将S5获得的融合了图像上下文及图像描述信息的文本A输入文本修正模块获得最终的融合后的文本B；

S7：将文本B输入文字信息向量提取模块，对文字部分进行信息抽取，获得文字部分特征信息，通过词嵌入的方式获取文本特征向量；

S8：将图像输入图像特征向量提取模块，获得图像特征向量；

S9：采用已有的主成分分析方法对所述文本特征向量、图像特征向量，提取其主要信息，调整为统一维度的特征向量；

S10：将上述统一维度后的特征向量融合获得文档的融合特征信息向量；

S11：将所述的融合后的特征信息向量输入数据存储模块保存；

S12：将要检索的问题转换为和上文统一维度的特征向量，依次计算已保存的特征向量和问题向量的余弦值，大于预定阈值的已保存的特征向量对应的内容即为所需要的和问题相关的信息。

进一步地，所述步骤S1中构建图像描述信息提取模型的步骤为：

a)、构建数据集，收集一万张图像，并对每张图像的内容用文本的形式进行描述，形成【图像-文本】对；

b)、基于BLIP-2架构训练图像描述信息提取模型，所述BLIP-2架构由现有的预训练的图像编码器，现有的预训练的大语言模型，和一个可学习的Q-Former组成，现有的预训练的图像编码器负责从输入图片中提取视觉特征，现有的预训练的大语言模型负责文本生成，Q-Former负责弥合视觉和语言两种模态的差距，具体的Q-Former由一个图像transformer，与冻结的图像编码器互动，进行视觉特征提取，一个文本transformer，作为文本编码器和文本解码器组成；

现有的预训练的图像编码器为ResNet(Residual Network)、ViT(VisionTransformers)、SwinT(Swin Transformer)其中之一，所述现有的预训练的大语言模型为LLaMA(Large Language Model Meta AI)、ChatGLM(General Language Model)其中之一；

c)、通过两阶段训练模型，第一阶段：表示学习阶段，将Q-Former与参数固定的图像编码器相连，并使用第一步准备的【图像-文本】对进行预训练。目的是训练Q-Former，让其学会提取出包含文本信息的视觉特征；第二阶段：生成学习阶段，将Q-Former连接到冻结的现有的预训练的大语言模型，以利用大语言模型的语言生成能力，得到最终的图像描述信息提取模型。

进一步地，所述步骤S2中构建文本融合模型是基于LLM模型构建文本融合模型。

进一步地，所述步骤S7中文本特征向量通过word2vec的方式获取。

进一步地，所述步骤S8中图像特征向量通过训练的现有的预训练的图像编码器获取。

进一步地，所述步骤S9中已有的主成分分析方法可执行的技术实现如下：假设要把一个M维的数据降为K维，为了方便表示，这里可以表示为将M维的N条样本转化为K维的N条样本，即把一个N*M的矩阵X转换为N*K的矩阵Y。用公式可以表示为：

Y＝XP

其中，P是M*K的变换矩阵，其次我们需要求解Y的协方差矩阵：

其中，m为样本数量，C为原矩阵X的协方差矩阵。

因为P为正交矩阵，则可以转化为：

C＝PDP^-1

求P的过程实际上是求C的M个特征向量的过程。因为协方差矩阵C是实对称矩阵，所以它的特征向量相互正交，P为正交矩阵，满足我们的要求。注意这里的P依然是一个M*M的矩阵。为了使投影的结果在每一维上离散，以减少信息损失，可以保留D矩阵中的前K大的特征值，同时取对应的前K个特征值组成最终的PCA降维变换矩阵P。求解变换矩阵P实际上是在求原矩阵的协方差矩阵的特征向量。这个协方差矩阵可以表示为：

因为P是正交矩阵(矩阵的转置等于矩阵的逆)，求变换矩阵P实际上可以直接通过求解原矩阵X的SVD分解，然后选取前K个奇异值对应的V矩阵，即为最终的变换矩阵P。

进一步地，所述步骤S10中特征向量融合可执行的技术实现如下：

a)对文本向量和图像特征向量进行维度调整，确保文本向量和图像特征向量的维度一致，本实施例中将文本特征向量、图像特征向量采用已有的主成分分析方法，调整为1024维的向量；

b)构建向量融合模型；

c)使用向量融合模型将文本特征向量、图像特征向量两个向量融合为最终的特征向量；

d)将用户输入的问题输入文本特征相向量提取模块，得到向量；

e)使用向量融合模型的权重将向量转换为新的问题向量，通过计算问题和已存储的特征向量的余弦相似度寻找和用户输入问题最相关的内容。

进一步地，所述步骤S12中特征向量和问题向量的相似度计算方法为：余弦相似度的取值范围是[-1,1]，相同两个向量的之间的相似度为1，设A和B是两个任意向量，其余弦相似度的定义公式为：

本发明提供的多模态信息融合的文档内容增强检索系统及方法，针对不同模态的内容进行预处理，包括文本提取、图像提取，然后对图像进行信息提取，获得图像的文本描述，采用文本融合技术，将文档中的文本内容和文档中图像的描述文本进行融合，形成最终的包含了文档文本信息及文档中图像描述信息的文本内容，然后，通过各自模态的特征提取算法，分别提取文本、图像的向量，并通过已有的主成分分析方法抽取出各类型数据的特征向量，采用融合技术将不同模态的特征进行融合，形成多模态特征表示，最后，通过建立索引和使用相应的检索算法，实现对原始文件的高效检索和分析。

附图说明

图1为本发明提出的一种多模态信息融合的文档内容增强检索系统的流程图；

图2为本发明提出的一种多模态信息融合的文档内容增强检索方法的流程图。

具体实施方式：

下面将结合图1、图2对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明提供了一种多模态信息融合的文档内容增强检索系统，所述系统包括文件读取模块：将文档输入文件读取模型，按行提取文档中的文本、文本所在行号、图像、图像所在行号、图像上下文文本、图像上下文所在行号；

图像描述信息提取模块：将所述文件的图像数据生成描述图像内容的文字；

文字信息向量提取模块：将文本特征进行信息向量抽取；

图像特征向量提取模块：将图像特征进行信息向量抽取；

数据存储模块：将上述的最终的特征向量存储至此模块；

本发明提供了一种多模态信息融合的文档内容增强检索方法，包括以下步骤：

1、构建图像描述信息提取模块，具体步骤包括：

构建数据集，收集一万张图像，并对每张图像的内容用文本的形式进行描述，形成【图像-文本】对；

基于BLIP-2架构训练图像描述信息提取模型，BLIP-2架构由现有的预训练的图像编码器，现有的预训练的大语言模型，和一个可学习的Q-Former组成。现有的预训练的图像编码器负责从输入图片中提取视觉特征，现有的预训练的大语言模型负责文本生成，Q-Former负责弥合视觉和语言两种模态的差距，具体的Q-Former由一个图像transformer，与冻结的图像编码器互动，进行视觉特征提取，一个文本transformer，作为文本编码器和文本解码器组成；

现有的预训练的图像编码器为ResNet(Residual Network)、ViT(VisionTransformers)、SwinT(Swin Transformer)其中之一，现有的预训练的大语言模型为LLaMA(Large Language Model Meta AI)、ChatGLM(General Language Model)其中之一；

通过两阶段训练模型，第一阶段：表示学习阶段，将Q-Former与参数固定的图像编码器相连，并使用第一步准备的【图像-文本】对进行预训练。目的是训练Q-Former，让其学会提取出包含文本信息的视觉特征；第二阶段：生成学习阶段，将Q-Former连接到冻结的现有的预训练的大语言模型，以利用大语言模型的语言生成能力，得到最终的图像描述信息提取模型。

2、读取文档内容，提取文档中每行文本及其对应的行号、图像及图像在文档中的行号、图像上下文及图像上下文在文档中的行号，

3、将文档读取模块中提取的图像输入图像描述信息提取模块，获取描述图像的文字；

4、将文本和文本所在文档中的行号组合在一起，形成【文本-行号】对；将描述图像的文字和该图像所在文档中的行号组合在一起，形成【描述图像的文字-行号】；将图像上下文和图像上下文所在文档中的行号组合在一起，形成【图像上下文-行号】；

5、将上述所有的【图像上下文文本-行号】对及【描述图像的文字-行号】对按行号顺序拼接在一起，具体的最终数据格式为[【图像上下文-行号1】,【描述图像的文字-行号2】,【图像上下文-行号3】,...]，将最终的数据格式输入文本融合模块1，获得融合后的文本，标记为文本A；

6、通过文本修正模块将图像上下文的最小行号到最大行号中的所有内容使用上述的文本A进行替换，获得最终的文本B；

7、将文本B输入文字信息向量提取模块，对文字部分进行信息抽取，获得文字部分特征信息，通过词嵌入的方式获取文本的特征向量；

8、将图像输入图像特征向量提取模块，获得图像特征向量；

9、采用已有的主成分分析方法对所述文本特征向量、图像特征向量，提取其主要信息，调整为统一维度的特征向量；

10、将上述统一维度后的特征向量融合获得文档的融合特征信息向量；

11、将文档的融合特征信息向量输入数据存储模块保存；

12、将要检索的问题转换为和上文统一维度的特征向量，依次计算已保存的特征向量和问题向量的余弦值，大于预定阈值的已保存的特征向量对应的内容即为所需要的和问题相关的信息；

其中文本特征向量通过word2vec的方式获取；

其中图像特征向量通过训练的预训练的图像编码器获取；

其中主成分分析法可执行的技术实现如下：

假设要把一个M维的数据降为K维，为了方便表示，这里可以表示为将M维的N条样本转化为K维的N条样本，即把一个N*M的矩阵X转换为N*K的矩阵Y。用公式可以表示为：

Y＝XP

其中，m为样本数量，C为原矩阵X的协方差矩阵。

因为P为正交矩阵，则可以转化为：

C＝PDP^-1

因为P是正交矩阵(矩阵的转置等于矩阵的逆)，求变换矩阵P实际上可以直接通过求解原矩阵X的SVD分解，然后选取前K个奇异值对应的V矩阵，即为最终的变换矩阵P；

其中特征向量融合可执行的技术实现如下：

对文本向量和图像特征向量进行维度调整，确保文本向量和图像特征向量的维度一致，本实施例中将文本特征向量、图像特征向量采用已有的主成分分析方法，调整为1024维的向量；

构建向量融合模型；

其中向量相似度计算可执行的技术实现如下：

余弦相似度的取值范围是[-1,1]，相同两个向量的之间的相似度为1，设A和B是两个任意向量，其余弦相似度的定义公式为：

应理解，此处的实施例仅用于说明本发明而不用于限制本发明的范围，本领域的普通技术人员从上述构思出发，不经创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.一种多模态信息融合的文档内容增强检索系统，其特征在于，所述系统包括文件读取模块：将文档输入文件读取模型，按行提取文档中的文本、文本所在行号、图像、图像所在行号、图像上下文文本、图像上下文所在行号；

图像描述信息提取模块：将文档中的图像数据生成描述图像内容的文字；

文本融合模块：将文档中的图像上下文的文字及文本行号、图像描述信息提取模块提取的描述图像的文字及图像行号通过该文本融合模块融合为文本A；

文字信息向量提取模块：将文本特征进行信息向量抽取；

图像特征向量提取模块：将图像特征进行信息向量抽取；

向量维度统一模块：将文档的全部信息向量通过已有的主成分分析方法抽取出其特征向量，并调整为统一维度的向量；

向量融合模块：将文档的调整后的统一维度的向量通过该模块生成一个最终的特征向量；

数据存储模块：将上述的最终的特征向量存储至此模块；

2.一种基于权利要求1所述的多模态信息融合的文档内容增强检索系统的多模态信息融合的文档内容增强检索方法，其特征在于，包括以下步骤：

S1：构建图像描述信息提取模型；

S2：构建文本融合模型；

S10：将上述统一维度的特征向量融合获得文档的融合特征信息向量；

3.根据权利要求2所述的多模态信息融合的文档内容增强检索方法，其特征在于，所述步骤S1中构建图像描述信息提取模型的步骤为：

c)、通过两阶段训练模型，第一阶段：表示学习阶段，将Q-Former与参数固定的图像编码器相连，并使用第一步准备的【图像-文本】对进行预训练，目的是训练Q-Former，让其学会提取出包含文本信息的视觉特征；第二阶段：生成学习阶段，将Q-Former连接到冻结的现有的预训练的大语言模型，以利用大语言模型的语言生成能力，得到最终的图像描述信息提取模型。

4.根据权利要求2所述的多模态信息融合的文档内容增强检索方法，其特征在于，所述步骤S2中构建文本融合模型是基于LLM模型构建文本融合模型。

5.根据权利要求2所述的多模态信息融合的文档内容增强检索方法，其特征在于，所述步骤S7中文本特征向量通过word2vec的方式获取。

6.根据权利要求2所述的多模态信息融合的文档内容增强检索方法，其特征在于，所述步骤S8中图像特征向量通过现有的预训练的图像编码器获取。

7.根据权利要求2所述的多模态信息融合的文档内容增强检索方法，其特征在于，所述步骤S9中已有的主成分分析方法可执行的技术实现如下：假设要把一个M维的数据降为K维，为了方便表示，这里可以表示为将M维的N条样本转化为K维的N条样本，即把一个N*M的矩阵X转换为N*K的矩阵Y，用公式可以表示为：

Y＝XP

其中，m为样本数量，C为原矩阵X的协方差矩阵；

因为P为正交矩阵，则可以转化为：

C＝PDP^-1

求P的过程实际上是求C的M个特征向量的过程，因为协方差矩阵C是实对称矩阵，所以它的特征向量相互正交，P为正交矩阵，满足我们的要求，注意这里的P依然是一个M*M的矩阵，为了使投影的结果在每一维上离散，以减少信息损失，可以保留D矩阵中的前K大的特征值，同时取对应的前K个特征值组成最终的PCA降维变换矩阵P，求解变换矩阵P实际上是在求原矩阵的协方差矩阵的特征向量，这个协方差矩阵可以表示为：

8.根据权利要求2所述的多模态信息融合的文档内容增强检索方法，其特征在于，所述步骤S10中特征向量融合可执行的技术实现如下：

a)对文本向量和图像特征向量进行维度调整，确保文本向量和图像特征向量的维度一致，将文本特征向量、图像特征向量采用已有的主成分分析方法调整为1024维的向量；

b)构建向量融合模型；

9.根据权利要求2所述的多模态信息融合的文档内容增强检索方法，其特征在于，所述步骤S12中特征向量和问题向量的余弦值计算方法为：余弦相似度的取值范围是[-1，1]，相同两个向量的之间的相似度为1，设A和B是两个任意向量，其余弦相似度的定义公式为：

10.根据权利要求3所述的多模态信息融合的文档内容增强检索方法，其特征在于，所述步骤b)中现有的预训练的图像编码器为ResNet(Residual Network)、ViT(VisionTransformers)、SwinT(Swin Transformer)其中之一，所述现有的预训练的大语言模型为LLaMA(Large Language Model Meta AI)、ChatGLM(General Language Model)其中之一。