CN117312601A - 一种多模态信息融合的文档内容增强检索系统及方法 - Google Patents

一种多模态信息融合的文档内容增强检索系统及方法 Download PDF

Info

Publication number
CN117312601A
CN117312601A CN202311454975.7A CN202311454975A CN117312601A CN 117312601 A CN117312601 A CN 117312601A CN 202311454975 A CN202311454975 A CN 202311454975A CN 117312601 A CN117312601 A CN 117312601A
Authority
CN
China
Prior art keywords
text
image
vector
matrix
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311454975.7A
Other languages
English (en)
Inventor
邱光球
侯海宾
汪涌
刘思寒
张俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ruicheng Information Technology Co ltd
Original Assignee
Hangzhou Ruicheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Ruicheng Information Technology Co ltd filed Critical Hangzhou Ruicheng Information Technology Co ltd
Priority to CN202311454975.7A priority Critical patent/CN117312601A/zh
Publication of CN117312601A publication Critical patent/CN117312601A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及内容处理技术领域,尤其涉及一种多模态信息融合的文档内容增强检索系统及方法,为了针对现有对文档中文本及图像等材料进行分析和检索时存在不准确及效率底的问题,本发明提供了一种多模态信息融合的文档内容增强检索系统及方法,方法首先针对不同模态的内容进行预处理,采用文本融合技术,将文档中的文本内容和文档中图像的描述文本进行融合,形成最终的包含了文档文本信息及文档中图像描述信息的文本内容,通过各自模态的特征提取算法,并通过已有的主成分分析方法抽取出各类型数据的特征向量调整为统一维度的向量,采用融合技术将不同模态的特征进行融合,形成多模态特征表示,通过建立索引和使用相应的检索算法,实现对原始文件的高效检索和分析。

Description

一种多模态信息融合的文档内容增强检索系统及方法
技术领域
本发明涉及内容处理技术领域,尤其涉及一种多模态信息融合的文档内容增强检索系统及方法。
背景技术
随着科技的进步和社会的发展,信息爆炸和海量数据的积累给文档、图像、视频等各类材料的管理和检索带来了巨大挑战。为了更高效地处理和利用这些多媒体材料,多模态融合技术应运而生。
目前,针对文档中文本及图像等各类材料进行分析和检索的方法存在一些问题。例如,传统的对文本进行检索的方法无法准确捕捉到文件材料中的图像内容;而图像检索的处理方法则忽略了文本中的信息。并且由于多模态材料之间存在复杂的相关性和依赖关系,仅仅对各个模态的特征进行独立处理会导致信息的丢失和分析的不准确性,不仅如此,同一张图片在不同的上下文中可能也有着决然不同的含义。
发明内容
本发明的目的是为了解决背景技术中的问题,更准确的分析检索文档,提高办公的效率及体验,为了实现上述目的,本发明采用了如下技术方案:
一种多模态信息融合的文档内容增强检索系统,所述系统包括文件读取模块:将文档输入文件读取模型,按行提取文档中的文本、文本所在行号、图像、图像所在行号、图像上下文文本、图像上下文所在行号;
图像描述信息提取模块:将所述文档中的图像数据生成描述图像内容的文字;
文本融合模块:将所述文档中的图像上下文的文字及文本行号、图像描述信息提取模块提取的描述图像的文字及图像行号通过该文本融合模块的融合模型融合为文本A;
文本修正模块:将图像上下文的最小行号到最大行号中的所有内容使用上述的文本A进行替换,获得最终的文本B;
文字信息向量提取模块:将文本特征进行信息向量抽取;
图像特征向量提取模块:将图像特征进行信息向量抽取;
向量维度统一模块:将所述文档的全部信息向量通过已有的主成分分析方法抽取出其特征向量,并调整为统一维度的向量;
向量融合模块:将所述文档的调整后的统一维度的向量通过该模块生成一个最终的特征向量;
数据存储模块:将上述的最终的特征向量存储至此模块;
问题检索模块:将输入的问题通过文字信息向量提取模块转化为向量后,再使用向量融合模块中模型的权重转化为新的向量,再通过计算向量余弦距离的方式比较问题和内容的相关度从而返回和问题相关的内容。
一种多模态信息融合的文档内容增强检索方法,包括以下步骤:
S1:构建图像描述信息提取模型;
S2:构建文本融合模型;
S3:读取文档内容,按行提取文档中每行的文本内容及行号、图像及图像在文档中的行号、图像上下文的文本内容及行号;
S4:将S3中提取的图像输入图像描述信息提取模块,获取图像内容的文字描述;
S5:将S3中提取的文档中图像上下文的文本、文本行号、S4中获取的图像内容的文字描述及S3中提取的图像行号,分别组合在一起输入文本融合模块,获得图像上下文和图像文字描述信息融合后的文本A;
S6:将S5获得的融合了图像上下文及图像描述信息的文本A输入文本修正模块获得最终的融合后的文本B;
S7:将文本B输入文字信息向量提取模块,对文字部分进行信息抽取,获得文字部分特征信息,通过词嵌入的方式获取文本特征向量;
S8:将图像输入图像特征向量提取模块,获得图像特征向量;
S9:采用已有的主成分分析方法对所述文本特征向量、图像特征向量,提取其主要信息,调整为统一维度的特征向量;
S10:将上述统一维度后的特征向量融合获得文档的融合特征信息向量;
S11:将所述的融合后的特征信息向量输入数据存储模块保存;
S12:将要检索的问题转换为和上文统一维度的特征向量,依次计算已保存的特征向量和问题向量的余弦值,大于预定阈值的已保存的特征向量对应的内容即为所需要的和问题相关的信息。
进一步地,所述步骤S1中构建图像描述信息提取模型的步骤为:
a)、构建数据集,收集一万张图像,并对每张图像的内容用文本的形式进行描述,形成【图像-文本】对;
b)、基于BLIP-2架构训练图像描述信息提取模型,所述BLIP-2架构由现有的预训练的图像编码器,现有的预训练的大语言模型,和一个可学习的Q-Former组成,现有的预训练的图像编码器负责从输入图片中提取视觉特征,现有的预训练的大语言模型负责文本生成,Q-Former负责弥合视觉和语言两种模态的差距,具体的Q-Former由一个图像transformer,与冻结的图像编码器互动,进行视觉特征提取,一个文本transformer,作为文本编码器和文本解码器组成;
现有的预训练的图像编码器为ResNet(Residual Network)、ViT(VisionTransformers)、SwinT(Swin Transformer)其中之一,所述现有的预训练的大语言模型为LLaMA(Large Language Model Meta AI)、ChatGLM(General Language Model)其中之一;
c)、通过两阶段训练模型,第一阶段:表示学习阶段,将Q-Former与参数固定的图像编码器相连,并使用第一步准备的【图像-文本】对进行预训练。目的是训练Q-Former,让其学会提取出包含文本信息的视觉特征;第二阶段:生成学习阶段,将Q-Former连接到冻结的现有的预训练的大语言模型,以利用大语言模型的语言生成能力,得到最终的图像描述信息提取模型。
进一步地,所述步骤S2中构建文本融合模型是基于LLM模型构建文本融合模型。
进一步地,所述步骤S7中文本特征向量通过word2vec的方式获取。
进一步地,所述步骤S8中图像特征向量通过训练的现有的预训练的图像编码器获取。
进一步地,所述步骤S9中已有的主成分分析方法可执行的技术实现如下:假设要把一个M维的数据降为K维,为了方便表示,这里可以表示为将M维的N条样本转化为K维的N条样本,即把一个N*M的矩阵X转换为N*K的矩阵Y。用公式可以表示为:
Y=XP
其中,P是M*K的变换矩阵,其次我们需要求解Y的协方差矩阵:
其中,m为样本数量,C为原矩阵X的协方差矩阵。
因为P为正交矩阵,则可以转化为:
C=PDP-1
求P的过程实际上是求C的M个特征向量的过程。因为协方差矩阵C是实对称矩阵,所以它的特征向量相互正交,P为正交矩阵,满足我们的要求。注意这里的P依然是一个M*M的矩阵。为了使投影的结果在每一维上离散,以减少信息损失,可以保留D矩阵中的前K大的特征值,同时取对应的前K个特征值组成最终的PCA降维变换矩阵P。求解变换矩阵P实际上是在求原矩阵的协方差矩阵的特征向量。这个协方差矩阵可以表示为:
因为P是正交矩阵(矩阵的转置等于矩阵的逆),求变换矩阵P实际上可以直接通过求解原矩阵X的SVD分解,然后选取前K个奇异值对应的V矩阵,即为最终的变换矩阵P。
进一步地,所述步骤S10中特征向量融合可执行的技术实现如下:
a)对文本向量和图像特征向量进行维度调整,确保文本向量和图像特征向量的维度一致,本实施例中将文本特征向量、图像特征向量采用已有的主成分分析方法,调整为1024维的向量;
b)构建向量融合模型;
c)使用向量融合模型将文本特征向量、图像特征向量两个向量融合为最终的特征向量;
d)将用户输入的问题输入文本特征相向量提取模块,得到向量;
e)使用向量融合模型的权重将向量转换为新的问题向量,通过计算问题和已存储的特征向量的余弦相似度寻找和用户输入问题最相关的内容。
进一步地,所述步骤S12中特征向量和问题向量的相似度计算方法为:余弦相似度的取值范围是[-1,1],相同两个向量的之间的相似度为1,设A和B是两个任意向量,其余弦相似度的定义公式为:
本发明提供的多模态信息融合的文档内容增强检索系统及方法,针对不同模态的内容进行预处理,包括文本提取、图像提取,然后对图像进行信息提取,获得图像的文本描述,采用文本融合技术,将文档中的文本内容和文档中图像的描述文本进行融合,形成最终的包含了文档文本信息及文档中图像描述信息的文本内容,然后,通过各自模态的特征提取算法,分别提取文本、图像的向量,并通过已有的主成分分析方法抽取出各类型数据的特征向量,采用融合技术将不同模态的特征进行融合,形成多模态特征表示,最后,通过建立索引和使用相应的检索算法,实现对原始文件的高效检索和分析。
附图说明
图1为本发明提出的一种多模态信息融合的文档内容增强检索系统的流程图;
图2为本发明提出的一种多模态信息融合的文档内容增强检索方法的流程图。
具体实施方式:
下面将结合图1、图2对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明提供了一种多模态信息融合的文档内容增强检索系统,所述系统包括文件读取模块:将文档输入文件读取模型,按行提取文档中的文本、文本所在行号、图像、图像所在行号、图像上下文文本、图像上下文所在行号;
图像描述信息提取模块:将所述文件的图像数据生成描述图像内容的文字;
文本融合模块:将所述文档中的图像上下文的文字及文本行号、图像描述信息提取模块提取的描述图像的文字及图像行号通过该文本融合模块的融合模型融合为文本A;
文本修正模块:将图像上下文的最小行号到最大行号中的所有内容使用上述的文本A进行替换,获得最终的文本B;
文字信息向量提取模块:将文本特征进行信息向量抽取;
图像特征向量提取模块:将图像特征进行信息向量抽取;
向量维度统一模块:将所述文档的全部信息向量通过已有的主成分分析方法抽取出其特征向量,并调整为统一维度的向量;
向量融合模块:将所述文档的调整后的统一维度的向量通过该模块生成一个最终的特征向量;
数据存储模块:将上述的最终的特征向量存储至此模块;
问题检索模块:将输入的问题通过文字信息向量提取模块转化为向量后,再使用向量融合模块中模型的权重转化为新的向量,再通过计算向量余弦距离的方式比较问题和内容的相关度从而返回和问题相关的内容。
本发明提供了一种多模态信息融合的文档内容增强检索方法,包括以下步骤:
1、构建图像描述信息提取模块,具体步骤包括:
构建数据集,收集一万张图像,并对每张图像的内容用文本的形式进行描述,形成【图像-文本】对;
基于BLIP-2架构训练图像描述信息提取模型,BLIP-2架构由现有的预训练的图像编码器,现有的预训练的大语言模型,和一个可学习的Q-Former组成。现有的预训练的图像编码器负责从输入图片中提取视觉特征,现有的预训练的大语言模型负责文本生成,Q-Former负责弥合视觉和语言两种模态的差距,具体的Q-Former由一个图像transformer,与冻结的图像编码器互动,进行视觉特征提取,一个文本transformer,作为文本编码器和文本解码器组成;
现有的预训练的图像编码器为ResNet(Residual Network)、ViT(VisionTransformers)、SwinT(Swin Transformer)其中之一,现有的预训练的大语言模型为LLaMA(Large Language Model Meta AI)、ChatGLM(General Language Model)其中之一;
通过两阶段训练模型,第一阶段:表示学习阶段,将Q-Former与参数固定的图像编码器相连,并使用第一步准备的【图像-文本】对进行预训练。目的是训练Q-Former,让其学会提取出包含文本信息的视觉特征;第二阶段:生成学习阶段,将Q-Former连接到冻结的现有的预训练的大语言模型,以利用大语言模型的语言生成能力,得到最终的图像描述信息提取模型。
2、读取文档内容,提取文档中每行文本及其对应的行号、图像及图像在文档中的行号、图像上下文及图像上下文在文档中的行号,
3、将文档读取模块中提取的图像输入图像描述信息提取模块,获取描述图像的文字;
4、将文本和文本所在文档中的行号组合在一起,形成【文本-行号】对;将描述图像的文字和该图像所在文档中的行号组合在一起,形成【描述图像的文字-行号】;将图像上下文和图像上下文所在文档中的行号组合在一起,形成【图像上下文-行号】;
5、将上述所有的【图像上下文文本-行号】对及【描述图像的文字-行号】对按行号顺序拼接在一起,具体的最终数据格式为[【图像上下文-行号1】,【描述图像的文字-行号2】,【图像上下文-行号3】,...],将最终的数据格式输入文本融合模块1,获得融合后的文本,标记为文本A;
6、通过文本修正模块将图像上下文的最小行号到最大行号中的所有内容使用上述的文本A进行替换,获得最终的文本B;
7、将文本B输入文字信息向量提取模块,对文字部分进行信息抽取,获得文字部分特征信息,通过词嵌入的方式获取文本的特征向量;
8、将图像输入图像特征向量提取模块,获得图像特征向量;
9、采用已有的主成分分析方法对所述文本特征向量、图像特征向量,提取其主要信息,调整为统一维度的特征向量;
10、将上述统一维度后的特征向量融合获得文档的融合特征信息向量;
11、将文档的融合特征信息向量输入数据存储模块保存;
12、将要检索的问题转换为和上文统一维度的特征向量,依次计算已保存的特征向量和问题向量的余弦值,大于预定阈值的已保存的特征向量对应的内容即为所需要的和问题相关的信息;
其中文本特征向量通过word2vec的方式获取;
其中图像特征向量通过训练的预训练的图像编码器获取;
其中主成分分析法可执行的技术实现如下:
假设要把一个M维的数据降为K维,为了方便表示,这里可以表示为将M维的N条样本转化为K维的N条样本,即把一个N*M的矩阵X转换为N*K的矩阵Y。用公式可以表示为:
Y=XP
其中,P是M*K的变换矩阵,其次我们需要求解Y的协方差矩阵:
其中,m为样本数量,C为原矩阵X的协方差矩阵。
因为P为正交矩阵,则可以转化为:
C=PDP-1
求P的过程实际上是求C的M个特征向量的过程。因为协方差矩阵C是实对称矩阵,所以它的特征向量相互正交,P为正交矩阵,满足我们的要求。注意这里的P依然是一个M*M的矩阵。为了使投影的结果在每一维上离散,以减少信息损失,可以保留D矩阵中的前K大的特征值,同时取对应的前K个特征值组成最终的PCA降维变换矩阵P。求解变换矩阵P实际上是在求原矩阵的协方差矩阵的特征向量。这个协方差矩阵可以表示为:
因为P是正交矩阵(矩阵的转置等于矩阵的逆),求变换矩阵P实际上可以直接通过求解原矩阵X的SVD分解,然后选取前K个奇异值对应的V矩阵,即为最终的变换矩阵P;
其中特征向量融合可执行的技术实现如下:
对文本向量和图像特征向量进行维度调整,确保文本向量和图像特征向量的维度一致,本实施例中将文本特征向量、图像特征向量采用已有的主成分分析方法,调整为1024维的向量;
构建向量融合模型;
c)使用向量融合模型将文本特征向量、图像特征向量两个向量融合为最终的特征向量;
d)将用户输入的问题输入文本特征相向量提取模块,得到向量;
e)使用向量融合模型的权重将向量转换为新的问题向量,通过计算问题和已存储的特征向量的余弦相似度寻找和用户输入问题最相关的内容。
其中向量相似度计算可执行的技术实现如下:
余弦相似度的取值范围是[-1,1],相同两个向量的之间的相似度为1,设A和B是两个任意向量,其余弦相似度的定义公式为:
应理解,此处的实施例仅用于说明本发明而不用于限制本发明的范围,本领域的普通技术人员从上述构思出发,不经创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。

Claims (10)

1.一种多模态信息融合的文档内容增强检索系统,其特征在于,所述系统包括文件读取模块:将文档输入文件读取模型,按行提取文档中的文本、文本所在行号、图像、图像所在行号、图像上下文文本、图像上下文所在行号;
图像描述信息提取模块:将文档中的图像数据生成描述图像内容的文字;
文本融合模块:将文档中的图像上下文的文字及文本行号、图像描述信息提取模块提取的描述图像的文字及图像行号通过该文本融合模块融合为文本A;
文本修正模块:将图像上下文的最小行号到最大行号中的所有内容使用上述的文本A进行替换,获得最终的文本B;
文字信息向量提取模块:将文本特征进行信息向量抽取;
图像特征向量提取模块:将图像特征进行信息向量抽取;
向量维度统一模块:将文档的全部信息向量通过已有的主成分分析方法抽取出其特征向量,并调整为统一维度的向量;
向量融合模块:将文档的调整后的统一维度的向量通过该模块生成一个最终的特征向量;
数据存储模块:将上述的最终的特征向量存储至此模块;
问题检索模块:将输入的问题通过文字信息向量提取模块转化为向量后,再使用向量融合模块中模型的权重转化为新的向量,再通过计算向量余弦距离的方式比较问题和内容的相关度从而返回和问题相关的内容。
2.一种基于权利要求1所述的多模态信息融合的文档内容增强检索系统的多模态信息融合的文档内容增强检索方法,其特征在于,包括以下步骤:
S1:构建图像描述信息提取模型;
S2:构建文本融合模型;
S3:读取文档内容,按行提取文档中每行的文本内容及行号、图像及图像在文档中的行号、图像上下文的文本内容及行号;
S4:将S3中提取的图像输入图像描述信息提取模块,获取图像内容的文字描述;
S5:将S3中提取的文档中图像上下文的文本、文本行号、S4中获取的图像内容的文字描述及S3中提取的图像行号,分别组合在一起输入文本融合模块,获得图像上下文和图像文字描述信息融合后的文本A;
S6:将S5获得的融合了图像上下文及图像描述信息的文本A输入文本修正模块获得最终的融合后的文本B;
S7:将文本B输入文字信息向量提取模块,对文字部分进行信息抽取,获得文字部分特征信息,通过词嵌入的方式获取文本特征向量;
S8:将图像输入图像特征向量提取模块,获得图像特征向量;
S9:采用已有的主成分分析方法对所述文本特征向量、图像特征向量,提取其主要信息,调整为统一维度的特征向量;
S10:将上述统一维度的特征向量融合获得文档的融合特征信息向量;
S11:将所述的融合后的特征信息向量输入数据存储模块保存;
S12:将要检索的问题转换为和上文统一维度的特征向量,依次计算已保存的特征向量和问题向量的余弦值,大于预定阈值的已保存的特征向量对应的内容即为所需要的和问题相关的信息。
3.根据权利要求2所述的多模态信息融合的文档内容增强检索方法,其特征在于,所述步骤S1中构建图像描述信息提取模型的步骤为:
a)、构建数据集,收集一万张图像,并对每张图像的内容用文本的形式进行描述,形成【图像-文本】对;
b)、基于BLIP-2架构训练图像描述信息提取模型,所述BLIP-2架构由现有的预训练的图像编码器,现有的预训练的大语言模型,和一个可学习的Q-Former组成,现有的预训练的图像编码器负责从输入图片中提取视觉特征,现有的预训练的大语言模型负责文本生成,Q-Former负责弥合视觉和语言两种模态的差距,具体的Q-Former由一个图像transformer,与冻结的图像编码器互动,进行视觉特征提取,一个文本transformer,作为文本编码器和文本解码器组成;
c)、通过两阶段训练模型,第一阶段:表示学习阶段,将Q-Former与参数固定的图像编码器相连,并使用第一步准备的【图像-文本】对进行预训练,目的是训练Q-Former,让其学会提取出包含文本信息的视觉特征;第二阶段:生成学习阶段,将Q-Former连接到冻结的现有的预训练的大语言模型,以利用大语言模型的语言生成能力,得到最终的图像描述信息提取模型。
4.根据权利要求2所述的多模态信息融合的文档内容增强检索方法,其特征在于,所述步骤S2中构建文本融合模型是基于LLM模型构建文本融合模型。
5.根据权利要求2所述的多模态信息融合的文档内容增强检索方法,其特征在于,所述步骤S7中文本特征向量通过word2vec的方式获取。
6.根据权利要求2所述的多模态信息融合的文档内容增强检索方法,其特征在于,所述步骤S8中图像特征向量通过现有的预训练的图像编码器获取。
7.根据权利要求2所述的多模态信息融合的文档内容增强检索方法,其特征在于,所述步骤S9中已有的主成分分析方法可执行的技术实现如下:假设要把一个M维的数据降为K维,为了方便表示,这里可以表示为将M维的N条样本转化为K维的N条样本,即把一个N*M的矩阵X转换为N*K的矩阵Y,用公式可以表示为:
Y=XP
其中,P是M*K的变换矩阵,其次我们需要求解Y的协方差矩阵:
其中,m为样本数量,C为原矩阵X的协方差矩阵;
因为P为正交矩阵,则可以转化为:
C=PDP-1
求P的过程实际上是求C的M个特征向量的过程,因为协方差矩阵C是实对称矩阵,所以它的特征向量相互正交,P为正交矩阵,满足我们的要求,注意这里的P依然是一个M*M的矩阵,为了使投影的结果在每一维上离散,以减少信息损失,可以保留D矩阵中的前K大的特征值,同时取对应的前K个特征值组成最终的PCA降维变换矩阵P,求解变换矩阵P实际上是在求原矩阵的协方差矩阵的特征向量,这个协方差矩阵可以表示为:
因为P是正交矩阵(矩阵的转置等于矩阵的逆),求变换矩阵P实际上可以直接通过求解原矩阵X的SVD分解,然后选取前K个奇异值对应的V矩阵,即为最终的变换矩阵P。
8.根据权利要求2所述的多模态信息融合的文档内容增强检索方法,其特征在于,所述步骤S10中特征向量融合可执行的技术实现如下:
a)对文本向量和图像特征向量进行维度调整,确保文本向量和图像特征向量的维度一致,将文本特征向量、图像特征向量采用已有的主成分分析方法调整为1024维的向量;
b)构建向量融合模型;
c)使用向量融合模型将文本特征向量、图像特征向量两个向量融合为最终的特征向量;
d)将用户输入的问题输入文本特征相向量提取模块,得到向量;
e)使用向量融合模型的权重将向量转换为新的问题向量,通过计算问题和已存储的特征向量的余弦相似度寻找和用户输入问题最相关的内容。
9.根据权利要求2所述的多模态信息融合的文档内容增强检索方法,其特征在于,所述步骤S12中特征向量和问题向量的余弦值计算方法为:余弦相似度的取值范围是[-1,1],相同两个向量的之间的相似度为1,设A和B是两个任意向量,其余弦相似度的定义公式为:
10.根据权利要求3所述的多模态信息融合的文档内容增强检索方法,其特征在于,所述步骤b)中现有的预训练的图像编码器为ResNet(Residual Network)、ViT(VisionTransformers)、SwinT(Swin Transformer)其中之一,所述现有的预训练的大语言模型为LLaMA(Large Language Model Meta AI)、ChatGLM(General Language Model)其中之一。
CN202311454975.7A 2023-11-03 2023-11-03 一种多模态信息融合的文档内容增强检索系统及方法 Pending CN117312601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311454975.7A CN117312601A (zh) 2023-11-03 2023-11-03 一种多模态信息融合的文档内容增强检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311454975.7A CN117312601A (zh) 2023-11-03 2023-11-03 一种多模态信息融合的文档内容增强检索系统及方法

Publications (1)

Publication Number Publication Date
CN117312601A true CN117312601A (zh) 2023-12-29

Family

ID=89249981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311454975.7A Pending CN117312601A (zh) 2023-11-03 2023-11-03 一种多模态信息融合的文档内容增强检索系统及方法

Country Status (1)

Country Link
CN (1) CN117312601A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648429A (zh) * 2024-01-30 2024-03-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于多模态自适应检索式增强大模型的问答方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971222A (zh) * 2021-10-28 2022-01-25 重庆紫光华山智安科技有限公司 一种多模态复合编码图像检索方法和系统
CN114118111A (zh) * 2021-11-26 2022-03-01 昆明理工大学 融合文本和图片特征的多模态机器翻译方法
CN115017266A (zh) * 2022-06-23 2022-09-06 天津理工大学 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备
CN116561368A (zh) * 2023-06-06 2023-08-08 厦门大学 一种基于多任务训练的图像描述和问答方法
CN116978048A (zh) * 2023-09-25 2023-10-31 北京中关村科金技术有限公司 上下文内容获取方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971222A (zh) * 2021-10-28 2022-01-25 重庆紫光华山智安科技有限公司 一种多模态复合编码图像检索方法和系统
CN114118111A (zh) * 2021-11-26 2022-03-01 昆明理工大学 融合文本和图片特征的多模态机器翻译方法
CN115017266A (zh) * 2022-06-23 2022-09-06 天津理工大学 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备
CN116561368A (zh) * 2023-06-06 2023-08-08 厦门大学 一种基于多任务训练的图像描述和问答方法
CN116978048A (zh) * 2023-09-25 2023-10-31 北京中关村科金技术有限公司 上下文内容获取方法、装置、电子设备和存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ICE_SPRING: "主成分分析(PCA)与矩阵奇异值分解(SVD)原理", pages 1 - 9, Retrieved from the Internet <URL:https://www.jianshu.com/p/6d9fed45c27a> *
JUNNAN LI 等: "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models", 《ARXIV》, 1 May 2023 (2023-05-01), pages 1 - 13 *
YINING HONG 等: "3D-LLM: Injecting the 3D World into Large Language Models", 《ARXIV》, 24 July 2023 (2023-07-24), pages 1 - 19 *
朱若琳 等: "视觉-语言多模态预训练模型前沿进展", 《中国传媒大学学报(自然科学版)》, 20 February 2023 (2023-02-20), pages 66 - 74 *
科技猛兽: "多模态超详细解读 (七):BLIP-2:节约多模态训练成本:冻结预训练好的视觉语言模型参数", pages 1 - 7, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/628375255> *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648429A (zh) * 2024-01-30 2024-03-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于多模态自适应检索式增强大模型的问答方法及系统
CN117648429B (zh) * 2024-01-30 2024-04-30 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于多模态自适应检索式增强大模型的问答方法及系统

Similar Documents

Publication Publication Date Title
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN111858954A (zh) 面向任务的文本生成图像网络模型
CN109740158B (zh) 一种文本语义解析方法及装置
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN112182166A (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN111931061B (zh) 标签映射方法、装置、计算机设备及存储介质
CN117312601A (zh) 一种多模态信息融合的文档内容增强检索系统及方法
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN110866129A (zh) 一种基于跨媒体统一表征模型的跨媒体检索方法
CN114510570A (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN113392265A (zh) 多媒体处理方法、装置及设备
CN115687664A (zh) 中文图文检索方法及中文图文检索的数据处理方法
CN117494051A (zh) 一种分类处理的方法、模型训练的方法以及相关装置
CN116975288A (zh) 文本处理方法及文本处理模型训练方法
CN114281935A (zh) 搜索结果分类模型的训练方法、装置、介质及设备
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN114818727A (zh) 关键句抽取方法及装置
CN114169320A (zh) 一种基于词向量矩阵分解技术的多源数据融合方法及系统
CN115221315A (zh) 文本处理方法以及装置、句向量模型训练方法以及装置
CN114417863A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
CN114003706A (zh) 关键词组合生成模型训练方法及装置
CN114692610A (zh) 关键词确定方法及装置
CN117635275B (zh) 基于大数据的智能电商运营商品管理平台及方法
CN112115347B (zh) 搜索结果的获取方法和装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination