CN117609527A - 一种基于向量数据库的跨模态数据检索优化方法 - Google Patents

一种基于向量数据库的跨模态数据检索优化方法 Download PDF

Info

Publication number
CN117609527A
CN117609527A CN202410060942.2A CN202410060942A CN117609527A CN 117609527 A CN117609527 A CN 117609527A CN 202410060942 A CN202410060942 A CN 202410060942A CN 117609527 A CN117609527 A CN 117609527A
Authority
CN
China
Prior art keywords
vector
query
training model
database
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410060942.2A
Other languages
English (en)
Inventor
程超
李传阳
郑文
杨佳玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Artificial Intelligence And Big Data Research Institute Co ltd
Original Assignee
Hefei Artificial Intelligence And Big Data Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Artificial Intelligence And Big Data Research Institute Co ltd filed Critical Hefei Artificial Intelligence And Big Data Research Institute Co ltd
Priority to CN202410060942.2A priority Critical patent/CN117609527A/zh
Publication of CN117609527A publication Critical patent/CN117609527A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于向量数据库的跨模态数据检索优化方法,涉及利用文本跨模态检索图像,及后续利用少量标注样本优化检索结果,该方法结合视觉语言预训练模型、向量数据库、少样本特征向量微调,实现跨模态检索及后续优化等,包括:利用视觉语言预训练模型提取图像和文本的特征向量,使之映射到同一个向量空间中;将图像提取得到的特征向量存入向量数据库中,将文字提取得到的特征向量作为查询向量,在向量数据库中做向量相似度检索;将得到的检索结果进行标注,并据此微调此场景下的查询向量,重新查询,此过程可不断迭代,此方法在不微调预训练模型的情况下,实现具体场景的检索优化。

Description

一种基于向量数据库的跨模态数据检索优化方法
技术领域
本发明涉及视觉语言预训练模型与人工智能的技术领域,具体为一种基于向量数据库的跨模态数据检索优化方法。
背景技术
近年来,数字媒体技术的快速发展,图像、文本等多模态数据在互联网上广泛传播,跨模态检索需求日益增多,但当下的以文搜图多是借助图片的标注文字进行检索,并非真正的跨模态检索,同时由于绝大部分原始图片无标注,使得此方法应用十分局限;而随着深度学习的发展,利用多模态表示学习实现跨模态检索成为一种新的可行方法,但前期由于模型能力一般使得效果不佳;而随着Transformer架构的提出,视觉语言预训练模型快速发展以及利用4亿图像文本对训练的CLIP模型正式提出,打破了图像与文本的界限;
现有的样本学习方法基于数据或模型或算法,但基于数据的方法存在数据多样性不足,容易过拟合等问题;基于模型的方法或消耗资源较多,或效果不佳;基于算法的方法存在精度降低、收敛速度慢等问题,导致现有的样本学习方法大多消耗资源多、学习时间长,难以快速响应实际需求。
发明内容
本发明的目的在于提出了一种基于向量数据库的跨模态数据检索优化方法,基于向量数据库,通过视觉语言预训练模型将非结构化数据存储为向量形式,实现对海量非结构化数据的插入和查询;基于视觉语言预训练模型,通过少量的数据标注,实现具体应用场景下,算法模型的再训练。
本发明的目的可以通过以下技术方案实现:
一种基于向量数据库的跨模态数据检索优化方法,包括以下步骤:
S1: 将海量无标注非结构化的原始图片经过视觉语言预训练模型的图像编码器转化为存储向量,并将存储向量存入至向量数据库,同时将原始图片存入存储库;
S2:将查询文本经过视觉语言预训练模型的文本编码器转化为查询向量,并将查询向量与向量数据库中的存储向量进行相似度匹配,得到匹配向量;
S3:获取匹配向量在存储库中对应的原始图片,将对应的原始图片进行人为标注,根据人为标注结果对查询向量进行微调,将微调后的查询向量与向量数据库中的存储向量进行相似度匹配,得到最终结果。
作为本发明进一步的方案:将海量无标注非结构化的原始图片经过视觉语言预训练模型的图像编码器转化为存储向量,并将存储向量存入至向量数据库,还包括:
所述视觉语言预训练模型的图像编码器采用卷积神经网络或ViT架构;
对利用图像编码器转化后的存储向量长度进行归一化处理。
作为本发明进一步的方案:将查询文本经过视觉语言预训练模型的文本编码器转化为查询向量,并将查询向量与向量数据库中的存储向量进行向量相似度匹配,得到匹配结果,还包括:
所述视觉语言预训练模型的文本编码器采用Transformer架构。
作为本发明进一步的方案:根据人为标注结果对查询向量进行微调包括:
将对应的原始图片进行人为标注,符合要求的标注为1,不符合要求的标注为0,得到样本对及/>,其中/>是视觉语言预训练模型的图像编码器,/>是与匹配向量对应的原始图片;
利用公式拟合标注后的结果,其中/>是人为标注结果,/>初始化为上次查询向量,利用标注样本,采用一层线性神经网络对/>进行微调,并利用微调后的/>重新进行查询。
作为本发明进一步的方案:若最终结果的相似精度不足,可不断迭代上述过程。
本发明的有益效果:
1.本发明可以实现海量非结构化数据的快速跨模态检索,以及在具体应用场景下的小样本优化,提高检索精度;此外,该方法简单易实施,不微调基础模型,消耗资源少,能快速响应实际需求。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明数据检索优化的流程示意图;
图2为本发明微调查询向量的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明公开了一种基于向量数据库的跨模态数据检索优化方法,包括以下步骤:
S1: 将海量无标注非结构化的原始图片经过视觉语言预训练模型的图像编码器转化为存储向量,并将存储向量存入至向量数据库,同时将原始图片存入存储库;
S2:将查询文本经过视觉语言预训练模型的文本编码器转化为查询向量,并将查询向量与向量数据库中的存储向量进行相似度匹配,得到匹配向量;
S3:获取匹配向量在存储库中对应的原始图片,将对应的原始图片进行人为标注,根据人为标注结果对查询向量进行微调,将微调后的查询向量与向量数据库中的存储向量进行相似度匹配,得到最终结果。
所述视觉语言预训练模型的图像编码器采用卷积神经网络或ViT架构;
对利用图像编码器转化后的存储向量长度进行归一化处理。
所述视觉语言预训练模型的文本编码器采用Transformer架构。
上述基于向量数据库的跨模态数据检索方法得到的结果可能不完全正确,可以将对应的原始图片进行人为标注,符合要求的标注为1,不符合要求的标注为0,得到样本对及/>,其中/>是视觉语言预训练模型的图像编码器,/>是与匹配向量对应的原始图片;
如图2所示,利用公式拟合标注后的结果,其中/>是人为标注结果,利用标注样本,采用一层线性神经网络对/>进行微调。由于在训练过程中查询向量与正样本的图片编码点乘趋向于1,与负样本的图片编码点乘趋向于0,故可取归一化后的作为查询向量重新查询,若最终结果的相似精度不足,可不断迭代上述过程。
本发明实施例中,选用Chinese-CLIP ViT-B/16作为基础视觉语言预训练模型,选用CIFAR-10和CIFAR-100两个数据集上优化测试,并将其标签译为中文,实验选取mAP作为评估指标,数据如表1所示:
表1
综上所述,无论是在简单数据集上、还是在较难数据集上,基于向量数据库的跨模态数据检索方法均可给出一个较优精度,且经过少量样本优化,可以提高此精度。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (5)

1.一种基于向量数据库的跨模态数据检索优化方法,其特征在于,包括以下步骤:
S1: 将海量无标注非结构化的原始图片经过视觉语言预训练模型的图像编码器转化为存储向量,并将存储向量存入至向量数据库,同时将原始图片存入存储库;
S2:将查询文本经过视觉语言预训练模型的文本编码器转化为查询向量,并将查询向量与向量数据库中的存储向量进行相似度匹配,得到匹配向量;
S3:获取匹配向量在存储库中对应的原始图片,将对应的原始图片进行人为标注,根据人为标注结果对查询向量进行微调,将微调后的查询向量与向量数据库中的存储向量进行相似度匹配,得到最终结果。
2.根据权利要求1所述的一种基于向量数据库的跨模态数据检索优化方法,其特征在于,将海量无标注非结构化的原始图片经过视觉语言预训练模型的图像编码器转化为存储向量,并将存储向量存入至向量数据库,还包括:
所述视觉语言预训练模型的图像编码器采用卷积神经网络或ViT架构;
对利用图像编码器转化后的存储向量长度进行归一化处理。
3.根据权利要求1所述的一种基于向量数据库的跨模态数据检索优化方法,其特征在于,将查询文本经过视觉语言预训练模型的文本编码器转化为查询向量,并将查询向量与向量数据库中的存储向量进行向量相似度匹配,得到匹配结果,还包括:
所述视觉语言预训练模型的文本编码器采用Transformer架构。
4.根据权利要求2所述的一种基于向量数据库的跨模态数据检索优化方法,其特征在于,根据人为标注结果对查询向量进行微调包括:
将对应的原始图片进行人为标注,符合要求的标注为1,不符合要求的标注为0,得到样本对及/>,其中/>是视觉语言预训练模型的图像编码器,/>是与匹配向量对应的原始图片;
利用公式拟合标注后的结果,其中/>是人为标注结果,/>初始化为上次查询向量,利用标注样本和一层线性神经网络对/>进行微调,并利用微调后的/>重新进行匹配。
5.根据权利要求1所述的一种基于向量数据库的跨模态数据检索优化方法,其特征在于,若最终结果的相似精度不足,可不断迭代上述步骤。
CN202410060942.2A 2024-01-16 2024-01-16 一种基于向量数据库的跨模态数据检索优化方法 Pending CN117609527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410060942.2A CN117609527A (zh) 2024-01-16 2024-01-16 一种基于向量数据库的跨模态数据检索优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410060942.2A CN117609527A (zh) 2024-01-16 2024-01-16 一种基于向量数据库的跨模态数据检索优化方法

Publications (1)

Publication Number Publication Date
CN117609527A true CN117609527A (zh) 2024-02-27

Family

ID=89960104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410060942.2A Pending CN117609527A (zh) 2024-01-16 2024-01-16 一种基于向量数据库的跨模态数据检索优化方法

Country Status (1)

Country Link
CN (1) CN117609527A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911914A (zh) * 2022-04-24 2022-08-16 中国电子科技集团公司第五十四研究所 一种跨模态图文检索方法
US20220383048A1 (en) * 2021-05-19 2022-12-01 Baidu Usa Llc Systems and methods for cross-lingual cross-modal training for multimodal retrieval
CN115658954A (zh) * 2022-10-28 2023-01-31 华东师范大学 一种基于提示学习的跨模态检索对抗防御方法
CN116049367A (zh) * 2023-01-29 2023-05-02 北京百分点科技集团股份有限公司 一种基于无监督知识增强的视觉-语言预训练方法及装置
CN116662599A (zh) * 2023-07-28 2023-08-29 知呱呱(天津)大数据技术有限公司 一种基于对比学习算法的多模态商标检索方法及系统
CN116775922A (zh) * 2023-05-16 2023-09-19 中国航空综合技术研究所 基于语言与视觉细节特征融合的遥感图像跨模态检索方法
CN116861995A (zh) * 2023-07-10 2023-10-10 京东科技信息技术有限公司 多模态预训练模型的训练及多模态数据处理方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220383048A1 (en) * 2021-05-19 2022-12-01 Baidu Usa Llc Systems and methods for cross-lingual cross-modal training for multimodal retrieval
CN114911914A (zh) * 2022-04-24 2022-08-16 中国电子科技集团公司第五十四研究所 一种跨模态图文检索方法
CN115658954A (zh) * 2022-10-28 2023-01-31 华东师范大学 一种基于提示学习的跨模态检索对抗防御方法
CN116049367A (zh) * 2023-01-29 2023-05-02 北京百分点科技集团股份有限公司 一种基于无监督知识增强的视觉-语言预训练方法及装置
CN116775922A (zh) * 2023-05-16 2023-09-19 中国航空综合技术研究所 基于语言与视觉细节特征融合的遥感图像跨模态检索方法
CN116861995A (zh) * 2023-07-10 2023-10-10 京东科技信息技术有限公司 多模态预训练模型的训练及多模态数据处理方法和装置
CN116662599A (zh) * 2023-07-28 2023-08-29 知呱呱(天津)大数据技术有限公司 一种基于对比学习算法的多模态商标检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑瀚ANDREW: "深度学习网络微调的基本原理", pages 1 - 4, Retrieved from the Internet <URL:https://www.cnblogs.com/LittleHann/p/17354069.html> *

Similar Documents

Publication Publication Date Title
CN112004111B (zh) 一种全域深度学习的新闻视频信息抽提方法
CN107239801B (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN112836702B (zh) 一种基于多尺度特征提取的文本识别方法
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN111782853B (zh) 基于注意力机制的语义图像检索方法
CN114596566B (zh) 文本识别方法及相关装置
US20110093264A1 (en) Providing Information Services Related to Multimodal Inputs
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN110866129A (zh) 一种基于跨媒体统一表征模型的跨媒体检索方法
CN114461839A (zh) 基于多模态预训练的相似图片检索方法、装置及电子设备
CN117010500A (zh) 一种多源异构知识联合增强的视觉知识推理问答方法
CN114491036A (zh) 一种基于自监督和有监督联合训练的半监督文本分类方法及系统
CN112085120A (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN114912512A (zh) 一种对图像描述的结果进行自动评估的方法
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
CN117610658A (zh) 一种基于人工智能的知识图谱数据动态更新方法及系统
CN117635275A (zh) 基于大数据的智能电商运营商品管理平台及方法
CN110287799B (zh) 基于深度学习的视频ucl语义标引方法与装置
CN112329604A (zh) 一种基于多维度低秩分解的多模态情感分析方法
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN117609527A (zh) 一种基于向量数据库的跨模态数据检索优化方法
CN115599953A (zh) 视频文本检索模型的训练方法、检索方法及相关设备
CN114398489A (zh) 一种基于Transformer的实体关系联合抽取方法、介质及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination