CN117332103A

CN117332103A - 基于关键词抽取和多模态特征融合的图像检索方法

Info

Publication number: CN117332103A
Application number: CN202311312226.0A
Authority: CN
Inventors: 段相勇
Original assignee: Guizhou Zhiyun Information Technology Co ltd
Current assignee: Guizhou Zhiyun Information Technology Co ltd
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2024-01-02

Abstract

本发明揭示了一种基于关键词抽取和多模态特征融合的图像检索方法，旨在解决信息时代中图像数据迅猛增长所带来的图像检索挑战。传统图像检索方法受限于特征提取的精度和关键词准确性，因此需要创新性的方法来提高检索的精确性和效率。本发明结合了自然语言处理技术、多角度特征提取、特征融合和多模态融合等关键技术，以实现更全面、更精确的图像检索。通过综合应用关键词抽取和多模态特征，本发明能够更好地满足用户的检索需求，为图像检索领域的进一步发展带来新的方向和机遇。在信息时代，这一方法有望在多领域应用中发挥重要作用，为面对日益庞大的图像数据提供了强大的工具。

Description

基于关键词抽取和多模态特征融合的图像检索方法

技术领域

本发明涉及计算机视觉和信息检索领域，特别是图像检索技术，它利用自然语言处理和多模态融合技术来提高图像检索的精确性和效率。

背景技术

在当前信息时代，图像数据不断增长，图像检索面临着巨大挑战；传统图像检索方法存在精度不足、关键词准确性有限以及视觉与语义信息难以融合等问题；为应对这些挑战，本发明融合了自然语言处理技术、多模态融合技术和多角度特征提取技术，旨在提高图像检索的准确性和效率，通过关键词抽取和多模态特征融合，本发明有望更好地满足用户的检索需求，为图像检索领域带来新的技术突破和广泛应用前景，解决了快速增长的图像数据检索问题。

发明内容

为了解决以上问题，本发明首次提出一种基于关键词抽取和多模态特征融合的图像检索方法，首先，从用户提供的内容中抽取关键词，以获得精确的查询指导；然后，采用多角度图像特征提取技术，获取多组具有多样性和鲁棒性的图像特征；这些多组特征被拼接成一个综合的特征向量，为后续的多模态融合奠定了基础；最终，通过先进的多模态融合算法，将关键词抽取的语义信息与图像特征提取的视觉信息有机结合在一起，实现更全面、更准确的图像检索。

1.为实现上述目的，本发明采取的技术方案是基于关键词抽取和多模态特征融合的图像检索方法，其特征在于以下步骤：

图像数据准备：构建一个包含大量图像的数据集，涵盖各种不同的主题和内容，将图像数据集进行有效索引和存储；

关键词特征提取：对输入的文本进行去除停用词、标点符号、特殊字符，以及文本分词、转换为小写操作，再通过词频统计，得到高频率单词分布；随后，采用TF-IDF加权方法对单词进行加权，应用主题建模技术Latent Dirichlet Allocation识别文本中的隐藏主题和与之相关的关键词，最后，进行关键词的筛选和排序，确定最终的关键词列表；

W-Bagging算子训练：首先加载图像，对图像进行尺寸重置、归一化、图像增强技术，并将处理过的图像采用有放回采样处理，然后进行边缘特征提取、物体特征提取、行为特征提取、背景特征提取4个算子的操作，反复迭代计算，形成具有预测能力的算子，并按照Lose计算公式进行预测图像的损失给定，最后将训练好的算子进行部署；

W-Bagging多角度特征提取：从边缘特征、物体特征、行为特征、背景特征多维度提取信息，使用KG-Filter过滤噪声；

特征拼接：从颜色直方图、纹理特征、形状描述符拼接一个综合的特征向量；

多模态融合算法：运用先进的多模态融合算法，将关键词抽取得到的信息与图像特征提取得到的信息融合在一起；

从检索结果输出：从关键词匹配度、图像质量、用户反馈因素，对图像进行过滤处理，排除不相关或低质量的图像，减少结果数量，排序输出。

2.权利要求1所述W-Bagging算子训练步骤的计算公式为：，其中W表示各个算子融合后的结果，分别表示各个算子的权重，/>分别表示边缘特征提取、物体特征提取、行为特征提取、背景特征提取这四个算子；concat则表示将经过加权过后的算子经过特定的维度融合在一起。

3.权利要求1中W-Bagging算子训练步骤所述Lose计算公式为：

，其中，y表示用真实的数据，/>表示预测图像，经过W-Bagging算子融合之后所获得的图像内容,/>表示指数函数。

4.权利要求1中W-Bagging多角度特征提取步骤所述KG-Filter计算公式如下：

，其中，G(x, y) 表示滤波后的像素值，(x, y) 是当前像素的坐标，F(x, y)是邻域内像素的值，m和n分别是滤波器的宽度和高度。

本发明具有以下效益：

1.提高图像检索准确性，本发明采用关键词抽取和多模态特征融合技术，能够更精确地捕捉用户的检索意图，从而提高了图像检索的准确性。通过视觉信息与语义信息的有机结合，能够生成更符合用户期望的搜索结果;

2.增强图像特征多样性，引入多角度图像特征提取技术，有助于捕捉到图像的多个方面和细节，提高了特征的多样性和鲁棒性。这使得系统能够更好地适应各种图像检索场景，包括复杂和多样化的情况；

3.满足多领域应用需求，由于本发明的通用性，它在多个领域具有广泛的应用前景。无论是医学影像分析、智能交通系统还是电子商务，都可以受益于该技术，提高相关性和效率；

4.推动图像检索领域发展，本发明创新性地综合运用了关键词抽取、多角度特征提取以及多模态融合技术，为图像检索领域带来新的技术突破和机遇，它为未来图像检索技术的发展提供了新的方向，有望推动该领域的研究和应用进一步发展。

附图说明

图1是基于关键词抽取和多模态特征融合的图像检索方法及系统流程图；

图2是基于关键词抽取和多模态特征融合的图像检索方法及系统关键词特征提取网络结构图；

图3是基于关键词抽取和多模态特征融合的图像检索方法及系统W-Bagging算子训练网络结构图；

图4是基于关键词抽取和多模态特征融合的图像检索方法及系统多角度特征提取网络结构图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

步骤S1：图像数据准备

图1所示为基于关键词抽取和多模态特征融合的图像检索方法及系统流程图，在基于关键词抽取和多模态特征融合的图像检索方法中，图像数据准备是关键的一步，它为整个图像检索系统的有效运行提供了必要的基础；图像数据准备阶段旨在收集、准备和组织待检索的图像数据集，以便后续的处理和分析；首先，我们需要构建一个包含大量图像的数据集，这些图像可以来自不同来源，如网络、图像库、摄像头捕捉等；这些图像可以涵盖各种不同的主题和内容，以确保图像检索系统具有广泛的适用性；这一数据集的多样性对于提高图像检索系统的性能至关重要，因为它可以反映用户可能的多样化需求；一旦图像数据集被收集，就需要进行预处理，以确保图像数据的一致性和质量；这包括图像的标准化大小、色彩校正、去噪和图像格式的转换等操作；这些预处理步骤有助于消除图像之间的差异，提高了后续特征提取和相似性计算的准确性；在数据准备阶段，还需要为每个图像建立相关的元数据；这些元数据包括图像的描述、关键词标签、拍摄时间、地点等信息；这些信息将与图像一起存储，以便后续的关键词抽取和多模态融合过程使用；最后，图像数据集需要进行有效的索引和存储，以便图像检索系统可以快速访问和检索图像；这可以通过建立数据库或使用索引技术来实现，以确保系统的高效性和可扩展性。

步骤S2：关键词特征提取

图2所示为本发明提供的关键词特征提取网络结构图，关键词特征提取是本发明中的核心步骤之一，旨在实现更准确和有效的图像检索；该过程的关键性在于通过自然语言处理技术从用户输入的文本中提取出关键词，这些关键词将成为后续图像检索的重要线索；关键词抽取过程包括以下步骤：首先，对用户输入的文本进行了必要的预处理；这包括去除停用词、标点符号、特殊字符等，以及文本分词、转换为小写等操作；这样的预处理措施有助于清理文本数据，使其更易于进一步分析；接着，通过词频统计，系统可以识别出文本中频率较高的单词；这些高频率单词通常是潜在的关键词候选者，因为它们在文本中出现得更为频繁；随后，采用TF-IDF（词频-逆文档频率）加权方法对单词进行排序和加权；TF-IDF考虑了一个词在文本中的频率以及在整个文本集合中的重要性；这一步骤有助于确定哪些单词在文本中具有更高的权重，可能更有可能成为关键词；接下来，生成一组关键词候选者，这些候选者基于TF-IDF加权；这些关键词候选者具有较高的权重，被认为与文本内容相关；进一步，应用主题建模技术，如Latent Dirichlet Allocation（LDA），以深入理解文本的主题和关键词；主题建模有助于识别文本中的隐藏主题和与之相关的关键词；最后，通过综合考虑关键词候选者、主题建模结果以及其他相关因素，进行关键词的筛选和排名，以确定最终的关键词列表；这一步骤综合考虑了关键词的权重、主题相关性和上下文信息，从而生成了最具代表性的关键词集合。

步骤S3：W-Bagging算子训练

图3所示为本发明提供的W-Bagging算子训练网络结构图，首先加载图像，对加载的图像进行预处理操作，主要包括尺寸重置、归一化、图像增强技术。接下来，对于处理过的图像采用有放回采样处理m次，防止数据集过少的情况出现；然后，对这m组数据分别进行边缘特征提取、物体特征提取、行为特征提取、背景特征提取4个算子的操作，经过不断的反复迭代计算，这四个算子形成了具有强大预测能力的算子，最后将训练好的算子进行部署，方便后期调用。

步骤S3所述W-Bagging算子计算公式为：

⑴

其中W表示各个算子融合后的结果，分别表示各个算子的权重，分别表示边缘特征提取、物体特征提取、行为特征提取、背景特征提取这四个算子。concat则表示将经过加权过后的算子经过特定的维度融合在一起，本发明所提出的W-Bagging算子融合技术可以综合考虑各个算子的优缺点进行权重分配，解决了单一算子进行特征提取时提取效果不佳的问题。

步骤S3所述Lose计算公式为：

⑵

其中，表示用真实的数据，比如在本次申请的专利中，你所搜索的内容的实际图片，/>表示预测图像，比如在本次申请的专利中经过W-Bagging算子融合之后所获得的图像内容；/>表示指数函数，可避免Lose值产生负值，且因指数的存在，使得损失值大的数据更大，模型可以更多关注损失值大的数据。

步骤S4：W-Bagging多角度特征提取，使用KG-Filter过滤噪声。

图4所示为本发明提供的多角度特征提取网络结构图。

W-Bagging多角度图像特征提取是本发明的关键步骤之一，旨在从不同视角全面捕捉图像的多样性和丰富性。此过程涉及引入图3所示为本发明提供的W-Bagging算子训练网络结构图；算法通过在不同角度下提取多组特征，从而增强了图像的表达能力和鲁棒性；算法允许系统以多个视觉角度分析图像，捕捉到其多个方面和细节，从边缘特征、物体特征、行为特征、背景特征等多角度提取信息；这些多角度提取的特征将在后续步骤中被拼接成一个综合的特征向量，为多模态信息融合提供了有力的基础；这一创新的特征提取方法能够显著提高图像检索系统的性能，使其更具适用性，适用于不同领域的图像检索需求，从而推动了图像检索领域的进一步发展和创新。

步骤S4所述KG-Filter计算公式如下：

⑶

其中，G(x, y) 表示滤波后的像素值，(x, y) 是当前像素的坐标，F(x, y)是邻域内像素的值，m和n分别是滤波器的宽度和高度。

步骤S5：特征拼接

特征拼接是本发明中的关键步骤之一，旨在将从多个角度提取的图像特征有机地结合在一起，以创建一个综合的特征向量；这个过程是多模态信息融合的基础，通过将不同视角和维度的特征有序地组合，形成一个更丰富和全面的特征表示；首先，经过多角度图像特征提取后，我们得到了多组特征，每组特征代表了图像在不同视角或特性下的表现；这些特征可能包括颜色直方图、纹理特征、形状描述符等，它们以不同的方式描述了图像的各个方面；接下来，特征拼接阶段将这些不同的特征组合在一起，形成一个综合的特征向量；这一向量维度较高，反映了图像在多个方面的特征信息，从而提供了更全面的视觉描述；特征的拼接可以通过简单的向量连接操作来实现，也可以采用更复杂的融合技术，如主成分分析（PCA）或线性判别分析（LDA），以确保特征的有用性和互补性；这一步骤有助于将来自不同角度提取的特征信息有机地结合在一起，减少了信息的冗余性，增强了特征的多样性，使特征向量更具鲁棒性；最终，生成的综合特征向量将作为多模态信息融合的输入，与从关键词抽取得到的语义信息相结合，实现更全面、更精确的图像检索；通过特征拼接，图像检索系统能够更好地利用图像的多方面信息，提高了检索结果的质量和准确性，满足了用户的多样化检索需求。

步骤S6：多模态融合算法

运用先进的多模态融合算法，将关键词抽取得到的信息与图像特征提取得到的信息融合在一起；这一步骤使得图像的视觉信息和语义信息得以有机结合，从而实现更全面、更精确的图像检索。

步骤S7：检索结果输出

经过上述步骤处理后的结果还需要经过滤处理，首先，采用多种方法排除不相关或低质量的图像，从而减少结果数量，将注意力集中在最有可能满足用户需求的图像上；接着，通过先进的排序算法，考虑关键词匹配度、图像质量、用户反馈等因素，对图像进行排序，确保用户首先看到最相关的图像；此外，还可以根据用户的个性化排序偏好，进一步提升用户体验；这一过程不仅提高了图像检索系统的实用性，还提高了用户满意度，使系统能够更好地应对大规模图像数据库的挑战。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或者等同变化，仍属于本发明所要求保护的范围。

Claims

1.基于关键词抽取和多模态特征融合的图像检索方法，其特征在于以下步骤：

3.权利要求1中W-Bagging算子训练步骤所述Lose计算公式为：