CN117332103A - 基于关键词抽取和多模态特征融合的图像检索方法 - Google Patents
基于关键词抽取和多模态特征融合的图像检索方法 Download PDFInfo
- Publication number
- CN117332103A CN117332103A CN202311312226.0A CN202311312226A CN117332103A CN 117332103 A CN117332103 A CN 117332103A CN 202311312226 A CN202311312226 A CN 202311312226A CN 117332103 A CN117332103 A CN 117332103A
- Authority
- CN
- China
- Prior art keywords
- image
- feature extraction
- fusion
- image retrieval
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 64
- 230000004927 fusion Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000005516 engineering process Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000002360 preparation method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000011161 development Methods 0.000 abstract description 3
- 230000000007 visual effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明揭示了一种基于关键词抽取和多模态特征融合的图像检索方法,旨在解决信息时代中图像数据迅猛增长所带来的图像检索挑战。传统图像检索方法受限于特征提取的精度和关键词准确性,因此需要创新性的方法来提高检索的精确性和效率。本发明结合了自然语言处理技术、多角度特征提取、特征融合和多模态融合等关键技术,以实现更全面、更精确的图像检索。通过综合应用关键词抽取和多模态特征,本发明能够更好地满足用户的检索需求,为图像检索领域的进一步发展带来新的方向和机遇。在信息时代,这一方法有望在多领域应用中发挥重要作用,为面对日益庞大的图像数据提供了强大的工具。
Description
技术领域
本发明涉及计算机视觉和信息检索领域,特别是图像检索技术,它利用自然语言处理和多模态融合技术来提高图像检索的精确性和效率。
背景技术
在当前信息时代,图像数据不断增长,图像检索面临着巨大挑战;传统图像检索方法存在精度不足、关键词准确性有限以及视觉与语义信息难以融合等问题;为应对这些挑战,本发明融合了自然语言处理技术、多模态融合技术和多角度特征提取技术,旨在提高图像检索的准确性和效率,通过关键词抽取和多模态特征融合,本发明有望更好地满足用户的检索需求,为图像检索领域带来新的技术突破和广泛应用前景,解决了快速增长的图像数据检索问题。
发明内容
为了解决以上问题,本发明首次提出一种基于关键词抽取和多模态特征融合的图像检索方法,首先,从用户提供的内容中抽取关键词,以获得精确的查询指导;然后,采用多角度图像特征提取技术,获取多组具有多样性和鲁棒性的图像特征;这些多组特征被拼接成一个综合的特征向量,为后续的多模态融合奠定了基础;最终,通过先进的多模态融合算法,将关键词抽取的语义信息与图像特征提取的视觉信息有机结合在一起,实现更全面、更准确的图像检索。
1.为实现上述目的,本发明采取的技术方案是基于关键词抽取和多模态特征融合的图像检索方法,其特征在于以下步骤:
图像数据准备:构建一个包含大量图像的数据集,涵盖各种不同的主题和内容,将图像数据集进行有效索引和存储;
关键词特征提取:对输入的文本进行去除停用词、标点符号、特殊字符,以及文本分词、转换为小写操作,再通过词频统计,得到高频率单词分布;随后,采用TF-IDF加权方法对单词进行加权,应用主题建模技术Latent Dirichlet Allocation识别文本中的隐藏主题和与之相关的关键词,最后,进行关键词的筛选和排序,确定最终的关键词列表;
W-Bagging算子训练:首先加载图像,对图像进行尺寸重置、归一化、图像增强技术,并将处理过的图像采用有放回采样处理,然后进行边缘特征提取、物体特征提取、行为特征提取、背景特征提取4个算子的操作,反复迭代计算,形成具有预测能力的算子,并按照Lose计算公式进行预测图像的损失给定,最后将训练好的算子进行部署;
W-Bagging多角度特征提取:从边缘特征、物体特征、行为特征、背景特征多维度提取信息,使用KG-Filter过滤噪声;
特征拼接:从颜色直方图、纹理特征、形状描述符拼接一个综合的特征向量;
多模态融合算法:运用先进的多模态融合算法,将关键词抽取得到的信息与图像特征提取得到的信息融合在一起;
从检索结果输出:从关键词匹配度、图像质量、用户反馈因素,对图像进行过滤处理,排除不相关或低质量的图像,减少结果数量,排序输出。
2.权利要求1所述W-Bagging算子训练步骤的计算公式为:,其中W表示各个算子融合后的结果,分别表示各个算子的权重,/>分别表示边缘特征提取、物体特征提取、行为特征提取、背景特征提取这四个算子;concat则表示将经过加权过后的算子经过特定的维度融合在一起。
3.权利要求1中W-Bagging算子训练步骤所述Lose计算公式为:
,其中,y表示用真实的数据,/>表示预测图像,经过W-Bagging算子融合之后所获得的图像内容,/>表示指数函数。
4.权利要求1中W-Bagging多角度特征提取步骤所述KG-Filter计算公式如下:
,其中,G(x, y) 表示滤波后的像素值,(x, y) 是当前像素的坐标,F(x, y)是邻域内像素的值,m和n分别是滤波器的宽度和高度。
本发明具有以下效益:
1.提高图像检索准确性,本发明采用关键词抽取和多模态特征融合技术,能够更精确地捕捉用户的检索意图,从而提高了图像检索的准确性。通过视觉信息与语义信息的有机结合,能够生成更符合用户期望的搜索结果;
2.增强图像特征多样性,引入多角度图像特征提取技术,有助于捕捉到图像的多个方面和细节,提高了特征的多样性和鲁棒性。这使得系统能够更好地适应各种图像检索场景,包括复杂和多样化的情况;
3.满足多领域应用需求,由于本发明的通用性,它在多个领域具有广泛的应用前景。无论是医学影像分析、智能交通系统还是电子商务,都可以受益于该技术,提高相关性和效率;
4.推动图像检索领域发展,本发明创新性地综合运用了关键词抽取、多角度特征提取以及多模态融合技术,为图像检索领域带来新的技术突破和机遇,它为未来图像检索技术的发展提供了新的方向,有望推动该领域的研究和应用进一步发展。
附图说明
图1是基于关键词抽取和多模态特征融合的图像检索方法及系统流程图;
图2是基于关键词抽取和多模态特征融合的图像检索方法及系统关键词特征提取网络结构图;
图3是基于关键词抽取和多模态特征融合的图像检索方法及系统W-Bagging算子训练网络结构图;
图4是基于关键词抽取和多模态特征融合的图像检索方法及系统多角度特征提取网络结构图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
步骤S1:图像数据准备
图1所示为基于关键词抽取和多模态特征融合的图像检索方法及系统流程图,在基于关键词抽取和多模态特征融合的图像检索方法中,图像数据准备是关键的一步,它为整个图像检索系统的有效运行提供了必要的基础;图像数据准备阶段旨在收集、准备和组织待检索的图像数据集,以便后续的处理和分析;首先,我们需要构建一个包含大量图像的数据集,这些图像可以来自不同来源,如网络、图像库、摄像头捕捉等;这些图像可以涵盖各种不同的主题和内容,以确保图像检索系统具有广泛的适用性;这一数据集的多样性对于提高图像检索系统的性能至关重要,因为它可以反映用户可能的多样化需求;一旦图像数据集被收集,就需要进行预处理,以确保图像数据的一致性和质量;这包括图像的标准化大小、色彩校正、去噪和图像格式的转换等操作;这些预处理步骤有助于消除图像之间的差异,提高了后续特征提取和相似性计算的准确性;在数据准备阶段,还需要为每个图像建立相关的元数据;这些元数据包括图像的描述、关键词标签、拍摄时间、地点等信息;这些信息将与图像一起存储,以便后续的关键词抽取和多模态融合过程使用;最后,图像数据集需要进行有效的索引和存储,以便图像检索系统可以快速访问和检索图像;这可以通过建立数据库或使用索引技术来实现,以确保系统的高效性和可扩展性。
步骤S2:关键词特征提取
图2所示为本发明提供的关键词特征提取网络结构图,关键词特征提取是本发明中的核心步骤之一,旨在实现更准确和有效的图像检索;该过程的关键性在于通过自然语言处理技术从用户输入的文本中提取出关键词,这些关键词将成为后续图像检索的重要线索;关键词抽取过程包括以下步骤:首先,对用户输入的文本进行了必要的预处理;这包括去除停用词、标点符号、特殊字符等,以及文本分词、转换为小写等操作;这样的预处理措施有助于清理文本数据,使其更易于进一步分析;接着,通过词频统计,系统可以识别出文本中频率较高的单词;这些高频率单词通常是潜在的关键词候选者,因为它们在文本中出现得更为频繁;随后,采用TF-IDF(词频-逆文档频率)加权方法对单词进行排序和加权;TF-IDF考虑了一个词在文本中的频率以及在整个文本集合中的重要性;这一步骤有助于确定哪些单词在文本中具有更高的权重,可能更有可能成为关键词;接下来,生成一组关键词候选者,这些候选者基于TF-IDF加权;这些关键词候选者具有较高的权重,被认为与文本内容相关;进一步,应用主题建模技术,如Latent Dirichlet Allocation(LDA),以深入理解文本的主题和关键词;主题建模有助于识别文本中的隐藏主题和与之相关的关键词;最后,通过综合考虑关键词候选者、主题建模结果以及其他相关因素,进行关键词的筛选和排名,以确定最终的关键词列表;这一步骤综合考虑了关键词的权重、主题相关性和上下文信息,从而生成了最具代表性的关键词集合。
步骤S3:W-Bagging算子训练
图3所示为本发明提供的W-Bagging算子训练网络结构图,首先加载图像,对加载的图像进行预处理操作,主要包括尺寸重置、归一化、图像增强技术。接下来,对于处理过的图像采用有放回采样处理m次,防止数据集过少的情况出现;然后,对这m组数据分别进行边缘特征提取、物体特征提取、行为特征提取、背景特征提取4个算子的操作,经过不断的反复迭代计算,这四个算子形成了具有强大预测能力的算子,最后将训练好的算子进行部署,方便后期调用。
步骤S3所述W-Bagging算子计算公式为:
⑴
其中W表示各个算子融合后的结果,分别表示各个算子的权重,分别表示边缘特征提取、物体特征提取、行为特征提取、背景特征提取这四个算子。concat则表示将经过加权过后的算子经过特定的维度融合在一起,本发明所提出的W-Bagging算子融合技术可以综合考虑各个算子的优缺点进行权重分配,解决了单一算子进行特征提取时提取效果不佳的问题。
步骤S3所述Lose计算公式为:
⑵
其中,表示用真实的数据,比如在本次申请的专利中,你所搜索的内容的实际图片,/>表示预测图像,比如在本次申请的专利中经过W-Bagging算子融合之后所获得的图像内容;/>表示指数函数,可避免Lose值产生负值,且因指数的存在,使得损失值大的数据更大,模型可以更多关注损失值大的数据。
步骤S4:W-Bagging多角度特征提取,使用KG-Filter过滤噪声。
图4所示为本发明提供的多角度特征提取网络结构图。
W-Bagging多角度图像特征提取是本发明的关键步骤之一,旨在从不同视角全面捕捉图像的多样性和丰富性。此过程涉及引入图3所示为本发明提供的W-Bagging算子训练网络结构图;算法通过在不同角度下提取多组特征,从而增强了图像的表达能力和鲁棒性;算法允许系统以多个视觉角度分析图像,捕捉到其多个方面和细节,从边缘特征、物体特征、行为特征、背景特征等多角度提取信息;这些多角度提取的特征将在后续步骤中被拼接成一个综合的特征向量,为多模态信息融合提供了有力的基础;这一创新的特征提取方法能够显著提高图像检索系统的性能,使其更具适用性,适用于不同领域的图像检索需求,从而推动了图像检索领域的进一步发展和创新。
步骤S4所述KG-Filter计算公式如下:
⑶
其中,G(x, y) 表示滤波后的像素值,(x, y) 是当前像素的坐标,F(x, y)是邻域内像素的值,m和n分别是滤波器的宽度和高度。
步骤S5:特征拼接
特征拼接是本发明中的关键步骤之一,旨在将从多个角度提取的图像特征有机地结合在一起,以创建一个综合的特征向量;这个过程是多模态信息融合的基础,通过将不同视角和维度的特征有序地组合,形成一个更丰富和全面的特征表示;首先,经过多角度图像特征提取后,我们得到了多组特征,每组特征代表了图像在不同视角或特性下的表现;这些特征可能包括颜色直方图、纹理特征、形状描述符等,它们以不同的方式描述了图像的各个方面;接下来,特征拼接阶段将这些不同的特征组合在一起,形成一个综合的特征向量;这一向量维度较高,反映了图像在多个方面的特征信息,从而提供了更全面的视觉描述;特征的拼接可以通过简单的向量连接操作来实现,也可以采用更复杂的融合技术,如主成分分析(PCA)或线性判别分析(LDA),以确保特征的有用性和互补性;这一步骤有助于将来自不同角度提取的特征信息有机地结合在一起,减少了信息的冗余性,增强了特征的多样性,使特征向量更具鲁棒性;最终,生成的综合特征向量将作为多模态信息融合的输入,与从关键词抽取得到的语义信息相结合,实现更全面、更精确的图像检索;通过特征拼接,图像检索系统能够更好地利用图像的多方面信息,提高了检索结果的质量和准确性,满足了用户的多样化检索需求。
步骤S6:多模态融合算法
运用先进的多模态融合算法,将关键词抽取得到的信息与图像特征提取得到的信息融合在一起;这一步骤使得图像的视觉信息和语义信息得以有机结合,从而实现更全面、更精确的图像检索。
步骤S7:检索结果输出
经过上述步骤处理后的结果还需要经过滤处理,首先,采用多种方法排除不相关或低质量的图像,从而减少结果数量,将注意力集中在最有可能满足用户需求的图像上;接着,通过先进的排序算法,考虑关键词匹配度、图像质量、用户反馈等因素,对图像进行排序,确保用户首先看到最相关的图像;此外,还可以根据用户的个性化排序偏好,进一步提升用户体验;这一过程不仅提高了图像检索系统的实用性,还提高了用户满意度,使系统能够更好地应对大规模图像数据库的挑战。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或者等同变化,仍属于本发明所要求保护的范围。
Claims (4)
1.基于关键词抽取和多模态特征融合的图像检索方法,其特征在于以下步骤:
图像数据准备:构建一个包含大量图像的数据集,涵盖各种不同的主题和内容,将图像数据集进行有效索引和存储;
关键词特征提取:对输入的文本进行去除停用词、标点符号、特殊字符,以及文本分词、转换为小写操作,再通过词频统计,得到高频率单词分布;随后,采用TF-IDF加权方法对单词进行加权,应用主题建模技术Latent Dirichlet Allocation识别文本中的隐藏主题和与之相关的关键词,最后,进行关键词的筛选和排序,确定最终的关键词列表;
W-Bagging算子训练:首先加载图像,对图像进行尺寸重置、归一化、图像增强技术,并将处理过的图像采用有放回采样处理,然后进行边缘特征提取、物体特征提取、行为特征提取、背景特征提取4个算子的操作,反复迭代计算,形成具有预测能力的算子,并按照Lose计算公式进行预测图像的损失给定,最后将训练好的算子进行部署;
W-Bagging多角度特征提取:从边缘特征、物体特征、行为特征、背景特征多维度提取信息,使用KG-Filter过滤噪声;
特征拼接:从颜色直方图、纹理特征、形状描述符拼接一个综合的特征向量;
多模态融合算法:运用先进的多模态融合算法,将关键词抽取得到的信息与图像特征提取得到的信息融合在一起;
从检索结果输出:从关键词匹配度、图像质量、用户反馈因素,对图像进行过滤处理,排除不相关或低质量的图像,减少结果数量,排序输出。
2.权利要求1所述W-Bagging算子训练步骤的计算公式为:,其中W表示各个算子融合后的结果,分别表示各个算子的权重,/>分别表示边缘特征提取、物体特征提取、行为特征提取、背景特征提取这四个算子;concat则表示将经过加权过后的算子经过特定的维度融合在一起。
3.权利要求1中W-Bagging算子训练步骤所述Lose计算公式为:
,其中,y表示用真实的数据,/>表示预测图像,经过W-Bagging算子融合之后所获得的图像内容,/>表示指数函数。
4.权利要求1中W-Bagging多角度特征提取步骤所述KG-Filter计算公式如下:
,其中,G(x, y) 表示滤波后的像素值,(x, y) 是当前像素的坐标,F(x, y)是邻域内像素的值,m和n分别是滤波器的宽度和高度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311312226.0A CN117332103A (zh) | 2023-10-11 | 2023-10-11 | 基于关键词抽取和多模态特征融合的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311312226.0A CN117332103A (zh) | 2023-10-11 | 2023-10-11 | 基于关键词抽取和多模态特征融合的图像检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117332103A true CN117332103A (zh) | 2024-01-02 |
Family
ID=89276930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311312226.0A Pending CN117332103A (zh) | 2023-10-11 | 2023-10-11 | 基于关键词抽取和多模态特征融合的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117332103A (zh) |
-
2023
- 2023-10-11 CN CN202311312226.0A patent/CN117332103A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chadha et al. | Comparative study and optimization of feature-extraction techniques for content based image retrieval | |
US10482146B2 (en) | Systems and methods for automatic customization of content filtering | |
CN106951551B (zh) | 联合gist特征的多重索引图像检索方法 | |
JP2009282980A (ja) | 画像学習、自動注釈、検索方法及び装置 | |
Mishra et al. | Image mining in the context of content based image retrieval: a perspective | |
CN102236714A (zh) | 一种基于xml的交互应用多媒体信息检索方法 | |
JP2011128773A (ja) | 画像検索装置、画像検索方法及びプログラム | |
CN104317946A (zh) | 一种基于多张关键图的图像内容检索方法 | |
Ma et al. | Spatial-content image search in complex scenes | |
Chang et al. | An interactive approach to integrating external textual knowledge for multimodal lifelog retrieval | |
CN105095468A (zh) | 一种新型的图像检索方法及系统 | |
CN107943937B (zh) | 一种基于司法公开信息分析的债务人资产监控方法及系统 | |
CN117057349A (zh) | 新闻文本关键词抽取方法、装置、计算机设备和存储介质 | |
CN117332103A (zh) | 基于关键词抽取和多模态特征融合的图像检索方法 | |
Syam et al. | An effective similarity measure via genetic algorithm for Content-Based Image Retrieval with extensive features | |
CN111506754B (zh) | 图片检索方法、装置、存储介质及处理器 | |
CN110781207A (zh) | 一种基于用户画像的专利推荐方法 | |
CN117131256B (zh) | 一种基于aigc的媒体管理系统 | |
Sebastine et al. | Semantic web for content based video retrieval | |
Xu | Cross-Media Retrieval: Methodologies and Challenges | |
Namala et al. | Efficient feature based video retrieval and indexing using pattern change with invariance algorithm | |
Phueaksri et al. | Convolutional neural network using stacked frames for video classification | |
Zheng et al. | Compounded Face Image Retrieval Based on Vertical Web Image Retrieval | |
Anand et al. | Integrating and querying similar tables from PDF documents using deep learning | |
Perel et al. | Learning multimodal affinities for textual editing in images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |