CN116468960B - 一种视频图像分析检索方法及系统 - Google Patents
一种视频图像分析检索方法及系统 Download PDFInfo
- Publication number
- CN116468960B CN116468960B CN202310720303.XA CN202310720303A CN116468960B CN 116468960 B CN116468960 B CN 116468960B CN 202310720303 A CN202310720303 A CN 202310720303A CN 116468960 B CN116468960 B CN 116468960B
- Authority
- CN
- China
- Prior art keywords
- image
- similarity
- knowledge graph
- graph model
- api interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000010191 image analysis Methods 0.000 title claims abstract description 19
- 238000013507 mapping Methods 0.000 claims abstract description 80
- 238000004364 calculation method Methods 0.000 claims abstract description 73
- 230000004927 fusion Effects 0.000 claims description 63
- 238000004422 calculation algorithm Methods 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 47
- 238000004458 analytical method Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000007670 refining Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种视频图像分析检索方法及系统,方法包括:步骤1,建立图像类别‑API接口‑知识图谱之间的映射关系表;步骤2,确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配。本发明实现了API接口集成化管理模式,通过建立反映图像类别‑API接口‑知识图谱之间的映射关系表的方式来进行图像分类分级式相似度计算,且方法是并行方式,提高了视频图像分析检索的效率,具有很好且广泛的计算机处理应用前景。
Description
技术领域
本发明涉及图像处理领域,具体涉及一种视频图像分析检索方法及系统。
背景技术
现如今,网络安全问题是社会重点关注的问题,网络中存在的各类视频及图像繁多,各类显示屏、服务器、计算机等设备都会进行实时或不定时的播放、放映,如何针对视频图像类的大数据进行有效的检索,是当前研究的热点问题。传统的图像检索方法多少通过相关技术提取图像特征,将图像特征直接进行相似度计算,与阈值进行比较来实现图像的筛选匹配。例如CN101639858A(公开日20100203)公开一种基于目标区域匹配的图像检索方法,包括下列步骤:a.选择一幅待检索图像,利用边缘检测算法对待检索图像进行自动分割;b.判断分割效果,若用户对自动分割的目标区域满意,则确定检索的目标区域;若用户对自动分割的目标区域不满意,则用户自行在未分割图像中选择感兴趣的目标区域作为检索对象;c.提取目标区域的特征值;d.将用户确定的目标区域作为模板,使用模板匹配方式在图像库中进行模板匹配和相似度计算,当相似度达到预设的阈值时,则将此被搜索图像作为命中目标;否则,继续进行模板匹配和相似度计算,直至图像被完全覆盖为止;e.当数据库中的图像按要求检索完毕,则按照相似度顺序显示检索结果。但是该类方法只能针对特定领域图像的检索,没有充分利用图像分类的优势,且方法无法实现一体化、集成化处理,导致针对不同类别图像进行检索的效率比较低。因此亟需一种能够实现集成化管理的视频图像分析检索方法。
发明内容
针对现有技术中的以上缺陷,本发明的目的在于提供一种视频图像分析检索方法及系统,实现了API接口集成化管理模式,通过建立反映图像类别-API接口-知识图谱之间的映射关系表的方式来进行图像分类分级式相似度计算,且方法是并行方式,提高了视频图像分析检索的效率和准确度。
为实现上述发明目的,本发明采用如下技术方案:
第一方面,本发明提供一种视频图像分析检索方法,该方法包括:
步骤1,建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
步骤1.1,基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
步骤1.2,在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
步骤2,确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述步骤1.1,基于预设的图像集合进行图像分类器训练,具体包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量;
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量;
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块ECA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器。
进一步地,还包括:
知识图谱模型中用于图像相关特征相似度计算的方法包括:余弦距离、均值哈希算法、差值哈希算法、感知哈希算法、直方图距离、SSIM结构相似度算法、欧氏距离和汉明距离。
进一步地,在所述步骤2中,还包括:
将所述当前视频图像输入所述分类器得到对应的图像类别;
根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索。
进一步地,还包括:
所述图像类别具体分为城市、森林、山脉和沙漠;
所述API接口包括第一API接口、第二API接口、第三API接口和第四API接口;
所述知识图谱模型包括第一知识图谱模型、第二知识图谱模型、第三知识图谱模型和第四知识图谱模型;其中,所述第一知识图谱模型中进行图像匹配相似度计算的方法是余弦距离和均值哈希算法的融合算法;所述第二知识图谱模型中进行图像匹配相似度计算的方法是差值哈希算法和感知哈希算法的融合算法;所述第三知识图谱模型中进行图像匹配相似度计算的方法是直方图距离和SSIM结构相似度算法的融合算法;所述第四知识图谱模型中进行图像匹配相似度计算的方法是欧氏距离和汉明距离的融合算法;
所述映射关系表具体包括:反映城市-第一API接口-第一知识图谱模型关系的第一映射关系表、反映森林-第二API接口-第二知识图谱模型关系的第二映射关系表、反映山脉-第三API接口-第三知识图谱模型关系的第三映射关系表以及反映沙漠-第四API接口-第四知识图谱模型关系的第四映射关系表。
进一步地,还包括:所述根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索,具体包括:
若当前视频图像输入所述分类器得到的图像类别为城市类型,则根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为森林类型,则根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为山脉类型,则根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为沙漠类型,则根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索。
进一步地,还包括:所述根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用余弦距离和均值哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
进一步地,还包括:所述根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用差值哈希算法和感知哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
进一步地,还包括:所述根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用直方图距离和SSIM结构相似度算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
进一步地,还包括:所述根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用欧氏距离和汉明距离分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
第二方面,本发明还提供一种视频图像分析检索系统,该系统包括:
映射关系表建立模块,用于建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
映射模块,用于在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
图像匹配模块,用于确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练中,该图像分类器训练模块中的具体训练步骤包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量;
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量;
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块ECA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器。
有益效果:
1.本发明公开了一种视频图像分析检索方法及系统,方法包括:步骤1,建立图像类别-API接口-知识图谱之间的映射关系表;步骤2,确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配。本发明实现了API接口集成化管理模式,通过在API接口中集成知识图谱模型,创新性的通过建立反映图像类别-API接口-知识图谱之间的映射关系表的方式来进行图像分类分级式相似度计算,且方法是并行方式,提高了视频图像分析检索的效率,具有很好的计算机处理应用前景。
2.本发明图像分类器的训练过程中,通过非下采样小波变换NSWT、增量PCA、SwinTransformer层级网络各类技术的结合,使得图像提取的特征更具广泛性和代表性;进一步通过对AlexNet模型的训练得到图像分类器,使得图像分类的准确度和效果更佳,为后续的分析检索方法奠定了基础。
3. 本发明根据映射关系表调用图像类别对应的API接口,基于API接口中的对应知识图谱模型来进行图像相似度的计算匹配,且知识图谱模型中针对每类图像设定了不同的相似度融合计算算法,大大提高了视频图像分析检索的准确度。
附图说明
图1为视频图像检索分析方法的流程示意图。
图2为图像分类器训练方法的流程示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
API接口作为集成式应用接口,通过黑匣子模式,相关计算机或设备只需要直接调用该API接口,就可以实现高效率的应用。
如图1-图2所示,本实施例提供一种视频图像分析检索方法,该方法包括:
步骤1,建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
步骤1.1,基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
步骤1.2,在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
步骤2,确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述步骤1.1,基于预设的图像集合进行图像分类器训练,具体包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量;
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量;
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块ECA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器。
具体地,对于给定的训练样本标签H和预测的分类标签h,通过如下公式来计算样本误差:
其中,T为样本标签的总个数;为可调节参数,i表示其中的某一个标签。
当所述样本误差满足在预设阈值范围内,则结束对AlexNet模型的训练。
在可选的实施方式中,还包括:
知识图谱模型中用于图像相关特征相似度计算的方法包括:余弦距离、均值哈希算法、差值哈希算法、感知哈希算法、直方图距离、SSIM结构相似度算法、欧氏距离和汉明距离。
在可选的实施方式中,在所述步骤2中,还包括:
将所述当前视频图像输入所述分类器得到对应的图像类别;
根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索。
具体地,根据计算的相似度从高到低进行匹配图像的排序,将排序靠前的图像作为检索结果。
在可选的实施方式中,还包括:
所述图像类别具体分为城市、森林、山脉和沙漠;
所述API接口包括第一API接口、第二API接口、第三API接口和第四API接口;
所述知识图谱模型包括第一知识图谱模型、第二知识图谱模型、第三知识图谱模型和第四知识图谱模型;其中,所述第一知识图谱模型中进行图像匹配相似度计算的方法是余弦距离和均值哈希算法的融合算法;所述第二知识图谱模型中进行图像匹配相似度计算的方法是差值哈希算法和感知哈希算法的融合算法;所述第三知识图谱模型中进行图像匹配相似度计算的方法是直方图距离和SSIM结构相似度算法的融合算法;所述第四知识图谱模型中进行图像匹配相似度计算的方法是欧氏距离和汉明距离的融合算法;
所述映射关系表具体包括:反映城市-第一API接口-第一知识图谱模型关系的第一映射关系表、反映森林-第二API接口-第二知识图谱模型关系的第二映射关系表、反映山脉-第三API接口-第三知识图谱模型关系的第三映射关系表以及反映沙漠-第四API接口-第四知识图谱模型关系的第四映射关系表。
具体地,图像类别可以分别根据城市、森林、山脉和沙漠类别逐级进行更详细的支链分类,针对最下位的每一类支链,均可以建立反映图像类别-API接口-知识图谱之间的映射关系表。
在可选的实施方式中,还包括:所述根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索,具体包括:
若当前视频图像输入所述分类器得到的图像类别为城市类型,则根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为森林类型,则根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为山脉类型,则根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为沙漠类型,则根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索。
在可选的实施方式中,还包括:所述根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用余弦距离和均值哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
在可选的实施方式中,还包括:所述根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用差值哈希算法和感知哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
在可选的实施方式中,还包括:所述根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用直方图距离和SSIM结构相似度算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
在可选的实施方式中,还包括:所述根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用欧氏距离和汉明距离分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
基于相同的发明构思,本实施例提供一种视频图像分析检索系统,该系统包括:
映射关系表建立模块,用于建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
映射模块,用于在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
图像匹配模块,用于确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练中,该图像分类器训练模块中的具体训练步骤包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量;
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量;
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块ECA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器。
本发明实现了API接口集成化管理模式,通过在API接口中集成知识图谱模型,创新性的通过建立反映图像类别-API接口-知识图谱之间的映射关系表的方式来进行图像分类分级式相似度计算,且方法是并行方式,提高了视频图像分析检索的效率,具有很好且广泛的计算机处理应用前景。
Claims (8)
1.一种视频图像分析检索方法,其特征在于,该方法包括:
步骤1,建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
步骤1.1,基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
步骤1.2,在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
步骤2,确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述步骤1.1,基于预设的图像集合进行图像分类器训练,具体包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量;
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量;
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块ECA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器;
在所述步骤2中,还包括:
将所述当前视频图像输入所述分类器得到对应的图像类别;
根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索;
知识图谱模型中用于图像相关特征相似度计算的方法包括:余弦距离、均值哈希算法、差值哈希算法、感知哈希算法、直方图距离、SSIM结构相似度算法、欧氏距离和汉明距离。
2.根据权利要求1所述的方法,其特征在于,还包括:
所述图像类别具体分为城市、森林、山脉和沙漠;
所述API接口包括第一API接口、第二API接口、第三API接口和第四API接口;
所述知识图谱模型包括第一知识图谱模型、第二知识图谱模型、第三知识图谱模型和第四知识图谱模型;其中,所述第一知识图谱模型中进行图像匹配相似度计算的方法是余弦距离和均值哈希算法的融合算法;所述第二知识图谱模型中进行图像匹配相似度计算的方法是差值哈希算法和感知哈希算法的融合算法;所述第三知识图谱模型中进行图像匹配相似度计算的方法是直方图距离和SSIM结构相似度算法的融合算法;所述第四知识图谱模型中进行图像匹配相似度计算的方法是欧氏距离和汉明距离的融合算法;
所述映射关系表具体包括:反映城市-第一API接口-第一知识图谱模型关系的第一映射关系表、反映森林-第二API接口-第二知识图谱模型关系的第二映射关系表、反映山脉-第三API接口-第三知识图谱模型关系的第三映射关系表以及反映沙漠-第四API接口-第四知识图谱模型关系的第四映射关系表。
3.根据权利要求2所述的方法,其特征在于,还包括:所述根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索,具体包括:
若当前视频图像输入所述分类器得到的图像类别为城市类型,则根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为森林类型,则根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为山脉类型,则根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为沙漠类型,则根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索。
4.根据权利要求3所述的方法,其特征在于,所述根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用余弦距离和均值哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
5.根据权利要求3所述的方法,其特征在于,所述根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用差值哈希算法和感知哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
6.根据权利要求3所述的方法,其特征在于,所述根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用直方图距离和SSIM结构相似度算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
7.根据权利要求3所述的方法,其特征在于,所述根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用欧氏距离和汉明距离分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
8.一种视频图像分析检索系统,其特征在于,该系统包括:
映射关系表建立模块,用于建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
映射模块,用于在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
图像匹配模块,用于确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练中,该图像分类器训练模块中的具体训练步骤包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量;
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量;
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块ECA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器;
在所述图像匹配模块中,还包括:
将所述当前视频图像输入所述分类器得到对应的图像类别;
根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索;
知识图谱模型中用于图像相关特征相似度计算的方法包括:余弦距离、均值哈希算法、差值哈希算法、感知哈希算法、直方图距离、SSIM结构相似度算法、欧氏距离和汉明距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310720303.XA CN116468960B (zh) | 2023-06-19 | 2023-06-19 | 一种视频图像分析检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310720303.XA CN116468960B (zh) | 2023-06-19 | 2023-06-19 | 一种视频图像分析检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116468960A CN116468960A (zh) | 2023-07-21 |
CN116468960B true CN116468960B (zh) | 2023-08-25 |
Family
ID=87175752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310720303.XA Active CN116468960B (zh) | 2023-06-19 | 2023-06-19 | 一种视频图像分析检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468960B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198959A (zh) * | 2019-12-30 | 2020-05-26 | 郑州轻工业大学 | 一种基于卷积神经网络的两阶段图像检索方法 |
CN113190699A (zh) * | 2021-05-14 | 2021-07-30 | 华中科技大学 | 一种基于类别级语义哈希的遥感图像检索方法及装置 |
CN113918753A (zh) * | 2021-07-23 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像检索方法及相关设备 |
CN115827895A (zh) * | 2022-12-12 | 2023-03-21 | 绿盟科技集团股份有限公司 | 一种漏洞知识图谱处理方法、装置、设备及介质 |
CN116129286A (zh) * | 2023-02-10 | 2023-05-16 | 北京数慧时空信息技术有限公司 | 基于知识图谱的图神经网络遥感图像分类方法 |
CN116204673A (zh) * | 2022-12-14 | 2023-06-02 | 宁波大学 | 一种关注图像块间关系的大规模图像检索哈希方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593238A (zh) * | 2012-08-16 | 2014-02-19 | 腾讯科技(深圳)有限公司 | 控制应用程序编程接口调用的方法及装置 |
US20230054330A1 (en) * | 2021-08-17 | 2023-02-23 | Integral Ad Science, Inc. | Methods, systems, and media for generating video classifications using multimodal video analysis |
-
2023
- 2023-06-19 CN CN202310720303.XA patent/CN116468960B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198959A (zh) * | 2019-12-30 | 2020-05-26 | 郑州轻工业大学 | 一种基于卷积神经网络的两阶段图像检索方法 |
CN113190699A (zh) * | 2021-05-14 | 2021-07-30 | 华中科技大学 | 一种基于类别级语义哈希的遥感图像检索方法及装置 |
CN113918753A (zh) * | 2021-07-23 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像检索方法及相关设备 |
CN115827895A (zh) * | 2022-12-12 | 2023-03-21 | 绿盟科技集团股份有限公司 | 一种漏洞知识图谱处理方法、装置、设备及介质 |
CN116204673A (zh) * | 2022-12-14 | 2023-06-02 | 宁波大学 | 一种关注图像块间关系的大规模图像检索哈希方法 |
CN116129286A (zh) * | 2023-02-10 | 2023-05-16 | 北京数慧时空信息技术有限公司 | 基于知识图谱的图神经网络遥感图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116468960A (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shan | Image segmentation method based on K-mean algorithm | |
EP2701098B1 (en) | Region refocusing for data-driven object localization | |
Unar et al. | Detected text‐based image retrieval approach for textual images | |
CN104376105B (zh) | 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法 | |
CN111651636A (zh) | 视频相似片段搜索方法及装置 | |
US20150332117A1 (en) | Composition modeling for photo retrieval through geometric image segmentation | |
dos Santos Belo et al. | Summarizing video sequence using a graph-based hierarchical approach | |
CN104038792B (zh) | 用于iptv监管的视频内容分析方法及设备 | |
CN109299305A (zh) | 一种基于多特征融合的空间图像检索系统及检索方法 | |
CN110427517A (zh) | 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质 | |
CN103399863B (zh) | 基于边缘方向差特征袋的图像检索方法 | |
CN109657082A (zh) | 基于全卷积神经网络的遥感图像多标签检索方法及系统 | |
Pavithra et al. | An improved seed point selection-based unsupervised color clustering for content-based image retrieval application | |
CN116468960B (zh) | 一种视频图像分析检索方法及系统 | |
Guo et al. | Remote sensing identification of green plastic cover in urban built-up areas | |
Moumtzidou et al. | Discovery of environmental resources based on heatmap recognition | |
Memon et al. | Region based localized matching image retrieval system using color-size features for image retrieval | |
Kong | SIFT Feature‐Based Video Camera Boundary Detection Algorithm | |
Misra et al. | Text extraction and recognition from image using neural network | |
CN114429546A (zh) | 一种基于点击的户外激光点云交互式分割方法 | |
Li et al. | A model-driven approach for fast modeling of three-dimensional laser point cloud in large substation | |
Qi et al. | Graph-Boolean map for salient object detection | |
Chen et al. | Boosting image object retrieval and indexing by automatically discovered pseudo-objects | |
Fu et al. | Residential land extraction from high spatial resolution optical images using multifeature hierarchical method | |
Lu et al. | Complementary pseudolabel based on global-and-channel information for unsupervised person reidentification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |