CN116467485B - 一种视频图像检索构建系统及其方法 - Google Patents

一种视频图像检索构建系统及其方法 Download PDF

Info

Publication number
CN116467485B
CN116467485B CN202310343724.5A CN202310343724A CN116467485B CN 116467485 B CN116467485 B CN 116467485B CN 202310343724 A CN202310343724 A CN 202310343724A CN 116467485 B CN116467485 B CN 116467485B
Authority
CN
China
Prior art keywords
image
feature
training
scale
neighborhood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310343724.5A
Other languages
English (en)
Other versions
CN116467485A (zh
Inventor
蒋毅
胡建国
段伟芝
邵永新
马维
刘诗乐
许岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Zhenshi Intelligent Technology Co ltd
Original Assignee
Shenyang Zhenshi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Zhenshi Intelligent Technology Co ltd filed Critical Shenyang Zhenshi Intelligent Technology Co ltd
Priority to CN202310343724.5A priority Critical patent/CN116467485B/zh
Publication of CN116467485A publication Critical patent/CN116467485A/zh
Application granted granted Critical
Publication of CN116467485B publication Critical patent/CN116467485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及图像检测领域,其具体地公开了一种视频图像检索构建系统及其方法,其通过采用基于深度学习的神经网络模型挖掘出输入的检索图像特征和后台数据库中的备选图像特征之间的差异性特征分布信息,以此来精准地进行两者图像的检索匹配,提高视频图像检索的精准度。

Description

一种视频图像检索构建系统及其方法
技术领域
本申请涉及图像检测领域,且更为具体地,涉及一种视频图像检索构建系统及其方法。
背景技术
随着图像处理技术的快速发展,视频数据量越来越多,增加了从海量视频数据中进行图像检索的难度。现有技术在图像检索过程中需要对图像进行临时的解码与分析,但图像解码与分析需要耗费大量的处理时间,这将严重降低图像检索的效率。此外,现有技术中的图像检索过分依赖目标对象检测的效率和准确度,但在视频监控场景中,由于不同的距离、角度以及背景干扰等因素的存在,将会严重降低目标对象检测的准确度和可靠性,同时,目标对象的漏检和误检问题也将会对目标对象检测的准确度和可靠性造成严重影响。
因此,期望一种优化的视频图像检索构建系统。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种视频图像检索构建系统及其方法,其通过采用基于深度学习的神经网络模型挖掘出输入的检索图像特征和后台数据库中的备选图像特征之间的差异性特征分布信息,以此来精准地进行两者图像的检索匹配,提高视频图像检索的精准度。
根据本申请的一个方面,提供了一种视频图像检索构建系统,其包括:
待检索图像数据采集模块,用于获取输入的待检索图像;
备选图像提取模块,用于从后台数据库提取第一备选图像;
图像校正模块,用于将所述待检索图像通过基于自动编解码器的图像畸变矫正器以得到校正后待检索图像;
图像特征提取模块,用于将所述校正后待检索图像和所述第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;
差异性特征提取模块,用于计算所述检测特征图和所述备选特征图之间的差分特征图,并计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值以得到通道差分特征向量;
多尺度差异关联编码模块,用于将所述通道差分特征向量通过多尺度邻域特征提取模块以得到分类特征向量;
匹配度检测模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待检索图像和第一备选图像之间的匹配度是否超过预定阈值。
在上述视频图像检索构建系统中,所述图像校正模块,包括:图像编码单元,用于使用所述基于自动编解码器的图像畸变矫正器的编码器从所述待检索图像提取待检索特征图,其中,所述基于自动编解码器的图像畸变矫正器的编码器为卷积层;以及,图像解码单元,用于使用所述基于自动编解码器的图像畸变矫正器的解码器对所述待检索特征图进行解码以得到所述校正后待检索图像,其中,所述基于自动编解码器的图像畸变矫正器的解码器为反卷积层。
在上述视频图像检索构建系统中,所述图像特征提取模块,用于:使用所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的最后一层的输出为所述检测特征图和所述备选特征图,所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的第一层的输入为所述校正后待检索图像和所述第一备选图像。
在上述视频图像检索构建系统中,所述多尺度邻域特征提取模块,包括:第一卷积层、与所述第一卷积层并行的第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的多尺度特征融合层,其中,所述第一卷积层使用具有第一长度的一维卷积核,所述第二卷积层使用具有第二长度的一维卷积核。
在上述视频图像检索构建系统中,所述多尺度差异关联编码模块,包括:第一邻域尺度特征提取单元,用于将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度分类特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;第二邻域尺度特征提取单元,用于将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度分类特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,多尺度级联单元,用于将所述第一邻域尺度分类特征向量和所述第二邻域尺度分类特征向量进行级联以得到所述分类特征向量。其中,所述第一邻域尺度特征提取单元,用于:使用所述多尺度邻域特征提取模块的第一卷积层以如下一维卷积公式对所述通道差分特征向量进行一维卷积编码以得到第一邻域尺度分类特征向量;其中,所述公式为:
其中,a为第一卷积核在x方向上的宽度、F(a)为第一卷积核参数向量、G(x-a)为与卷积核函数运算的局部向量矩阵,w为第一卷积核的尺寸,X表示所述通道差分特征向量,Cov(X)表示对所述通道差分特征向量进行一维卷积编码;以及,所述第二邻域尺度特征提取单元,用于:使用所述多尺度邻域特征提取模块的第二卷积层以如下一维卷积公式对所述通道差分特征向量进行一维卷积编码以得到所述第二邻域尺度分类特征向量;其中,所述公式为:
其中,b为第二卷积核在x方向上的宽度、F(b)为第二卷积核参数向量、G(x-b)为与卷积核函数运算的局部向量矩阵,m为第二卷积核的尺寸,X表示所述通道差分特征向量,Cov(X)表示对所述通道差分特征向量进行一维卷积编码。
在上述视频图像检索构建系统中,还包括用于对所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构、所述多尺度邻域特征提取模块和所述分类器进行训练的训练模块。
在上述视频图像检索构建系统中,所述训练模块,包括:训练数据采集模块,用于获取输入的训练待检索图像,训练第一备选图像,以及,所述训练待检索图像和所述训练第一备选图像之间的匹配度是否超过预定阈值的真实值。训练图像校正模块,用于将所述训练待检索图像通过所述基于自动编解码器的图像畸变矫正器以得到训练校正后待检索图像;训练图像特征提取模块,用于将所述训练校正后待检索图像和所述训练第一备选图像通过所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到训练检测特征图和训练备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;训练差异性特征提取模块,用于计算所述训练检测特征图和所述训练备选特征图之间的训练差分特征图,并计算所述训练差分特征图的沿通道维度的各个特征矩阵的全局均值以得到训练通道差分特征向量;训练多尺度差异关联编码模块,用于将所述训练通道差分特征向量通过所述多尺度邻域特征提取模块以得到训练分类特征向量;分类损失模块,用于将所述训练分类特征向量通过所述分类器以得到分类损失函数值;以及,训练模块,用于基于所述分类损失函数值并通过梯度下降的方向传播来对所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构、所述多尺度邻域特征提取模块和所述分类器进行训练,其中,在所述训练的每一轮迭代中,对所述分类器的权重矩阵进行权重矩阵的空间正则化约束迭代。
在上述视频图像检索构建系统中,所述分类损失模块,用于:使用所述分类器以如下公式对所述训练分类特征向量进行处理以获得分类结果,其中,所述公式为:O=softmax{(Wn,Bn):…:(W1,B1)│X},其中,W1到Wn为权重矩阵,B1到Bn为偏置向量,X为训练分类特征向量。
在上述视频图像检索构建系统中,在所述训练的每一轮迭代中,以如下公式对所述分类器的权重矩阵进行权重矩阵的空间正则化约束迭代;其中,所述公式为:
其中M是所述分类器的权重矩阵,‖·‖F表示矩阵的Frobenius范数,Mb是偏置矩阵,表示矩阵乘法,/>表示矩阵加法,⊙表示按位置点乘,exp(·)表示矩阵的指数运算,所述矩阵的指数运算表示计算以矩阵中各个位置的特征值为幂的自然指数函数值,M′表示迭代后的所述分类器的权重矩阵。
根据本申请的另一方面,提供了一种视频图像检索构建方法,其包括:
获取输入的待检索图像;
从后台数据库提取第一备选图像;
将所述待检索图像通过基于自动编解码器的图像畸变矫正器以得到校正后待检索图像;
将所述校正后待检索图像和所述第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;
计算所述检测特征图和所述备选特征图之间的差分特征图,并计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值以得到通道差分特征向量;
将所述通道差分特征向量通过多尺度邻域特征提取模块以得到分类特征向量;
将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待检索图像和第一备选图像之间的匹配度是否超过预定阈值。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的视频图像检索构建方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的视频图像检索构建方法。
与现有技术相比,本申请提供的一种视频图像检索构建系统及其方法,其通过采用基于深度学习的神经网络模型挖掘出输入的检索图像特征和后台数据库中的备选图像特征之间的差异性特征分布信息,以此来精准地进行两者图像的检索匹配,提高视频图像检索的精准度。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的视频图像检索构建系统的框图;
图2为根据本申请实施例的视频图像检索构建系统的框图;
图3为根据本申请实施例的视频图像检索构建系统中推断模块的系统架构图;
图4为根据本申请实施例的视频图像检索构建系统中训练模块的系统架构图;
图5为根据本申请实施例的视频图像检索构建系统中图像校正模块的框图;
图6为根据本申请实施例的视频图像检索构建系统中多尺度差异关联编码模块的框图;
图7为根据本申请实施例的视频图像检索构建方法的流程图;
图8为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如前背景技术所言,现有技术在图像检索过程中需要对图像进行临时的解码与分析,但图像解码与分析需要耗费大量的处理时间,这将严重降低图像检索的效率。此外,现有技术中的图像检索过分依赖目标对象检测的效率和准确度,但在视频监控场景中,由于不同的距离、角度以及背景干扰等因素的存在,将会严重降低目标对象检测的准确度和可靠性,同时,目标对象的漏检和误检问题也将会对目标对象检测的准确度和可靠性造成严重影响。因此,期望一种优化的视频图像检索构建系统。
相应地,在本申请的技术方案中,期望通过对于输入的检索图像和数据库中的备选图像进行特征对比分析来进行视频图像的检索,但是,考虑到在实际进行视频图像的检索过程中,由于输入的检索图像在采集的过程中可能会发生图像畸变,又或因不同的距离、角度以及背景干扰等因素,导致目标对象检测的准确度和可靠性较低。并且,由于图像中存在的数据信息较大,而所述输入的检索图像和所述数据库中的备选图像之间的差异性特征信息可能为小尺度的隐藏特征信息,难以进行两者图像的差异性特征的捕捉提取,降低了视频图像检索的精准度。因此,在此过程中,难点在于如何挖掘出所述输入的检索图像特征和所述后台数据库中的备选图像特征之间的差异性特征分布信息,以此来精准地进行两者图像的检索匹配,提高视频图像检索的精准度。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
深度学习以及神经网络的发展为挖掘所述输入的检索图像特征和所述后台数据库中的备选图像特征之间的差异性特征分布信息提供了新的解决思路和方案。
具体地,在本申请的技术方案中,首先,通过摄像头采集输入的待检索图像,并且从后台数据库提取第一备选图像。接着,考虑到在所述待检索图像的采集过程中,可能会因采集的方式不当,或者因摄像头的位置不同导致所述待检索图像发生图像畸变,使得图像中关于目标对象的隐含特征变得模糊,降低了所述目标对象的特征表达精准度。因此,在本申请的技术方案中,在特征提取前,将所述待检索图像通过基于自动编解码器的图像畸变矫正器中进行图像畸变校正处理,以得到校正后待检索图像。特别地,这里,所述基于自动编解码器的图像畸变矫正器由图像畸变校正编码器和图像畸变校正解码器组成,所述图像畸变校正编码器使用卷积层对所述待检索图像进行显式空间编码以得到图像特征;所述图像畸变校正解码器使用反卷积层对所述图像特征进行反卷积处理以得到所述校正后待检索图像。
然后,使用在图像的隐含特征提取方面具有优异表现的卷积神经网络模型来进行所述校正后待检索图像和所述第一备选图像的特征挖掘,特别地,考虑到在对于所述校正后待检索图像和所述第一备选图像的匹配度进行评估时,为了能够提高两者图像中关于所述目标对象的特征表达能力,以此来提高视频图像的检索精准度,在本申请的技术方案中,将所述校正后待检索图像和所述第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图。值得一提的是,这里,所述第一图像编码器和所述第二图像编码器具有相同的网络结构。特别地,使用包含有相同网络结构的图像编码器的所述孪生检测双分支结构来分别进行所述校正后待检索图像和所述第一备选图像的特征提取能够挖掘出两者的图像在图像源域端差异不明显的特征信息,以此来提高对于所述待检索图像和所述第一备选图像之间关于所述目标对象的匹配精准度。
进一步地,计算所述检测特征图和所述备选特征图之间的差分特征图,以此来表示所述待检索图像和所述第一备选图像中关于所述目标对象的隐含差异性特征分布信息。接着,进一步计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值以得到通道差分特征向量,以将所述差分特征图进行数据特征降维,以利于后续对其进行关联差异性特征的提取,提高对于所述目标对象的隐含特征在两者图像中的差异性特征的表达能力。
然后,考虑到由于所述待检索图像和所述第一备选图像中关于所述目标对象的隐含差异性特征在通道内容上具有着关联关系,并且这种关联关系在不同的通道内容间具有着关于所述目标对象的不同差异性关联特征信息。因此,在本申请的技术方案中,将所述通道差分特征向量通过多尺度邻域特征提取模块中进行编码,以提取出所述待检索图像和所述第一备选图像中关于所述目标对象的差异性特征在不同通道内容跨度下的多尺度邻域关联特征分布信息,从而得到分类特征向量。
接着,进一步再将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待检索图像和第一备选图像之间的匹配度是否超过预定阈值。也就是说,以所述待检索图像和所述第一备选图像中关于所述目标对象的多尺度通道内容差异性特征分布信息来进行分类,以此来对于两者图像的匹配度进行评估,响应于所述待检索图像和所述第一备选图像之间的匹配度超过预定阈值,则确定所述第一备选图像为检索图像。这样,能够基于所述待检索图像和所述备选图像之间的特征差异性信息来准确地进行视频图像的检索,提高视频图像检索的精准度。
特别地,在本申请的技术方案中,这里,对于计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值得到的所述通道差分特征向量来说,由于用特征矩阵的全局均值取代了特征矩阵的整体分布,这就使得所述通道差分特征向量的特征分布的离散度升高,即使通过多尺度邻域特征提取模块进一步提取了多尺度通道邻域关联特征,也会导致所述分类特征向量的特征分布的离散化,从而使得在训练过程中所述分类器的权重矩阵的收敛速度慢,影响了分类器以至于模型整体的训练速度。
因此,在本申请的技术方案中,本申请的申请人在每次分类器的权重矩阵的迭代时进行权重矩阵的空间正则化约束,表示为:
M是分类器的权重矩阵,‖·‖F表示矩阵的Frobenius范数,Mb是偏置矩阵,例如可以初始设置为单位矩阵。
所述权重矩阵的空间正则化约束在权重矩阵与其自身转置进行空间嵌入得到的内生相关性矩阵的基础上,对所述分类器的权重矩阵进行基于其欧式空间的内生相关分布的L2正则化,从而与待加权特征的数值分布和按位置数值大小无关地,反映出权重空间对于待分类特征所表达的特定类表达模式的语义依赖程度,从而使得权重空间反应出模型所提取的特征的内在本质知识的传递效果,加快权重矩阵的收敛,从而提升分类器以至于模型整体的训练速度。这样,能够基于实际的检索图像来精准地进行图像的检索匹配,提高视频图像检索的效率和准确度,优化视频图像检索系统。
基于此,本申请提出了一种视频图像检索构建系统,其包括:待检索图像数据采集模块,用于获取输入的待检索图像;备选图像提取模块,用于从后台数据库提取第一备选图像;图像校正模块,用于将所述待检索图像通过基于自动编解码器的图像畸变矫正器以得到校正后待检索图像;图像特征提取模块,用于将所述校正后待检索图像和所述第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;差异性特征提取模块,用于计算所述检测特征图和所述备选特征图之间的差分特征图,并计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值以得到通道差分特征向量;多尺度差异关联编码模块,用于将所述通道差分特征向量通过多尺度邻域特征提取模块以得到分类特征向量;匹配度检测模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待检索图像和第一备选图像之间的匹配度是否超过预定阈值。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图1为根据本申请实施例的视频图像检索构建系统的框图。如图1所示,根据本申请实施例的视频图像检索构建系统300包括推断模块,其中,所述推断模块包括:310;备选图像提取模块320;图像校正模块330;图像特征提取模块340;差异性特征提取模块350;多尺度差异关联编码模块360;匹配度检测模块370。
其中,所述待检索图像数据采集模块310,用于获取输入的待检索图像;所述备选图像提取模块320,用于从后台数据库提取第一备选图像;所述图像校正模块330,用于将所述待检索图像通过基于自动编解码器的图像畸变矫正器以得到校正后待检索图像;所述图像特征提取模块340,用于将所述校正后待检索图像和所述第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;所述差异性特征提取模块350,用于计算所述检测特征图和所述备选特征图之间的差分特征图,并计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值以得到通道差分特征向量;所述多尺度差异关联编码模块360,用于将所述通道差分特征向量通过多尺度邻域特征提取模块以得到分类特征向量;所述匹配度检测模块370,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待检索图像和第一备选图像之间的匹配度是否超过预定阈值。
图3为根据本申请实施例的视频图像检索构建系统中推断模块的系统架构图。如图3所示,在所述视频图像检索构建系统300的系统架构中,在推断过程中,首先通过所述待检索图像数据采集模块310获取输入的待检索图像;所述备选图像提取模块320从后台数据库提取第一备选图像;接着,所述图像校正模块330将所述待检索图像数据采集模块310获取的待检索图像通过基于自动编解码器的图像畸变矫正器以得到校正后待检索图像;所述图像特征提取模块340将所述图像校正模块330得到的校正后待检索图像和所述备选图像提取模块320获取的第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;然后,所述差异性特征提取模块350计算所述图像特征提取模块340得到的检测特征图和所述备选特征图之间的差分特征图,并计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值以得到通道差分特征向量;所述多尺度差异关联编码模块360将所述差异性特征提取模块350计算所得的通道差分特征向量通过多尺度邻域特征提取模块以得到分类特征向量;进而,所述匹配度检测模块370将所述多尺度差异关联编码模块360得到的分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待检索图像和第一备选图像之间的匹配度是否超过预定阈值。
具体地,在所述视频图像检索构建系统300的运行过程中,所述待检索图像数据采集模块310和所述备选图像提取模块320,用于获取输入的待检索图像;以及,从后台数据库提取第一备选图像。应可以理解,在实际进行视频图像检索过程中,可以通过对于输入的检索图像和数据库中的备选图像进行特征对比分析来进行视频图像的检索,具体地,基于挖掘出的输入的检索图像特征和后台数据库中的备选图像特征之间的差异性特征分布信息,以此来精准地进行两者图像的检索匹配,因此,在本申请的一个具体示例中,首先,通过摄像头来获取待检索图像数据,以及,从后台数据库提取第一备选图像。
具体地,在所述视频图像检索构建系统300的运行过程中,所述图像校正模块330,用于将所述待检索图像通过基于自动编解码器的图像畸变矫正器以得到校正后待检索图像。考虑到在实际进行视频图像的检索过程中,由于输入的检索图像在采集的过程中可能会发生图像畸变,使得图像中关于目标对象的隐含特征变得模糊,降低了所述目标对象的特征表达精准度。因此,在本申请的技术方案中,在特征提取前,将所述待检索图像通过基于自动编解码器的图像畸变矫正器中进行图像畸变校正处理,以得到校正后待检索图像。特别地,这里,所述基于自动编解码器的图像畸变矫正器由图像畸变校正编码器和图像畸变校正解码器组成,所述图像畸变校正编码器使用卷积层对所述待检索图像进行显式空间编码以得到图像特征;所述图像畸变校正解码器使用反卷积层对所述图像特征进行反卷积处理以得到所述校正后待检索图像。特别的,所述图像畸变校正编码器将输入数据从高维空间映射到低维特征空间,实现输入数据的压缩表示以及提取特征向量,同时,通过图像畸变校正解码器尽可能多地重构输入数据的低维特征。
图5为根据本申请实施例的视频图像检索构建系统中图像校正模块的框图。如图5所示,所述图像校正模块330,包括:图像编码单元331,用于使用所述基于自动编解码器的图像畸变矫正器的编码器从所述待检索图像提取待检索特征图,其中,所述基于自动编解码器的图像畸变矫正器的编码器为卷积层;以及,图像解码单元332,用于使用所述基于自动编解码器的图像畸变矫正器的解码器对所述待检索特征图进行解码以得到所述校正后待检索图像,其中,所述基于自动编解码器的图像畸变矫正器的解码器为反卷积层。
具体地,在所述视频图像检索构建系统300的运行过程中,所述图像特征提取模块340,用于将所述校正后待检索图像和所述第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构。也就是,使用在图像的隐含特征提取方面具有优异表现的卷积神经网络模型来进行所述校正后待检索图像和所述第一备选图像的特征挖掘,特别地,考虑到在对于所述校正后待检索图像和所述第一备选图像的匹配度进行评估时,为了能够提高两者图像中关于所述目标对象的特征表达能力,以此来提高视频图像的检索精准度,在本申请的技术方案中,将所述校正后待检索图像和所述第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图。值得一提的是,这里,所述第一图像编码器和所述第二图像编码器具有相同的网络结构。特别地,使用包含有相同网络结构的图像编码器的所述孪生检测双分支结构来分别进行所述校正后待检索图像和所述第一备选图像的特征提取能够挖掘出两者的图像在图像源域端差异不明显的特征信息,以此来提高对于所述待检索图像和所述第一备选图像之间关于所述目标对象的匹配精准度。在一个具体示例中,所述孪生检测双分支结构包括相互级联的多个神经网络层,其中各个神经网络层包括卷积层、池化层和激活层。其中,在所述孪生检测双分支结构的编码过程中,所述孪生检测双分支结构的各层在层的正向传递过程中对输入数据使用所述卷积层进行基于卷积核的卷积处理、使用所述池化层对由所述卷积层输出的卷积特征图进行池化处理和使用所述激活层对由所述池化层输出的池化特征图进行激活处理。更具体地,使用所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的最后一层的输出为所述检测特征图和所述备选特征图,所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的第一层的输入为所述校正后待检索图像和所述第一备选图像。
具体地,在所述视频图像检索构建系统300的运行过程中,所述差异性特征提取模块350,用于计算所述检测特征图和所述备选特征图之间的差分特征图,并计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值以得到通道差分特征向量。也就是,在本申请的技术方案中,在得到所述检测特征图和所述备选特征图后,进一步计算两者之间的差分特征图以此来表示所述待检索图像和所述第一备选图像中关于所述目标对象的隐含差异性特征分布信息。在本申请的技术方案中,可通过按位置差分的方式来计算,更具体地,以如下差分公式计算所述检测特征图和所述参考特征图之间的差分特征图;其中,所述公式为:其中,F1表示所述检测特征图,F2表示所述备选特征图,Fc表示所述差分特征图,/>表示按位置差分。然后,计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值以得到通道差分特征向量,以将所述差分特征图进行数据特征降维,以利于后续对其进行关联差异性特征的提取,提高对于所述目标对象的隐含特征在两者图像中的差异性特征的表达能力。
具体地,在所述视频图像检索构建系统300的运行过程中,所述多尺度差异关联编码模块360,用于将所述通道差分特征向量通过多尺度邻域特征提取模块以得到分类特征向量。考虑到由于所述待检索图像和所述第一备选图像中关于所述目标对象的隐含差异性特征在通道内容上具有着关联关系,并且这种关联关系在不同的通道内容间具有着关于所述目标对象的不同差异性关联特征信息。因此,在本申请的技术方案中,将所述通道差分特征向量通过多尺度邻域特征提取模块中进行编码,以提取出所述待检索图像和所述第一备选图像中关于所述目标对象的差异性特征在不同通道内容跨度下的多尺度邻域关联特征分布信息,从而得到分类特征向量。其中,所述多尺度邻域特征提取模块,包括:第一卷积层、与所述第一卷积层并行的第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的多尺度特征融合层,其中,所述第一卷积层使用具有第一长度的一维卷积核,所述第二卷积层使用具有第二长度的一维卷积核。
图6为根据本申请实施例的视频图像检索构建系统中多尺度差异关联编码模块的框图。如图6所示,所述多尺度差异关联编码模块360,包括:第一邻域尺度特征提取单元361,用于将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度分类特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;第二邻域尺度特征提取单元362,用于将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度分类特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,多尺度级联单元363,用于将所述第一邻域尺度分类特征向量和所述第二邻域尺度分类特征向量进行级联以得到所述分类特征向量。其中,所述第一邻域尺度特征提取单元,用于:使用所述多尺度邻域特征提取模块的第一卷积层以如下一维卷积公式对所述通道差分特征向量进行一维卷积编码以得到第一邻域尺度分类特征向量;其中,所述公式为:
其中,a为第一卷积核在x方向上的宽度、F(a)为第一卷积核参数向量、G(x-a)为与卷积核函数运算的局部向量矩阵,w为第一卷积核的尺寸,X表示所述通道差分特征向量,Cov(X)表示对所述通道差分特征向量进行一维卷积编码;以及,所述第二邻域尺度特征提取单元,用于:使用所述多尺度邻域特征提取模块的第二卷积层以如下一维卷积公式对所述通道差分特征向量进行一维卷积编码以得到所述第二邻域尺度分类特征向量;其中,所述公式为:
其中,b为第二卷积核在x方向上的宽度、F(b)为第二卷积核参数向量、G(x-b)为与卷积核函数运算的局部向量矩阵,m为第二卷积核的尺寸,X表示所述通道差分特征向量,Cov(X)表示对所述通道差分特征向量进行一维卷积编码。
具体地,在所述视频图像检索构建系统300的运行过程中,所述匹配度检测模块370,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待检索图像和第一备选图像之间的匹配度是否超过预定阈值。也就是,将所述分类特征向量通过分类器以得到用于表示待检索图像和第一备选图像之间的匹配度是否超过预定阈值的分类结果。具体地,使用所述分类器以如下公式对所述分类特征向量进行处理以获得分类结果,其中,所述公式为:O=softmax{(Wn,Bn):…:(W1,B1)│X},其中,W1到Wn为权重矩阵,B1到Bn为偏置向量,X为分类特征向量。具体地,所述分类器包括多个全连接层和与所述多个全连接层最后一个全连接层级联的Softmax层。其中,在所述分类器的分类处理中,使用所述分类器的多个全连接层对所述分类特征向量进行多次全连接编码以得到编码分类特征向量;进而,将所述分类特征向量输入所述分类器的Softmax层,即,使用所述Softmax分类函数对所述编码分类特征向量进行分类处理以得到分类标签。也就是说,以所述待检索图像和所述第一备选图像中关于所述目标对象的多尺度通道内容差异性特征分布信息来进行分类,以此来对于两者图像的匹配度进行评估,响应于所述待检索图像和所述第一备选图像之间的匹配度超过预定阈值,则确定所述第一备选图像为检索图像。这样,能够基于所述待检索图像和所述备选图像之间的特征差异性信息来准确地进行视频图像的检索,提高视频图像检索的精准度。
应可以理解,在利用上述神经网络模型进行推断之前,需要对所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构、所述多尺度邻域特征提取模块和所述分类器进行训练。也就是说,在本申请的视频图像检索构建系统中,还包括训练模块,用于对所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构、所述多尺度邻域特征提取模块和所述分类器进行训练。深度神经网络的训练大多采用反向传播算法,反向传播算法利用链式法则通过后面一层传来的误差来对当前层参数进行更新,这在网络很深的时候会遭遇梯度消失的问题,或者更广义地称为不稳定梯度问题。
图2为根据本申请实施例的视频图像检索构建系统的框图。如图2所示,根据本申请实施例的视频图像检索构建系统300,还包括训练模块400,所述训练模块包括:训练数据采集模块410。训练图像校正模块420;训练图像特征提取模块430;训练差异性特征提取模块440;训练多尺度差异关联编码模块450;分类损失模块460;以及,训练模块470。
其中,所述训练数据采集模块410,用于获取输入的训练待检索图像,训练第一备选图像,以及,所述训练待检索图像和所述训练第一备选图像之间的匹配度是否超过预定阈值的真实值。所述训练图像校正模块420,用于将所述训练待检索图像通过所述基于自动编解码器的图像畸变矫正器以得到训练校正后待检索图像;所述训练图像特征提取模块430,用于将所述训练校正后待检索图像和所述训练第一备选图像通过所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到训练检测特征图和训练备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;所述训练差异性特征提取模块440,用于计算所述训练检测特征图和所述训练备选特征图之间的训练差分特征图,并计算所述训练差分特征图的沿通道维度的各个特征矩阵的全局均值以得到训练通道差分特征向量;所述训练多尺度差异关联编码模块450,用于将所述训练通道差分特征向量通过所述多尺度邻域特征提取模块以得到训练分类特征向量;所述分类损失模块460,用于将所述训练分类特征向量通过所述分类器以得到分类损失函数值;以及,所述训练模块470,用于基于所述分类损失函数值并通过梯度下降的方向传播来对所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构、所述多尺度邻域特征提取模块和所述分类器进行训练,其中,在所述训练的每一轮迭代中,对所述分类器的权重矩阵进行权重矩阵的空间正则化约束迭代。
图4为根据本申请实施例的视频图像检索构建系统中训练模块的系统架构图。如图4所示,在所述视频图像检索构建系统300的系统架构中,在训练模块400中,首先通过所述训练数据采集模块410获取输入的训练待检索图像,训练第一备选图像,以及,所述训练待检索图像和所述训练第一备选图像之间的匹配度是否超过预定阈值的真实值。接着,所述训练图像校正模块420将所述训练数据采集模块410获取的训练待检索图像通过所述基于自动编解码器的图像畸变矫正器以得到训练校正后待检索图像;所述训练图像特征提取模块430将所述训练图像校正模块420得到的训练校正后待检索图像和所述训练第一备选图像通过所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到训练检测特征图和训练备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;然后,所述训练差异性特征提取模块440计算所述训练图像特征提取模块430得到的训练检测特征图和所述训练备选特征图之间的训练差分特征图,并计算所述训练差分特征图的沿通道维度的各个特征矩阵的全局均值以得到训练通道差分特征向量;所述训练多尺度差异关联编码模块450将所述训练差异性特征提取模块440计算所得的训练通道差分特征向量通过所述多尺度邻域特征提取模块以得到训练分类特征向量;所述分类损失模块460将所述训练多尺度差异关联编码模块450的训练分类特征向量通过所述分类器以得到分类损失函数值;进而,所述训练模块470基于所述分类损失函数值并通过梯度下降的方向传播来对所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构、所述多尺度邻域特征提取模块和所述分类器进行训练,其中,在所述训练的每一轮迭代中,对所述分类器的权重矩阵进行权重矩阵的空间正则化约束迭代。
在本申请的技术方案中,这里,对于计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值得到的所述通道差分特征向量来说,由于用特征矩阵的全局均值取代了特征矩阵的整体分布,这就使得所述通道差分特征向量的特征分布的离散度升高,即使通过多尺度邻域特征提取模块进一步提取了多尺度通道邻域关联特征,也会导致所述分类特征向量的特征分布的离散化,从而使得在训练过程中所述分类器的权重矩阵的收敛速度慢,影响了分类器以至于模型整体的训练速度。因此,在本申请的技术方案中,本申请的申请人在每次分类器的权重矩阵的迭代时进行权重矩阵的空间正则化约束,表示为:
其中M是所述分类器的权重矩阵,‖·‖F表示矩阵的Frobenius范数,Mb是偏置矩阵,表示矩阵乘法,/>表示矩阵加法,⊙表示按位置点乘,exp(·)表示矩阵的指数运算,所述矩阵的指数运算表示计算以矩阵中各个位置的特征值为幂的自然指数函数值,M′表示迭代后的所述分类器的权重矩阵。所述权重矩阵的空间正则化约束在权重矩阵与其自身转置进行空间嵌入得到的内生相关性矩阵的基础上,对所述分类器的权重矩阵进行基于其欧式空间的内生相关分布的L2正则化,从而与待加权特征的数值分布和按位置数值大小无关地,反映出权重空间对于待分类特征所表达的特定类表达模式的语义依赖程度,从而使得权重空间反应出模型所提取的特征的内在本质知识的传递效果,加快权重矩阵的收敛,从而提升分类器以至于模型整体的训练速度。这样,能够基于实际的检索图像来精准地进行图像的检索匹配,提高视频图像检索的效率和准确度,优化视频图像检索系统。
综上,根据本申请实施例的视频图像检索构建系统300被阐明,其通过采用基于深度学习的神经网络模型挖掘出输入的检索图像特征和后台数据库中的备选图像特征之间的差异性特征分布信息,以此来精准地进行两者图像的检索匹配,提高视频图像检索的精准度。
如上所述,根据本申请实施例的视频图像检索构建系统可以实现在各种终端设备中。在一个示例中,根据本申请实施例的视频图像检索构建系统300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该视频图像检索构建系统300可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该视频图像检索构建系统300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该视频图像检索构建系统300与该终端设备也可以是分立的设备,并且该视频图像检索构建系统300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法
图7为根据本申请实施例的视频图像检索构建方法的流程图。如图7所示,根据本申请实施例的视频图像检索构建方法,包括步骤:S110,获取输入的待检索图像;S120,从后台数据库提取第一备选图像;S130,将所述待检索图像通过基于自动编解码器的图像畸变矫正器以得到校正后待检索图像;S140,将所述校正后待检索图像和所述第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;S150,计算所述检测特征图和所述备选特征图之间的差分特征图,并计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值以得到通道差分特征向量;S160,将所述通道差分特征向量通过多尺度邻域特征提取模块以得到分类特征向量;S170,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待检索图像和第一备选图像之间的匹配度是否超过预定阈值。
在一个示例中,在上述视频图像检索构建方法中,所述步骤S130,包括:使用所述基于自动编解码器的图像畸变矫正器的编码器从所述待检索图像提取待检索特征图,其中,所述基于自动编解码器的图像畸变矫正器的编码器为卷积层;以及,使用所述基于自动编解码器的图像畸变矫正器的解码器对所述待检索特征图进行解码以得到所述校正后待检索图像,其中,所述基于自动编解码器的图像畸变矫正器的解码器为反卷积层。
在一个示例中,在上述视频图像检索构建方法中,所述步骤S140,包括:使用所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的最后一层的输出为所述检测特征图和所述备选特征图,所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的第一层的输入为所述校正后待检索图像和所述第一备选图像。
在一个示例中,在上述视频图像检索构建方法中,所述步骤S160,包括:将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度分类特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度分类特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,将所述第一邻域尺度分类特征向量和所述第二邻域尺度分类特征向量进行级联以得到所述分类特征向量。其中,所述第一邻域尺度特征提取单元,用于:使用所述多尺度邻域特征提取模块的第一卷积层以如下一维卷积公式对所述通道差分特征向量进行一维卷积编码以得到第一邻域尺度分类特征向量;其中,所述公式为:
其中,a为第一卷积核在x方向上的宽度、F(a)为第一卷积核参数向量、G(x-a)为与卷积核函数运算的局部向量矩阵,w为第一卷积核的尺寸,X表示所述通道差分特征向量,Cov(X)表示对所述通道差分特征向量进行一维卷积编码;以及,所述第二邻域尺度特征提取单元,用于:使用所述多尺度邻域特征提取模块的第二卷积层以如下一维卷积公式对所述通道差分特征向量进行一维卷积编码以得到所述第二邻域尺度分类特征向量;其中,所述公式为:
其中,b为第二卷积核在x方向上的宽度、F(b)为第二卷积核参数向量、G(x-b)为与卷积核函数运算的局部向量矩阵,m为第二卷积核的尺寸,X表示所述通道差分特征向量,Cov(X)表示对所述通道差分特征向量进行一维卷积编码。
综上,根据本申请实施例的视频图像检索构建方法被阐明,其通过采用基于深度学习的神经网络模型挖掘出输入的检索图像特征和后台数据库中的备选图像特征之间的差异性特征分布信息,以此来精准地进行两者图像的检索匹配,提高视频图像检索的精准度。
示例性电子设备
下面,参考图8来描述根据本申请实施例的电子设备。
图8图示了根据本申请实施例的电子设备的框图。
如图8所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的视频图像检索构建系统中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如通道差分特征向量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的视频图像检索构建方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的视频图像检索构建方法中的功能中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (6)

1.一种视频图像检索构建系统,其特征在于,包括:
待检索图像数据采集模块,用于获取输入的待检索图像;
备选图像提取模块,用于从后台数据库提取第一备选图像;
图像校正模块,用于将所述待检索图像通过基于自动编解码器的图像畸变矫正器以得到校正后待检索图像;
图像特征提取模块,用于将所述校正后待检索图像和所述第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;
差异性特征提取模块,用于计算所述检测特征图和所述备选特征图之间的差分特征图,并计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值以得到通道差分特征向量;
多尺度差异关联编码模块,用于将所述通道差分特征向量通过多尺度邻域特征提取模块以得到分类特征向量;
匹配度检测模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待检索图像和第一备选图像之间的匹配度是否超过预定阈值;
其中,所述图像校正模块,包括:
图像编码单元,用于使用所述基于自动编解码器的图像畸变矫正器的编码器从所述待检索图像提取待检索特征图,其中,所述基于自动编解码器的图像畸变矫正器的编码器为卷积层;以及
图像解码单元,用于使用所述基于自动编解码器的图像畸变矫正器的解码器对所述待检索特征图进行解码以得到所述校正后待检索图像,其中,所述基于自动编解码器的图像畸变矫正器的解码器为反卷积层;
其中,所述图像特征提取模块,用于:使用所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的各层在层的正向传递中分别对输入数据进行:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;以及
对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的最后一层的输出为所述检测特征图和所述备选特征图,所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的第一层的输入为所述校正后待检索图像和所述第一备选图像;
其中,所述多尺度邻域特征提取模块,包括:第一卷积层、与所述第一卷积层并行的第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的多尺度特征融合层,其中,所述第一卷积层使用具有第一长度的一维卷积核,所述第二卷积层使用具有第二长度的一维卷积核;
其中,所述多尺度差异关联编码模块,包括:
第一邻域尺度特征提取单元,用于将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度分类特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;
第二邻域尺度特征提取单元,用于将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度分类特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及
多尺度级联单元,用于将所述第一邻域尺度分类特征向量和所述第二邻域尺度分类特征向量进行级联以得到所述分类特征向量;
其中,所述第一邻域尺度特征提取单元,用于:使用所述多尺度邻域特征提取模块的第一卷积层以如下第一一维卷积公式对所述通道差分特征向量进行一维卷积编码以得到第一邻域尺度分类特征向量:其中,a为第一卷积核在x方向上的宽度、/>为第一卷积核参数向量、/>为与卷积核函数运算的局部向量矩阵,w为第一卷积核的尺寸,/>表示所述通道差分特征向量,/>表示对所述通道差分特征向量进行第一一维卷积编码得到的所述第一邻域尺度分类特征向量;以及
所述第二邻域尺度特征提取单元,用于:使用所述多尺度邻域特征提取模块的第二卷积层以如下第二一维卷积公式对所述通道差分特征向量进行一维卷积编码以得到所述第二邻域尺度分类特征向量:其中,b为第二卷积核在x方向上的宽度、/>为第二卷积核参数向量、/>为与卷积核函数运算的局部向量矩阵,m为第二卷积核的尺寸,/>表示所述通道差分特征向量,/>表示对所述通道差分特征向量进行第二一维卷积编码得到的所述第二邻域尺度分类特征向量。
2.根据权利要求1所述的视频图像检索构建系统,其特征在于,还包括用于对所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构、所述多尺度邻域特征提取模块和所述分类器进行训练的训练模块。
3.根据权利要求2所述的视频图像检索构建系统,其特征在于,所述训练模块,包括:
训练数据采集模块,用于获取输入的训练待检索图像,训练第一备选图像,以及,所述训练待检索图像和所述训练第一备选图像之间的匹配度是否超过预定阈值的真实值;
训练图像校正模块,用于将所述训练待检索图像通过所述基于自动编解码器的图像畸变矫正器以得到训练校正后待检索图像;
训练图像特征提取模块,用于将所述训练校正后待检索图像和所述训练第一备选图像通过所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到训练检测特征图和训练备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;
训练差异性特征提取模块,用于计算所述训练检测特征图和所述训练备选特征图之间的训练差分特征图,并计算所述训练差分特征图的沿通道维度的各个特征矩阵的全局均值以得到训练通道差分特征向量;
训练多尺度差异关联编码模块,用于将所述训练通道差分特征向量通过所述多尺度邻域特征提取模块以得到训练分类特征向量;
分类损失模块,用于将所述训练分类特征向量通过所述分类器以得到分类损失函数值;以及
训练模块,用于基于所述分类损失函数值并通过梯度下降的方向传播来对所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构、所述多尺度邻域特征提取模块和所述分类器进行训练,其中,在所述训练的每一轮迭代中,对所述分类器的权重矩阵进行权重矩阵的空间正则化约束迭代。
4.根据权利要求3所述的视频图像检索构建系统,其特征在于,所述分类损失模块,用于:使用所述分类器以如下公式对所述训练分类特征向量进行处理以获得分类结果:,其中,/>到/>为权重矩阵,/>到/>为偏置向量,为训练分类特征向量。
5.根据权利要求4所述的视频图像检索构建系统,其特征在于,在所述训练的每一轮迭代中,以如下公式对所述分类器的权重矩阵进行权重矩阵的空间正则化约束迭代:其中/>是所述分类器的权重矩阵,表示矩阵的Frobenius范数,/>是偏置矩阵,/>表示矩阵乘法,/>表示矩阵加法,/>表示按位置点乘,/>表示矩阵的指数运算,所述矩阵的指数运算表示计算以矩阵中各个位置的特征值为幂的自然指数函数值,/>表示迭代后的所述分类器的权重矩阵。
6.一种视频图像检索构建方法,其特征在于,包括:
获取输入的待检索图像;
从后台数据库提取第一备选图像;
将所述待检索图像通过基于自动编解码器的图像畸变矫正器以得到校正后待检索图像;
将所述校正后待检索图像和所述第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图,其中,所述第一图像编码器和所述第二图像编码器具有相同的网络结构;
计算所述检测特征图和所述备选特征图之间的差分特征图,并计算所述差分特征图的沿通道维度的各个特征矩阵的全局均值以得到通道差分特征向量;
将所述通道差分特征向量通过多尺度邻域特征提取模块以得到分类特征向量;
将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待检索图像和第一备选图像之间的匹配度是否超过预定阈值;
其中,将所述待检索图像通过基于自动编解码器的图像畸变矫正器以得到校正后待检索图像,包括:
使用所述基于自动编解码器的图像畸变矫正器的编码器从所述待检索图像提取待检索特征图,其中,所述基于自动编解码器的图像畸变矫正器的编码器为卷积层;以及
使用所述基于自动编解码器的图像畸变矫正器的解码器对所述待检索特征图进行解码以得到所述校正后待检索图像,其中,所述基于自动编解码器的图像畸变矫正器的解码器为反卷积层;
其中,将所述校正后待检索图像和所述第一备选图像通过包含第一图像编码器和第二图像编码器的孪生检测双分支结构以得到检测特征图和备选特征图,包括:使用所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的各层在层的正向传递中分别对输入数据进行:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;以及
对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的最后一层的输出为所述检测特征图和所述备选特征图,所述包含第一图像编码器和第二图像编码器的孪生检测双分支结构的第一层的输入为所述校正后待检索图像和所述第一备选图像;
其中,所述多尺度邻域特征提取模块,包括:第一卷积层、与所述第一卷积层并行的第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的多尺度特征融合层,其中,所述第一卷积层使用具有第一长度的一维卷积核,所述第二卷积层使用具有第二长度的一维卷积核;
其中,将所述通道差分特征向量通过多尺度邻域特征提取模块以得到分类特征向量,包括:
将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度分类特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;
将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度分类特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及
将所述第一邻域尺度分类特征向量和所述第二邻域尺度分类特征向量进行级联以得到所述分类特征向量;
其中,将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度分类特征向量,包括:使用所述多尺度邻域特征提取模块的第一卷积层以如下第一一维卷积公式对所述通道差分特征向量进行一维卷积编码以得到第一邻域尺度分类特征向量:
其中,a为第一卷积核在x方向上的宽度、/>为第一卷积核参数向量、/>为与卷积核函数运算的局部向量矩阵,w为第一卷积核的尺寸,表示所述通道差分特征向量,/>表示对所述通道差分特征向量进行第一一维卷积编码得到的所述第一邻域尺度分类特征向量;以及
将所述通道差分特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度分类特征向量,包括:使用所述多尺度邻域特征提取模块的第二卷积层以如下第二一维卷积公式对所述通道差分特征向量进行一维卷积编码以得到所述第二邻域尺度分类特征向量:其中,b为第二卷积核在x方向上的宽度、为第二卷积核参数向量、/>为与卷积核函数运算的局部向量矩阵,m为第二卷积核的尺寸,/>表示所述通道差分特征向量,/>表示对所述通道差分特征向量进行第二一维卷积编码得到的所述第二邻域尺度分类特征向量。
CN202310343724.5A 2023-03-31 2023-03-31 一种视频图像检索构建系统及其方法 Active CN116467485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310343724.5A CN116467485B (zh) 2023-03-31 2023-03-31 一种视频图像检索构建系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310343724.5A CN116467485B (zh) 2023-03-31 2023-03-31 一种视频图像检索构建系统及其方法

Publications (2)

Publication Number Publication Date
CN116467485A CN116467485A (zh) 2023-07-21
CN116467485B true CN116467485B (zh) 2024-06-04

Family

ID=87178218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310343724.5A Active CN116467485B (zh) 2023-03-31 2023-03-31 一种视频图像检索构建系统及其方法

Country Status (1)

Country Link
CN (1) CN116467485B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117580090B (zh) * 2024-01-15 2024-03-19 钦原科技有限公司 移动终端通信稳定性测试方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017020741A1 (zh) * 2015-08-06 2017-02-09 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及系统
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法
CN106777402A (zh) * 2017-03-10 2017-05-31 山东师范大学 一种基于稀疏神经网络的图像检索文本方法
WO2022134728A1 (zh) * 2020-12-25 2022-06-30 苏州浪潮智能科技有限公司 一种图像检索方法、系统、设备以及介质
CN115203380A (zh) * 2022-09-19 2022-10-18 山东鼹鼠人才知果数据科技有限公司 基于多模态数据融合的文本处理系统及其方法
CN115269882A (zh) * 2022-09-28 2022-11-01 山东鼹鼠人才知果数据科技有限公司 基于语义理解的知识产权检索系统及其方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017020741A1 (zh) * 2015-08-06 2017-02-09 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及系统
CN106445939A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及系统
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法
CN106777402A (zh) * 2017-03-10 2017-05-31 山东师范大学 一种基于稀疏神经网络的图像检索文本方法
WO2022134728A1 (zh) * 2020-12-25 2022-06-30 苏州浪潮智能科技有限公司 一种图像检索方法、系统、设备以及介质
CN115203380A (zh) * 2022-09-19 2022-10-18 山东鼹鼠人才知果数据科技有限公司 基于多模态数据融合的文本处理系统及其方法
CN115269882A (zh) * 2022-09-28 2022-11-01 山东鼹鼠人才知果数据科技有限公司 基于语义理解的知识产权检索系统及其方法

Also Published As

Publication number Publication date
CN116467485A (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN115203380B (zh) 基于多模态数据融合的文本处理系统及其方法
CN113641820B (zh) 基于图卷积神经网络的视角级文本情感分类方法及系统
CN115783923B (zh) 基于大数据的电梯故障模式识别系统
CN115860271B (zh) 艺术设计用方案管理系统及其方法
CN116089648B (zh) 基于人工智能的档案管理系统及方法
CN116245513B (zh) 基于规则库的自动化运维系统及其方法
CN116309580B (zh) 基于磁应力的油气管道腐蚀检测方法
CN115620303A (zh) 人事档案智慧管理系统
CN115471216B (zh) 智慧实验室管理平台的数据管理方法
CN116579618B (zh) 基于风险管理的数据处理方法、装置、设备及存储介质
CN116467485B (zh) 一种视频图像检索构建系统及其方法
CN117058622A (zh) 污水处理设备的智能监测系统及其方法
CN115761900B (zh) 用于实训基地管理的物联网云平台
CN115827257B (zh) 用于处理器体系的cpu容量预测方法及其系统
CN116343301B (zh) 基于人脸识别的人员信息智能校验系统
CN116091414A (zh) 一种基于深度学习的心血管图像识别方法及其系统
CN116797814A (zh) 智慧工地安全管理系统
CN116030018A (zh) 用于门加工的来料合格检验系统及方法
CN116912597A (zh) 知识产权智能管理系统及其方法
CN116486323A (zh) 基于人工智能的输煤廊道监控管理系统及其方法
CN116797533A (zh) 电源适配器的外观缺陷检测方法及其系统
CN117596057A (zh) 网络信息安全管理系统及方法
CN115205788A (zh) 食材质量监控系统
CN117316462A (zh) 一种医疗数据管理方法
CN117076983A (zh) 传输外线资源识别检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant