CN114328991A - 一种基于哈希编码的图像声音检索方法 - Google Patents

一种基于哈希编码的图像声音检索方法 Download PDF

Info

Publication number
CN114328991A
CN114328991A CN202111599825.6A CN202111599825A CN114328991A CN 114328991 A CN114328991 A CN 114328991A CN 202111599825 A CN202111599825 A CN 202111599825A CN 114328991 A CN114328991 A CN 114328991A
Authority
CN
China
Prior art keywords
image
spectrogram
sound
hash
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111599825.6A
Other languages
English (en)
Inventor
李若尘
张世雄
黎俊良
魏文应
龙仕强
安欣赏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Bohua Ultra Hd Innovation Center Co ltd
Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Original Assignee
Guangdong Bohua Ultra Hd Innovation Center Co ltd
Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Bohua Ultra Hd Innovation Center Co ltd, Instritute Of Intelligent Video Audio Technology Longgang Shenzhen filed Critical Guangdong Bohua Ultra Hd Innovation Center Co ltd
Priority to CN202111599825.6A priority Critical patent/CN114328991A/zh
Publication of CN114328991A publication Critical patent/CN114328991A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

一种基于哈希编码的图像声音检索方法。在预处理阶段,首先将声音通过快速傅里叶变换转化为语谱图,同时对转化后的语谱图以及原始的人脸图像进行旋转、对比度变换等数据增强操作;在训练阶段,将之前处理好的人脸图像以及语谱图传入一个经由ImageNet预训练的基于内容分类的神经网络中,自动将人脸和语谱图传递到各自模态的特征提取网络中。相比于传统方法,哈希编码大幅降低了检索消耗的时间,提升了系统执行效率;同时,对语谱图进行对比度增强可以抑制低频噪声,以及采用一个基于内容的样本分类器可以减少人为区分样本出错的概率,本方法在目前公开的测试数据集上,取得了领先的检测水平。

Description

一种基于哈希编码的图像声音检索方法
技术领域
本发明涉及到人工智能、机器视觉、跨膜态检索领域,具体涉及一种基于跨膜态动态特征提取神经网络及特征哈希编码算法的图像声音互检索方法。
背景技术
从声音推断一个人的长相不是一种无意识的行为,平时我们在打电话时会根据对方的声音形成对方相貌的一个粗浅概念。这是因为,年龄、性别、嘴巴形状、面部骨骼结构,所有这些都会影响人发出的声音。此外,语言、口音、速度通常会体现出一个人的民族、地域、文化特征。而人工智能网络正是根据语音和相貌的关联性做出推测。跨膜态人脸声音检索的核心任务可以看作是跨模态生物特征识别与匹配,即给定脸部图像或视频,确定它对应于给定的音频中的哪一个;或者给定声音的音频片段,确定它对应于两个或多个面部图像或视频中的哪一个。早在2003年日本人类信息科学实验室的Miyuki Kamachi等人就做了一个实验,邀请了100位受试者,给他们提供声音以及与之匹配的人脸图像,让他们试着找出二者的关联,最终的实验结果指出“语音感知提供了令人信服的例子,说明听觉和视觉模式之间具有紧密联系”。基于深度学习及计算机视觉技术分析声音和人脸之间的关联性直到2017年牛津大学VGG团队公布“VoxCeleb”数据集之后才正式被广泛研究。2018年,牛津大学Arsha Nagrani等人提出“SVHF”网络,首次使用深度学习技术实现了声音和静态人脸图像的匹配。2019年,麻省理工大学的Changil Kim等人使用卷积人工神经网络技术实现了人脸和声音之间的相互检索。2020年,韩国Narve集团的Joon Son Chung等人探讨了不同度量学习损失函数对声音人脸检索效果的影响,正式将人脸、声音检索任务的实现方法分为分类法及度量学习法两大类。
同时,基于哈希算法的图像检索技术在大规模图像查询领域十分常见,通过哈希编码,可以显著提高系统检索效率、降低算力资源消耗,对于目前动辄上万磅碳排放量的大模型(如GPT-2、GPT-3、Transformer等),使用哈希编码将大幅降低系统的碳排放,助力实现国家双碳目标。将哈希编码技术应用到声音人脸跨膜态检索领域,将提高检索准确性、提升效率、降低系统算力消耗,产生巨大社会价值。
背景技术存在的主要问题:人脸和声音分属不同模态,二者在神经认知领域存在一定的冗余信息,即人脸和声音会表达关于个体的身份、年龄、体态等相同特征,虽有研究人员通过实验证明了根据声音推断人脸或根据人脸推断声音的可行性,但对计算机系统而言,不同模态信息之间的匹配仍是一个巨大的挑战。传统的声音人脸匹配、检索算法,所需的损失函数复杂、计算算法复杂度极高,且针对大规模人脸、声音检索不存在相关优化,因此导致算力消耗大、检索耗时高等问题。
解决以上问题及缺陷的难度在于:大规模图像声音检索必然导致检索速度的下降,单纯提高检索速度又会导致检索精读下降,如何在保证检索精度的前提下提升检索速度,是需要权衡的一大难题。
解决以上问题及缺陷的意义为:既大幅加快了检索速度,又保证了检索精度不下降。采用哈希编码的方式对神经网络提取出的图像、声音特征进行降维,降维后的特征通过一种特殊的损失函数——汉明损失进行拟合,起到大幅提升检索速度、减低算力消耗的作用。同时,对拟合过程辅以均方误差损失,由于哈希编码对图像、声音特征进行降维的过程中存在信息丢失,均方误差损失在降维前计算声音、图像二者之间的误差,之后以一定权重加到汉明损失中去,可保证检索精度不下降。
发明内容
本发明提供了一种基于哈希编码的图像声音检索方法,有效提升了声音、人脸检索的准确率及系统执行效率。
本发明的技术方案如下:
本发明提供的一种基于哈希编码的图像声音检索方法,包括以下步骤:S1.对人脸图像及声音进行预处理,将声音转化为语谱图;S2.对步骤S1中的人脸图像进行数据增强变换,对语谱图采用锐化操作,增强对比度;S3.通过模态选择器将步骤S2处理后的图像送入相应模态,并通过特征提取网络提取特征;S4.将步骤S3输出的结果经过一个相同全连接网络映射到同一个特征空间,输出分别表示人脸图像的特征向量及语谱图的特征向量;S5.对步骤S4输出的结果进行哈希编码,同时计算步骤S4输出的结果的均方误差损失;以及S6.对步骤S5输出的哈希编码后的结果计算汉明损失,引入松弛因子使得汉明损失连续化,结合S5输出的均方误差损失一起作为网络的最终损失函数。
优选的,在上述基于哈希编码的图像声音检索方法中,在步骤S1中,首选准备训练所需数据,人脸图像为“.jpg”格式,声音为“.wav”格式,之后使用声音处理软件读取“.wav”文件,将其转化为对应的声波,之后使用快速傅里叶变换将声波转化为语谱图,并进行输出。
优选的,在上述基于哈希编码的图像声音检索方法中,在步骤S1中,在步骤S2中,数据增强变换包括对所有人脸图像进行旋转、对比度调整。
优选的,在上述基于哈希编码的图像声音检索方法中,在步骤S1中,在步骤S3中,模态选择器是一个经由ImageNet预训练的卷积神经网络。
优选的,在上述基于哈希编码的图像声音检索方法中,在步骤S3中,将S2处理后的图像送入经由ImageNet预训练的卷积神经网络,按照内容对输入数据自动分类,自动将人脸图像和语谱图送入相应模态的特征提取网络中,并对人脸图像和语谱图分别提取特征,其中,人脸特征提取网络选用ResNet50,语谱图特征提取网络选用VGG-M。
优选的,在上述基于哈希编码的图像声音检索方法中,在步骤S4中,最终输出512维特征向量Vf,Vv,Vf和Vv分别表示人脸图像的特征向量及语谱图的特征向量,之后将二者送入一个单层全连接网络,将它们映射到一个相同的特征空间—汉明空间中,全连接网络的全连接层的输入为512,输出为哈希编码长度C,在实验中哈希编码长度一般取C=18。
优选的,在上述基于哈希编码的图像声音检索方法中,在步骤S6中,计算哈希编码后的人脸特征和声音特征二者的距离,采取欧几里得距离替代汉明距离,并通过施加一个附加的正则化函数来逼近原始汉明距离输出的结果,之后将S5计算的均方误差损失和S6计算的汉明损失加权平均即可得到最终的损失函数。
根据本发明的技术方案,产生的有益效果是:
本发明提出的方法与现有的方法相比有以下几点改进:1.)原始声音由声波图转化为语谱图时引入背景音抑制算法,增强人声,使声纹特征更加明显,便于声纹特征提取网络学习到更为显著的声纹特征;2.)本发明方法涉及的动态图像内容分类模块,根据图像内容,将输入数据自动分为语谱图和人脸图像,传输至各自的特征提取网络中,减少人为分类输入数据时可能引入的损失;3.)引入哈希编码算法及汉明距离损失(hamming loss),在将声音、人脸两个模态各自的特征映射到相同特征空间之后,将其进行二进制编码并构建哈希矩阵计算哈希损失。
本发明方法在进行人脸图像和声音相互检索时,通过哈希编码以及动态数据分类、语谱图预处理等技术手段,有效提升了声音、人脸检索的准确率及系统执行效率。
为了更好地理解和说明本发明的构思、工作原理和发明效果,下面结合附图,通过具体实施例,对本发明进行详细说明如下:
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明一种基于哈希编码的图像声音检索方法的流程图;
图2为基于哈希编码的图像声音检索网络算法结构图;
图3为本发明所设计算法的损失函数随迭代次数变换所绘制的损失值图。
具体实施方式
为使本发明的目的、技术方法及优点更加清晰,下面结合附图及具体实例,对本发明做进一步的详细说明。这些实例仅仅是说明性的,而并非对本发明的限制。
本发明的基于哈希编码的图像声音检索方法,利用深度学习技术学习人脸图像和语谱图二者之间的对应关系。具体地,首先对人脸和语谱图进行一定的预处理增强数据,将人脸图像进行一些随机变换,如旋转、剪切等,对声音波形进行标准化(Normalize)处理,并通过快速傅里叶变换生成语谱图,再对语谱图进行锐化处理,抑制背景噪音;然后将人脸图像和语谱图送入一个经由ImageNet预训练的卷积神经网络,按照内容对输入数据自动分类,分别送入各自模态的特征提取网络(即,人脸特征提取网络或语谱图特征提取网络),其中人脸特征提取网络采用ResNet50,语谱图特征提取网络采用VGG-M;特征提取完成后将二者(人脸图像和语谱图)的特征送入同一个全连接网络,将二者(人脸图像和语谱图特征)映射到相同的特征空间中。之后计算二者(人脸图像和语谱图特征)的均方误差损失,即欧式距离,同时对二者(人脸图像和语谱图特征)进行哈希编码,构建哈希矩阵;最后计算哈希编码后的人脸特征和声音特征二者的汉明距离,再引入松弛因子将汉明距离松弛为连续函数,之后采用加权平均的方式和均方误差损失一起构成网络的最终损失函数。
图1为本发明的基于哈希编码的图像声音检索方法的流程图,本方法包括预处理阶段(对应步骤S1-S3)和训练阶段(对应步骤S4-S6),从开始到结束,包括以下步骤:
S1.对人脸图像及声音进行预处理,将声音转化为语谱图。在预处理阶段,首选准备训练所需数据,人脸图像为“.jpg”格式,声音为“.wav”格式,之后使用声音处理软件读取“.wav”文件,将其转化为对应的声波,之后使用快速傅里叶变换将声波转化为语谱图,并进行输出。语谱图的横轴表示时间,纵轴表示频率,坐标值为语音的强弱。
S2.对步骤S1中的人脸图像进行数据增强变换,对语谱图采用锐化操作,增强对比度。在预处理阶段,对所有人脸图像进行旋转、对比度调整等图像增强变换(即数据增强),提高算法模型的泛化性和鲁棒性;对S1输出的语谱图进行锐化操作,增强对比度,由于语谱图的明暗代表该点语音强度的大小,因此对较暗的位置进一步降低亮度可以抑制背景噪音(假设背景噪音强度较人声更弱);
S3.通过模态选择器将步骤S2处理后的图像(即S2的输出结果)送入相应模态,并通过特征提取网络提取特征。模态选择器是一个经由ImageNet预训练的卷积神经网络(一个内容分类网络)。在预处理阶段,将S2处理后的图像送入经由ImageNet预训练的一个内容分类网络,按照内容对输入数据自动分类,自动将人脸图像和语谱图送入相应模态的特征提取网络中,并对人脸和语谱图分别提取特征,人脸特征提取网络选用ResNet50,语谱图特征提取网络选用VGG-M。
S4.将步骤S3输出的结果经过一个相同全连接网络映射到同一个特征空间,最终输出512维特征向量Vf,Vv。Vf和Vv分别表示人脸图像的特征向量及语谱图的特征向量。之后将二者送入一个单层全连接网络,将它们映射到一个相同的特征空间—汉明空间中。该全连接层的输入为512,输出为哈希编码长度C,在实验中哈希编码长度一般取C=18;
S5.对步骤S4输出的结果进行哈希编码,同时计算步骤S4输出的结果的均方误差损失。具体地,在训练阶段,映射到同一特征空间之后,计算声音特征Vv和人脸图像特征Vf的均方误差损失。同时,将二者进行哈希编码,对于整个网络来看,期望端到端地学习到特征的哈希编码,即学习出一种哈希函数。
S6.对步骤S5输出的哈希编码后的结果计算汉明损失,引入松弛因子使得汉明损失连续化,结合S5输出的均方误差损失一起作为网络的最终损失函数。在该步骤中,计算哈希编码后的人脸特征和声音特征二者的距离,在哈希特征空间内,距离由汉明距离表示,汉明距离的计算方式为计算两个哈希编码之间码数不同的位数。然而,由于汉明距离是离散的值,为了便于计算导数以及反向传播,此处采取欧几里得距离替代汉明距离替,并通过施加一个附加的正则化函数来逼近原始汉明距离输出的结果。之后将S5计算的MSE(均方误差损失)和S6计算的汉明损失加权平均即可得到最终的损失函数。
图2为本发明所设计的算法结构图,其中人脸图像为待检索图像,声波即检索时所用的声音,首先需要将声波通过快速傅里叶变换转化为语谱图,便于后续VGG网络提取特征。人脸图像和语谱图经过一个模态选择网络被分为两类,其中人脸一类的图像经过旋转、对比度调整等图像增强变换操作后送入残差网络(ResNet50)中,语谱图一类图像经过亮度变换、锐化等图像增强操作后,送入VGG网络,残差网络和VGG网络的输出均为500维的特征向量。之后再将这两个模态的特征向量通过全连接层映射到同一个特征空间,之后在这一特征空间内计算L1损失,即均方误差损失。之后再分辨将两个模态的全连接层的输出编码为K长度的哈希比特(此操作也通过全连接层实现。)计算两个模态此时的汉明误差损失,与之前计算的均方误差损失加权相加,构成最终的损失函数。图3为本发明所设计算法的损失函数随迭代次数变换所绘制的损失值图。
将本发明的上述实施例在名人语音数据集VoxCeleb1以及VoxCeleb2上进行训练并测试,并用目前公认的评价标准mAP(mean Average Precision)对实验结果进行了评估。结果表明本发明提出的方法达到了目前领先的检测精度。
表1为本发明所设计算法与其它几种常见的人脸声音互检索算法的比较,如表1所示,本发明方法实验结果来自实验过程,其余方法结果部分来自论文。其中,第一、二列的V-F、F-V分别表示,无限制下的人脸、声音互检索,即可能存在与一个声音匹配的备选图像一个为男性,一个为女性;第三、四列的V-F、F-V表示同性别下的声音、人脸互检索结果。可见本发明在通过声音检索人脸这一项上,无论是有性别限制还是无性别限制,都取得了目前最好的结果。而在人脸检索声音这个子任务上,与目前最好的效果还有一定偏差,经分析,这主要是由于语谱图经哈希编码后的稀疏性以及训练硬件性能不足,难以进行多轮训练所导致的。
表1本发明所设计算法与其它几种常见的人脸声音互检索算法的比较
Figure BDA0003432802260000061
本发明结合哈希编码算法的跨膜态动态特征提取神经网络图像声音互检索方法,该方法通过一个内容分类网络将语谱图(由声波图转化)和人脸图像进行分类,人脸图像送入人脸特征提取网络,语谱图送入语谱特征提取网络,两个网络分别是根据输入数据特征单独设计的,即模态限定(modality specific),而后判断特征之间的相关性,从而判别声音和人脸图像间的关联性。
以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制,依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

Claims (7)

1.一种基于哈希编码的图像声音检索方法,其特征在于,包括以下步骤:
S1.对人脸图像及声音进行预处理,将声音转化为语谱图;
S2.对步骤S1中的人脸图像进行数据增强变换,对语谱图采用锐化操作,增强对比度;
S3.通过模态选择器将步骤S2处理后的图像送入相应模态,并通过特征提取网络提取特征;
S4.将步骤S3输出的结果经过一个相同全连接网络映射到同一个特征空间,输出分别表示人脸图像的特征向量及语谱图的特征向量;
S5.对步骤S4输出的结果进行哈希编码,同时计算步骤S4输出的结果的均方误差损失;以及
S6.对步骤S5输出的哈希编码后的结果计算汉明损失,引入松弛因子使得汉明损失连续化,结合S5输出的均方误差损失一起作为网络的最终损失函数。
2.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,首选准备训练所需数据,人脸图像为“.jpg”格式,声音为“.wav”格式,之后使用声音处理软件读取“.wav”文件,将其转化为对应的声波,之后使用快速傅里叶变换将声波转化为语谱图,并进行输出。
3.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,在步骤S2中,所述数据增强变换包括对所有所述人脸图像进行旋转、对比度调整。
4.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,在步骤S3中,所述模态选择器是一个经由ImageNet预训练的卷积神经网络。
5.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,在步骤S3中,将S2处理后的图像送入经由ImageNet预训练的卷积神经网络,按照内容对输入数据自动分类,自动将所述人脸图像和所述语谱图送入相应模态的特征提取网络中,并对所述人脸图像和所述语谱图分别提取特征,其中,人脸特征提取网络选用ResNet50,语谱图特征提取网络选用VGG-M。
6.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,在步骤S4中,最终输出512维特征向量Vf,Vv,Vf和Vv分别表示人脸图像的特征向量及语谱图的特征向量,之后将二者送入一个单层全连接网络,将它们映射到一个相同的特征空间—汉明空间中,所述全连接网络的全连接层的输入为512,输出为哈希编码长度C,在实验中哈希编码长度一般取C=18。
7.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,在步骤S6中,计算哈希编码后的人脸特征和声音特征二者的距离,采取欧几里得距离替代汉明距离,并通过施加一个附加的正则化函数来逼近原始汉明距离输出的结果,之后将S5计算的所述均方误差损失和S6计算的所述汉明损失加权平均即可得到最终的损失函数。
CN202111599825.6A 2021-12-24 2021-12-24 一种基于哈希编码的图像声音检索方法 Pending CN114328991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111599825.6A CN114328991A (zh) 2021-12-24 2021-12-24 一种基于哈希编码的图像声音检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111599825.6A CN114328991A (zh) 2021-12-24 2021-12-24 一种基于哈希编码的图像声音检索方法

Publications (1)

Publication Number Publication Date
CN114328991A true CN114328991A (zh) 2022-04-12

Family

ID=81012393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111599825.6A Pending CN114328991A (zh) 2021-12-24 2021-12-24 一种基于哈希编码的图像声音检索方法

Country Status (1)

Country Link
CN (1) CN114328991A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128846A (zh) * 2023-02-01 2023-05-16 南通大学 一种面向肺部X-ray图像检索的视觉Transformer哈希方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128846A (zh) * 2023-02-01 2023-05-16 南通大学 一种面向肺部X-ray图像检索的视觉Transformer哈希方法
CN116128846B (zh) * 2023-02-01 2023-08-22 南通大学 一种面向肺部X-ray图像检索的视觉Transformer哈希方法

Similar Documents

Publication Publication Date Title
CN109508669B (zh) 一种基于生成式对抗网络的人脸表情识别方法
CN112070209B (zh) 基于w距离的稳定可控图像生成模型训练方法
Guo et al. JointPruning: Pruning networks along multiple dimensions for efficient point cloud processing
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
CN112528830A (zh) 一种结合迁移学习的轻量级cnn口罩人脸姿态分类方法
CN113723295A (zh) 一种基于图像域频域双流网络的人脸伪造检测方法
CN110852935A (zh) 一种人脸图像随年龄变化的图像处理方法
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
CN113160032A (zh) 一种基于生成对抗网络的无监督多模态图像转换方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
Dong et al. The feature representation ability of variational autoencoder
CN115830375A (zh) 点云分类方法及装置
CN114328991A (zh) 一种基于哈希编码的图像声音检索方法
CN114926591A (zh) 多分支深度学习的3d人脸重建模型训练方法、系统及介质
CN111368734A (zh) 一种基于正常表情辅助的微表情识别方法
US20220101122A1 (en) Energy-based variational autoencoders
Wang Improved facial expression recognition method based on gan
CN114627531A (zh) 一种基于人脸重构和Gabor遮挡字典的人脸识别方法
US20220101145A1 (en) Training energy-based variational autoencoders
CN115472182A (zh) 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置
CN114299586A (zh) 一种基于卷积神经网络的智能化深度学习系统
Sathya et al. Adversarially Trained Variational Auto-Encoders With Maximum Mean Discrepancy based Regularization
CN111291223A (zh) 四胞胎卷积神经网络视频指纹算法
Maniyar et al. Persons facial image synthesis from audio with Generative Adversarial Networks
Saaim et al. Generative Models for Data Synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination