CN109635676B - 一种从视频中定位音源的方法 - Google Patents
一种从视频中定位音源的方法 Download PDFInfo
- Publication number
- CN109635676B CN109635676B CN201811403303.2A CN201811403303A CN109635676B CN 109635676 B CN109635676 B CN 109635676B CN 201811403303 A CN201811403303 A CN 201811403303A CN 109635676 B CN109635676 B CN 109635676B
- Authority
- CN
- China
- Prior art keywords
- sound
- frame
- image
- training sample
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 104
- 238000013528 artificial neural network Methods 0.000 claims abstract description 37
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims description 83
- 230000000007 visual effect Effects 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 12
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000004807 localization Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种从视频中定位音源的方法,属于跨模态学习领域。该方法在训练阶段获取训练样本视频并进行预处理,构建一个由全连接层构成的神经网络和一个定位网络构成的音源定位神经网络,利用预处理完毕的训练样本对该音源定位神经网络进行训练,得到训练完毕的的音源定位神经网络。在测试阶段,获取测试视频并预处理,然后输入训练完毕的音源定位神经网络并计算相似度,通过相似度来进行进一步的声音与视频画面的同步以及同步后的音源定位,从而解决不同步视频的音源定位问题。本发明可以自动发现视频画面中的各个物体和声音之间的对应关系,定位准确率高,位置精确度高,有很高的应用价值。
Description
技术领域
本发明提出一种从视频中定位音源的方法,属于跨模态学习领域。
背景技术
近年来,随着网络和电视的流行,人们面对着越来越多的视频片段。视频中包含着丰富的声音和画面,寻找其中的关联在许多方面是有意义的,例如其可以使人类与机器的交互更加友好。自动地去发现和视频画面中的各个物体和声音之间的对应关系,从而帮助人们快速地了解视频中发音的部分,变得越来越重要。机器人也可以通过定位视频中的音源在许多场景例如救援等方面确定目标的位置。
目前在视频声源定位方面已有的工作大都是在像素级别来定位,利用卷积神经网络学习出声音和画面中的不同位置的关联,利用热力图在原来的图像中标记出可能发出声音的部分,这种方法定位的边缘模糊,定位精准度不高,并且在声音和画面不同步的视频帧仍然有定位信息。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种从视频中定位音源的方法。本发明可以自动发现视频画面中的各个物体和声音之间的对应关系,定位准确率高,位置精确度高,有很高的应用价值。
本发明提出一种从视频中定位音源的方法,其特征在于,包括以下步骤:
(1)训练阶段;
(1-1)获取训练样本;获取J段视频作为训练样本,每个训练样本长度为10秒,对每个训练样本中所包含的物体类别进行标注;
(1-2)对步骤(1-1)获取的训练样本进行预处理;所述预处理包括视觉模态处理和声音模态处理;具体步骤如下:
(1-2-1)对每一个训练样本进行视觉模态处理,得到该训练样本对应的视觉特征;方法如下:
将任一训练样本10秒的视频数据进行1赫兹采样,得到对应的N=10帧图像;然后对每一帧图像进行目标检测,目标检测算法的输入为每一帧图像,输出为该帧图像对应的若干个目标检测框,将每个目标检测框对应的目标检测算法中全连接层的2048维特征取出作为该目标检测框的特征,则每帧图像的特征为该帧图像所有目标检测框的特征集合,每一个训练样本的视觉特征为该样本的N帧图像的特征集合;
记第i个训练样本的第n帧图像的第k个目标检测框的特征为n=1,…,N,k=1,…,K,i=1,…,J;其中,K为目标检测框的阈值个数,K=20;设当前图像帧的目标检测框的实际数量为M,若M<K,则用K-M个0向量来补全该帧图像的特征;若M≥K,则随机选取M个目标检测框中的K个目标检测框的特征作为该帧图像的特征;得到每一帧图像的特征为K*2048维;
(1-2-2)对每一个的训练样本进行声音模态处理,得到该训练样本对应的声音特征;方法如下:
将任一训练样本的声音数据分割为10段,每一秒为一段,得到对应的N=10段声音,每一段声音对应该训练样本的一帧图像;对每段声音提取对应的梅尔声谱后,输入卷积神经网络Vggish,并将Vggish网络的全连接层的4096维特征进行主成分分析,将4096维的声音特征降至128维,得到该段声音的特征记为表示第i个训练样本的第n段声音的特征,n=1,…,N,i=1,…,J;则每个训练样本的声音特征为该样本的N段声音的特征集合;
(1-3)构建一个音源定位神经网络,该网络包括一个由全连接层构成的神经网络和一个定位网络,利用步骤(1-2)预处理完毕的训练样本对该音源定位神经网络进行训练,得到训练完毕的的音源定位神经网络;具体步骤如下:
(1-3-1)构建一个由全连接层构成的神经网络,该网络由一个视觉模态的全连接层、一个声音模态的全连接层和一个视觉模态和声音模态共享的全连接层构成;
(1-3-2)将每个训练样本视觉特征中各帧图像的各个目标检测框的2048维特征输入到视觉模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维视觉特征;将每个训练样本声音特征中每段声音的128维特征经过声音模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维声音特征;
将表示公共子空间中第i个训练样本的第n帧图像的第k个目标检测框的视觉特征,其中i=1,…,J,n=1,…,10,k=1,…,K,表示公共子空间中第i个训练样本的第n段声音的声音特征,其中i=1,…,J,n=1,…,10;
(1-3-3)将所有公共子空间的视觉特征和声音特征输入到一个定位网络,该定位网络比较每个训练样本每一段声音的声音特征和这一段声音对应的图像中的各个目标检测框的视觉特征,比较操作采用余弦相似度来表示声音和各个目标检测框的相似度;令代表第i个训练样本第n帧图像的第k个目标检测框和该图像帧对应的1s声音的相似度,则定义其中表示的第k个分量,k=1,…,K,然后将每一帧图像的所有相似度标准化后使其和为1,得到标准化的相似度采用注意力机制将目标检测框的特征用标准化后的相似度加权求和,得到的特征来表示每帧图像与声音相关的图像特征,表示为
(1-3-4)分别设置分类损失函数和欧式距离损失函数,表达式如下:
(1-3-5)采用Adam批训练梯度下降算法训练音源定位神经网络,对该神经网络迭代训练到达上限次数后停止,得到训练完毕的音源定位神经网络;
(2)测试阶段;
利用步骤(1)训练完毕的音源定位神经网络对测试视频进行音源定位,具体步骤如下:
(2-1)获取一条测试视频;
(2-2)重复步骤(1-2),对步骤(2-1)获取的测试视频进行预处理,得到该测试视频对应的视觉特征f′nk和声音特征g′n;
(2-3)将步骤(2-2)得到的视觉特征f′nk和声音特征g′n按帧组成图像和声音对,然后输入到步骤(1)训练完毕的音源定位神经网络中,并进行一次前向计算得到相似度,记d′nk代表测试视频的第n帧图像的第k个目标检测框和该帧图像对应的声音的相似度;
(2-4)设置一个阈值Ton并进行判定:若测试视频中一帧图像中的声音和该帧图像的K个目标检测框视觉特征的相似度中的最大值大于该阈值,则认为该帧的图像和声音是同步的,进入步骤(2-5);否则就认为该帧图像和声音是不同步的,该帧图像不进行音源定位;
(2-5)若该帧图像的声音和A个目标检测框的相似度大于Ton,则该帧图像A个目标检测框中每个目标检测框中的物体发出了声音,1≤A≤K,音源定位结束。
本发明的特点及有益效果在于:
本发明利用目标检测技术提取候选框,并利用神经网络进行候选框的选取,有较高的精准度;并且本发明可以判断出声音和画面的同步性,只在同步的视频帧中进行音源的定位。本发明可以自动地去发现和视频画面中的各个物体和声音之间的对应关系,从而帮助用户快速地了解视频中发音的部分。本发明可以用于机器人领域,机器人可以通过定位视频中的音源在许多场景例如救援等方面可以确定目标的位置,有很高的应用价值。
具体实施方式
本发明提出一种从视频中定位音源的方法,下面结合具体实施例进一步详细说明如下。
本发明提出一种从视频中定位音源的方法,包括以下步骤:
(1)训练阶段;
(1-1)获取训练样本;从任意渠道获取J段视频作为训练样本,每个训练样本长度为10秒,训练样本视频的内容没有特殊要求,视频中需要包含多种不同物体类别,每个训练样本视频中的物体类别由人工进行标注;
本实施例中训练样本的视频来源是Audioset数据集中的10个类别的视频,(包括汽车、摩托车、直升机、游艇、演讲、狗、猫、猪、闹钟、吉他),本实施例总共选取共J=32469个视频片段,每个视频片段长度10秒。
(1-2)对步骤(1-1)获取的训练样本进行预处理;所述预处理包括视觉模态处理和声音模态处理;具体步骤如下:
(1-2-1)对每一个训练样本进行视觉模态处理,得到该训练样本对应的视觉特征;方法如下:
将任一训练样本10秒的视频数据(即该视频的视觉部分,为不包括声音的视频画面)进行1赫兹采样,得到对应的N=10帧图像;然后对每一帧图像进行目标检测(本实施例采用的是基于ResNet101的Faster-RCNN在Pascal Voc2007数据集上预训练的目标检测算法),目标检测算法的输入为每一帧图像,输出为该帧图像对应的数量不定的若干个目标检测框(目标检测框的数量与图像有关),将每个目标检测框对应的目标检测算法中全连接层的2048维特征(FC7层)取出作为该目标检测框的特征,则每帧图像的特征为该帧图像所有目标检测框的特征集合。每一个训练样本的视觉特征为该样本的N帧图像的特征的集合;
记第i个训练样本的第n帧图像的第k个目标检测框的特征为n=1,…,N,k=1,…,K,i=1,…,J。具体操作时为了便于张量的运算,将目标检测框的阈值个数固定为K=20个。设当前图像帧的目标检测框的实际数量为M,如果M<K,那么就用K-M个0向量来补全该帧图像的特征,如果M≥K,那么就随机选取M个目标检测框中的K个目标检测框的特征作为该帧图像的特征,则每一帧图像的特征为K*2048维;同时为了区分补零的目标检测框和有效的目标检测框,记录一个二进制的掩码表示第i个训练样本的第n帧图像的掩码(掩码的长度为K)其中i=1,…,J,n=1,…,N,如果一帧图像共有l个有效的目标检测框,那么该掩码的前l个值为1,其余的值为0,l≤K。
(1-2-2)对每一个的训练样本进行声音模态处理,得到该训练样本对应的声音特征;方法如下:
将任一训练样本的声音数据分割为10段,每一秒为一段,得到对应的N=10段声音,每一段声音对应该训练样本的一帧图像。对每段声音提取对应的梅尔声谱后,输入经过谷歌提出的声音数据集Audioset预训练的卷积神经网络Vggish(谷歌公开的一个声音信号的卷积神经网络),并将Vggish网络的全连接层(FC7层)的4096维特征进行主成分分析(PCA),将4096维的声音特征降至128维,得到该段声音的特征记为表示第i个训练样本的第n段声音的特征,n=1,…,N,i=1,…,J。则每个训练样本的声音特征为该样本的N=10段声音的特征集合;
(1-3)构建一个音源定位神经网络,该网络包括一个由全连接层构成的神经网络和一个定位网络,利用步骤(1-2)预处理完毕的训练样本对该音源定位神经网络进行训练,得到训练完毕的的神经网络;具体步骤如下:
(1-3-1)构建一个由全连接层构成的神经网络,该网络由一个视觉模态的全连接层(由128个神经元组成,输入为2048维的视觉特征,输出为128维)、一个声音模态的全连接层(由128个神经元组成,输入为128维的声音特征,输出为128维)和一个视觉模态和声音模态共享的全连接层(由128个神经元组成,输入为128维,输出为128维)构成,将视觉特征输入视觉模态的全连接层并进而将视觉模态的全连接层的输出输入到视觉模态和声音模态共享的全连接层;将声音特征输入声音模态的全连接层并进而将声音模态的全连接层输出输入到视觉模态和声音模态共享的全连接层。这个网络的目的是为了将两个模态的特征表示映射到一个公共子空间,用来消除两个模态不同的数据特性带来的模态差异。
(1-3-2)将每个训练样本视觉特征中各帧图像的各个目标检测框的2048维特征输入到视觉模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维视觉特征。同样地,将每个训练样本声音特征中每段声音的128维特征经过声音模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维声音特征。在后面共同损失函数的约束下,我们认为在公共子空间中的两个模态的特征是可比较的,将表示公共子空间中第i个训练样本的第n帧图像的第k个目标检测框的视觉特征,其中i=1,…,J,n=1,…,10,k=1,…,K,表示公共子空间中第i个训练样本的第n段声音的声音特征,其中i=1,…,J,n=1,…,10。
(1-3-3)在得到了两个模态的公共子空间表示后,将所有公共子空间的视觉特征和声音特征输入到一个定位网络,该定位网络比较每个训练样本每一段声音的声音特征和这一段声音对应的图像中的各个目标检测框的视觉特征,比较操作采用余弦相似度来表示声音和各个目标检测框的相似度,相似度越高代表该声音由该目标检测框中的物体发出的可能性越大。令代表第i个训练样本第n帧图像的第k个目标检测框和该图像帧对应的1s声音的相似度,则定义其中表示的第k个分量,k=1…K,由于其中有一些无效的检测框的相似度是要被舍弃的,这时用到我们之前定义的掩码来乘这个相似度向量把无效检测框的相似度重新置零。然后将每一帧图像的所有相似度标准化后使其和为1,得到标准化的相似度采用注意力机制将目标检测框的特征用标准化后的相似度加权求和,得到的特征来表示每帧图像与声音相关的图像特征,表示为
(1-3-4)设置两个损失函数来训练建立的音源定位神经网络,分别为分类损失函数和欧式距离损失函数,表达式如下:
分类损失将施加注意力机制后的图像特征和公共子空间的声音特征在时域上平均后得到的两个特征,经过全连接层接softmax激活进行分类,分类的目的是使得公共子空间的特征仍然能保持语义上的可辨识性。欧式距离损失最小化这两个特征的距离,目的是使公共子空间能生成,使得相同语义的不同模态特征保持一致。
(1-3-5)训练整个音源定位神经网络,采用Adam批训练梯度下降算法,本实施例使用的批量大小为512,对该神经网络迭代100000次后停止,得到训练完毕的音源定位神经网络。
(2)测试阶段;
利用步骤(1)训练完毕的音源定位神经网络对测试视频进行音源定位,具体步骤如下:
(2-1)获取一条任意来源任意长度的测试视频。
(2-2)重复步骤(1-2),对步骤(2-1)获取的测试视频进行预处理,得到该测试视频对应的视觉特征f′nk和声音特征g′n
(2-3)将步骤(2-2)得到的视觉特征f′nk和声音特征g′n按帧组成图像和声音对,然后输入到(1)训练完毕的音源定位神经网络中,并进行一次前向计算得到相似度,记d′nk代表测试视频的第n帧图像的第k个目标检测框和该帧图像对应的声音的相似度。
(2-4)设置一个阈值Ton(范围为0-1,本实施例采用的0.2)并进行判定:若测试视频中一帧图像中的声音和该帧图像的K个目标检测框视觉特征的相似度中的最大值大于该阈值,则认为这一帧的图像和声音是同步的,即声音是由该帧图像中某一个目标检测框中的物体发出的,进入步骤(2-5);否则就认为该帧图像和声音是不同步的,该帧图像不进行音源定位(不同步就意味着判断为该声音不由图像中的物体发出)。
(2-5)如果(2-4)中检测到该测试视频的图像帧和对应的1s声音是同步的,那么就需要进一步判断声音是由哪一个或哪几个检测框中的物体发出的。
若该帧图像的声音和某一个目标检测框的相似度大于Ton,则认为该目标检测框中的目标物体发出了声音。若该帧图像的声音与多个目标检测框的相似度大于该阈值,则认为该帧图像中上述多个目标检测框中每个目标检测框中的物体发出了声音,音源定位结束。
Claims (1)
1.一种从视频中定位音源的方法,其特征在于,包括以下步骤:
(1)训练阶段;
(1-1)获取训练样本;获取J段视频作为训练样本,每个训练样本长度为10秒,对每个训练样本中所包含的物体类别进行标注;
(1-2)对步骤(1-1)获取的训练样本进行预处理;所述预处理包括视觉模态处理和声音模态处理;具体步骤如下:
(1-2-1)对每一个训练样本进行视觉模态处理,得到该训练样本对应的视觉特征;方法如下:
将任一训练样本10秒的视频数据进行1赫兹采样,得到对应的N=10帧图像;然后对每一帧图像进行目标检测,目标检测算法的输入为每一帧图像,输出为该帧图像对应的若干个目标检测框,将每个目标检测框对应的目标检测算法中全连接层的2048维特征取出作为该目标检测框的特征,则每帧图像的特征为该帧图像所有目标检测框的特征集合,每一个训练样本的视觉特征为该样本的N帧图像的特征集合;
记第i个训练样本的第n帧图像的第k个目标检测框的特征为i=1,…,J;其中,K为目标检测框的阈值个数,K=20;设当前图像帧的目标检测框的实际数量为M,若M<K,则用K-M个0向量来补全该帧图像的特征;若M≥K,则随机选取M个目标检测框中的K个目标检测框的特征作为该帧图像的特征;得到每一帧图像的特征为K*2048维;
(1-2-2)对每一个的训练样本进行声音模态处理,得到该训练样本对应的声音特征;方法如下:
将任一训练样本的声音数据分割为10段,每一秒为一段,得到对应的N=10段声音,每一段声音对应该训练样本的一帧图像;对每段声音提取对应的梅尔声谱后,输入卷积神经网络Vggish,并将Vggish网络的全连接层的4096维特征进行主成分分析,将4096维的声音特征降至128维,得到该段声音的特征记为 表示第i个训练样本的第n段声音的特征,n=1,…,N,i=1,…,J;则每个训练样本的声音特征为该样本的N段声音的特征集合;
(1-3)构建一个音源定位神经网络,该网络包括一个由全连接层构成的神经网络和一个定位网络,利用步骤(1-2)预处理完毕的训练样本对该音源定位神经网络进行训练,得到训练完毕的的音源定位神经网络;具体步骤如下:
(1-3-1)构建一个由全连接层构成的神经网络,该网络由一个视觉模态的全连接层、一个声音模态的全连接层和一个视觉模态和声音模态共享的全连接层构成;
(1-3-2)将每个训练样本视觉特征中各帧图像的各个目标检测框的2048维特征输入到视觉模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维视觉特征;将每个训练样本声音特征中每段声音的128维特征经过声音模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维声音特征;
将表示公共子空间中第i个训练样本的第n帧图像的第k个目标检测框的视觉特征,其中i=1,…,J,n=1,…,10,k=1,…,K,表示公共子空间中第i个训练样本的第n段声音的声音特征,其中i=1,…,J,n=1,…,10;
(1-3-3)将所有公共子空间的视觉特征和声音特征输入到一个定位网络,该定位网络比较每个训练样本每一段声音的声音特征和这一段声音对应的图像中的各个目标检测框的视觉特征,比较操作采用余弦相似度来表示声音和各个目标检测框的相似度;令代表第i个训练样本第n帧图像的第k个目标检测框和该图像帧对应的1s声音的相似度,则定义其中表示的第k个分量,k=1,…,K,然后将每一帧图像的所有相似度标准化后使其和为1,得到标准化的相似度采用注意力机制将目标检测框的特征用标准化后的相似度加权求和,得到的特征来表示每帧图像与声音相关的图像特征,表示为
(1-3-4)分别设置分类损失函数和欧式距离损失函数,表达式如下:
(1-3-5)采用Adam批训练梯度下降算法训练音源定位神经网络,对该神经网络迭代训练到达上限次数后停止,得到训练完毕的音源定位神经网络;
(2)测试阶段;
利用步骤(1)训练完毕的音源定位神经网络对测试视频进行音源定位,具体步骤如下:
(2-1)获取一条测试视频;
(2-2)重复步骤(1-2),对步骤(2-1)获取的测试视频进行预处理,得到该测试视频对应的视觉特征f′nk和声音特征g′n;
(2-3)将步骤(2-2)得到的视觉特征f′nk和声音特征g′n按帧组成图像和声音对,然后输入到步骤(1)训练完毕的音源定位神经网络中,并进行一次前向计算得到相似度,记d′nk代表测试视频的第n帧图像的第k个目标检测框和该帧图像对应的声音的相似度;
(2-4)设置一个阈值Ton并进行判定:若测试视频中一帧图像中的声音和该帧图像的K个目标检测框视觉特征的相似度中的最大值大于该阈值,则认为该帧的图像和声音是同步的,进入步骤(2-5);否则就认为该帧图像和声音是不同步的,该帧图像不进行音源定位;
(2-5)若该帧图像的声音和A个目标检测框的相似度大于Ton,则该帧图像A个目标检测框中每个目标检测框中的物体发出了声音,1≤A≤K,音源定位结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811403303.2A CN109635676B (zh) | 2018-11-23 | 2018-11-23 | 一种从视频中定位音源的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811403303.2A CN109635676B (zh) | 2018-11-23 | 2018-11-23 | 一种从视频中定位音源的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635676A CN109635676A (zh) | 2019-04-16 |
CN109635676B true CN109635676B (zh) | 2020-12-11 |
Family
ID=66068869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811403303.2A Active CN109635676B (zh) | 2018-11-23 | 2018-11-23 | 一种从视频中定位音源的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635676B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276416B (zh) * | 2019-07-02 | 2023-04-28 | 广东省智能机器人研究院 | 一种滚动轴承故障预测方法 |
US11276419B2 (en) * | 2019-07-30 | 2022-03-15 | International Business Machines Corporation | Synchronized sound generation from videos |
CN110970056B (zh) * | 2019-11-18 | 2022-03-11 | 清华大学 | 一种从视频中分离音源的方法 |
US11039043B1 (en) | 2020-01-16 | 2021-06-15 | International Business Machines Corporation | Generating synchronized sound from videos |
CN111539449B (zh) * | 2020-03-23 | 2023-08-18 | 广东省智能制造研究所 | 一种基于二阶融合注意力网络模型的声源分离及定位方法 |
CN111443330B (zh) * | 2020-05-15 | 2022-06-03 | 浙江讯飞智能科技有限公司 | 声学成像方法、装置、设备及可读存储介质 |
CN111833885B (zh) * | 2020-07-08 | 2023-08-01 | 太原科技大学 | 一种基于卷积模糊神经网络的音源识别方法 |
CN111930992B (zh) * | 2020-08-14 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
CN112153461B (zh) * | 2020-09-25 | 2022-11-18 | 北京百度网讯科技有限公司 | 用于定位发声物的方法、装置、电子设备及可读存储介质 |
CN112927701A (zh) * | 2021-02-05 | 2021-06-08 | 商汤集团有限公司 | 样本生成、神经网络生成、音频信号生成方法及装置 |
CN113191278B (zh) * | 2021-05-06 | 2024-02-20 | 浙江工业大学 | 基于视频和声音数据融合的打架行为检测方法 |
CN114070955B (zh) * | 2021-11-29 | 2023-06-20 | 杭州逗酷软件科技有限公司 | 一种同步判断方法及装置、存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735566B1 (en) * | 1998-10-09 | 2004-05-11 | Mitsubishi Electric Research Laboratories, Inc. | Generating realistic facial animation from speech |
CN103439688B (zh) * | 2013-08-27 | 2015-04-22 | 大连理工大学 | 一种用于分布式麦克风阵列的声源定位系统及定位方法 |
US10002311B1 (en) * | 2017-02-10 | 2018-06-19 | International Business Machines Corporation | Generating an enriched knowledge base from annotated images |
CN107480178B (zh) * | 2017-07-01 | 2020-07-07 | 暗物智能科技(广州)有限公司 | 一种基于图像与视频跨模态比对的行人重识别方法 |
CN108647556A (zh) * | 2018-03-02 | 2018-10-12 | 重庆邮电大学 | 基于分频和深度神经网络的声源定位方法 |
-
2018
- 2018-11-23 CN CN201811403303.2A patent/CN109635676B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109635676A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635676B (zh) | 一种从视频中定位音源的方法 | |
Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
CN109117777B (zh) | 生成信息的方法和装置 | |
CN110751208B (zh) | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 | |
CN110119757B (zh) | 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质 | |
CN109241829B (zh) | 基于时空注意卷积神经网络的行为识别方法及装置 | |
NadeemHashmi et al. | A lip reading model using CNN with batch normalization | |
CN111161715B (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
CN110970056A (zh) | 一种从视频中分离音源的方法 | |
CN117079299B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
Wang et al. | Audio event detection and classification using extended R-FCN approach | |
Abdulsalam et al. | Emotion recognition system based on hybrid techniques | |
CN112232276A (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
Hao et al. | Deepfake detection using multiple data modalities | |
Naas et al. | Real-time emotion recognition for sales | |
CN116257816A (zh) | 一种陪护机器人情绪识别方法、装置、存储介质及设备 | |
Han et al. | Multi-view visual speech recognition based on multi task learning | |
CN116485943A (zh) | 图像生成方法、电子设备及存储介质 | |
CN108197593B (zh) | 基于三点定位方法的多尺寸人脸表情识别方法及装置 | |
US11783587B2 (en) | Deep learning tattoo match system based | |
CN114022938A (zh) | 视素识别的方法、装置、设备和存储介质 | |
WO2021147084A1 (en) | Systems and methods for emotion recognition in user-generated video(ugv) | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
Jayanthi et al. | Sign Language Recognition using Deep CNN with Normalised Keyframe Extraction and Prediction using LSTM | |
CN113780198B (zh) | 一种面向影像生成的多模态情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |