CN109635676B - 一种从视频中定位音源的方法 - Google Patents

一种从视频中定位音源的方法 Download PDF

Info

Publication number
CN109635676B
CN109635676B CN201811403303.2A CN201811403303A CN109635676B CN 109635676 B CN109635676 B CN 109635676B CN 201811403303 A CN201811403303 A CN 201811403303A CN 109635676 B CN109635676 B CN 109635676B
Authority
CN
China
Prior art keywords
sound
frame
image
training sample
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811403303.2A
Other languages
English (en)
Other versions
CN109635676A (zh
Inventor
刘华平
王峰
郭迪
周峻峰
孙富春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811403303.2A priority Critical patent/CN109635676B/zh
Publication of CN109635676A publication Critical patent/CN109635676A/zh
Application granted granted Critical
Publication of CN109635676B publication Critical patent/CN109635676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种从视频中定位音源的方法,属于跨模态学习领域。该方法在训练阶段获取训练样本视频并进行预处理,构建一个由全连接层构成的神经网络和一个定位网络构成的音源定位神经网络,利用预处理完毕的训练样本对该音源定位神经网络进行训练,得到训练完毕的的音源定位神经网络。在测试阶段,获取测试视频并预处理,然后输入训练完毕的音源定位神经网络并计算相似度,通过相似度来进行进一步的声音与视频画面的同步以及同步后的音源定位,从而解决不同步视频的音源定位问题。本发明可以自动发现视频画面中的各个物体和声音之间的对应关系,定位准确率高,位置精确度高,有很高的应用价值。

Description

一种从视频中定位音源的方法
技术领域
本发明提出一种从视频中定位音源的方法,属于跨模态学习领域。
背景技术
近年来,随着网络和电视的流行,人们面对着越来越多的视频片段。视频中包含着丰富的声音和画面,寻找其中的关联在许多方面是有意义的,例如其可以使人类与机器的交互更加友好。自动地去发现和视频画面中的各个物体和声音之间的对应关系,从而帮助人们快速地了解视频中发音的部分,变得越来越重要。机器人也可以通过定位视频中的音源在许多场景例如救援等方面确定目标的位置。
目前在视频声源定位方面已有的工作大都是在像素级别来定位,利用卷积神经网络学习出声音和画面中的不同位置的关联,利用热力图在原来的图像中标记出可能发出声音的部分,这种方法定位的边缘模糊,定位精准度不高,并且在声音和画面不同步的视频帧仍然有定位信息。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种从视频中定位音源的方法。本发明可以自动发现视频画面中的各个物体和声音之间的对应关系,定位准确率高,位置精确度高,有很高的应用价值。
本发明提出一种从视频中定位音源的方法,其特征在于,包括以下步骤:
(1)训练阶段;
(1-1)获取训练样本;获取J段视频作为训练样本,每个训练样本长度为10秒,对每个训练样本中所包含的物体类别进行标注;
(1-2)对步骤(1-1)获取的训练样本进行预处理;所述预处理包括视觉模态处理和声音模态处理;具体步骤如下:
(1-2-1)对每一个训练样本进行视觉模态处理,得到该训练样本对应的视觉特征;方法如下:
将任一训练样本10秒的视频数据进行1赫兹采样,得到对应的N=10帧图像;然后对每一帧图像进行目标检测,目标检测算法的输入为每一帧图像,输出为该帧图像对应的若干个目标检测框,将每个目标检测框对应的目标检测算法中全连接层的2048维特征取出作为该目标检测框的特征,则每帧图像的特征为该帧图像所有目标检测框的特征集合,每一个训练样本的视觉特征为该样本的N帧图像的特征集合;
记第i个训练样本的第n帧图像的第k个目标检测框的特征为
Figure GDA0002723300860000021
n=1,…,N,k=1,…,K,i=1,…,J;其中,K为目标检测框的阈值个数,K=20;设当前图像帧的目标检测框的实际数量为M,若M<K,则用K-M个0向量来补全该帧图像的特征;若M≥K,则随机选取M个目标检测框中的K个目标检测框的特征作为该帧图像的特征;得到每一帧图像的特征为K*2048维;
记录一个二进制的掩码
Figure GDA0002723300860000022
表示第i个训练样本的第n帧图像的掩码,掩码的长度为K,其中i=1,…,J,n=1,…,N,若一帧图像共有l个有效的目标检测框,则该掩码的前l个值为1,其余的值为0,l≤K;
(1-2-2)对每一个的训练样本进行声音模态处理,得到该训练样本对应的声音特征;方法如下:
将任一训练样本的声音数据分割为10段,每一秒为一段,得到对应的N=10段声音,每一段声音对应该训练样本的一帧图像;对每段声音提取对应的梅尔声谱后,输入卷积神经网络Vggish,并将Vggish网络的全连接层的4096维特征进行主成分分析,将4096维的声音特征降至128维,得到该段声音的特征记为
Figure GDA0002723300860000023
表示第i个训练样本的第n段声音的特征,n=1,…,N,i=1,…,J;则每个训练样本的声音特征为该样本的N段声音的特征集合;
(1-3)构建一个音源定位神经网络,该网络包括一个由全连接层构成的神经网络和一个定位网络,利用步骤(1-2)预处理完毕的训练样本对该音源定位神经网络进行训练,得到训练完毕的的音源定位神经网络;具体步骤如下:
(1-3-1)构建一个由全连接层构成的神经网络,该网络由一个视觉模态的全连接层、一个声音模态的全连接层和一个视觉模态和声音模态共享的全连接层构成;
(1-3-2)将每个训练样本视觉特征中各帧图像的各个目标检测框的2048维特征输入到视觉模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维视觉特征;将每个训练样本声音特征中每段声音的128维特征经过声音模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维声音特征;
Figure GDA0002723300860000024
表示公共子空间中第i个训练样本的第n帧图像的第k个目标检测框的视觉特征,其中i=1,…,J,n=1,…,10,k=1,…,K,
Figure GDA0002723300860000025
表示公共子空间中第i个训练样本的第n段声音的声音特征,其中i=1,…,J,n=1,…,10;
(1-3-3)将所有公共子空间的视觉特征和声音特征输入到一个定位网络,该定位网络比较每个训练样本每一段声音的声音特征和这一段声音对应的图像中的各个目标检测框的视觉特征,比较操作采用余弦相似度来表示声音和各个目标检测框的相似度;令
Figure GDA0002723300860000031
代表第i个训练样本第n帧图像的第k个目标检测框和该图像帧对应的1s声音的相似度,则定义
Figure GDA0002723300860000032
其中
Figure GDA0002723300860000033
表示
Figure GDA0002723300860000034
的第k个分量,k=1,…,K,然后将每一帧图像的所有相似度标准化后使其和为1,得到标准化的相似度
Figure GDA0002723300860000035
采用注意力机制将目标检测框的特征用标准化后的相似度加权求和,得到的特征来表示每帧图像与声音相关的图像特征,表示为
Figure GDA0002723300860000036
Figure GDA0002723300860000037
Figure GDA0002723300860000038
在时域上平均分别得到每个训练样本的视频平均特征h′(i)和音频平均特征s′(i),表达式如下:
Figure GDA0002723300860000039
Figure GDA00027233008600000310
(1-3-4)分别设置分类损失函数和欧式距离损失函数,表达式如下:
Figure GDA00027233008600000311
Figure GDA00027233008600000312
Figure GDA00027233008600000313
Figure GDA00027233008600000314
其中,WI,bI,WS,bS为待学习的参数,
Figure GDA00027233008600000315
为第i个训练样本的分类损失,
Figure GDA00027233008600000316
为第i个训练样本的欧式距离损失;
(1-3-5)采用Adam批训练梯度下降算法训练音源定位神经网络,对该神经网络迭代训练到达上限次数后停止,得到训练完毕的音源定位神经网络;
(2)测试阶段;
利用步骤(1)训练完毕的音源定位神经网络对测试视频进行音源定位,具体步骤如下:
(2-1)获取一条测试视频;
(2-2)重复步骤(1-2),对步骤(2-1)获取的测试视频进行预处理,得到该测试视频对应的视觉特征f′nk和声音特征g′n
(2-3)将步骤(2-2)得到的视觉特征f′nk和声音特征g′n按帧组成图像和声音对,然后输入到步骤(1)训练完毕的音源定位神经网络中,并进行一次前向计算得到相似度,记d′nk代表测试视频的第n帧图像的第k个目标检测框和该帧图像对应的声音的相似度;
(2-4)设置一个阈值Ton并进行判定:若测试视频中一帧图像中的声音和该帧图像的K个目标检测框视觉特征的相似度中的最大值大于该阈值,则认为该帧的图像和声音是同步的,进入步骤(2-5);否则就认为该帧图像和声音是不同步的,该帧图像不进行音源定位;
(2-5)若该帧图像的声音和A个目标检测框的相似度大于Ton,则该帧图像A个目标检测框中每个目标检测框中的物体发出了声音,1≤A≤K,音源定位结束。
本发明的特点及有益效果在于:
本发明利用目标检测技术提取候选框,并利用神经网络进行候选框的选取,有较高的精准度;并且本发明可以判断出声音和画面的同步性,只在同步的视频帧中进行音源的定位。本发明可以自动地去发现和视频画面中的各个物体和声音之间的对应关系,从而帮助用户快速地了解视频中发音的部分。本发明可以用于机器人领域,机器人可以通过定位视频中的音源在许多场景例如救援等方面可以确定目标的位置,有很高的应用价值。
具体实施方式
本发明提出一种从视频中定位音源的方法,下面结合具体实施例进一步详细说明如下。
本发明提出一种从视频中定位音源的方法,包括以下步骤:
(1)训练阶段;
(1-1)获取训练样本;从任意渠道获取J段视频作为训练样本,每个训练样本长度为10秒,训练样本视频的内容没有特殊要求,视频中需要包含多种不同物体类别,每个训练样本视频中的物体类别由人工进行标注;
本实施例中训练样本的视频来源是Audioset数据集中的10个类别的视频,(包括汽车、摩托车、直升机、游艇、演讲、狗、猫、猪、闹钟、吉他),本实施例总共选取共J=32469个视频片段,每个视频片段长度10秒。
(1-2)对步骤(1-1)获取的训练样本进行预处理;所述预处理包括视觉模态处理和声音模态处理;具体步骤如下:
(1-2-1)对每一个训练样本进行视觉模态处理,得到该训练样本对应的视觉特征;方法如下:
将任一训练样本10秒的视频数据(即该视频的视觉部分,为不包括声音的视频画面)进行1赫兹采样,得到对应的N=10帧图像;然后对每一帧图像进行目标检测(本实施例采用的是基于ResNet101的Faster-RCNN在Pascal Voc2007数据集上预训练的目标检测算法),目标检测算法的输入为每一帧图像,输出为该帧图像对应的数量不定的若干个目标检测框(目标检测框的数量与图像有关),将每个目标检测框对应的目标检测算法中全连接层的2048维特征(FC7层)取出作为该目标检测框的特征,则每帧图像的特征为该帧图像所有目标检测框的特征集合。每一个训练样本的视觉特征为该样本的N帧图像的特征的集合;
记第i个训练样本的第n帧图像的第k个目标检测框的特征为
Figure GDA0002723300860000051
n=1,…,N,k=1,…,K,i=1,…,J。具体操作时为了便于张量的运算,将目标检测框的阈值个数固定为K=20个。设当前图像帧的目标检测框的实际数量为M,如果M<K,那么就用K-M个0向量来补全该帧图像的特征,如果M≥K,那么就随机选取M个目标检测框中的K个目标检测框的特征作为该帧图像的特征,则每一帧图像的特征为K*2048维;同时为了区分补零的目标检测框和有效的目标检测框,记录一个二进制的掩码
Figure GDA0002723300860000052
表示第i个训练样本的第n帧图像的掩码(掩码的长度为K)其中i=1,…,J,n=1,…,N,如果一帧图像共有l个有效的目标检测框,那么该掩码的前l个值为1,其余的值为0,l≤K。
(1-2-2)对每一个的训练样本进行声音模态处理,得到该训练样本对应的声音特征;方法如下:
将任一训练样本的声音数据分割为10段,每一秒为一段,得到对应的N=10段声音,每一段声音对应该训练样本的一帧图像。对每段声音提取对应的梅尔声谱后,输入经过谷歌提出的声音数据集Audioset预训练的卷积神经网络Vggish(谷歌公开的一个声音信号的卷积神经网络),并将Vggish网络的全连接层(FC7层)的4096维特征进行主成分分析(PCA),将4096维的声音特征降至128维,得到该段声音的特征记为
Figure GDA0002723300860000053
表示第i个训练样本的第n段声音的特征,n=1,…,N,i=1,…,J。则每个训练样本的声音特征为该样本的N=10段声音的特征集合;
(1-3)构建一个音源定位神经网络,该网络包括一个由全连接层构成的神经网络和一个定位网络,利用步骤(1-2)预处理完毕的训练样本对该音源定位神经网络进行训练,得到训练完毕的的神经网络;具体步骤如下:
(1-3-1)构建一个由全连接层构成的神经网络,该网络由一个视觉模态的全连接层(由128个神经元组成,输入为2048维的视觉特征,输出为128维)、一个声音模态的全连接层(由128个神经元组成,输入为128维的声音特征,输出为128维)和一个视觉模态和声音模态共享的全连接层(由128个神经元组成,输入为128维,输出为128维)构成,将视觉特征输入视觉模态的全连接层并进而将视觉模态的全连接层的输出输入到视觉模态和声音模态共享的全连接层;将声音特征输入声音模态的全连接层并进而将声音模态的全连接层输出输入到视觉模态和声音模态共享的全连接层。这个网络的目的是为了将两个模态的特征表示映射到一个公共子空间,用来消除两个模态不同的数据特性带来的模态差异。
(1-3-2)将每个训练样本视觉特征中各帧图像的各个目标检测框的2048维特征输入到视觉模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维视觉特征。同样地,将每个训练样本声音特征中每段声音的128维特征经过声音模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维声音特征。在后面共同损失函数的约束下,我们认为在公共子空间中的两个模态的特征是可比较的,将
Figure GDA0002723300860000061
表示公共子空间中第i个训练样本的第n帧图像的第k个目标检测框的视觉特征,其中i=1,…,J,n=1,…,10,k=1,…,K,
Figure GDA0002723300860000062
表示公共子空间中第i个训练样本的第n段声音的声音特征,其中i=1,…,J,n=1,…,10。
(1-3-3)在得到了两个模态的公共子空间表示后,将所有公共子空间的视觉特征和声音特征输入到一个定位网络,该定位网络比较每个训练样本每一段声音的声音特征和这一段声音对应的图像中的各个目标检测框的视觉特征,比较操作采用余弦相似度来表示声音和各个目标检测框的相似度,相似度越高代表该声音由该目标检测框中的物体发出的可能性越大。令
Figure GDA0002723300860000063
代表第i个训练样本第n帧图像的第k个目标检测框和该图像帧对应的1s声音的相似度,则定义
Figure GDA0002723300860000064
其中
Figure GDA0002723300860000065
表示
Figure GDA0002723300860000066
的第k个分量,k=1…K,由于其中有一些无效的检测框的相似度是要被舍弃的,这时用到我们之前定义的掩码来乘这个相似度向量把无效检测框的相似度重新置零。然后将每一帧图像的所有相似度标准化后使其和为1,得到标准化的相似度
Figure GDA0002723300860000067
采用注意力机制将目标检测框的特征用标准化后的相似度加权求和,得到的特征来表示每帧图像与声音相关的图像特征,表示为
Figure GDA0002723300860000068
最后将
Figure GDA0002723300860000069
Figure GDA00027233008600000610
在时域上平均分别得到每个训练样本的视频平均特征h′(i)和音频平均特征s′(i),表达式如下:
Figure GDA00027233008600000611
Figure GDA00027233008600000612
(1-3-4)设置两个损失函数来训练建立的音源定位神经网络,分别为分类损失函数和欧式距离损失函数,表达式如下:
Figure GDA00027233008600000613
Figure GDA00027233008600000614
Figure GDA00027233008600000615
Figure GDA0002723300860000071
其中,WI,bI,WS,bS为需要学习的参数,
Figure GDA0002723300860000072
为第i个训练样本的分类损失,
Figure GDA0002723300860000073
为第i个训练样本的欧式距离损失。
分类损失将施加注意力机制后的图像特征和公共子空间的声音特征在时域上平均后得到的两个特征,经过全连接层接softmax激活进行分类,分类的目的是使得公共子空间的特征仍然能保持语义上的可辨识性。欧式距离损失最小化这两个特征的距离,目的是使公共子空间能生成,使得相同语义的不同模态特征保持一致。
(1-3-5)训练整个音源定位神经网络,采用Adam批训练梯度下降算法,本实施例使用的批量大小为512,对该神经网络迭代100000次后停止,得到训练完毕的音源定位神经网络。
(2)测试阶段;
利用步骤(1)训练完毕的音源定位神经网络对测试视频进行音源定位,具体步骤如下:
(2-1)获取一条任意来源任意长度的测试视频。
(2-2)重复步骤(1-2),对步骤(2-1)获取的测试视频进行预处理,得到该测试视频对应的视觉特征f′nk和声音特征g′n
(2-3)将步骤(2-2)得到的视觉特征f′nk和声音特征g′n按帧组成图像和声音对,然后输入到(1)训练完毕的音源定位神经网络中,并进行一次前向计算得到相似度,记d′nk代表测试视频的第n帧图像的第k个目标检测框和该帧图像对应的声音的相似度。
(2-4)设置一个阈值Ton(范围为0-1,本实施例采用的0.2)并进行判定:若测试视频中一帧图像中的声音和该帧图像的K个目标检测框视觉特征的相似度中的最大值大于该阈值,则认为这一帧的图像和声音是同步的,即声音是由该帧图像中某一个目标检测框中的物体发出的,进入步骤(2-5);否则就认为该帧图像和声音是不同步的,该帧图像不进行音源定位(不同步就意味着判断为该声音不由图像中的物体发出)。
(2-5)如果(2-4)中检测到该测试视频的图像帧和对应的1s声音是同步的,那么就需要进一步判断声音是由哪一个或哪几个检测框中的物体发出的。
若该帧图像的声音和某一个目标检测框的相似度大于Ton,则认为该目标检测框中的目标物体发出了声音。若该帧图像的声音与多个目标检测框的相似度大于该阈值,则认为该帧图像中上述多个目标检测框中每个目标检测框中的物体发出了声音,音源定位结束。

Claims (1)

1.一种从视频中定位音源的方法,其特征在于,包括以下步骤:
(1)训练阶段;
(1-1)获取训练样本;获取J段视频作为训练样本,每个训练样本长度为10秒,对每个训练样本中所包含的物体类别进行标注;
(1-2)对步骤(1-1)获取的训练样本进行预处理;所述预处理包括视觉模态处理和声音模态处理;具体步骤如下:
(1-2-1)对每一个训练样本进行视觉模态处理,得到该训练样本对应的视觉特征;方法如下:
将任一训练样本10秒的视频数据进行1赫兹采样,得到对应的N=10帧图像;然后对每一帧图像进行目标检测,目标检测算法的输入为每一帧图像,输出为该帧图像对应的若干个目标检测框,将每个目标检测框对应的目标检测算法中全连接层的2048维特征取出作为该目标检测框的特征,则每帧图像的特征为该帧图像所有目标检测框的特征集合,每一个训练样本的视觉特征为该样本的N帧图像的特征集合;
记第i个训练样本的第n帧图像的第k个目标检测框的特征为
Figure FDA0002723300850000011
i=1,…,J;其中,K为目标检测框的阈值个数,K=20;设当前图像帧的目标检测框的实际数量为M,若M<K,则用K-M个0向量来补全该帧图像的特征;若M≥K,则随机选取M个目标检测框中的K个目标检测框的特征作为该帧图像的特征;得到每一帧图像的特征为K*2048维;
记录一个二进制的掩码
Figure FDA0002723300850000012
表示第i个训练样本的第n帧图像的掩码,掩码的长度为K,其中i=1,…,J,n=1,…,N,若一帧图像共有l个有效的目标检测框,则该掩码的前l个值为1,其余的值为0,l≤K;
(1-2-2)对每一个的训练样本进行声音模态处理,得到该训练样本对应的声音特征;方法如下:
将任一训练样本的声音数据分割为10段,每一秒为一段,得到对应的N=10段声音,每一段声音对应该训练样本的一帧图像;对每段声音提取对应的梅尔声谱后,输入卷积神经网络Vggish,并将Vggish网络的全连接层的4096维特征进行主成分分析,将4096维的声音特征降至128维,得到该段声音的特征记为
Figure FDA0002723300850000013
Figure FDA0002723300850000014
表示第i个训练样本的第n段声音的特征,n=1,…,N,i=1,…,J;则每个训练样本的声音特征为该样本的N段声音的特征集合;
(1-3)构建一个音源定位神经网络,该网络包括一个由全连接层构成的神经网络和一个定位网络,利用步骤(1-2)预处理完毕的训练样本对该音源定位神经网络进行训练,得到训练完毕的的音源定位神经网络;具体步骤如下:
(1-3-1)构建一个由全连接层构成的神经网络,该网络由一个视觉模态的全连接层、一个声音模态的全连接层和一个视觉模态和声音模态共享的全连接层构成;
(1-3-2)将每个训练样本视觉特征中各帧图像的各个目标检测框的2048维特征输入到视觉模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维视觉特征;将每个训练样本声音特征中每段声音的128维特征经过声音模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维声音特征;
Figure FDA0002723300850000026
表示公共子空间中第i个训练样本的第n帧图像的第k个目标检测框的视觉特征,其中i=1,…,J,n=1,…,10,k=1,…,K,
Figure FDA0002723300850000027
表示公共子空间中第i个训练样本的第n段声音的声音特征,其中i=1,…,J,n=1,…,10;
(1-3-3)将所有公共子空间的视觉特征和声音特征输入到一个定位网络,该定位网络比较每个训练样本每一段声音的声音特征和这一段声音对应的图像中的各个目标检测框的视觉特征,比较操作采用余弦相似度来表示声音和各个目标检测框的相似度;令
Figure FDA00027233008500000214
代表第i个训练样本第n帧图像的第k个目标检测框和该图像帧对应的1s声音的相似度,则定义
Figure FDA0002723300850000028
其中
Figure FDA00027233008500000210
表示
Figure FDA0002723300850000029
的第k个分量,k=1,…,K,然后将每一帧图像的所有相似度标准化后使其和为1,得到标准化的相似度
Figure FDA00027233008500000215
采用注意力机制将目标检测框的特征用标准化后的相似度加权求和,得到的特征来表示每帧图像与声音相关的图像特征,表示为
Figure FDA00027233008500000211
Figure FDA00027233008500000213
Figure FDA00027233008500000212
在时域上平均分别得到每个训练样本的视频平均特征h′(i)和音频平均特征s′(i),表达式如下:
Figure FDA0002723300850000021
Figure FDA0002723300850000022
(1-3-4)分别设置分类损失函数和欧式距离损失函数,表达式如下:
Figure FDA0002723300850000023
Figure FDA0002723300850000024
Figure FDA0002723300850000025
Figure FDA0002723300850000031
其中,WI,bI,WS,bS为待学习的参数,
Figure FDA0002723300850000032
为第i个训练样本的分类损失,
Figure FDA0002723300850000033
为第i个训练样本的欧式距离损失;
(1-3-5)采用Adam批训练梯度下降算法训练音源定位神经网络,对该神经网络迭代训练到达上限次数后停止,得到训练完毕的音源定位神经网络;
(2)测试阶段;
利用步骤(1)训练完毕的音源定位神经网络对测试视频进行音源定位,具体步骤如下:
(2-1)获取一条测试视频;
(2-2)重复步骤(1-2),对步骤(2-1)获取的测试视频进行预处理,得到该测试视频对应的视觉特征f′nk和声音特征g′n
(2-3)将步骤(2-2)得到的视觉特征f′nk和声音特征g′n按帧组成图像和声音对,然后输入到步骤(1)训练完毕的音源定位神经网络中,并进行一次前向计算得到相似度,记d′nk代表测试视频的第n帧图像的第k个目标检测框和该帧图像对应的声音的相似度;
(2-4)设置一个阈值Ton并进行判定:若测试视频中一帧图像中的声音和该帧图像的K个目标检测框视觉特征的相似度中的最大值大于该阈值,则认为该帧的图像和声音是同步的,进入步骤(2-5);否则就认为该帧图像和声音是不同步的,该帧图像不进行音源定位;
(2-5)若该帧图像的声音和A个目标检测框的相似度大于Ton,则该帧图像A个目标检测框中每个目标检测框中的物体发出了声音,1≤A≤K,音源定位结束。
CN201811403303.2A 2018-11-23 2018-11-23 一种从视频中定位音源的方法 Active CN109635676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811403303.2A CN109635676B (zh) 2018-11-23 2018-11-23 一种从视频中定位音源的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811403303.2A CN109635676B (zh) 2018-11-23 2018-11-23 一种从视频中定位音源的方法

Publications (2)

Publication Number Publication Date
CN109635676A CN109635676A (zh) 2019-04-16
CN109635676B true CN109635676B (zh) 2020-12-11

Family

ID=66068869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811403303.2A Active CN109635676B (zh) 2018-11-23 2018-11-23 一种从视频中定位音源的方法

Country Status (1)

Country Link
CN (1) CN109635676B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276416B (zh) * 2019-07-02 2023-04-28 广东省智能机器人研究院 一种滚动轴承故障预测方法
US11276419B2 (en) * 2019-07-30 2022-03-15 International Business Machines Corporation Synchronized sound generation from videos
CN110970056B (zh) * 2019-11-18 2022-03-11 清华大学 一种从视频中分离音源的方法
US11039043B1 (en) 2020-01-16 2021-06-15 International Business Machines Corporation Generating synchronized sound from videos
CN111539449B (zh) * 2020-03-23 2023-08-18 广东省智能制造研究所 一种基于二阶融合注意力网络模型的声源分离及定位方法
CN111443330B (zh) * 2020-05-15 2022-06-03 浙江讯飞智能科技有限公司 声学成像方法、装置、设备及可读存储介质
CN111833885B (zh) * 2020-07-08 2023-08-01 太原科技大学 一种基于卷积模糊神经网络的音源识别方法
CN111930992B (zh) * 2020-08-14 2022-10-28 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN112153461B (zh) * 2020-09-25 2022-11-18 北京百度网讯科技有限公司 用于定位发声物的方法、装置、电子设备及可读存储介质
CN112927701A (zh) * 2021-02-05 2021-06-08 商汤集团有限公司 样本生成、神经网络生成、音频信号生成方法及装置
CN113191278B (zh) * 2021-05-06 2024-02-20 浙江工业大学 基于视频和声音数据融合的打架行为检测方法
CN114070955B (zh) * 2021-11-29 2023-06-20 杭州逗酷软件科技有限公司 一种同步判断方法及装置、存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735566B1 (en) * 1998-10-09 2004-05-11 Mitsubishi Electric Research Laboratories, Inc. Generating realistic facial animation from speech
CN103439688B (zh) * 2013-08-27 2015-04-22 大连理工大学 一种用于分布式麦克风阵列的声源定位系统及定位方法
US10002311B1 (en) * 2017-02-10 2018-06-19 International Business Machines Corporation Generating an enriched knowledge base from annotated images
CN107480178B (zh) * 2017-07-01 2020-07-07 暗物智能科技(广州)有限公司 一种基于图像与视频跨模态比对的行人重识别方法
CN108647556A (zh) * 2018-03-02 2018-10-12 重庆邮电大学 基于分频和深度神经网络的声源定位方法

Also Published As

Publication number Publication date
CN109635676A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635676B (zh) 一种从视频中定位音源的方法
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
CN109117777B (zh) 生成信息的方法和装置
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN110119757B (zh) 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质
CN109241829B (zh) 基于时空注意卷积神经网络的行为识别方法及装置
NadeemHashmi et al. A lip reading model using CNN with batch normalization
CN111161715B (zh) 一种基于序列分类的特定声音事件检索与定位的方法
CN110970056A (zh) 一种从视频中分离音源的方法
CN117079299B (zh) 数据处理方法、装置、电子设备及存储介质
Wang et al. Audio event detection and classification using extended R-FCN approach
Abdulsalam et al. Emotion recognition system based on hybrid techniques
CN112232276A (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
Hao et al. Deepfake detection using multiple data modalities
Naas et al. Real-time emotion recognition for sales
CN116257816A (zh) 一种陪护机器人情绪识别方法、装置、存储介质及设备
Han et al. Multi-view visual speech recognition based on multi task learning
CN116485943A (zh) 图像生成方法、电子设备及存储介质
CN108197593B (zh) 基于三点定位方法的多尺寸人脸表情识别方法及装置
US11783587B2 (en) Deep learning tattoo match system based
CN114022938A (zh) 视素识别的方法、装置、设备和存储介质
WO2021147084A1 (en) Systems and methods for emotion recognition in user-generated video(ugv)
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
Jayanthi et al. Sign Language Recognition using Deep CNN with Normalised Keyframe Extraction and Prediction using LSTM
CN113780198B (zh) 一种面向影像生成的多模态情感分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant