CN110970056B - 一种从视频中分离音源的方法 - Google Patents

一种从视频中分离音源的方法 Download PDF

Info

Publication number
CN110970056B
CN110970056B CN201911124411.0A CN201911124411A CN110970056B CN 110970056 B CN110970056 B CN 110970056B CN 201911124411 A CN201911124411 A CN 201911124411A CN 110970056 B CN110970056 B CN 110970056B
Authority
CN
China
Prior art keywords
visual
video
sound
key frame
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911124411.0A
Other languages
English (en)
Other versions
CN110970056A (zh
Inventor
刘华平
刘馨竹
刘晓宇
郭迪
孙富春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201911124411.0A priority Critical patent/CN110970056B/zh
Publication of CN110970056A publication Critical patent/CN110970056A/zh
Application granted granted Critical
Publication of CN110970056B publication Critical patent/CN110970056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Abstract

本发明提出一种从视频中分离音源的方法。该方法由训练阶段和测试阶段两个阶段构成。该方法在训练阶段构建一个由视觉目标检测网络、声音特征提取网络和声音分离网络组成的音源分离模型,从训练数据中选取两个不同类别的视频将其音频混合,训练音源分离模型使之能够从混合音频中精确的分离出两个视频对应的原音频。在测试阶段,获取测试视频后将其输入训练完毕的音源分离模型,模型检测视频中的所有视觉目标,并从原始音频中分离出各个视觉目标对应的声音。本发明可以从目标物体级别上对音源进行分离,能够检测出视频中出现的所有目标物体并将其与分离出的对应声音进行自动匹配,建立了各视觉目标物体和分离后的声音之间的联系,应用前景广阔。

Description

一种从视频中分离音源的方法
技术领域
本发明涉及一种从视频中分离音源的方法,属于跨模态学习领域。
背景技术
近年来,智能可穿戴设备、智能家居以及智能服务机器人等技术迅速发展,其需要对现实场景中的视频、音频等数据进行实时处理并将处理结果进一步用于后续行为中。其中,从包含有多个音源的混合音频中分离出各个音源的声音是一项非常重要的任务。例如,当人向智能服务机器人下达语音指令时,环境中可能同时包含电话铃声、闹钟、电视等家用电器的声音,而智能机器人此时需要从获取的混合音频中分离出人的声音,来正确识别人向其下达的指令。音源分离任务是极具挑战性的任务。
目前,已有研究者提出稀疏编码、独立成分分析、非负矩阵分解、深度神经网络等方法从单一的听觉模态来解决音源分离任务,但是这些方法在现实场景中的音源分离任务上效果并不理想。
实际上,视频数据同时包含着图像画面和声音信号,并且二者在时间上是自然对齐的,可以充分挖掘二者的内在联系,利用视频中包含的视觉信息来指导音源分离任务。已有研究者提出跨模态的声音分离方法,建立视觉图像特征和听觉信号特征之间的关联,从而将混合音频进行分离。目前在声音分离任务上的已有工作大多都是在像素级别或者图像分割区域级别上进行声音分离,即把混合音频分离成图像各像素对应的声音,或者分离成图像分割后各个区域对应的声音。这些方法的声音分离结果并不适用于现实场景下的智能机器人等应用,在像素级别上进行声音分离时,尽管可以得到每个像素产生的声音,但是无法建立相邻像素之间的联系,单个孤立的像素在现实场景下不具备实际意义,例如机器人只能知道当前画面中某个像素发出的声音信号却不知道这个像素是闹钟这个物体的组成部分。类似的,在图像分割区域级别上进行声音分离时,机器人只能知道某一区域产生的声音信号而无法知道该区域在当前画面中实际包含了哪些物体,这使机器人无法理解分离出的声音所代表的实际含义。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种从视频中分离音源的方法。本发明可从视频中检测到所有目标物体,并将原声音分离为各个目标物体产生的声音,即在目标物体级别上进行音源分离,有很高的应用价值。
为了实现上述目的,本发明采用如下技术方案:
本发明提出的一种从视频中分离音源的方法,其特征在于,包括以下步骤:
(1)训练阶段
(1-1)获取训练数据
获取来自C类不同事件类别的T段视频作为训练数据,每段视频作为一个训练样本,每段视频的时长均相等,且每段视频中必须包含声音信号;
(1-2)生成训练样本对
对每一个训练样本,从其他C-1类视频中随机选取一段视频与其进行配对,生成T个训练样本对;
(1-3)提取训练样本对的关键帧
对于每一个训练样本对,分别提取两段视频中位于视频中点处的单帧图像作为该视频的关键帧;
(1-4)混合训练样本对的声音信号并提取音频频谱图
对于各训练样本对,分别提取两段视频对应的声音信号并进行混合,对混合后的音频信号经重采样和短时傅里叶变换后,得到各训练样本对的音频频谱图;
(1-5)构建音源分离模型,该模型由视觉目标检测网络、声音特征提取网络和声音分离网络组成,整个模型以视频关键帧和音频频谱图为输入,以音源分离结果为输出,具体包括以下步骤:
(1-5-1)构建一个视觉目标检测网络,所述视觉目标检测网络以步骤(1-3)得到的各视频关键帧为输入,以视频关键帧中检测到的视觉目标对应的检测框和由每个视觉目标对应的视觉特征组成的视觉特征集合为输出,输出的各视觉特征的维度均为S;
(1-5-2)构建一个声音特征提取网络,所述声音特征提取网络以步骤(1-4)得到的各音频频谱图为输入,以提取的相应声音特征集合作为输出;所述声音特征集合内的各声音特征分别反映输入的音频频谱图对应的声音信号的不同属性,设各声音特征集合均分别包括K个声音特征;
(1-5-3)构建一个声音分离网络,所述声音分离网络包括一个由两个全连接层组成的视觉特征映射网络和一个由线性层组成的分离网络;所述声音分离网络以所述视觉目标检测网络提取得到的视觉特征集合和所述声音特征提取网络提取得到的声音特征集合为输入,以音源分离结果为输出;
(1-6)对构建的音源分离模型进行迭代训练,具体步骤如下:
(1-6-1)将步骤(1-2)生成的各训练样本对中的第一视频关键帧输入步骤(1-5-1)构建的视觉目标检测网络,得到各第一视频关键帧中检测到的所有视觉目标的检测框,同时提取得到视觉特征集合,记第j个第一视频关键帧的视觉特征集合为
Figure BDA0002276358590000031
其中
Figure BDA0002276358590000032
为第j个第一视频关键帧中检测到的第u个视觉目标的视觉特征,
Figure BDA0002276358590000033
为该视频关键帧中检测到的视觉目标数量;
(1-6-2)为各视频关键帧设置视觉目标数量阈值为L,并设置对应的二进制向量用于记录输入的各视频关键帧中实际检测到的视觉目标数量;通过以下判定将步骤(1-6-1)得到的视觉特征集合
Figure BDA0002276358590000034
转化为修正视觉特征集合
Figure BDA0002276358590000035
若检测到的第j个第一视频关键帧中的视觉目标数量
Figure BDA0002276358590000036
小于L,则令修正视觉特征集合
Figure BDA0002276358590000037
中前
Figure BDA0002276358590000038
个视觉特征与视觉特征集合
Figure BDA0002276358590000039
中前
Figure BDA00022763585900000310
个对应的视觉特征相同,修正视觉特征集合
Figure BDA00022763585900000311
中第
Figure BDA00022763585900000312
到第L个视觉特征均为0向量,令二进制向量
Figure BDA00022763585900000313
的前
Figure BDA00022763585900000314
个元素均为1,其余各位均为0;若检测到的第j个第一视频关键帧中视觉目标数量大于或等于L,则保留目标检测过程中置信度最大的L个视觉目标和其对应的视觉特征,删除其余视觉目标对应的视觉特征,由保留的L个视觉特征构成第j个第一视频关键帧的修正视觉特征集合
Figure BDA00022763585900000315
其对应的二进制向量
Figure BDA00022763585900000316
中各元素均为1;
(1-6-3)将步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入步骤(1-5-2)构建的声音特征提取网络,提取得到声音特征集合,记第j个训练样本对提取得到的的声音特征集合为
Figure BDA00022763585900000317
(1-6-4)对步骤(1-6-2)得到的各第一视频关键帧修正视觉特征集合中的所有视觉特征进行平均操作,得到对应的视觉平均特征,记第j个第一视频关键帧的视觉平均特征为
Figure BDA00022763585900000318
计算公式如下:
Figure BDA00022763585900000319
其中,
Figure BDA00022763585900000320
代表输入的第j个第一视频关键帧中实际检测到的视觉目标数量,
Figure BDA00022763585900000321
(1-6-5)通过步骤(1-5-3)构建的视觉特征映射网络,将步骤(1-6-4)得到的各第一视频关键帧的视觉平均特征从S维映射至K维,得到对应的视觉映射特征,记第j个第一视频关键帧的视觉映射特征为
Figure BDA00022763585900000322
(1-6-6)将步骤(1-6-5)得到的各视觉映射特征和步骤(1-6-3)得到的对应声音特征同时输入步骤(1-5-3)构建的分离网络,预测输入的各第一视频关键帧对应音频的频谱掩码,所述频谱掩码是指视频对应音频的频谱图与混合音频的频谱图的按位比值结果;记第j个第一视频关键帧对应音频的频谱掩码为
Figure BDA00022763585900000323
分离网络按照如下公式预测该频谱掩码:
Figure BDA0002276358590000041
其中,λp和β分别为分离网络线性层的参数,
Figure BDA0002276358590000042
为第j个第一视频关键帧的视觉映射特征中的第p维数据,
Figure BDA0002276358590000043
为步骤(1-6-3)得到的第j个训练样本对的声音特征集合中的第p个声音特征;
(1-6-7)将各训练样本对中第二视频关键帧和步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入音源分离模型,依次按照步骤(1-6-1)~步骤(1-6-6)的操作,得到输入的各第二视频对应音频的频谱掩码,记第j个第二视频关键帧对应音频的频谱掩码为
Figure BDA0002276358590000044
(1-6-8)设置损失函数来约束音源分离模型的训练过程,公式如下:
Figure BDA0002276358590000045
其中,
Figure BDA0002276358590000046
分别为第j个训练样本对中第一视频关键帧和第二视频关键帧对应音频的频谱掩码真实值,计算公式如下:
Figure BDA0002276358590000047
其中,
Figure BDA0002276358590000048
Figure BDA0002276358590000049
分别代表第j个训练样本对中两个视频的原始音频频谱图,
Figure BDA00022763585900000410
代表由步骤(1-4)得到的第j个训练样本对混合声音信号的音频频谱图,公式中的除法是在各对应元素之间的除法计算;损失函数中,Dis运算指对参与运算的两个矩阵内的相应元素逐位计算差值,并对所有差值的绝对值求和;
(1-6-9)将视觉目标检测网络的参数固定,使用批量梯度下降算法更新声音特征提取网络和声音分离网络的参数,将音源分离模型迭代训练若干次直至达到设定上限次数后停止,得到训练完毕的音源分离模型;
(2)测试阶段
(2-1)获取与训练数据中每段视频时长相等的待测试视频,并提取其对应的音频信号;
(2-2)提取待测试视频中点处的单帧图像作为该视频的关键帧;
(2-3)对步骤(2-1)提取的音频信号经重采样和短时傅里叶变换后,得到该音频信号对应的音频频谱图;
(2-4)将待测试视频的关键帧和其对应的音频频谱图输入训练完毕的音源分离模型中,依次按照步骤(1-6-1)和(1-6-2)的操作获取视觉目检测框、视觉特征集合F={f1,f2,…,fL}和用于记录实际检测到的视觉目标数量的二进制向量W,其中记待检测视频关键帧中实际检测到的视觉目标数量为N,即二进制向量W中数值为1的元素数量为N;按照步骤(1-6-3)的操作获取待测试视频的声音特征集合A={a1,a2,…,aK};
(2-5)将步骤(2-4)得到的视觉特征集合和声音特征集合通过训练完毕的声音分离网络,得到该待测试视频中每一个视觉目标对应声音的频谱掩码;具体步骤如下:
(2-5-1)通过音源分离模型中的视觉特征映射网络将待测试视频的视觉特征集合F={f1,f2,…fv,…,fL}中的各视频特征从S维均映射至K维,得到待测试视频的视觉映射特征集合G={g1,g2,…gv,…,gL},其中gv由fv映射得到,并且gv∈RK
(2-5-2)将步骤(2-5-1)得到的每个视觉目标的视觉映射特征和步骤(2-4)得到的声音特征同时输入音源分离模型中的分离网络,为每一个视觉目标物体预测对应音频的频谱掩码Mv,即预测每个视觉目标发出声音的音频频谱图与视频原声音的音频频谱图的按位比值结果;分离网络按照如下公式预测各视觉目标发出声音的频谱掩码:
Figure BDA0002276358590000051
其中,gv[p]代表待测试视频中第v个视觉目标对应的视觉映射特征中的第p维数据;
(2-6)经过步骤(2-5)得到每个视觉目标产生声音的频谱掩码结果{M1,M2,…,ML},对于其中N个有效的频谱掩码,按下式计算对应的N个视觉目标产生声音的音频频谱图:
Figure BDA0002276358590000052
其中,P代表待测试视频的原始音频频谱图,
Figure BDA0002276358590000053
代表哈达玛积运算,Pi代表第i个视觉目标产生声音信号的音频频谱图;然后使用逆快速傅里叶变换算法将N个视觉目标的频谱图转换为N个音频信号;
(2-7)对于检测到的N个视觉目标,绘制步骤(2-4)中得到的视觉目标检测框,并将其与步骤(2-6)中得到的音频信号进行匹配,音源分离结束。
本发明提出的一种从视频中分离音源的方法,具有以下优点:
1、本发明在音源分离的过程中引入了视觉目标信息,从而实现了在目标级别上进行音源分离,建立起视觉目标物体和其对应声音之间的联系,使得音源分离结果更精准,更具有实际意义。
2、本发明使用深度神经网络完成目标检测及视觉特征提取过程,将声音信号转化为频谱图并使用深度神经网络提取特征,可得到具有实际意义的特征信息,使分离结果更精准。
3、本发明使用自监督的学习方式进行训练,可以直接从大量原始视频数据中进行学习,在训练过程中不需要使用视频数据的任何标签信息,对训练数据的限制较少。
4、本发明可以应用于机器人领域,例如智能服务机器人根据视频画面分离出各目标物体的声音,从而更精准的识别人提出的指令或者更准确的判断当前场景状态。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为了更好地理解本发明,以下详细阐述一个本发明一种从视频中分离音源的方法的应用实例。
本发明提出的一种从视频中分离音源的方法,包括以下步骤:
(1)训练阶段
(1-1)获取训练数据
获取来自C类不同事件类别的T段视频作为训练数据,每段视频作为一个训练样本,每段视频的时长均相等,且要求每段视频中必须包含声音信号,视频的内容没有特殊要求。本实施例使用的训练数据共10000段视频,包括8类不同事件类别,分别为男人演讲、女人演讲、婴儿哭泣、赛车行驶、卡车行驶、公交车行驶、摩托车行驶、火车行驶,即有C=8,T=10000,每段视频的时长均为10秒。
(1-2)生成训练样本对
对每一个训练样本,从其他C-1类视频中随机选取一段视频与其进行配对,生成T个训练样本对。分别记训练样本对中的两个视频为第一视频和第二视频。
(1-3)提取训练样本对的关键帧
对于每一个训练样本对,分别提取两段视频中位于视频中点处的单帧图像作为该视频的关键帧。
(1-4)混合训练样本对的声音信号并提取音频频谱图
对于每一个训练样本对,分别提取两段视频对应的声音信号,将两段视频的声音信号进行混合,使得混合后的音频同时包含两段视频的音频信号。将混合音频信号重采样到11kHz(还可根据具体应用场景选择其他频率),使用短时傅里叶变换将重采样后的信号转换为256×256的音频频谱图(该音频频谱图的维度由短时傅里叶变换过程中的各个参数决定)。
(1-5)构建音源分离模型,该模型由视觉目标检测网络、声音特征提取网络和声音分离网络组成,整个模型以视频关键帧和音频频谱图为输入,以音源分离结果为输出,具体包括以下步骤:
(1-5-1)构建一个视觉目标检测网络,用于提取视频关键帧中各个视觉目标(如对于男人演讲事件下,可能含有男性演讲人、听众等)对应的视觉特征,并构成视觉特征集合。所述视觉目标检测网络以步骤(1-3)得到的各视频关键帧为输入,以视频关键帧中检测到的视觉目标对应的检测框和由每个视觉目标对应的视觉特征组成的视觉特征集合为输出,输出的各视觉特征的维度均为S。
本实施例中,使用Faster R-CNN网络作为视觉目标检测网络,该Faster R-CNN网络基于ResNet-101网络实现,并在Pascal Voc2007数据集(为一公开数据集)上完成预训练。视觉目标检测网络以各视频关键帧为输入,以各视频关键帧中检测到的所有视觉目标对应的检测框为输出,对于输入的第j个视频关键帧,记其关键帧中检测到的视觉目标数量为N(j)。同时,将Faster R-CNN网络中最后一个全连接层(FC7层)提取得到的S(本实施例S=2048)维的特征取出,作为每个被检测到的视觉目标的视觉特征,记第j个视频关键帧中检测到的第n个视觉目标的视觉特征为
Figure BDA0002276358590000071
对于第j个视频关键帧,其提取到的视觉特征集合为
Figure BDA0002276358590000072
其中
Figure BDA0002276358590000073
(1-5-2)构建一个声音特征提取网络,用于从步骤(1-4)得到的音频频谱图中提取声音特征。所述声音特征提取网络以音频频谱图为输入,以得到的声音特征为输出;所述声音特征集合内的各声音特征分别反映输入的声音频谱图对应的声音信号的不同属性,设各声音特征集合均分别包括K个声音特征。
本实施例中,使用U-Net网络作为声音特征提取网络,该网络从输入的音频频谱图中提取声音特征并将原有的各音频频谱图分别分割为K个不同的组成成分,可以将这K个组成成分看作分割后的声音信号的基本组成单位,其分别代表声音信号某一方面的特征信息,对输入模型的第j个声音信号,记其分割后的声音特征集合为
Figure BDA0002276358590000074
(1-5-3)构建一个声音分离网络,用于获得音源分离结果。所述声音分离网络包括一个由两个全连接层组成的视觉特征映射网络和一个由线性层组成的分离网络。该声音分离网络以视觉目标检测网络提取得到的视觉特征集合和声音特征提取网络提取得到的声音特征集合为输入,以音源分离结果为输出。
(1-6)对构建的音源分离模型进行迭代训练。将步骤(1-2)获取的所有训练样本对依次输入音源分离模型,其中,视觉目标检测网络的参数保持不变,训练声音特征提取网络和声音分离网络,得到训练完毕的音源分离模型。具体步骤如下:
(1-6-1)将各训练样本对中的第一视频关键帧输入步骤(1-5-1)构建的视觉目标检测网络,得到各第一视频关键帧中检测到的所有视觉目标的检测框,同时提取得到视觉特征集合,记第j个训练样本对中的第一视频关键帧(以下简称为第j个第一视频关键帧)的视觉特征集合为
Figure BDA0002276358590000075
其中
Figure BDA0002276358590000076
Figure BDA0002276358590000077
为输入的第j个第一视频关键帧中检测到的第u个视觉目标的视觉特征,
Figure BDA0002276358590000078
为该视频关键帧中检测到的视觉目标数量;
(1-6-2)对提取到的视觉特征集合进行修正。由于一般场景下视频中目标物体的数量是有限的,同时为了便于对于张量进行批量运算,为各视频关键帧设置视觉目标数量阈值为L,L的值对所有视频都是固定的,同时设置一个二进制向量用于记录输入的第一视频关键帧中实际检测到的视觉目标数量;通过以下判定将步骤(1-6-1)得到的视觉特征集合
Figure BDA0002276358590000081
转化为修正视觉特征集合
Figure BDA0002276358590000082
若检测到的第j个第一视频关键帧中的视觉目标数量
Figure BDA0002276358590000083
小于L,则令修正视觉特征集合
Figure BDA0002276358590000084
中前
Figure BDA0002276358590000085
个视觉特征与视觉特征集合
Figure BDA0002276358590000086
中前
Figure BDA0002276358590000087
个对应的视觉特征相同,修正视觉特征集合
Figure BDA0002276358590000088
中第
Figure BDA0002276358590000089
到第L个视觉特征均为0向量,令二进制向量
Figure BDA00022763585900000810
的前
Figure BDA00022763585900000811
个元素均为1,其余各位均为0;若检测到的第j个第一视频关键帧中视觉目标数量大于或等于L,则保留目标检测过程中置信度最大的L个视觉目标和其对应的视觉特征,删除其余视觉目标对应的视觉特征,由保留的L个视觉特征构成第j个第一视频关键帧的修正视觉特征集合
Figure BDA00022763585900000812
其对应的二进制向量
Figure BDA00022763585900000813
中各元素均为1。
(1-6-3)将步骤(1-4)最后得到的各训练样本对的混合声音信号的音频频谱图输入步骤(1-5-2)构建的声音特征提取网络,提取得到声音特征集合,记第j个训练样本对提取得到的声音特征集合为
Figure BDA00022763585900000814
(1-6-4)对步骤(1-6-2)得到的各第一视频关键帧的修正视觉特征集合中的所有特征进行平均操作,得到对应的视觉平均特征,记第j个第一视频关键帧的视觉平均特征为
Figure BDA00022763585900000815
计算公式为:
Figure BDA00022763585900000816
其中,
Figure BDA00022763585900000817
代表输入的第j个第一视频关键帧中实际检测到的视觉目标数量,
Figure BDA00022763585900000818
(1-6-5)通过步骤(1-5-3)构建的视觉特征映射网络,将步骤(1-6-4)得到的各第一视频关键帧的视觉平均特征从S=2048维映射至K维,得到对应的视觉映射特征,记第j个第一视频关键帧的视觉映射特征为
Figure BDA00022763585900000819
即得到的第j个训练样本对的视觉映射特征的维数与其声音特征的数量相同,便于后续对视觉映射特征与声音特征进行进一步的运算。
(1-6-6)将经过步骤(1-6-5)得到的各视觉映射特征和经过步骤(1-6-3)得到的对应声音特征同时输入步骤(1-5-3)构建的分离网络,预测输入的各第一视频关键帧对应音频的频谱掩码,其中频谱掩码是指视频对应音频的频谱图与混合音频的频谱图的按位比值结果。记第j个第一视频关键帧对应音频的频谱掩码为
Figure BDA00022763585900000820
分离网络按照如下公式预测该频谱掩码:
Figure BDA00022763585900000821
其中,λp和β分别为分离网络线性层的参数,
Figure BDA00022763585900000822
为第j个第一视频关键帧的视觉映射特征中的第p维数据,
Figure BDA0002276358590000091
为步骤(1-6-3)得到的第j个训练样本对的声音特征集合中的第p个声音特征。分离网络通过将各视觉映射特征中的第p维数据与对应声音特征集合中的第p个声音成分的声音特征进行加权,从而建立起视觉特征和声音特征之间的联系。
(1-6-7)将各训练样本对中第二视频关键帧和步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入音源分离模型,依次按照步骤(1-6-1)至步骤(1-6-6)的方式得到输入的各第二视频对应音频的频谱掩码,记第j个训练样本对中的第二视频关键帧(以下简称第j个第二视频关键帧)对应音频的频谱掩码为
Figure BDA0002276358590000092
(1-6-8)设置损失函数来约束音源分离模型的训练过程,公式如下:
Figure BDA0002276358590000093
其中,
Figure BDA0002276358590000094
分别为第j个训练样本对中第一视频关键帧和第二视频关键帧对应音频的频谱掩码真实值,计算公式如下:
Figure BDA0002276358590000095
其中,
Figure BDA0002276358590000096
Figure BDA0002276358590000097
分别代表第j个训练样本对中两个视频原始音频对应的音频频谱图,
Figure BDA0002276358590000098
代表由步骤(1-4)得到的第j个训练样本对混合声音信号的音频频谱图,公式中的除法是在各对应元素之间的除法计算。损失函数中,Dis运算指对参与运算的两个矩阵内的相应元素逐位计算差值,并对所有差值的绝对值求和。
(1-6-9)利用所有的训练样本对来训练音源分离模型,将视觉目标检测网络的参数固定,使用批量梯度下降算法(本实施例采用Adam批训练梯度下降算法,批大小为32)更新声音特征提取网络和声音分离网络的参数,将整个模型迭代训练若干次直至达到指定上限次数后停止(本实施例中迭代训练500次),得到训练完毕的音源分离模型。
(2)测试阶段
利用步骤(1)训练完毕的音源分离模型对测试数据进行音源分离,具体步骤如下:
(2-1)获取与训练数据中每段视频时长相等的待测试视频(本实施例为10秒),要求视频中包含不同类别的发声物体,并提取其对应的音频信号。
(2-2)提取待测试视频中点处的单帧图像作为该视频的关键帧。
(2-3)对步骤(2-1)提取的音频信号经重采样和短时傅里叶变换后,得到该音频信号对应的音频频谱图,该音频频谱图的维度与步骤(1-4)中训练样本对的音频频谱图维度相同。
(2-4)将待测试视频的关键帧和其对应的音频频谱图输入训练完毕的音源分离模型中,依次按照步骤(1-6-1)和(1-6-2)的操作获取视觉目检测框、视觉特征集合F={f1,f2,…,fL}和用于记录实际检测到的视觉目标数量的二进制向量W,其中记待检测视频关键帧中实际检测到的视觉目标数量为N,即二进制向量W中数值为1的元素数量为N;按照步骤(1-6-3)的操作获取待测试视频的声音特征集合A={a1,a2,…,aK}。
(2-5)将经过步骤(2-4)得到的视觉特征集合和声音特征集合通过训练完毕的声音分离网络,分离得到该待测试视频中每一个视觉目标对应的声音的频谱掩码;具体步骤如下:
(2-5-1)通过音源分离模型中的视觉特征映射网络将待测试视频的视觉特征集合F={f1,f2,…,fv,…,fL}中的各视频特征均从S=2048维映射至K维,得到待测试视频的视觉映射特征集合G={g1,g2,…,gv,…,gL},其中gv由fv映射得到,并且gv∈RK
(2-5-2)将经过步骤(2-5-1)得到的每个视觉目标的视觉映射特征和经过步骤(2-4)得到的声音特征一起输入音源分离模型中的分离网络,为每一个视觉目标物体预测对应音频的频谱掩码Mv,即预测每个视觉目标发出声音的音频频谱图与视频原声音的音频频谱图的按位比值结果。分离网络按照如下公式预测各视觉目标发出声音的频谱掩码:
Figure BDA0002276358590000101
其中,λp和β分别为在训练阶段中训练完毕的分离网络线性层参数,Mv代表第v个视觉目标发出声音的频谱图预测结果,gv[p]代表待测试视频中第v个视觉目标对应的视觉映射特征中的第p维数据。
(2-6)经过步骤(2-5)得到每个视觉目标产生声音的频谱掩码结果{M1,M2,…,ML},对于其中N个有效的频谱掩码,即二进制向量W中非零位对应的频谱掩码,按下式计算对应的N个视觉目标产生声音的音频频谱图:
Figure BDA0002276358590000102
其中,P代表待测试视频的原始音频频谱图,
Figure BDA0002276358590000103
代表哈达玛积运算,Pi代表第i个视觉目标产生声音的音频频谱图。再使用逆快速傅里叶变换算法将N个视觉目标的频谱图转换为N个音频信号。
(2-7)对于检测到的N个视觉目标,绘制步骤(2-4)中得到的视觉目标检测框,并将其与步骤(2-6)中得到的音频信号进行匹配,音源分离结束。

Claims (4)

1.一种从视频中分离音源的方法,其特征在于,包括以下步骤:
(1)训练阶段
(1-1)获取训练数据
获取来自C类不同事件类别的T段视频作为训练数据,每段视频作为一个训练样本,每段视频的时长均相等,且每段视频中必须包含声音信号;
(1-2)生成训练样本对
对每一个训练样本,从其他C-1类视频中随机选取一段视频与其进行配对,生成T个训练样本对;
(1-3)提取训练样本对的关键帧
对于每一个训练样本对,分别提取两段视频中位于视频中点处的单帧图像作为该视频的关键帧;
(1-4)混合训练样本对的声音信号并提取音频频谱图
对于各训练样本对,分别提取两段视频对应的声音信号并进行混合,对混合后的音频信号经重采样和短时傅里叶变换后,得到各训练样本对的音频频谱图;
(1-5)构建音源分离模型,该模型由视觉目标检测网络、声音特征提取网络和声音分离网络组成,整个模型以视频关键帧和音频频谱图为输入,以音源分离结果为输出,具体包括以下步骤:
(1-5-1)构建一个视觉目标检测网络,所述视觉目标检测网络以步骤(1-3)得到的各视频关键帧为输入,以视频关键帧中检测到的视觉目标对应的检测框和由每个视觉目标对应的视觉特征组成的视觉特征集合为输出,输出的各视觉特征的维度均为S;
(1-5-2)构建一个声音特征提取网络,所述声音特征提取网络以步骤(1-4)得到的各音频频谱图为输入,以提取的相应声音特征集合作为输出;所述声音特征集合内的各声音特征分别反映输入的音频频谱图对应的声音信号的不同属性,设各声音特征集合均分别包括K个声音特征;
(1-5-3)构建一个声音分离网络,所述声音分离网络包括一个由两个全连接层组成的视觉特征映射网络和一个由线性层组成的分离网络;所述声音分离网络以所述视觉目标检测网络提取得到的视觉特征集合和所述声音特征提取网络提取得到的声音特征集合为输入,以音源分离结果为输出;
(1-6)对构建的音源分离模型进行迭代训练,具体步骤如下:
(1-6-1)将步骤(1-2)生成的各训练样本对中的第一视频关键帧输入步骤(1-5-1) 构建的视觉目标检测网络,得到各第一视频关键帧中检测到的所有视觉目标的检测框,同时提取得到视觉特征集合,记第j个第一视频关键帧的视觉特征集合为
Figure FDA0003438293270000021
其中
Figure FDA0003438293270000022
Figure FDA0003438293270000023
为第j个第一视频关键帧中检测到的第u个视觉目标的视觉特征,
Figure FDA0003438293270000024
为该视频关键帧中检测到的视觉目标数量;
(1-6-2)为各视频关键帧设置视觉目标数量阈值为L,并设置对应的二进制向量用于记录输入的各视频关键帧中实际检测到的视觉目标数量;通过以下判定将步骤(1-6-1)得到的视觉特征集合
Figure FDA0003438293270000025
转化为修正视觉特征集合
Figure FDA0003438293270000026
若检测到的第j个第一视频关键帧中的视觉目标数量
Figure FDA0003438293270000027
小于L,则令修正视觉特征集合
Figure FDA0003438293270000028
中前
Figure FDA0003438293270000029
个视觉特征与视觉特征集合
Figure FDA00034382932700000210
中前
Figure FDA00034382932700000211
个对应的视觉特征相同,修正视觉特征集合
Figure FDA00034382932700000212
中第
Figure FDA00034382932700000213
到第L个视觉特征均为0向量,令二进制向量
Figure FDA00034382932700000214
的前
Figure FDA00034382932700000215
个元素均为1,其余各位均为0;若检测到的第j个第一视频关键帧中视觉目标数量大于或等于L,则保留目标检测过程中置信度最大的L个视觉目标和其对应的视觉特征,删除其余视觉目标对应的视觉特征,由保留的L个视觉特征构成第j个第一视频关键帧的修正视觉特征集合
Figure FDA00034382932700000216
其对应的二进制向量
Figure FDA00034382932700000217
中各元素均为1;
(1-6-3)将步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入步骤(1-5-2)构建的声音特征提取网络,提取得到声音特征集合,记第j个训练样本对提取得到的声音特征集合为
Figure FDA00034382932700000218
(1-6-4)对步骤(1-6-2)得到的各第一视频关键帧修正视觉特征集合中的所有视觉特征进行平均操作,得到对应的视觉平均特征,记第j个第一视频关键帧的视觉平均特征为
Figure FDA00034382932700000219
计算公式如下:
Figure FDA00034382932700000220
其中,
Figure FDA00034382932700000221
(1-6-5)通过步骤(1-5-3)构建的视觉特征映射网络,将步骤(1-6-4)得到的各第一视频关键帧的视觉平均特征从S维映射至K维,得到对应的视觉映射特征,记第j个第一视频关键帧的视觉映射特征为
Figure FDA00034382932700000222
(1-6-6)将步骤(1-6-5)得到的各视觉映射特征和步骤(1-6-3)得到的对应声音特征同时输入步骤(1-5-3)构建的分离网络,预测输入的各第一视频关键帧对应音频的频谱掩码,所述频谱掩码是指视频对应音频的频谱图与混合音频的频谱图的按位比值结果;记第j个第一视频关键帧对应音频的频谱掩码为
Figure FDA00034382932700000223
分离网络按照如下公式预测该频谱掩码:
Figure FDA0003438293270000031
其中,λp和β分别为分离网络线性层的参数,
Figure FDA0003438293270000032
为第j个第一视频关键帧的视觉映射特征中的第p维数据,
Figure FDA0003438293270000033
为步骤(1-6-3)得到的第j个训练样本对的声音特征集合中的第p个声音特征;
(1-6-7)将各训练样本对中第二视频关键帧和步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入音源分离模型,依次按照步骤(1-6-1)~步骤(1-6-6)的操作,得到输入的各第二视频对应音频的频谱掩码,记第j个第二视频关键帧对应音频的频谱掩码为
Figure FDA0003438293270000034
(1-6-8)设置损失函数来约束音源分离模型的训练过程,公式如下:
Figure FDA0003438293270000035
其中,
Figure FDA0003438293270000036
分别为第j个训练样本对中第一视频关键帧和第二视频关键帧对应音频的频谱掩码真实值,计算公式如下:
Figure FDA0003438293270000037
其中,
Figure FDA0003438293270000038
Figure FDA0003438293270000039
分别代表第j个训练样本对中两个视频的原始音频频谱图,
Figure FDA00034382932700000310
代表由步骤(1-4)得到的第j个训练样本对混合声音信号的音频频谱图,公式中的除法是在各对应元素之间的除法计算;损失函数中,Dis运算指对参与运算的两个矩阵内的相应元素逐位计算差值,并对所有差值的绝对值求和;
(1-6-9)将视觉目标检测网络的参数固定,使用批量梯度下降算法更新声音特征提取网络和声音分离网络的参数,将音源分离模型迭代训练若干次直至达到设定上限次数后停止,得到训练完毕的音源分离模型;
(2)测试阶段
(2-1)获取与训练数据中每段视频时长相等的待测试视频,并提取其对应的音频信号;
(2-2)提取待测试视频中点处的单帧图像作为该视频的关键帧;
(2-3)对步骤(2-1)提取的音频信号经重采样和短时傅里叶变换后,得到该音频信号对应的音频频谱图;
(2-4)将待测试视频的关键帧和其对应的音频频谱图输入训练完毕的音源分离模型中,依次按照步骤(1-6-1)和(1-6-2)的操作获取视觉目检测框、视觉特征集合F={f1,f2,…,fL}和用于记录实际检测到的视觉目标数量的二进制向量W,其中记待检测视频关键帧中实际检测到的视觉目标数量为N,即二进制向量W中数值为1的元素数量为N;按照步骤(1-6-3)的操作获取待测试视频的声音特征集合A={a1,a2,…,aK};
(2-5)将步骤(2-4)得到的视觉特征集合和声音特征集合通过训练完毕的声音分离网络,得到该待测试视频中每一个视觉目标对应声音的频谱掩码;具体步骤如下:
(2-5-1)通过音源分离模型中的视觉特征映射网络将待测试视频的视觉特征集合F={f1,f2,…,fv,…,fL}中的各视频特征从S维均映射至K维,得到待测试视频的视觉映射特征集合G={g1,g2,…,gv,…,gL},其中gv由fv映射得到,并且gv∈RK
(2-5-2)将步骤(2-5-1)得到的每个视觉目标的视觉映射特征和步骤(2-4)得到的声音特征同时输入音源分离模型中的分离网络,为每一个视觉目标物体预测对应音频的频谱掩码Mv,即预测每个视觉目标发出声音的音频频谱图与视频原声音的音频频谱图的按位比值结果;分离网络按照如下公式预测各视觉目标发出声音的频谱掩码:
Figure FDA0003438293270000041
其中,gv[p]代表待测试视频中第v个视觉目标对应的视觉映射特征中的第p维数据;
(2-6)经过步骤(2-5)得到每个视觉目标产生声音的频谱掩码结果{M1,M2,…,ML},对于其中N个有效的频谱掩码,按下式计算对应的N个视觉目标产生声音的音频频谱图:
Figure FDA0003438293270000042
其中,P代表待测试视频的原始音频频谱图,
Figure FDA0003438293270000043
代表哈达玛积运算,Pi代表第i个视觉目标产生声音信号的音频频谱图;然后使用逆快速傅里叶变换算法将N个视觉目标的频谱图转换为N个音频信号;
(2-7)对于检测到的N个视觉目标,绘制步骤(2-4)中得到的视觉目标检测框,并将其与步骤(2-6)中得到的音频信号进行匹配,音源分离结束。
2.根据权利要求1所述的从视频中分离音源的方法,其特征在于,所述视觉目标检测网络采用Faster R-CNN网络。
3.根据权利要求1所述的从视频中分离音源的方法,其特征在于,所述声音特征提取网络采用U-Net网络。
4.根据权利要求1所述的从视频中分离音源的方法,其特征在于,步骤(1-6-9)中,所述批量梯度下降算法采用Adam批训练梯度下降算法。
CN201911124411.0A 2019-11-18 2019-11-18 一种从视频中分离音源的方法 Active CN110970056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911124411.0A CN110970056B (zh) 2019-11-18 2019-11-18 一种从视频中分离音源的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911124411.0A CN110970056B (zh) 2019-11-18 2019-11-18 一种从视频中分离音源的方法

Publications (2)

Publication Number Publication Date
CN110970056A CN110970056A (zh) 2020-04-07
CN110970056B true CN110970056B (zh) 2022-03-11

Family

ID=70030775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911124411.0A Active CN110970056B (zh) 2019-11-18 2019-11-18 一种从视频中分离音源的方法

Country Status (1)

Country Link
CN (1) CN110970056B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465008B (zh) * 2020-11-25 2021-09-24 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法
CN112712819B (zh) * 2020-12-23 2022-07-26 电子科技大学 视觉辅助跨模态音频信号分离方法
CN112863538B (zh) * 2021-02-24 2022-06-14 复旦大学 一种基于视听网络的多模态语音分离方法及装置
CN113516006A (zh) * 2021-04-01 2021-10-19 广州云硕科技发展有限公司 一种用于智能机器人的高效信息处理方法及系统
CN113850246B (zh) * 2021-11-30 2022-02-18 杭州一知智能科技有限公司 基于对偶一致网络的声源定位与声源分离的方法和系统
CN114596876B (zh) * 2022-01-21 2023-04-07 中国科学院自动化研究所 声源分离方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015097831A1 (ja) * 2013-12-26 2015-07-02 株式会社東芝 電子機器、制御方法およびプログラム
CN109313904A (zh) * 2016-05-30 2019-02-05 索尼公司 视频音频处理设备、视频音频处理方法和程序
CN109313910A (zh) * 2016-05-19 2019-02-05 微软技术许可有限责任公司 用于讲话者无关的多讲话者语音分离的置换不变训练
CN109545240A (zh) * 2018-11-19 2019-03-29 清华大学 一种人机交互的声音分离的方法
CN109635676A (zh) * 2018-11-23 2019-04-16 清华大学 一种从视频中定位音源的方法
CN109859770A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 音乐分离方法、装置及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6005443B2 (ja) * 2012-08-23 2016-10-12 株式会社東芝 信号処理装置、方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015097831A1 (ja) * 2013-12-26 2015-07-02 株式会社東芝 電子機器、制御方法およびプログラム
CN109313910A (zh) * 2016-05-19 2019-02-05 微软技术许可有限责任公司 用于讲话者无关的多讲话者语音分离的置换不变训练
CN109313904A (zh) * 2016-05-30 2019-02-05 索尼公司 视频音频处理设备、视频音频处理方法和程序
CN109545240A (zh) * 2018-11-19 2019-03-29 清华大学 一种人机交互的声音分离的方法
CN109635676A (zh) * 2018-11-23 2019-04-16 清华大学 一种从视频中定位音源的方法
CN109859770A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 音乐分离方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN110970056A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN110970056B (zh) 一种从视频中分离音源的方法
Makino et al. Recurrent neural network transducer for audio-visual speech recognition
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
Mroueh et al. Deep multimodal learning for audio-visual speech recognition
CN109635676B (zh) 一种从视频中定位音源的方法
CN111429885A (zh) 一种将音频片段映射为人脸嘴型关键点的方法
CN112712819B (zh) 视觉辅助跨模态音频信号分离方法
Khosravan et al. On Attention Modules for Audio-Visual Synchronization.
CN108538283B (zh) 一种由唇部图像特征到语音编码参数的转换方法
CN110415261B (zh) 一种分区域训练的表情动画转换方法及系统
CN110874576A (zh) 一种基于典型相关分析融合特征的行人再识别方法
CN117176998A (zh) 基于通道注意力的双流网络跨模态嘴型同步方法和系统
KR102217414B1 (ko) 4d 영화 이펙트 자동 생성장치
Liu et al. Discriminative Feature Representation Based on Cascaded Attention Network with Adversarial Joint Loss for Speech Emotion Recognition.
CN112289338A (zh) 信号处理方法及装置、计算机设备以及可读存储介质
Dave A lip localization based visual feature extraction method
CN116417008A (zh) 一种跨模态音视频融合语音分离方法
CN114528762B (zh) 一种模型训练方法、装置、设备和存储介质
Tan et al. Spectrogram analysis via self-attention for realizing cross-model visual-audio generation
CN113450824B (zh) 一种基于多尺度视频特征融合的语音唇读方法及系统
CN112235517B (zh) 旁白添加方法、旁白添加装置及存储介质
CN106713899A (zh) 基于全息成像和语音识别的交互三维立体影像系统及方法
CN112653916B (zh) 一种音视频同步优化的方法及设备
WO2021147084A1 (en) Systems and methods for emotion recognition in user-generated video(ugv)
Liu et al. Self-supervised learning for alignment of objects and sound

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant