CN115952255B - 多模态信号内容分析方法、装置、电子设备及存储介质 - Google Patents
多模态信号内容分析方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115952255B CN115952255B CN202211457156.3A CN202211457156A CN115952255B CN 115952255 B CN115952255 B CN 115952255B CN 202211457156 A CN202211457156 A CN 202211457156A CN 115952255 B CN115952255 B CN 115952255B
- Authority
- CN
- China
- Prior art keywords
- subtitle
- audio
- features
- video
- proxy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000000605 extraction Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000002411 adverse Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请公开了一种多模态信号内容分析方法、装置、电子设备及存储介质。该多模态信号内容分析方法包括:获取音频‑视频信号对应的字幕词嵌入特征;利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征;基于所述字幕代理特征生成字幕。本申请实施例提供的多模态信号内容分析方法,利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征,基于字幕代理特征生成字幕,避免了由于字幕语义差异性对训练的影响,生成的字幕能够更好地描述音频‑视频信号的内容,克服了相关技术中没有考虑字幕差异性对音频‑视频字幕任务的影响所导致的不良影响。
Description
技术领域
本申请涉及信号处理技术领域,具体涉及一种多模态信号内容分析方法、装置、电子设备及计算机可读存储介质。
背景技术
在日常生活中,视觉与音频是人们感知外界的两个最主要、最基本的模态,人类利用音频-视频信号来探索、捕捉和感知现实世界。多模态内容分析是一项让机器能够像人一样准确感受音频-视频多模态信号内容的任务。多模态内容分析任务是通向通用人工智能的关键一步,使机器具有像人一样的感知能力。在日常生活中,有着极大的应用前景,例如,可以帮助残障人士更加自然的融入社会、作为生活助手提醒用户等。目前,基于深度学习的多模态信号内容分析方法已经取得了很大的进步。模型通过编码器来封装多模态信号,以字幕语句的形式使用解码器来生成有关该信号的相关描述。
相关技术中,基于深度学习的多模态信号内容分析方法没有考虑到由于字幕差异性对于多模态信号内容分析方法训练及性能的影响。由于音频模态模糊性与视频模态复杂性,不同人对同一个音频-视频可能有不同感受,这就造成字幕之间的语义差异性过大。在多模态内容分析任务数据集中,同一个音频-视频往往对应着多个不同的字幕语句,这些字幕语句都是来描述该音频-视频信号的内容,但是由于人的感知差异,造成了字幕语句存在语义上的差异性,而这些语义差异性会导致多模态信号内容分析方法在训练时存在优化方向上差异较大,从而影响模型性能。
发明内容
本申请的目的是提供一种多模态信号内容分析方法、装置、电子设备及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种多模态信号内容分析方法,包括:
获取音频-视频信号对应的字幕词嵌入特征;
利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征;
基于所述字幕代理特征生成字幕。
在本申请的一些实施例中,所述获取音频-视频信号对应的字幕词嵌入特征,包括:
读取所述音频-视频信号对应的字幕语句;
对所述字幕语句进行分词处理,得到所述字幕语句的分词;
对所述字幕语句的分词进行词嵌入特征编码,得到字幕词嵌入特征。
在本申请的一些实施例中,所述预训练的字幕代理特征提取模型的获取步骤包括:
初始化预设的字幕代理特征提取模型;
利用预先获取的训练集训练所述字幕代理特征提取模型,直至损失函数收敛,保存训练完成的模型参数,得到所述预训练的字幕代理特征提取模型;
其中,所述训练集包括音频-视频预训练特征与对应的真实字幕词嵌入特征。
在本申请的一些实施例中,所述利用预先获取的训练集训练所述字幕代理特征提取模型,包括:
将所述真实字幕词嵌入特征输入到预训练的字幕代理特征提取模型中进行处理,获得输出的对应字幕代理特征;
计算所述对应字幕代理特征与各音频-视频特征之间的相似性;
通过对比学习与多模态特征对齐,最大化所述字幕代理特征与其对应的音频-视频预训练特征的相似性,最小化字幕代理特征与其他音频-视频预训练特征的相似性,并通过反向传播算法优化模型参数。
在本申请的一些实施例中,所述基于所述字幕代理特征生成字幕,包括:
获取所述音频-视频信号的音频特征与视频特征,输入到预训练的音频-视频编码器中,获得封装后的音频特征与视频特征;
拼接所述封装后的音频特征与所述封装后的视频特征,输入到语言解码器中,解码生成字幕。
在本申请的一些实施例中,所述获取所述音频-视频信号的音频特征与视频特征,包括:
将所述音频-视频信号中的音频信号与视频信号分别输入到音频编码器和视频编码器中,获得封装后的音频特征与封装后的视频特征。
在本申请的一些实施例中,所述语言解码器的获取步骤,包括:
计算生成的字幕语句与真实的字幕语句之间的词分类的交叉熵损失和特征正则化约束的损失,通过反向传播算法优化模型参数,直至损失函数收敛,保存训练完成的模型参数,得到所述语言解码器。
根据本申请实施例的另一个方面,提供一种多模态信号内容分析装置,包括:
字幕词嵌入特征获取模块,用于获取音频-视频信号对应的字幕词嵌入特征;
字幕代理特征获取模块,用于利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征;
多模态信号内容分析模块,用于基于所述字幕代理特征生成字幕。
根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述任一项所述的方法。
根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述任一项所述的方法。
本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
本申请实施例提供的多模态信号内容分析方法,利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征,基于字幕代理特征生成字幕,避免了由于字幕语义差异性对训练的影响,生成的字幕能够更好地描述音频-视频信号的内容,克服了相关技术中没有考虑字幕差异性对音频-视频字幕任务的影响所导致的不良影响。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请的一个实施例的多模态信号内容分析方法流程图。
图2示出了本申请的另一个实施例的多模态信号内容分析方法流程图。
图3示出了本申请一种实施方式中基于对比学习与多模态特征对齐的方式生成字幕代理特征的流程图。
图4示出了本申请另一种实施方式中基于对比学习与多模态特征对齐的方式生成字幕代理特征的示意图。
图5示出了本申请一种实施方式中基于字幕代理特征生成字幕的流程图。
图6示出了本申请另一种实施方式中基于字幕代理特征生成字幕的示意图。
图7示出了本申请的一个实施例的多模态信号内容分析装置结构框图。
图8示出了本申请的一个实施例的电子设备结构框图。
图9示出了本申请的一个实施例的计算机可读存储介质示意图。
本申请的目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
相关技术中,基于深度学习的多模态信号内容分析方法没有考虑到由于字幕差异性对多模态信号内容分析方法的训练及性能造成了较大的不良影响。由于音频模态模糊性与视频模态复杂性,不同人对同一个音频-视频可能有不同感受,这就造成字幕之间的语义差异性过大。在多模态字幕任务数据集中,同一个音频-视频往往对应着多个不同的字幕语句,这些字幕语句都是来描述该音频-视频信号的内容,但是由于人的感知差异,造成了字幕语句存在语义上的差异性,而这些语义差异性会导致多模态信号内容分析方法在训练时存在优化方向上差异较大,从而影响模型性能。
针对相关技术中存在的问题,如图1所示,本申请的一个实施例提供了一种多模态信号内容分析方法,包括:
步骤10、获取音频-视频信号对应的字幕词嵌入特征;
步骤20、利用预训练的字幕代理特征提取模型处理字幕词嵌入特征,得到字幕代理特征;
步骤30、基于字幕代理特征生成字幕。
本申请实施例提供的多模态信号内容分析方法,利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征,基于字幕代理特征生成字幕,避免了由于字幕语义差异性对训练的影响,生成的字幕能够更好地描述音频-视频信号的内容,克服了相关技术中没有考虑字幕差异性对音频-视频字幕任务的影响所导致的不良影响。
参考图2所示,本申请的另一个实施例提供了一种多模态信号内容分析方法,是一种基于特征空间正则化约束的多模态多模态信号内容分析方法,该方法包括步骤S10至S20:
S10、基于对比学习与多模态特征对齐的方式生成字幕代理特征。
基于对比学习与多模态特征对齐的方式生成字幕代理特征,通过对比学习与多模态特征对齐的方式,训练字幕代理特征提取模型,得到训练好的字幕代理特征提取模型,使通过字幕代理特征提取模型得到的字幕代理特征具有更好的表征能力,能够很好的准确表达出音频-视频信号中的内容。字幕代理特征提取模型也可以称为字幕代理特征提取器。字幕代理特征提取模型可以是预先设置的人工神经网络模型所构成。
如图3所示,在一种实施方式中,基于对比学习与多模态特征对齐的方式生成字幕代理特征包括步骤S101和步骤S102:
S101、获取音频-视频信号对应的字幕词嵌入特征。
在一个示例中,所述获取音频-视频信号对应的字幕词嵌入特征,包括:读取所述音频-视频信号对应的字幕语句;对所述字幕语句进行分词处理,得到所述字幕语句的分词;对所述字幕语句的分词进行词嵌入特征编码,得到字幕词嵌入特征。
具体地,利用预先获取的训练集训练所述字幕代理特征提取模型,包括:将所述真实字幕词嵌入特征输入到预训练的字幕代理特征提取模型中进行处理,获得输出的对应字幕代理特征;计算所述对应字幕代理特征与各音频-视频特征之间的相似性;通过对比学习与多模态特征对齐,最大化所述字幕代理特征与其对应的音频-视频预训练特征的相似性,最小化字幕代理特征与其他音频-视频预训练特征的相似性,并通过反向传播算法优化模型参数。
S102、利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征。
在一个示例中,所述预训练的字幕代理特征提取模型的获取步骤包括:初始化预设的字幕代理特征提取模型;利用预先获取的训练集训练所述字幕代理特征提取模型,直至损失函数收敛,保存训练完成的模型参数,得到所述预训练的字幕代理特征提取模型;其中,所述训练集包括音频-视频预训练特征与对应的真实字幕词嵌入特征。
在另一种实施方式中,如图4所示,基于对比学习与多模态特征对齐的方式生成字幕代理特征,包括步骤S10-1至S10-7:
S10-1、对音频-视频信号进行预处理。
在一种实施方式中,对音频-视频信号进行预处理可以包括:通过开源的L3预训练模型提取音频-视频特征。
在一个具体的示例中,将音频-视频字幕任务数据集设定为
{Audio,Video,Captions}N,
其中N代表数据集的样本个数,Audio,Video,Captions分别为每个样本实例的音频、视频与其对应的多个字幕语句。
将每一个样本的音频与视频数据(Audio,Video)送入到开源的预训练编码器模型中,可以对应的多模态特征n代表的第n个样本的多模态特征。
S10-2、对字幕语句进行预处理。
在一种实施方式中,对字幕语句进行预处理可以包括:读取音频-视频信号对应的字幕语句,将字幕语句进行分词,并对其进行词嵌入特征编码。
沿用上述具体的示例举例说明,字幕语句预处理步骤可以包括:将字幕语句Captions进行分词并进行词嵌入特征编码为Cnm。其中为第n个样本的第m个字幕的嵌入特征编码,L为字幕语句Cnm的词的总数量,/>代表每个词的词嵌入。
S10-3、对预设的人工神经网络模型进行初始化。
在一种实施方式中,对预设的人工神经网络模型进行初始化可以包括:初始化模型参数,并获取预处理后的音频-视频预训练特征与字幕词嵌入特征。
沿用上述具体的示例,模型初始化步骤可以包括:初始化人工神经网络参数为Ω,F(Ω)表示人工神经网络。人工神经网络例如可以为卷积神经网络。
S10-4、提取字幕代理特征。
在一种实施方式中,提取字幕代理特征可以包括:将字幕词嵌入特征输入到模型中,获取模型的输出即为字幕代理特征。
沿用上述具体的示例,字幕代理特征提取步骤可以包括:将字幕语句嵌入特征编码Cn输入到字幕代理特征提取模型中,其输出为F(Cn,Ω)。字幕代理特征提取模型可以是预先设置的人工神经网络模型所构成。
S10-5、计算字幕代理特征与多个音频-视频特征的相似性。
沿用上述具体的示例,步骤S10-5的特征相似性计算步骤可以包括:
多模态特征与F(Cn,Ω).的相似性计算公式为
其中Sn1n2代表第n1个样本的多模态特征与第n2个样本的特征F(Cn2m,Ω)的相似性,cos_sim[·,·]表示余弦相似性度量函数。当n1与n2相等时,即字幕特征C与多模态特征eav来自同一样本,上述计算得到的Sn1n1为正样本对的相似值;当n1与n2不相等时,即字幕特征C与多模态特征eav来自不同样本,上述计算得到的Sn1n2为正样本对的相似值。
S10-6、计算相似性损失函数,并优化模型参数。
具体地,S10-6可以包括:通过对比学习与多模态特征对齐,最大化字幕代理特征与其对应的音频-视频特征的相似性,最小化字幕代理特征与其他音频-视频特征的相似性,并通过反向传播算法优化模型参数。
沿用上述具体的示例,相似性损失函数计算及模型参数的优化步骤可以包括:
损失函数为
通过上述公式可以在空间上拉进来自同一样本的字幕代理特征与音频-视频特征的相似性,最小化字幕代理特征与其他样本的音频-视频特征的相似性。
S10-7、重复步骤S10-4到步骤S10-6,直至损失函数收敛,保存训练完成的模型参数,并通过步骤S10-4,提取模型收敛时的字幕代理特征。
在模型收敛后,提取模型的输出F(Cn,Ω),作为字幕代理特征
S20、基于字幕代理特征生成字幕。
具体地,基于字幕代理特征生成字幕可以包括基于字幕代理特征正则化约束生成字幕。
基于代理特征正则化约束生成字幕,通过使用字幕代理特征来优化多模态信号内容分析方法的训练,同时提供额外的监督信息,使得模型能够生成字幕能够更好描述音频-视频信号。
如图5所示,在一种实施方式中,基于字幕代理特征生成字幕,包括:
S201、获取所述音频-视频信号的音频特征与视频特征,输入到预训练的音频-视频编码器中,获得封装后的音频特征与视频特征。
示例性地,获取所述音频-视频信号的音频特征与视频特征,将所述音频-视频信号中的音频信号与视频信号分别输入到预训练的音频编码器和视频编码器中,获得封装后的音频特征与封装后的视频特征。
S202、拼接所述封装后的音频特征与所述封装后的视频特征,输入到语言解码器中,解码生成字幕。
示例性地,所述语言解码器的获取步骤,包括:
计算生成的字幕语句与真实的字幕语句之间的词分类的交叉熵损失和特征正则化约束的损失,通过反向传播算法优化模型参数,直至损失函数收敛,保存训练完成的模型参数,得到所述语言解码器。
在另一种实施方式中,如图6所示,基于代理特征正则化约束生成字幕,可以包括:
S20-1、模型初始化及特征预处理步骤。
在一种实施方式中,步骤S20-1可以包括:初始化音频编码器、视频编码器与语言解码器模型参数,并通过字幕代理特征提取步骤,提取模型收敛时的字幕代理特征。
沿用上述具体的示例,模型初始化及特征预处理步骤可以包括:音频编码器的模型为Enca(·),视频编码器的模型为Enc_v(·),,解码器的模型为Dec(·),已经提取上一阶段的字幕代理特征
S20-2、音频-视频编码步骤:获取数据集中对应的音频与视频信号,将两者分别输入到对应编码器中,并获得封装后的音频与视频特征。
沿用上述具体的示例,音频-视频编码步骤可以包括:将音频与视频数据(Audio,Video)分别送入音频编码器的模型为Enca(·)和视频编码器的模型为Enc_v(·)中,得到两者输出An与Vn,其中An为第n个样本的音频经过编码器的输出,Vn为第n个样本的视频经过编码器的输出。
S20-3、字幕语言解码步骤:将S20-2得到的音频与视频特征进行拼接,输入到语言解码器中,循环迭代生成字幕语句。
沿用上述具体的示例,字幕语言解码步骤,将An与Vn进行拼接得到,操作如下:
En=Conct(An,Vn)
其中En为拼接后的解码器输入,Conct(·)为拼接操作。将En送入到解码器中,即可到达预测的解码器输出为:
Dn=Dec(En)
Dn为解码器的输出,其中L为Dn输出的总个数,/>代表第l个的输出特征。
S20-4、交叉熵损失与代理特征正则化约束损失计算及优化步骤:计算生成的字幕语句与真实的字幕语句之间的词分类的交叉熵损失和特征正则化约束的损失,最后通过反向传播算法优化模型参数。
交叉熵损失与代理特征正则化约束损失计算及优化步骤:将Dn沿着时间轴总全局池化操作的,最终可以得到生成字幕的嵌入特征为:
其中为生成字幕的嵌入特征,mean(·)与max(·)分别为平均池化与最大池化操作。
代理特征正则化约束损失Lpc的公式如下:
cosine(·)为计算cosine距离度量函数。
同时也将解码器的输出Dn沿着时间轴逐个做SoftMax操作得到输出的生成字幕的概率
因此交叉熵损失函数为
最终该步骤的总损失函数为
L=Lpc+LCE
通过上述损失函数可以确保生成的字幕尽可能跟真实字幕保持一致,又通过正则化约束损失函数约束模型的训练,减少因为语义差异性造成模型性能下降。
S20-5、重复S20-2到S20-4,直至损失函数收敛,保存训练完成的模型参数。当模型收敛后,提取S20-3的输出作为生成的字幕语句。
重复多轮训练,模型的输出即为最终字幕语句。
本发明公开的多模态信号内容分析方法是一种基于特征空间正则化约束的多模态信号内容分析方法,与相关技术相比,本申请实施例的方法具有如下有益效果:通过对比学习与多模态特征对齐,字幕代理特征能够更好地学习到与其音频-视频信号在高维特征空间上的相似性,获得更好的表征能力,而后通过字幕代理特征的约束生成多模态字幕,使得模型避免了由于字幕语义差异性对训练的影响,提高了模型性能,使得模型生成的字幕能够更好的描述音频-视频信号的内容,克服了相关技术中没有考虑字幕差异性对音频-视频字幕任务的影响所导致的不良影响。
如图7所示,本申请的另一个实施例提供了一种多模态信号内容分析装置,包括:
字幕词嵌入特征获取模块,用于获取音频-视频信号对应的字幕词嵌入特征;
字幕代理特征获取模块,用于利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征;
多模态信号内容分析模块,用于基于所述字幕代理特征生成字幕。
在一种实施方式中,字幕词嵌入特征获取模块所执行的获取音频-视频信号对应的字幕词嵌入特征,包括:
读取所述音频-视频信号对应的字幕语句;
对所述字幕语句进行分词处理,得到所述字幕语句的分词;
对所述字幕语句的分词进行词嵌入特征编码,得到字幕词嵌入特征。
在一种实施方式中,所述预训练的字幕代理特征提取模型的获取步骤包括:
初始化预设的字幕代理特征提取模型;
利用预先获取的训练集训练所述字幕代理特征提取模型,直至损失函数收敛,保存训练完成的模型参数,得到所述预训练的字幕代理特征提取模型;
其中,所述训练集包括音频-视频预训练特征与对应的真实字幕词嵌入特征。
在一种实施方式中,字幕代理特征获取模块所执行的利用预先获取的训练集训练所述字幕代理特征提取模型,包括:
将所述真实字幕词嵌入特征输入到预训练的字幕代理特征提取模型中进行处理,获得输出的对应字幕代理特征;
计算所述对应字幕代理特征与各音频-视频特征之间的相似性;
通过对比学习与多模态特征对齐,最大化所述字幕代理特征与其对应的音频-视频预训练特征的相似性,最小化字幕代理特征与其他音频-视频预训练特征的相似性,并通过反向传播算法优化模型参数。
在一种实施方式中,多模态信号内容分析模块所执行的基于所述字幕代理特征生成字幕,包括:获取所述音频-视频信号的音频特征与视频特征,输入到预训练的音频-视频编码器中,获得封装后的音频特征与视频特征;拼接所述封装后的音频特征与所述封装后的视频特征,输入到语言解码器中,解码生成字幕。
在一种实施方式中,所述获取所述音频-视频信号的音频特征与视频特征,包括:
将所述音频-视频信号中的音频信号与视频信号分别输入到音频编码器和视频编码器中,获得封装后的音频特征与封装后的视频特征。
在一种实施方式中,所述语言解码器的获取步骤,包括:
计算生成的字幕语句与真实的字幕语句之间的词分类的交叉熵损失和特征正则化约束的损失,通过反向传播算法优化模型参数,直至损失函数收敛,保存训练完成的模型参数,得到所述语言解码器。
本申请实施例提供的多模态信号内容分析装置,利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征,基于字幕代理特征生成字幕,避免了由于字幕语义差异性对训练的影响,生成的字幕能够更好地描述音频-视频信号的内容,克服了相关技术中没有考虑字幕差异性对音频-视频字幕任务的影响所导致的不良影响。
本申请的另一个实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述任一实施方式所述的方法。
如图8所示,电子设备10可以包括:处理器100,存储器101,总线102和通信接口103,处理器100、通信接口103和存储器101通过总线102连接;存储器101中存储有可在处理器100上运行的计算机程序,处理器100运行该计算机程序时执行本申请前述任一实施方式所提供的方法。
其中,存储器101可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还可以包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中,存储器101用于存储程序,处理器100在接收到执行指令后,执行该程序,前述本申请实施例任一实施方式揭示的方法可以应用于处理器100中,或者由处理器100实现。
处理器100可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器,可以包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101,处理器100读取存储器101中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请的另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述任一实施方式所述的方法。
本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质,参考图9所示,其示出的计算机可读存储介质为光盘20,其上存储有计算机程序(即程序产品),该计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。
需要说明的是,计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
术语“模块”并非意图受限于特定物理形式。取决于具体应用,模块可以实现为硬件、固件、软件和/或其组合。此外,不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示例一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (6)
1.一种多模态信号内容分析方法,其特征在于,包括:
获取音频-视频信号对应的字幕词嵌入特征;
利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征;
基于所述字幕代理特征生成字幕;
所述预训练的字幕代理特征提取模型的获取步骤包括:
初始化预设的字幕代理特征提取模型;
利用预先获取的训练集训练所述字幕代理特征提取模型,直至损失函数收敛,保存训练完成的模型参数,得到所述预训练的字幕代理特征提取模型;
其中,所述训练集包括音频-视频预训练特征与对应的真实字幕的词嵌入特征;
所述利用预先获取的训练集训练所述字幕代理特征提取模型,包括:
将所述真实字幕的词嵌入特征输入到预训练的字幕代理特征提取模型中进行处理,获得输出的对应字幕代理特征;
计算所述对应字幕代理特征与各音频-视频特征之间的相似性;
通过对比学习与多模态特征对齐,最大化所述字幕代理特征与其对应的音频-视频预训练特征的相似性,最小化字幕代理特征与其他音频-视频预训练特征的相似性,并通过反向传播算法优化模型参数;
所述基于所述字幕代理特征生成字幕,包括:
获取所述音频-视频信号的音频特征与视频特征,输入到预训练的音频-视频编码器中,获得封装后的音频特征与视频特征;
拼接所述封装后的音频特征与所述封装后的视频特征,输入到语言解码器中,解码生成字幕;
所述语言解码器的获取步骤,包括:
计算生成的字幕语句与真实的字幕语句之间的词分类的交叉熵损失和特征正则化约束的损失,通过反向传播算法优化模型参数,直至损失函数收敛,保存训练完成的模型参数,得到所述的语言解码器。
2.根据权利要求1所述的方法,其特征在于,所述获取音频-视频信号对应的字幕词嵌入特征,包括:
读取所述音频-视频信号对应的字幕语句;
对所述字幕语句进行分词处理,得到所述字幕语句的分词;
对所述字幕语句的分词进行词嵌入特征编码,得到字幕词嵌入特征。
3.根据权利要求1所述的方法,其特征在于,所述获取所述音频-视频信号的音频特征与视频特征,包括:
将所述音频-视频信号中的音频信号与视频信号分别输入到音频编码器和视频编码器中,获得封装后的音频特征与封装后的视频特征。
4.一种多模态信号内容分析装置,其特征在于,包括:
字幕词嵌入特征获取模块,用于获取音频-视频信号对应的字幕词嵌入特征;
字幕代理特征获取模块,用于利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征;
多模态信号内容分析模块,用于基于所述字幕代理特征生成字幕;
所述预训练的字幕代理特征提取模型的获取步骤包括:
初始化预设的字幕代理特征提取模型;
利用预先获取的训练集训练所述字幕代理特征提取模型,直至损失函数收敛,保存训练完成的模型参数,得到所述预训练的字幕代理特征提取模型;
其中,所述训练集包括音频-视频预训练特征与对应的真实字幕的词嵌入特征;
所述利用预先获取的训练集训练所述字幕代理特征提取模型,包括:
将所述真实字幕的词嵌入特征输入到预训练的字幕代理特征提取模型中进行处理,获得输出的对应字幕代理特征;
计算所述对应字幕代理特征与各音频-视频特征之间的相似性;
通过对比学习与多模态特征对齐,最大化所述字幕代理特征与其对应的音频-视频预训练特征的相似性,最小化字幕代理特征与其他音频-视频预训练特征的相似性,并通过反向传播算法优化模型参数;
所述基于所述字幕代理特征生成字幕,包括:
获取所述音频-视频信号的音频特征与视频特征,输入到预训练的音频-视频编码器中,获得封装后的音频特征与视频特征;
拼接所述封装后的音频特征与所述封装后的视频特征,输入到语言解码器中,解码生成字幕;
所述语言解码器的获取步骤,包括:
计算生成的字幕语句与真实的字幕语句之间的词分类的交叉熵损失和特征正则化约束的损失,通过反向传播算法优化模型参数,直至损失函数收敛,保存训练完成的模型参数,得到所述的语言解码器。
5.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-3中任一所述的方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1-3中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211457156.3A CN115952255B (zh) | 2022-11-21 | 2022-11-21 | 多模态信号内容分析方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211457156.3A CN115952255B (zh) | 2022-11-21 | 2022-11-21 | 多模态信号内容分析方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115952255A CN115952255A (zh) | 2023-04-11 |
CN115952255B true CN115952255B (zh) | 2023-12-05 |
Family
ID=87281379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211457156.3A Active CN115952255B (zh) | 2022-11-21 | 2022-11-21 | 多模态信号内容分析方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115952255B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108683924A (zh) * | 2018-05-30 | 2018-10-19 | 北京奇艺世纪科技有限公司 | 一种视频处理的方法和装置 |
CN111541910A (zh) * | 2020-04-21 | 2020-08-14 | 华中科技大学 | 一种基于深度学习的视频弹幕评论自动生成方法及系统 |
CN111741236A (zh) * | 2020-08-24 | 2020-10-02 | 浙江大学 | 基于共识图表征推理的定位自然图像字幕生成方法和装置 |
CN111866598A (zh) * | 2019-04-29 | 2020-10-30 | 腾讯美国有限责任公司 | 训练字幕模型的方法和装置、计算机设备及存储介质 |
CN112559698A (zh) * | 2020-11-02 | 2021-03-26 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及系统 |
CN112911373A (zh) * | 2021-01-31 | 2021-06-04 | 云知声智能科技股份有限公司 | 视频字幕的生成方法、装置、设备和存储介质 |
CN113423004A (zh) * | 2021-08-23 | 2021-09-21 | 杭州一知智能科技有限公司 | 基于解耦译码的视频字幕生成方法和系统 |
CN114332679A (zh) * | 2021-12-07 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备、存储介质和计算机程序产品 |
CN114741556A (zh) * | 2022-03-01 | 2022-07-12 | 东北大学 | 一种基于场景片段和多模态特征增强的短视频分类方法 |
CN115062174A (zh) * | 2022-06-16 | 2022-09-16 | 电子科技大学 | 基于语义原型树的端到端图像字幕生成方法 |
CN115129934A (zh) * | 2022-07-01 | 2022-09-30 | 南京大学 | 一种多模态视频理解方法 |
CN115293348A (zh) * | 2022-08-15 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 一种多模态特征提取网络的预训练方法及装置 |
CN116208824A (zh) * | 2023-02-07 | 2023-06-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 标题生成方法、计算机设备、存储介质和计算机程序产品 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220014807A1 (en) * | 2019-03-21 | 2022-01-13 | Samsung Electronics Co., Ltd. | Method, apparatus, device and medium for generating captioning information of multimedia data |
-
2022
- 2022-11-21 CN CN202211457156.3A patent/CN115952255B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108683924A (zh) * | 2018-05-30 | 2018-10-19 | 北京奇艺世纪科技有限公司 | 一种视频处理的方法和装置 |
CN111866598A (zh) * | 2019-04-29 | 2020-10-30 | 腾讯美国有限责任公司 | 训练字幕模型的方法和装置、计算机设备及存储介质 |
CN111541910A (zh) * | 2020-04-21 | 2020-08-14 | 华中科技大学 | 一种基于深度学习的视频弹幕评论自动生成方法及系统 |
CN111741236A (zh) * | 2020-08-24 | 2020-10-02 | 浙江大学 | 基于共识图表征推理的定位自然图像字幕生成方法和装置 |
CN112559698A (zh) * | 2020-11-02 | 2021-03-26 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及系统 |
CN112911373A (zh) * | 2021-01-31 | 2021-06-04 | 云知声智能科技股份有限公司 | 视频字幕的生成方法、装置、设备和存储介质 |
CN113423004A (zh) * | 2021-08-23 | 2021-09-21 | 杭州一知智能科技有限公司 | 基于解耦译码的视频字幕生成方法和系统 |
CN114332679A (zh) * | 2021-12-07 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备、存储介质和计算机程序产品 |
CN114741556A (zh) * | 2022-03-01 | 2022-07-12 | 东北大学 | 一种基于场景片段和多模态特征增强的短视频分类方法 |
CN115062174A (zh) * | 2022-06-16 | 2022-09-16 | 电子科技大学 | 基于语义原型树的端到端图像字幕生成方法 |
CN115129934A (zh) * | 2022-07-01 | 2022-09-30 | 南京大学 | 一种多模态视频理解方法 |
CN115293348A (zh) * | 2022-08-15 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 一种多模态特征提取网络的预训练方法及装置 |
CN116208824A (zh) * | 2023-02-07 | 2023-06-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 标题生成方法、计算机设备、存储介质和计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN115952255A (zh) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657230B2 (en) | Referring image segmentation | |
CN107293296B (zh) | 语音识别结果纠正方法、装置、设备及存储介质 | |
CN112084841B (zh) | 跨模态的图像多风格字幕生成方法及系统 | |
CN113657124A (zh) | 基于循环共同注意力Transformer的多模态蒙汉翻译方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110084172B (zh) | 文字识别方法、装置和电子设备 | |
US11551027B2 (en) | Object detection based on a feature map of a convolutional neural network | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CA3153146A1 (en) | Adversarial network for transforming handwritten text | |
CN107463928A (zh) | 基于ocr和双向lstm的文字序列纠错算法、系统及其设备 | |
CN111402365B (zh) | 一种基于双向架构对抗生成网络的由文字生成图片的方法 | |
CN112163596B (zh) | 复杂场景文本识别方法、系统、计算机设备及存储介质 | |
CN112509555A (zh) | 方言语音识别方法、装置、介质及电子设备 | |
CN116311279A (zh) | 样本图像的生成、模型训练、字符识别方法、设备及介质 | |
CN114724548A (zh) | 多模态语音识别模型的训练方法、语音识别方法及设备 | |
WO2023060434A1 (zh) | 一种基于文本的图像编辑方法和电子设备 | |
CN113033436A (zh) | 障碍物识别模型训练方法及装置、电子设备、存储介质 | |
CN116128894A (zh) | 图像分割方法、装置及电子设备 | |
CN111027681B (zh) | 时序数据处理模型训练方法、数据处理方法、装置及存储介质 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN116206314A (zh) | 模型训练方法、公式识别方法、装置、介质及设备 | |
CN117421591A (zh) | 一种基于文本引导图像块筛选的多模态表征学习方法 | |
CN111368795A (zh) | 一种人脸特征提取方法、装置及设备 | |
EP3627403A1 (en) | Training of a one-shot learning classifier | |
CN115952255B (zh) | 多模态信号内容分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |