CN116028662B - 基于无监督交互式对齐的海洋遥感图像音频检索方法 - Google Patents
基于无监督交互式对齐的海洋遥感图像音频检索方法 Download PDFInfo
- Publication number
- CN116028662B CN116028662B CN202310114265.3A CN202310114265A CN116028662B CN 116028662 B CN116028662 B CN 116028662B CN 202310114265 A CN202310114265 A CN 202310114265A CN 116028662 B CN116028662 B CN 116028662B
- Authority
- CN
- China
- Prior art keywords
- image
- audio
- remote sensing
- feature
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Image Processing (AREA)
Abstract
本发明公开了一种基于无监督交互式对齐的海洋遥感图像音频检索方法,包括步骤:收集海洋遥感图像和遥感相关音频,构建海洋遥感图像音频检索数据集;提取遥感相关音频的音频特征F A 和海洋遥感图像的图像特征F I ;将其对齐得到音频检索特征向量F A’ 和图像检索特征向量F I’ ;计算整个模型的损失函数值,进行反向传播,训练多轮后得到海洋遥感图像音频检索模型;输入待检索的音频或图像,输出与其相关的海洋遥感图像或者音频数据。本发明利用大量未标记的样本学习显著语义信息和海洋遥感图像和音频间的相似性;抑制图像噪声,捕获图像的显著信息;引入交互式对齐模块探索遥感图像和音频间的精细对应关系,最终提高了海洋遥感图像音频检索的效率和准确率。
Description
技术领域
本发明涉及智慧海洋和遥感图像处理技术领域,具体地指一种基于无监督交互式对齐的海洋遥感图像音频检索方法。
技术背景
海洋遥感图像音频检索是解决遥感数据中图像数据缺失或音频数据表述不准确问题的重要方法。海洋遥感图像音频检索利用跨模态检索算法,分析大量遥感图像且自动检索大量准确描述该图像的音频数据,或者分析大量遥感相关的音频且自动检索与其相关的海洋遥感图像,从而解决图像数据缺失或者音频数据表述不准确的困境。其对于一些不方便文本输入的场景,如海上灾害监测任务显得非常重要。
跨模态检索的主要挑战是如何学习联合嵌入并衡量不同模态间的相似性,现有的大多数工作开始探索无监督学习范式的可能,但海洋遥感图像存在的大量噪声不利于模型的训练学习,且粗略地将图像与音频特征对齐会丢失与图像相关的有效音频信息。因此,如何抑制海洋遥感图像中与音频不高度相关的信息,且对齐不同模态间的信息成为了海洋遥感图像音频检索中非常重要的一个任务。
发明内容
为了解决上述技术问题,本发明提供了一种基于无监督交互式对齐的海洋遥感图像音频检索方法。
为实现上述目的,本发明所设计的一种基于无监督交互式对齐的海洋遥感图像音频检索方法,其特殊之处在于,所述方法包括如下步骤:
S1)收集海洋遥感图像和遥感相关音频数据,构建海洋遥感图像音频检索数据集;
S2)构建基于无监督交互式对齐的海洋遥感图像音频检索模型,模型结构包括四个部分:音频特征提取模块、多尺度特征融合模块、语音引导图像去噪模块和交互式对齐模块;
S3)所述音频特征提取模块提取遥感相关音频特征FA,所述多尺度特征融合模块提取海洋遥感图像的图像初始特征Itoken,所述语音引导图像去噪模块根据所述图像初始特征Itoken得到语音引导去噪后的图像特征FI;
S4)所述交互式对齐模块对齐所述遥感相关音频特征FA与海洋遥感图像的图像特征FI,得到特征对齐后的音频检索特征向量FA'和图像检索特征向量FI ';
S5)训练模型,将所述检索数据集中的样本数据输入模型,计算总的损失函数值,进行反向传播,通过选定的优化器和相应参数对连接权重进行优化,训练多轮后得到最终的海洋遥感图像音频检索模型;
S6)基于训练好的海洋遥感图像音频检索模型,输入待检索的音频,输出与其相关的海洋遥感图像数据;或者输入待检索的图像,输出与其相关的海洋遥感音频数据。
优选地,步骤S3)中,所述音频特征提取模块将原始音频转化为梅尔倒谱系数MFCC特征,再将得到的MFCC特征输入到用AudioSet预训练的ResNet18网络以模拟声音内容,从而得到音频特征FA,同时保留ResNet18网络中在卷积后得到的中间音频特征A(3)。
优选地,所述MFCC特征的提取过程如下:
Sa1)依次对原始音频进行预加重、分帧和加窗得到短时分析窗;
Sa2)将每一个短时分析窗进行短时傅里叶变换得到对应的频谱;
Sa3)将得到频谱通过Mel滤波器组得到Mel频谱;
Sa4)在Mel频谱上面进行倒谱分析,进行取对数操作,利用DCT离散余弦变换做逆变换,取逆变换后的第2个到第13个系数当作Mel频率倒谱系数MFCC,即得到原始音频对应的MFCC特征。
优选地,步骤S3)中,所述多尺度特征融合模块将海洋遥感图像进行嵌入式表示,得到海洋遥感图像的图像初始特征Itoken,将保留的所述中间音频特征A(3)和图像的初始特征Itoken同时输入到语音引导图像去噪模块。
优选地,所述语音引导图像去噪模块以抑制图像特征中与音频无关信息的特征表示,最终得到语音引导去噪后的图像特征FI,具体步骤包括:
Sb1)将图像的初始特征Itoken通过一个全连接层被映射为向量QI,将中间音频特征A(3)通过两个全连接层分别被映射为向量KA和VA,Itoken和A(3)间的相似值被定义为O,计算公式如下:
其中,d是向量KA的维度,利用计算的各图像和音频样本间的相似度O来获得具有图像感知的音频特征表示,计算相应的噪声抑制阈值G,计算公式如下:
Sb2)对向量QI和向量VA进行向量融合操作,将融合得到的向量与噪声抑制阈值G相乘后再输入到一个全连接层中,最后将其与图像的初始特征Itoken进行残差连接,得到初步去噪的图像特征ID;
Sb3)将初步去噪的图像特征ID依次输入到两个自注意力结构中,得到进一步编码后的图像特征IS,以生成更显著的视觉信号;
Sb4)将编码后的图像特征IS通过一个平均池化层和一个全连接层得到语音引导去噪后的图像特征FI。
优选地,步骤S4)中所述交互式对齐模块对齐所述遥感相关音频特征FA与海洋遥感图像的图像特征FI,具体步骤如下:
Sc1)计算音频特征FA和图像特征FI间的相似度,公式如下:
Sc2)利用sigmoid函数来根据音频特征FA和图像特征FI间的相似度构造不同的注意力权重;利用图像特征向量来引导音频特征向量对齐,生成音频的检索特征向量FA’:
FA'= FA×σ(S(FI,FA))
其中,σ表示sigmoid函数操作;
Sc3)利用重建的音频的检索特征向量FA’ 来对齐图像特征向量,得到图像的检索特征向量FI’:
FI'= FI×σ(S(FI,FA’))。
优选地,步骤S5)中计算模型总损失函数值,包括双向三元损失函数Lβ和噪声对比估计InfoNCE损失函数Lφ两部分,所述的模型总损失函数L的计算公式为:
L=Lβ + γLφ
其中,γ表示权重参数值。
优选地,所述双向三元组损失函数Lβ的计算公式为:
优选地,所述噪声对比估计InfoNCE损失Lφ的计算公式为:
其中,τ表示温度系数,属于可学习变量。
本发明另外提出一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述一种基于无监督交互式对齐的海洋遥感图像音频检索方法。
本发明与现有技术相比具有如下优点和有益效果:
(1) 本发明利用大量未标记的样本来学习显著语义信息和海洋遥感图像和音频间的相似性;
(2) 本发明考虑到无监督学习缺乏标签信息的监督,利用海洋遥感图像和音频间的相似性作为监督信息;通过设计的音频引导图像去噪模块来抑制图像噪声,从而捕获图像的显著信息,既提取了有效的图像特征,又过滤掉大量与与图像音频语义不相关的信息;
(3)本发明通过引入交互式对齐模块来探索遥感图像和音频间的精细对应关系,以更好地来对齐图像和音频的语义相关信息,最终有效地提高海洋遥感图像音频检索的效率和准确率。
附图说明
图1为本发明基于无监督交互式对齐的海洋遥感图像音频检索方法的流程图。
图2为本发明提出的基于无监督交互式对齐的海洋遥感图像音频检索模型的框架图。
图3为多尺度特征融合模块结构框图。
图4交互式对齐模块处理流程图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细描述。
如图1所示,本发明提出的基于无监督交互式对齐的海洋遥感图像音频检索方法,包括如下步骤:
S1)收集海洋遥感图像和遥感相关音频数据,构建海洋遥感图像音频检索数据集。
S2)构建基于无监督交互式对齐的海洋遥感图像音频检索模型,模型结构包括四个部分:音频特征提取模块、多尺度特征融合模块、语音引导图像去噪模块和交互式对齐模块,如图2所示。
S3)音频特征提取模块提取遥感相关音频特征FA,多尺度特征融合模块提取海洋遥感图像的图像初始特征Itoken,语音引导图像去噪模块根据图像初始特征Itoken得到语音引导去噪后的图像特征FI。
具体地,音频特征提取模块将原始音频转化为梅尔倒谱系数MFCC特征,再将得到的MFCC特征输入到用AudioSet预训练的ResNet18网络以模拟声音内容,从而得到音频特征FA,同时保留ResNet18网络中在卷积后得到的中间音频特征A(3) 。
在本实施例中,MFCC特征的提取过程如下:
Sa1)依次对原始音频进行预加重、分帧和加窗得到短时分析窗;
Sa2)将每一个短时分析窗进行短时傅里叶变换得到对应的频谱;
Sa3)将得到频谱通过Mel滤波器组得到Mel频谱;
Sa4)在Mel频谱上面进行倒谱分析,进行取对数操作,利用DCT离散余弦变换做逆变换,取逆变换后的第2个到第13个系数当作Mel频率倒谱系数MFCC,即得到原始音频对应的MFCC特征。
多尺度特征融合模块将海洋遥感图像进行嵌入式表示,得到海洋遥感图像的图像初始特征Itoken,将保留的所述中间音频特征A(3)和图像的初始特征Itoken同时输入到语音引导图像去噪模块。本实施例中,多尺度特征融合模块采用的ResNet18网络是以基于AudioSet数据集预训练的ResNet18网络为基础,由卷积大小为1×1、2×2、3×3、4×4、5×5的5个2D卷积核和平均池化层实现,如图3所示。
多尺度特征融合模块将海洋遥感图像进行嵌入式过程为:首先依次用卷积大小为4×4、8×8、16×16、32×32的2D卷积核对海洋遥感图像采样,且每个卷积步长相同。接着,将得到的四个特征块进行Concat拼接构成融合特征。
将融合特征依次输入到两个Transformer层进一步精细化图像特征。Transformer层包括两个注意力结构,其中,每个注意力结构由一个多头自注意网络和前馈神经网络实现,且每个注意力结构间包括一个残差连接和一个层归一化。两个Transformer层间由Patch Merging层连接,Patch Merging层由两个卷积核大小为1×1的并行卷积实现。
语音引导图像去噪模块以抑制图像特征中与音频无关信息的特征表示,最终得到语音引导去噪后的图像特征FI,具体步骤包括:
Sb1)将图像的初始特征Itoken通过一个全连接层被映射为向量QI,将中间音频特征A(3)通过两个全连接层分别被映射为向量KA和VA,Itoken和A(3)间的相似值可以被定义为O,计算公式如下:
其中,d是向量KA的维度。利用计算的各图像和音频样本间的相似度O来获得具有图像感知的音频特征表示。计算相应的噪声抑制阈值G,计算公式如下:
Sb2)对向量QI和向量VA进行向量融合操作,将融合得到的向量与噪声抑制阈值G相乘后再输入到一个全连接层中,最后将其与图像的初始特征Itoken进行残差连接,得到初步去噪的图像特征ID;
Sb3)将初步去噪的图像特征ID依次输入到两个自注意力结构中,得到进一步编码后的图像特征IS,以生成更显著的视觉信号;
Sb4)将编码后的图像特征IS通过一个平均池化层和一个全连接层得到语音引导去噪后的图像特征FI。
S4)交互式对齐模块对齐所述遥感相关音频特征FA与海洋遥感图像的图像特征FI,得到特征对齐后的音频检索特征向量FA'和图像检索特征向量FI';
交互式对齐模块对齐所述遥感相关音频特征FA与海洋遥感图像的图像特征FI,具体步骤如下:
Sc1)计算音频特征FA和图像特征FI间的相似度,公式如下:
Sc2)利用sigmoid函数来根据音频特征FA和图像特征FI间的相似度构造不同的注意力权重;利用图像特征向量来引导音频特征向量对齐,生成音频的检索特征向量FA’:
FA'= FA×σ(S(FI,FA))
其中,σ表示sigmoid函数操作;
Sc3)利用重建的音频的检索特征向量FA’ 来对齐图像特征向量,得到图像的检索特征向量FI’:
FI'= FI×σ(S(FI,FA’))。
S5)训练模型,将检索数据集中的样本数据输入模型,计算总的损失函数值,进行反向传播,通过选定的优化器和相应参数对连接权重进行优化,训练多轮后得到最终的海洋遥感图像音频检索模型。
本实施例中模型总损失函数L包括双向三元损失函数Lβ和噪声对比估计InfoNCE损失函数Lφ两部分,L的计算公式为:
L=Lβ + γLφ
γ表示权重参数值。
其中,双向三元组损失函数Lβ的计算公式为:
其中,噪声对比估计InfoNCE损失Lφ的计算公式为:
τ表示温度系数,属于可学习变量。
S6)基于训练好的海洋遥感图像音频检索模型,输入待检索的音频,输出与其相关的海洋遥感图像数据;或者输入待检索的图像,输出与其相关的海洋遥感音频数据。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。
最后需要说明的是,以上具体实施方式仅用以说明本专利技术方案而非限制,尽管参照较佳实施例对本专利进行了详细说明,本领域的普通技术人员应当理解,可以对本专利的技术方案进行修改或者等同替换,而不脱离本专利技术方案的精神和范围,其均应涵盖在本专利的权利要求范围当中。
Claims (7)
1.一种基于无监督交互式对齐的海洋遥感图像音频检索方法,其特征在于:所述方法包括如下步骤:
S1)收集海洋遥感图像和遥感相关音频数据,构建海洋遥感图像音频检索数据集;
S2)构建基于无监督交互式对齐的海洋遥感图像音频检索模型,模型结构包括四个部分:音频特征提取模块、多尺度特征融合模块、语音引导图像去噪模块和交互式对齐模块;
S3)所述音频特征提取模块提取遥感相关音频特征FA,所述多尺度特征融合模块提取海洋遥感图像的图像初始特征Itoken,所述语音引导图像去噪模块根据所述图像初始特征Itoken得到语音引导去噪后的图像特征FI;
步骤S3)中,所述音频特征提取模块将原始音频转化为梅尔倒谱系数MFCC特征,再将得到的MFCC特征输入到用AudioSet预训练的ResNet18网络以模拟声音内容,从而得到音频特征FA,同时保留ResNet18网络中在卷积后得到的中间音频特征A(3);
所述多尺度特征融合模块将海洋遥感图像进行嵌入式表示,得到海洋遥感图像的图像初始特征Itoken,将保留的所述中间音频特征A(3)和图像的初始特征Itoken同时输入到语音引导图像去噪模块;
所述语音引导图像去噪模块以抑制图像特征中与音频无关信息的特征表示,最终得到语音引导去噪后的图像特征FI,具体步骤包括:
Sb1)将图像的初始特征Itoken通过一个全连接层被映射为向量QI,将中间音频特征A(3)通过两个全连接层分别被映射为向量KA和VA,Itoken和A(3)间的相似值被定义为O,计算公式如下:
其中,d是向量KA的维度,利用计算的各图像和音频样本间的相似度O来获得具有图像感知的音频特征表示,计算相应的噪声抑制阈值G,计算公式如下:
Sb2)对向量QI和向量VA进行向量融合操作,将融合得到的向量与噪声抑制阈值G相乘后再输入到一个全连接层中,最后将其与图像的初始特征Itoken进行残差连接,得到初步去噪的图像特征ID;
Sb3)将初步去噪的图像特征ID依次输入到两个自注意力结构中,得到进一步编码后的图像特征IS,以生成更显著的视觉信号;
Sb4)将编码后的图像特征IS通过一个平均池化层和一个全连接层得到语音引导去噪后的图像特征FI;
S4)所述交互式对齐模块对齐所述遥感相关音频特征FA与海洋遥感图像的图像特征FI,得到特征对齐后的音频检索特征向量FA'和图像检索特征向量FI';
S5)训练模型,将所述检索数据集中的样本数据输入模型,计算总的损失函数值,进行反向传播,通过选定的优化器和相应参数对连接权重进行优化,训练多轮后得到最终的海洋遥感图像音频检索模型;
S6)基于训练好的海洋遥感图像音频检索模型,输入待检索的音频,输出与其相关的海洋遥感图像数据;或者输入待检索的图像,输出与其相关的海洋遥感音频数据。
2.根据权利要求1所述的一种基于无监督交互式对齐的海洋遥感图像音频检索方法,其特征在于:所述MFCC特征的提取过程如下:
Sa1)依次对原始音频进行预加重、分帧和加窗得到短时分析窗;
Sa2)将每一个短时分析窗进行短时傅里叶变换得到对应的频谱;
Sa3)将得到频谱通过Mel滤波器组得到Mel频谱;
Sa4)在Mel频谱上面进行倒谱分析,进行取对数操作,利用DCT离散余弦变换做逆变换,取逆变换后的第2个到第13个系数当作Mel频率倒谱系数MFCC,即得到原始音频对应的MFCC特征。
3.根据权利要求1所述的一种基于无监督交互式对齐的海洋遥感图像音频检索方法,其特征在于:步骤S4)中所述交互式对齐模块对齐所述遥感相关音频特征FA与海洋遥感图像的图像特征FI,具体步骤如下:
Sc1)计算音频特征FA和图像特征FI间的相似度,公式如下:
Sc2)利用sigmoid函数来根据音频特征FA和图像特征FI间的相似度构造不同的注意力权重;利用图像特征向量来引导音频特征向量对齐,生成音频的检索特征向量FA’:
FA'=FA×σ(S(FI,FA))
其中,σ表示sigmoid函数操作;
Sc3)利用重建的音频的检索特征向量FA’来对齐图像特征向量,得到图像的检索特征向量FI’:
FI'=FI×σ(S(FI,FA’))。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310114265.3A CN116028662B (zh) | 2023-02-15 | 2023-02-15 | 基于无监督交互式对齐的海洋遥感图像音频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310114265.3A CN116028662B (zh) | 2023-02-15 | 2023-02-15 | 基于无监督交互式对齐的海洋遥感图像音频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116028662A CN116028662A (zh) | 2023-04-28 |
CN116028662B true CN116028662B (zh) | 2023-06-13 |
Family
ID=86073932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310114265.3A Active CN116028662B (zh) | 2023-02-15 | 2023-02-15 | 基于无监督交互式对齐的海洋遥感图像音频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116028662B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407558B (zh) * | 2023-12-14 | 2024-03-26 | 武汉理工大学三亚科教创新园 | 一种海洋遥感图文检索方法、装置、电子设备及存储介质 |
CN117556062B (zh) * | 2024-01-05 | 2024-04-16 | 武汉理工大学三亚科教创新园 | 一种海洋遥感图像音频检索网络训练方法及应用方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1667107A1 (en) * | 2004-12-06 | 2006-06-07 | Sony Corporation | Method and apparatus for learning data, method and apparatus for recognizing data, method and apparatus for generating data and computer program |
CN108132995A (zh) * | 2017-12-20 | 2018-06-08 | 北京百度网讯科技有限公司 | 用于处理音频信息的方法和装置 |
CN111614867A (zh) * | 2020-05-20 | 2020-09-01 | 广州市百果园信息技术有限公司 | 一种视频去噪方法、装置、移动终端和存储介质 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN113822506A (zh) * | 2020-06-19 | 2021-12-21 | 国网上海市电力公司 | 一种用于电力调控的多轮次语音交互智能检索系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10607326B2 (en) * | 2017-10-05 | 2020-03-31 | Uurmi Systems Pvt Ltd | Automated system and method of retaining images based on a user's feedback on image quality |
-
2023
- 2023-02-15 CN CN202310114265.3A patent/CN116028662B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1667107A1 (en) * | 2004-12-06 | 2006-06-07 | Sony Corporation | Method and apparatus for learning data, method and apparatus for recognizing data, method and apparatus for generating data and computer program |
CN108132995A (zh) * | 2017-12-20 | 2018-06-08 | 北京百度网讯科技有限公司 | 用于处理音频信息的方法和装置 |
CN111614867A (zh) * | 2020-05-20 | 2020-09-01 | 广州市百果园信息技术有限公司 | 一种视频去噪方法、装置、移动终端和存储介质 |
CN113822506A (zh) * | 2020-06-19 | 2021-12-21 | 国网上海市电力公司 | 一种用于电力调控的多轮次语音交互智能检索系统及方法 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN116028662A (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116028662B (zh) | 基于无监督交互式对齐的海洋遥感图像音频检索方法 | |
CN112101043B (zh) | 一种基于注意力的语义文本相似度计算方法 | |
US20210342643A1 (en) | Method, apparatus, and electronic device for training place recognition model | |
CN112559835B (zh) | 多模态情感识别方法 | |
CN111259940B (zh) | 一种基于空间注意力地图的目标检测方法 | |
CN115878832B (zh) | 基于精细对齐判别哈希的海洋遥感图像音频检索方法 | |
CN113806609B (zh) | 一种基于mit和fsm的多模态情感分析方法 | |
CN113361636B (zh) | 一种图像分类方法、系统、介质及电子设备 | |
CN114780690B (zh) | 基于多模态矩阵向量表示的专利文本检索方法及装置 | |
CN111862990B (zh) | 说话者身份验证方法及系统 | |
CN113488058A (zh) | 一种基于短语音的声纹识别方法 | |
CN112418166B (zh) | 一种基于多模态信息的情感分布学习方法 | |
CN115393968A (zh) | 一种融合自监督多模态特征的视听事件定位方法 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
WO2019232867A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN115457980A (zh) | 一种无参考语音的自动化语音质量评估方法及系统 | |
CN103279581B (zh) | 一种利用紧凑视频主题描述子进行视频检索的方法 | |
Lei et al. | Speaker recognition using wavelet cepstral coefficient, i-vector, and cosine distance scoring and its application for forensics | |
CN113313682B (zh) | 基于时空多尺度分析的无参考视频质量评价方法 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
CN116467416A (zh) | 一种基于图神经网络的多模态对话情感识别方法及系统 | |
CN115565548A (zh) | 异常声音检测方法、装置、存储介质及电子设备 | |
CN115346132A (zh) | 多模态表示学习的遥感图像异常事件检测方法及装置 | |
CN116310474A (zh) | 端到端关系识别方法、模型训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |