CN113343014A - 基于深度异构相关学习的跨模态图像音频检索方法 - Google Patents
基于深度异构相关学习的跨模态图像音频检索方法 Download PDFInfo
- Publication number
- CN113343014A CN113343014A CN202110570438.3A CN202110570438A CN113343014A CN 113343014 A CN113343014 A CN 113343014A CN 202110570438 A CN202110570438 A CN 202110570438A CN 113343014 A CN113343014 A CN 113343014A
- Authority
- CN
- China
- Prior art keywords
- audio
- image
- hash
- function
- hash code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013139 quantization Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 62
- 230000004913 activation Effects 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000003213 activating effect Effects 0.000 claims 2
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度异构相关学习的跨模态图像音频检索方法,主要解决现存方法对图像和音频的异构相关性信息利用不足的问题。本发明首先设计了一种新的跨模态成对构造策略来选择有效的图像音频对,这有利于捕捉图像和音频之间的异构相关性。本发明利用深度特征的异构相关性来建立图像和音频之间的关系,通过桥接图像和音频之间的深层特征相关性来生成哈希码用于图像音频检索,使用正则化约束以减少类哈希码和哈希码之间的量化误差。本发明充分利用深度特征的异构相关性,进一步提升检索性能。
Description
技术领域
本发明属于图像检索领域,具体涉及一种基于深度异构相关学习的跨模态图像音频检索方法。
背景技术
随着互联网上各种图像、文本、音频和视频等数据呈现爆炸式增长,跨模态图像音频检索在计算机视觉和自然语言处理领域得到了广泛的应用,例如搜索引擎和无人驾驶这两种典型应用场景。跨模态图像-音频检索的任务是利用音频检索相关图像,或利用图像检索相关音频。然而由于多模态数据的异构性,用户很难快速、准确地获得有利信息,因此,如何提高检索效率和解决多模态数据的异构问题是跨模态检索任务的两个巨大挑战。
目前已经有一些基于深度学习的研究已经聚焦于多模态数据的异构性问题,常见的做法是将所有模态的数据编码到它们相应的特征中,然后在共同表征空间中计算图像和声音之间的相似性。尽管现有的跨模态遥感图像声音检索方法有一定的发展,然而,现有的跨模态图像-音频检索方法仍然有一些局限性:(1)现有方法没有充分学习异构相关性关系,导致在跨模态学习中对异构相关关系的利用不足。(2)现有的图像音频检索方法利用高维的实值特征进行跨模态检索,这类方法需要大量存储空间。(3)现有的一些跨模态检索方法不能有效地选择好的跨模态配对样本,最终会影响跨模态相关学习的有效性。
发明内容
本发明的目的是针对上述不足,提出一种基于异构相关学习的跨模态图像音频检索方法,该方法利用深度特征的异构相关性来建立图像和音频之间的关系,进而学习哈希码,本发明充分利用深度特征的异构相关性,通过桥接图像和音频之间的深层特征相关性来生成哈希码用于图像音频检索,能够进一步提升检索性能。
本发明解决该问题采用的技术方案为:基于异构相关学习的跨模态图像音频检索方法,首先,为了减少所需的存储空间,从原始图像和音频中学习哈希码,并使用正则化约束以减少图像和音频的散列码的量化误差。其次,为了更好地建立音频与图像之间的关系,该方法利用深度特征的异构相关性来提高哈希码的相似度。最后,为了选择良好的图像-音频配对样本,本发明设计了一种新的跨模态成对构造策略来选择有效的图像-音频对,这有利于捕捉图像和音频之间的异构相关性。
具体步骤如下:
第一步,划分训练数据集和测试数据集:
将图像数据集分为训练数据集Itrain和测试数据集Itest;
第二步,利用跨模态配对结构选择成对的二元组样本:
首先构造N对二元组样本集合和对应的二元组标签集合 二元组样本集合由正样本对和负样本对组成,Ii表示第i张图片,Vi表示第i个音频,标签yi∈{0,1},标签为1表示图像和音频语义相似,标签为0表示图像和音频语义不相似。
第三步,构建整体网络模型,包括音频网络和图像网络,用于计算图像和音频的特征表示和哈希码:
本发明的整体网络模型框架包含了音频网络和图像网络。
本发明利用VGG16的卷积框架作为图像网络的主干网,包括一系列卷积层和两个全连接层,第一个全连接层包含1000个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数。第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码。
本发明使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)表示音频,利用VGG16的卷积框架作为音频网络的主干网,包括一系列卷积层、池化层和全连接层,卷积层分别使用64个宽度为11的卷积核,64个宽度为17的卷积核和128个宽度为19的卷积核,池化步长为2,激活函数使用ReLU函数。第一个全连接层包含1000个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数。第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码。
第四步,计算目标函数并更新网络的初始参数:
总体目标函数由二元组相似项、量化正则化项和异构相关项组成。
二元组相似项的目标是令图像音频正样本对尽可能地相似,图像音频负样本对尽可能地不相似。二元组相似项的公式如下:
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数。
上述损失函数计算的过程中可能产生量化误差,本发明提出了一个量化正则化项来减少类哈希码和哈希码之间的量化误差。量化正则化项的具体表达公式如下:
为了生成有效的哈希码,本发明利用深度特征的异构相关性来增强哈希码的相关性,由于深度特征的相关性越多,哈希码的相关性就越高。为了保持深层特征的异构相关,异构相关项的表达公式如下:
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数。
因此,总目标函数的公式表达如下:
其中,α、β是超参数,表示各项目标函数的权重,可自行设置。
第五步,计算检索精度及测试:
使用上述训练的网络计算测试数据集中样本(图像或音频)的哈希码,将查询样本和数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标MAP和前n名检索结果。
至此,完成了本发明所述方法的流程。
本发明的有益效果是:与现有技术相比,本发明提出的方法充分利用深度特征的异构相关性,通过桥接图像和音频之间的深层特征相关性来生成哈希码用于图像音频检索,减少了类哈希码与哈希码之间的量化误差,进一步提高检索精度。
附图说明
图1为本发明的流程示意图。
图2为本发明的概念说明图。
图3为本发明的网络结构图。
图4为本发明在Mirflickr 25K图像-音频数据集上利用图像检索音频的部分样例。
图5为本发明在Mirflickr 25K图像-音频数据集上利用音频检索图像的部分样例。
具体实施方式
实施例1
本实施例采用的环境是GeForce GTX Titan X GPU、Inter Core i7-5930K、3.50GHZ CPU、64G RAM、linux操作系统,运用Python和开源库KERAS进行开发。
第一步,划分训练数据集和测试数据集:
使用Mirflickr 25K图像音频数据集,制作50000对正负样本图像音频对,选取40000对作为训练数据集Itrain,余下的10000对作为测试数据集Itest;
第二步,利用跨模态配对结构选择成对的二元组样本:
首先构造N对二元组样本集合和对应的二元组标签集合二元组样本集合由正样本对和负样本对组成,Ii表示第i张图片,Vi表示第i个音频,标签yi∈{0,1},标签为1表示图像和音频语义相似,标签为0表示图像和音频语义不相似。
第三步,计算图像和音频的特征表示和哈希码:
本发明的整体框架包含了音频网络和图像网络。
本发明利用VGG16的卷积框架作为图像网络的主干网,包括一系列卷积层和两个全连接层,第一个全连接层包含1000个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数。第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码。
本发明使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)表示音频,利用VGG16的卷积框架作为音频网络的主干网,包括一系列卷积层、池化层和两个全连接层,卷积层分别使用64个宽度为11的卷积核,64个宽度为17的卷积核和128个宽度为19的卷积核,池化步长为2,激活函数使用ReLU函数。第一个全连接层包含1000个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数。第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码。
第四步,计算目标函数并更新网络的初始参数:
总体目标函数由二元组相似项、量化正则化项和异构相关项组成。
二元组相似项的目标是令图像音频正样本对尽可能地相似,图像音频负样本对尽可能地不相似。二元组相似项的公式如下:
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数。
上述损失函数计算的过程中可能产生量化误差,本发明提出了一个量化正则化项来减少类哈希码和哈希码之间的量化误差。量化正则化项的具体表达公式如下:
为了生成有效的哈希码,本发明利用深度特征的异构相关性来增强哈希码的相关性,由于深度特征的相关性越多,哈希码的相关性就越高。为了保持深层特征的异构相关,异构相关项的表达公式如下:
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数。
因此,总目标函数的公式表达如下:
其中,α、β是超参数,表示各项目标函数的权重,可自行设置。
具体地,本实施例中使用Adam算法进行优化,学习率设置为10-3,批量大小设置为64,哈希码的长度k设置为64,图像网络的初始权重使用预先训练好的权值,音频网络的权重使用glorot分布进行初始化,α设置为1,β设置为0.1,训练1000轮迭代,得到训练好的网络模型。
第五步,计算检索精度及测试:
使用上述训练的网络计算测试数据集中样本(图像或音频)的哈希码,将查询样本和数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标MAP和前n名检索结果。
至此,完成了本实施例的流程。
为了评估本发明方法的有效性,将本发明方法与几种最先进的方法进行了检索性能比较,包括SIFT+M、DBLP、CNN+SPEC、DVAN和V2CMH,本实验采用64位哈希码,采用Mirflickr 25K图像-音频数据集,SIFT+M方法利用SIFT特征表示图像数据,利用MFCC表示声音数据,然后将它们相应的特征投影到一个共同的表示空间中,DBLP、CNN+SPEC、DVAN和V2CMH方法按原文执行。
表1
表1是本发明与其他方法在Mirflickr 25K数据集上利用音频检索图像的比较实验结果,其中mAP为平均精度指标,P@K为检索列表中前K名的精度。
表2
表2是本发明与其他方法在Mirflickr 25K数据集上利用图像检索音频的比较实验结果,其中mAP为平均精度指标,P@K为检索列表中前K名的精度。
本发明的实施方案仅仅为了清楚地说明本发明的举例,并不局限上述举例。本领域人员在此方法上的基础上作不同形式的改变或等同替换,但凡与本发明类似的变化都属于本发明权利要求的保护范围之中。
Claims (7)
1.一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于,包括如下步骤:
第一步,划分训练数据集和测试数据集;
第二步,利用跨模态配对结构选择成对的二元组样本;
第三步,构建整体网络模型,包括音频网络和图像网络,用于计算图像和音频的特征表示和哈希码:
其中图像网络包括一系列卷积层和两个全连接层,第一个全连接层包含n1个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数;第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码;音频网络包括一系列卷积层、池化层和全连接层,第一个全连接层包含n1个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数,第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码;
第四步,利用第二步中得到的二元组样本训练整体网络模型,计算整体网络模型的目标函数并更新整体网络模型的初始参数;
第五步,使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标MAP和前n名检索结果。
3.如权利要求1所述的一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于:第三步中整体网络模型将原始图像和音频投影到高维的实值特征,然后将高维实值特征投影成二进制哈希码,其中图像网络的哈希层所用的哈希函数公式表达如下:
4.如权利要求3所述的一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于:第四步中目标函数由二元组相似项、量化正则化项和异构相关项组成;
二元组相似项的目标是令图像音频正样本对尽可能地相似,图像音频负样本对尽可能地不相似,二元组相似项的公式如下:
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数;
量化正则化项来减少类哈希码和哈希码之间的量化误差,量化正则化项的具体表达公式如下:
利用深度特征的异构相关性来增强哈希码的相关性,由于深度特征的相关性越多,哈希码的相关性就越高,为了保持深层特征的异构相关,异构相关项的表达公式如下:
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数;
因此,总目标函数的公式表达如下:
其中,α、β是超参数,表示各项目标函数的权重,可自行设置。
5.根据权利要求1所述的一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于:使用梅尔频率倒谱系数表示音频,音频网络中卷积层分别使用64个宽度为11的卷积核,64个宽度为17的卷积核和128个宽度为19的卷积核,池化步长为2,激活函数使用ReLU函数。
6.根据权利要求4所述的一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于:第四步中使用Adam算法进行训练优化,学习率设置为10-3,批量大小设置为64,哈希码的长度k设置为64,图像网络的初始权重使用预先训练好的权值,音频网络的权重使用glorot分布进行初始化,α设置为1,β设置为0.1,训练1000轮迭代。
7.根据权利要求1所述的一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于:第一步中使用Mirflickr 25K图像音频数据集,制作50000对正负样本图像音频对,选取40000对作为训练数据集Itrain,余下的10000对作为测试数据集Itest。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570438.3A CN113343014A (zh) | 2021-05-25 | 2021-05-25 | 基于深度异构相关学习的跨模态图像音频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570438.3A CN113343014A (zh) | 2021-05-25 | 2021-05-25 | 基于深度异构相关学习的跨模态图像音频检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113343014A true CN113343014A (zh) | 2021-09-03 |
Family
ID=77471270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110570438.3A Pending CN113343014A (zh) | 2021-05-25 | 2021-05-25 | 基于深度异构相关学习的跨模态图像音频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343014A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402993A (zh) * | 2017-07-17 | 2017-11-28 | 山东师范大学 | 基于判别性关联最大化哈希的跨模态检索方法 |
CN109241317A (zh) * | 2018-09-13 | 2019-01-18 | 北京工商大学 | 基于深度学习网络中度量损失的行人哈希检索方法 |
CN109977258A (zh) * | 2019-02-21 | 2019-07-05 | 中国科学院西安光学精密机械研究所 | 图像和语音的跨模态检索分类器模型、检索系统和检索方法 |
CN110222140A (zh) * | 2019-04-22 | 2019-09-10 | 中国科学院信息工程研究所 | 一种基于对抗学习和非对称哈希的跨模态检索方法 |
CN111597298A (zh) * | 2020-03-26 | 2020-08-28 | 浙江工业大学 | 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 |
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及系统 |
CN112035728A (zh) * | 2020-08-21 | 2020-12-04 | 中国电子科技集团公司电子科学研究院 | 一种跨模态检索方法、装置及可读存储介质 |
-
2021
- 2021-05-25 CN CN202110570438.3A patent/CN113343014A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402993A (zh) * | 2017-07-17 | 2017-11-28 | 山东师范大学 | 基于判别性关联最大化哈希的跨模态检索方法 |
CN109241317A (zh) * | 2018-09-13 | 2019-01-18 | 北京工商大学 | 基于深度学习网络中度量损失的行人哈希检索方法 |
CN109977258A (zh) * | 2019-02-21 | 2019-07-05 | 中国科学院西安光学精密机械研究所 | 图像和语音的跨模态检索分类器模型、检索系统和检索方法 |
CN110222140A (zh) * | 2019-04-22 | 2019-09-10 | 中国科学院信息工程研究所 | 一种基于对抗学习和非对称哈希的跨模态检索方法 |
CN111597298A (zh) * | 2020-03-26 | 2020-08-28 | 浙江工业大学 | 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 |
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及系统 |
CN112035728A (zh) * | 2020-08-21 | 2020-12-04 | 中国电子科技集团公司电子科学研究院 | 一种跨模态检索方法、装置及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
YAXIONG CHEN等: "Deep Cross-Modal Image–Voice Retrieval in Remote Sensing", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》 * |
郭毛: "基于深度神经网络的语音-图像跨模态检索研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
US20170200077A1 (en) | End-to-end memory networks | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN111242033B (zh) | 一种基于视频和文字对判别分析的视频特征学习方法 | |
CN112214335B (zh) | 基于知识图谱和相似度网络的Web服务发现方法 | |
CN108595546B (zh) | 基于半监督的跨媒体特征学习检索方法 | |
CN112948601B (zh) | 一种基于受控语义嵌入的跨模态哈希检索方法 | |
CN111898379B (zh) | 槽填充模型训练方法、电子设备及存储介质 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN112307048B (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 | |
CN113962228A (zh) | 一种基于记忆网络语义融合的长文档检索方法 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN113326392B (zh) | 基于四元组哈希的遥感图像音频检索方法 | |
CN114022687B (zh) | 一种基于增强学习的图像描述对抗生成方法 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN116167353A (zh) | 一种基于孪生长短期记忆网络的文本语义相似度度量方法 | |
CN115878757A (zh) | 一种基于概念分解的混合超图正则化半监督跨模态哈希方法 | |
CN116049422A (zh) | 基于联合抽取模型的包虫病知识图谱构建方法及其应用 | |
CN113343014A (zh) | 基于深度异构相关学习的跨模态图像音频检索方法 | |
CN111767388B (zh) | 一种候选池生成方法 | |
CN114003773A (zh) | 一种基于自构建多场景的对话追踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210903 |