CN114330488A - 一种多模态数据处理方法、装置、设备及存储介质 - Google Patents
一种多模态数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114330488A CN114330488A CN202111400866.8A CN202111400866A CN114330488A CN 114330488 A CN114330488 A CN 114330488A CN 202111400866 A CN202111400866 A CN 202111400866A CN 114330488 A CN114330488 A CN 114330488A
- Authority
- CN
- China
- Prior art keywords
- modal
- information
- data processing
- micro
- light
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本申请公开了一种多模态数据处理方法、装置、设备及存储介质,该方法包括:获取目标物体的不同光学模态信息,制作多模态数据集;构建多模态融合网络模型;多模态融合网络模型包括用于提取各模态特征的模态特征提取网络,用于将各模态特征进行合并的模态特征融合网络,以及用于将合并后的目标特征进行分类任务或回归任务的决策网络;利用多模态数据集训练多模态融合网络模型;获取待测物体的不同光学模态信息,并输入至训练完成的多模态融合网络模型中,输出分类结果或回归结果。这样可以获取物体的各光学模态的丰富特征以及不同光学模态之间的内在关系,高效完成分类或回归任务,进而促进多模态人工智能信息提取和融合的发展,提升竞争力。
Description
技术领域
本发明涉及多模态信息处理领域,特别是涉及一种多模态数据处理方法、装置、设备及存储介质。
背景技术
人们对世界的体验是多模态的,为了让人工智能更好地理解人们周围的世界,它需要能够解释和推理多模态信息。在多模态机器学习中,由于不同模态之间可能会存在互补的信息,使用多种模态的数据,可以让模型做出更鲁棒的预测。除此之外当其中一种模态数据缺失时,多模态系统仍然可以运行。近年来多模态机器学习快速发展起来,涉及的领域包括视听语音识别、多模态情感识别、医学图像分析以及多媒体事件检测等。
尽管学术界产业界在多模态融合领域已经取得了诸多进展,但现阶段的研究主要是针对图片、语音和文字这三种模态。针对一些光学模态,例如偏振、频率等,其相关的多模态数据集和多模态数据融合却研究甚少,但光学模态中丰富的目标和环境特征,对目标识别、安防、生物医学等领域都有重要意义。
发明内容
有鉴于此,本发明的目的在于提供一种多模态数据处理方法、装置、设备及存储介质,可以获取物体的各光学模态的丰富特征以及不同光学模态之间的内在关系,高效完成分类或回归任务,进而促进多模态信息提取和融合的发展。其具体方案如下:
一种多模态数据处理方法,包括:
获取目标物体的不同光学模态信息,制作多模态数据集;
构建多模态融合网络模型;所述多模态融合网络模型包括用于提取各模态特征的模态特征提取网络,用于将各模态特征进行合并的模态特征融合网络,以及用于将合并后的目标特征进行分类任务或回归任务的决策网络;
利用所述多模态数据集训练所述多模态融合网络模型;
获取待测物体的不同光学模态信息,并输入至训练完成的所述多模态融合网络模型中,输出分类结果或回归结果。
优选地,在本发明实施例提供的上述多模态数据处理方法中,所述获取目标物体的不同光学模态信息,包括:
获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。
优选地,在本发明实施例提供的上述多模态数据处理方法中,获取目标物体的强度、偏振和频率这三个不同模态的信息,包括:
通过分光系统将来自目标物体的反射光分为第一光束和第二光束;所述第一光束传输至光学微偏振器系统;所述第二光束传输至傅里叶4f系统;
通过所述光学微偏振器系统获取强度信息和偏振信息;
同时,通过所述傅里叶4f系统获取频率信息。
优选地,在本发明实施例提供的上述多模态数据处理方法中,所述光学微偏振器系统包括第一凸透镜、微偏振片和第一探测器;其中,
所述第一凸透镜,用于将所述第一光束会聚到所述微偏振片上;
所述微偏振片,用于同时采集强度信息和偏振信息;
所述第一探测器,用于将所述微偏振片采集的强度信息和偏振信息转化为二维矩阵数据。
优选地,在本发明实施例提供的上述多模态数据处理方法中,所述微偏振片中每个像素单元包括用于采集强度信息的两个增透子单元和用于采集偏振信息的两个线偏振子单元;
两个所述线偏振子单元呈对角分布;两个所述增透子单元呈对角分布。
优选地,在本发明实施例提供的上述多模态数据处理方法中,所述傅里叶4f系统包括第二凸透镜、第三凸透镜、衍射屏和第二探测器;其中,
所述第二凸透镜,位于目标物体与所述分光系统之间,用于将来自目标物体的反射光进行会聚,得到平行光并传输至所述分光系统;
所述衍射屏,位于所述分光系统和所述第三凸透镜之间,用于将所述第二光束进行衍射,得到衍射光;
所述第三凸透镜,用于将所述衍射光会聚到所述第二探测器上;
所述第二探测器,用于采集频谱信号。
优选地,在本发明实施例提供的上述多模态数据处理方法中,所述模态特征提取网络包括多个模态特征提取子网络;各所述模态特征提取子网络与各模态一一对应。
优选地,在本发明实施例提供的上述多模态数据处理方法中,各所述模态特征提取子网络的输入为二维矩阵形式的多模态数据集,输出为模态嵌入向量;
所述模态特征融合网络的输入为所述模态嵌入向量,输出为通过计算三重笛卡尔乘积得到的融合模态。
所述决策网络的输入为所述融合模态,输出为完成分类任务或回归任务后的结果。
本发明实施例还提供了一种多模态数据处理装置,包括:
多模态信息采集模块,用于获取目标物体的不同光学模态信息;还用于获取待测物体的不同光学模态信息;
数据集制作模块,用于根据目标物体的不同光学模态信息,制作多模态数据集;
模型构建模块,用于构建多模态融合网络模型;所述多模态融合网络模型包括用于提取各模态特征的模态特征提取网络,用于将各模态特征进行合并的模态特征融合网络,以及用于将合并后的目标特征进行分类任务或回归任务的决策网络;
模型训练模块,用于利用所述多模态数据集训练所述多模态融合网络模型;
模型推理模块,用于将待测物体的不同光学模态信息输入至训练完成的所述多模态融合网络模型中,输出分类结果或回归结果。
优选地,在本发明实施例提供的上述多模态数据处理装置中,所述多模态信息采集模块,具体用于获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。
优选地,在本发明实施例提供的上述多模态数据处理装置中,所述多模态信息采集模块,包括:分光系统、光学微偏振器系统和傅里叶4f系统;
所述分光系统,用于将来自目标物体的反射光分为第一光束和第二光束;所述第一光束传输至光学微偏振器系统;所述第二光束传输至傅里叶4f系统;
所述光学微偏振器系统,用于获取强度信息和偏振信息;
所述傅里叶4f系统,用于获取频率信息。
优选地,在本发明实施例提供的上述多模态数据处理装置中,所述光学微偏振器系统包括第一凸透镜、微偏振片和第一探测器;其中,
所述第一凸透镜,用于将所述第一光束会聚到所述微偏振片上;
所述微偏振片,用于同时采集强度信息和偏振信息;
所述第一探测器,用于将所述微偏振片采集的强度信息和偏振信息转化为二维矩阵数据。
优选地,在本发明实施例提供的上述多模态数据处理装置中,所述微偏振片中每个像素单元包括用于采集强度信息的两个增透子单元和用于采集偏振信息的两个线偏振子单元;
两个所述线偏振子单元呈对角分布;两个所述增透子单元呈对角分布。
优选地,在本发明实施例提供的上述多模态数据处理装置中,所述傅里叶4f系统包括第二凸透镜、第三凸透镜、衍射屏和第二探测器;其中,
所述第二凸透镜,位于目标物体与所述分光系统之间,用于将来自目标物体的反射光进行会聚,得到平行光并传输至所述分光系统;
所述衍射屏,位于所述分光系统和所述第三凸透镜之间,用于将所述第二光束进行衍射,得到衍射光;
所述第三凸透镜,用于将所述衍射光会聚到所述第二探测器上;
所述第二探测器,用于采集频谱信号。
本发明实施例还提供了一种多模态数据处理设备,包括处理器和存储器,其中,所述处理器执行所述存储器中存储的计算机程序时实现如本发明实施例提供的上述多模态数据处理方法。
本发明实施例还提供了一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如本发明实施例提供的上述多模态数据处理方法。
从上述技术方案可以看出,本发明所提供的一种多模态数据处理方法,包括:获取目标物体的不同光学模态信息,制作多模态数据集;构建多模态融合网络模型;多模态融合网络模型包括用于提取各模态特征的模态特征提取网络,用于将各模态特征进行合并的模态特征融合网络,以及用于将合并后的目标特征进行分类任务或回归任务的决策网络;利用多模态数据集训练多模态融合网络模型;获取待测物体的不同光学模态信息,并输入至训练完成的多模态融合网络模型中,输出分类结果或回归结果。
本发明提供的上述多模态数据处理方法主要包括获取物体的不同光学模态信息和基于神经网络的多模态信息融合两大部分,这样可以获取物体的各光学模态的丰富特征以及不同光学模态之间的内在关系,并实现多模态信息融合,将丰富目标特征高效完成分类或回归任务,进而能够促进多模态人工智能信息提取和融合的发展,提升在光信息和多模态人工智能的结合应用领域的竞争力。
此外,本发明还针对多模态数据处理方法提供了相应的装置、设备及计算机可读存储介质,进一步使得上述方法更具有实用性,该装置、设备及计算机可读存储介质具有相应的优点。
附图说明
为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的多模态数据处理方法的流程图;
图2为本发明实施例提供的多模态信息采集模块的结构示意图;
图3为本发明实施例提供的微偏振片中每个像素单元的结构示意图;
图4为现有的傅里叶4f系统的结构示意图;
图5为本发明实施例提供的傅里叶4f系统的结构示意图;
图6为本发明实施例提供的多模态融合网络模型的结构示意图;
图7为本发明实施例提供的多模态张量融合的示意图;
图8为本发明实施例提供的多模态数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种多模态数据处理方法,如图1所示,包括以下步骤:
S101、获取目标物体的不同光学模态信息,制作多模态数据集;
S102、构建多模态融合网络模型;多模态融合网络模型包括用于提取各模态特征的模态特征提取网络,用于将各模态特征进行合并的模态特征融合网络,以及用于将合并后的目标特征进行分类任务或回归任务的决策网络;
具体地,构建基于注意力机制的模态特征提取网络完成各模态特征提取,采用基于笛卡尔积的模态特征融合网络合并多模态信息,最后利用决策网络完成分类和回归任务;
S103、利用多模态数据集训练多模态融合网络模型;
S104、获取待测物体的不同光学模态信息,并输入至训练完成的多模态融合网络模型中,输出分类结果或回归结果。
在本发明实施例提供的上述多模态数据处理方法中,主要包括获取物体的不同光学模态信息和基于神经网络的多模态信息融合两大部分,这样可以获取物体的各光学模态的丰富特征以及不同光学模态之间的内在关系,并实现多模态信息融合,将丰富目标特征高效完成分类或回归任务,提升了网络判别精度和模型鲁棒性,进而能够促进多模态人工智能信息提取和融合的发展,提升在光信息和多模态人工智能的结合应用领域的竞争力。
在具体实施时,在本发明实施例提供的上述多模态数据处理方法中,步骤S101获取目标物体的不同光学模态信息,具体可以包括:获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。在实际应用中,步骤S101可以只获取目标物体的强度、偏振和频率中至少两个模态的信息,也可以获取目标物体除了强度、偏振和频率之外的其它至少两个模态的信息,在此不做赘述。
根据目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息,可用来制作多模态数据集。这些模态中丰富的目标和环境特征,均对目标识别、安防、生物医学等领域有着重要意义。
具体地,强度模态是光谱辐射强度测量,主要获取场景中的不同材料和物体的分布,得到的是传统意义上的光学图像。
偏振模态是测量光场矢量信息,与光谱辐射强度图像具有很大的不相关性,可以在雾霾天气等复杂环境下获取目标表面特征、形状、阴影和粗糙度,在大气环境检测、生物医学诊断和自动驾驶等领域具有广泛应用。加入偏振模态,不但提升辨别目标的概率,还能够增大探测精度。
频率模态是获取图像的频率分布和变化。频谱中的低频成分表征空间域内分布函数中变化缓慢的部分和粗的轮廓结构;频谱中的高频成分表征图像中急剧变化的部分和细节。通过获取频率模态可以提取到目标物体更多的细节特征。
在具体实施时,在本发明实施例提供的上述多模态数据处理方法中,上述步骤中获取目标物体的强度、偏振和频率这三个不同模态的信息,具体可以包括:首先,通过分光系统将来自目标物体的反射光分为第一光束和第二光束;第一光束传输至光学微偏振器系统;第二光束传输至傅里叶4f系统;然后,通过光学微偏振器系统获取强度信息和偏振信息;同时,通过傅里叶4f系统获取频率信息。
需要说明的是,上述步骤可以由多模态信息采集模块来执行,该多模态信息采集模块包括分光系统、光学微偏振器系统和傅里叶4f系统,它不但可以同时提取三种光学多模态信息,构建光学多模态数据集,还可以解决不同模态之间的对齐问题。
在实际应用中,如图2所示,分光系统可以选择分光棱镜1来进行分光;通过分光棱镜1将目标物体反射出的光通量一分为二,一部分输入到微偏振器系统中获取强度信息a和偏振信息b,另一部分输入到傅里叶4f系统中获取频率信息c。对于分光系统的具体类型设置,可以根据实际情况而定,在此不做限定。
在具体实施时,在本发明实施例提供的上述多模态数据处理方法中,如图2所示,光学微偏振器系统可以包括第一凸透镜2、微偏振片3和第一探测器4;其中,
第一凸透镜2,用于将第一光束会聚到微偏振片3上;
微偏振片3,用于同时采集强度信息a和偏振信息b;如图3所示,微偏振片3中每个像素单元包括2×2排列的四个子单元,具体包括用于采集强度信息a的两个增透子单元31和用于采集偏振信息b的两个线偏振子单元32;两个线偏振子单元31呈对角分布;两个增透子单元32呈对角分布。
第一探测器4,用于将微偏振片3采集的强度信息a和偏振信息b转化为二维矩阵数据。
具体地,如图2所示,第一凸透镜2将分光棱镜1的出射光会聚至微偏振片3,光束经过微偏振片3后被第一探测器4采集同时生成强度信息a和偏振信号b。微偏振片3中的每个像素单元包括四个子单元,对应第一探测器4的四个像素点,其中包括两个增透子单元31和两个线偏振子单元32,呈对角分布。增透子单元31和线偏振子单元32的对角分布,可以让整个第一探测器4均匀的采集偏振光和自然光。微偏振片3的存在虽然会将像素分辨率降低一半,但所获取的不同模态信息中包含的目标特征则可以大大提升后续模型精度。线偏振子单元32是通过亚波长金属线栅的起偏原理产生线偏振光,增透子单元31是通过在基底上蒸镀特定波段的增透膜来提高光的透过率,添加增透膜在一定程度上弥补了偏振图像和强度图像像素分辨率的降低。微偏振片3可以通过纳米压印或者电子束光刻等工艺制作。由于微偏振片3的每个单元需要与第一探测器4的像素对准,可将微偏振片3和第一探测器4集成在同一个基板上。最后将第一探测器4转化得到的二维矩阵数据传输至电脑,再通过电脑将二维矩阵数据拆分为对应强度模态和偏振模态的二维矩阵数据。
在具体实施时,在本发明实施例提供的上述多模态数据处理方法中,如图2所示,傅里叶4f系统可以包括第二凸透镜5、第三凸透镜6、衍射屏7和第二探测器8;其中,
第二凸透镜5,位于目标物体与分光系统1之间,用于将来自目标物体的反射光进行会聚,得到平行光并传输至分光系统1;这样可以保证不同模态图像的同源性,首先通过第二凸透镜5将目标物体的光通量会聚出射平行光,再通过分光棱镜1将输入的光通量一分为二生成透射光和反射光,分别传递至光学微偏振器系统和傅里叶4f系统;
衍射屏7,位于分光系统和第三凸透镜6之间,用于将第二光束进行衍射,得到衍射光;
第三凸透镜6,用于将衍射光会聚到第二探测器8上;
第二探测器8,用于采集频谱信号。
在实际应用中,如图4所示,傅里叶4f系统是由两个焦距均为f的凸透镜组成的“4f系统”,能够实现级联的两个傅里叶变换。搭载目标物体信息的平面波在透镜后焦面上的分布正比于样品分布的傅里叶变换,在第二个透镜的后焦面上又逆傅里叶变换,还原为原样品的清晰的像。而傅里叶4f系统有多个衍射系统和应用场景,因此在本发明的具体实施例中,采用傅里叶4f系统的衍生系统——傅里叶频谱分析器,即夫琅禾费衍射系统来采集目标物体的频率信息。如图5所示,本发明提供的傅里叶4f系统(即夫琅禾费衍射系统)包括第二凸透镜5、第三凸透镜6、衍射屏7和第二探测器8,衍射屏7可以是狭缝或者窗口,第二凸透镜5将来自目标物体的反射光会聚,得到的平行光入射到衍射屏7上,第三凸透镜6再将衍射光会聚得到频谱图像。在频谱面上放置第二探测器8即可采集频谱模态信号。此系统在物理上实现了傅里叶变换,可以在频域里考查光学系统对图像频谱做出的反应,以此对图像所包含的信息进行处理。
需要说明的是,第二凸透镜5、第三凸透镜6均为共焦凸透镜。根据傅立叶光学,设置的特定光学透镜对波场应用正向或反向傅立叶变换,傅里叶变换可提取成像物体的全局特征。由于在双透镜的共焦面上的光场分布等于目标物体强度分布的傅里叶变换,因此能够在这个面上进行各种操作,通过放置各种调制或者滤波器,可以实现很多功能,例如阿贝波特空间滤波。
在具体实施时,在本发明实施例提供的上述多模态数据处理方法中,如图6所示,模态特征提取网络包括多个模态特征提取子网络;各模态特征提取子网络与各模态一一对应。各模态特征提取子网络的输入为二维矩阵形式的多模态数据集,即第一探测器和第二探测器采集到的强度、偏振和频率三种模态信号,输出为模态嵌入向量。各模态特征提取子网络提取网络的结构具有一致性,包括输入层、flatten层、全连接层和注意力层,但各个子网络的输入和权重参数是不共享的;其中,注意力层包括线性映射、ReLU激活和归一化层。
需要说明的是,flatten层是用来将输入“压平”,即把多维的输入一维化。ReLU(Rectified Linear Unit,修正线性单元)是人工神经网络中常用的激活函数。
以强度模态为例,如图6所示,网络输入层为强度模态的二维矩阵,假设为I64*64(输入层的数据大小与探测器的像素数有关),采用flatten层将其转化为一维向量I4096输入到全连接层。再将全连接层的输出I128,输入到注意力层。注意力层包括线性映射、ReLU激活和归一化层,其中ReLU层含有128个单元,这样保证了注意力层的输出与输入具有相同维度,对应的归一化层输出128个权重WI。最后将输出的权重向量WI与I128对应点相乘,得到模态特征提取网络的输出:
zI∈R128
类似的,得到偏振和频率模态的输出依次为zP,zf∈R128。
在具体实施时,在本发明实施例提供的上述多模态数据处理方法中,模态特征融合网络的输入为模态嵌入向量,输出为通过计算三重笛卡尔乘积得到的融合模态,即模态特征融合网络是提取不同模态之间的内在关系,将多个模态输入转换为一个张量(即三维矩阵)输出。在计算三重笛卡尔乘积时,由单模态计算出双模态和三模态。
为了提升网络的通用性和灵活性,若探测器的像素数或者特征提取网络的神经元个数不一致,导致输出矢量大小不同时,可以通过给每个模态矢量添加常数C,来补足长度,例如C可以是0或者1。
每个神经元的坐标(zI、zP和zf)可以看作是由强度、偏振和频率的单模态输出矢量定义的三重笛卡尔空间中的一个点。这个定义在数学上等价于强度嵌入矢量zl、偏振嵌入矢量zp和频率嵌入矢量zf之间的可微外积:
其中,代表向量之间的外积,zl、zp和zf是来自模态特征提取网络的单模态输出向量。具体的,三个zI、zP和zf∈R128表示单模态,三个和表示获取的双模态,一个得到三模态的相互作用。最后,如图7所示,七个不同语义子区域的三维立方体通过拼接,可得到zm∈R129 *129*129。
需要说明的是,虽然模态融合是计算笛卡尔积,没有可学习的参数,但其过拟合的机会很低,因为张量融合的输出神经元易于解释,在语义上非常有意义。因此,网络的后续层很容易解码出有意义的信息。
在具体实施时,在本发明实施例提供的上述多模态数据处理方法中,决策网络的输入为融合模态,输出为完成分类任务或回归任务后的结果;决策网络包括flatten层、两个ReLU层和输出层。决策网络是根据不同的任务设置不同的网络输出层和损失函数。在模态特征融合网络之后,每个目标物的特征数据可以表示为多模态张量zm。
具体地,将zm输入到flatten层得到一维矢量,再输入到ReLU层。ReLU层包括线性映射运算和ReLU非线性激活函数运算。最后网络的输出层softmax层或者sigmoid层,分别完成分类或者回归任务。需要说明的是,softmax为归一化指数函数;sigmoid被用作神经网络的激活函数,将变量映射到0和1之间。当输出层为softmax层时,决策网络的损失函数可以为分类交叉熵损失函数,来用于图片分类;当输出层为sigmoid层时,决策网络的损失函数可以为平均误差损失函数,来完成回归任务。
需要注意的是,本发明利用简单和紧凑的光学系统不但可以同时提取三种光学多模态信息,构建光学多模态数据集,还可以解决不同模态之间的对齐问题,再利用基于注意力机制和笛卡尔积的多模态数据融合网络提取各模态的不同特征,并且学习不同模态之间的内在关系,可以大大提升网络判别精度和模型鲁棒性。除此之外,所使用的推断网络支持不同的输出层,可灵活实现分类或者回归等多种任务,进而为后续的应用提供多种可能。
基于同一发明构思,本发明实施例还提供了一种多模态数据处理装置,由于该装置解决问题的原理与前述一种多模态数据处理方法相似,因此该装置的实施可以参见多模态数据处理方法的实施,重复之处不再赘述。
在具体实施时,本发明实施例提供的多模态数据处理装置,如图8所示,具体包括:
多模态信息采集模块11,用于获取目标物体的不同光学模态信息;还用于获取待测物体的不同光学模态信息;
数据集制作模块12,用于根据目标物体的不同光学模态信息,制作多模态数据集;
模型构建模块13,用于构建多模态融合网络模型;多模态融合网络模型包括用于提取各模态特征的模态特征提取网络,用于将各模态特征进行合并的模态特征融合网络,以及用于将合并后的目标特征进行分类任务或回归任务的决策网络;
模型训练模块14,用于利用多模态数据集训练多模态融合网络模型;
模型推理模块15,用于将待测物体的不同光学模态信息输入至训练完成的多模态融合网络模型中,输出分类结果或回归结果。
在本发明实施例提供的上述多模态数据处理装置中,可以通过上述五个模块的相互作用,获取物体的各光学模态的丰富特征以及不同光学模态之间的内在关系,并实现多模态信息融合,将丰富目标特征高效完成分类或回归任务,进而能够促进多模态人工智能信息提取和融合的发展,提升在光信息和多模态人工智能的结合应用领域的竞争力。
在具体实施时,在本发明实施例提供的上述多模态数据处理装置中,多模态信息采集模块11,具体可以用于获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。
在具体实施时,在本发明实施例提供的上述多模态数据处理装置中,为了结构简单且紧凑,该多模态信息采集模块可以包括:分光系统(如分光棱镜)、光学微偏振器系统和傅里叶4f系统;
分光系统,用于将来自目标物体的反射光分为第一光束和第二光束;第一光束传输至光学微偏振器系统;第二光束传输至傅里叶4f系统;
光学微偏振器系统,用于获取强度信息和偏振信息;
傅里叶4f系统,用于获取频率信息。
在具体实施时,在本发明实施例提供的上述多模态数据处理装置中,如图2所示,光学微偏振器系统可以包括第一凸透镜2、微偏振片3和第一探测器4;其中,
第一凸透镜2,用于将第一光束会聚到微偏振片3上;
微偏振片3,用于同时采集强度信息a和偏振信息b;如图3所示,微偏振片3中每个像素单元包括2×2排列的四个子单元,具体包括用于采集强度信息a的两个增透子单元31和用于采集偏振信息b的两个线偏振子单元32;两个线偏振子单元31呈对角分布;两个增透子单元32呈对角分布。
第一探测器4,用于将微偏振片3采集的强度信息a和偏振信息b转化为二维矩阵数据。
在具体实施时,在本发明实施例提供的上述多模态数据处理装置中,如图2所示,傅里叶4f系统可以包括第二凸透镜5、第三凸透镜6、衍射屏7和第二探测器8;其中,
第二凸透镜5,位于目标物体与分光系统1之间,用于将来自目标物体的反射光进行会聚,得到平行光并传输至分光系统1;这样可以保证不同模态图像的同源性,首先通过第二凸透镜5将目标物体的光通量会聚出射平行光,再通过分光棱镜1将输入的光通量一分为二生成透射光和反射光,分别传递至光学微偏振器系统和傅里叶4f系统;
衍射屏7,位于分光系统和第三凸透镜6之间,用于将第二光束进行衍射,得到衍射光;
第三凸透镜6,用于将衍射光会聚到第二探测器8上;
第二探测器8,用于采集频谱信号。
关于上述各个部件更加具体的工作过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
相应地,本发明实施例还公开了一种多模态数据处理设备,包括处理器和存储器;其中,处理器执行存储器中存储的计算机程序时实现前述实施例公开的多模态数据处理方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步地,本发明还公开了一种计算机可读存储介质,用于存储计算机程序;计算机程序被处理器执行时实现前述公开的多模态数据处理方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
综上,本发明实施例提供的一种多模态数据处理方法,包括:获取目标物体的不同光学模态信息,制作多模态数据集;构建多模态融合网络模型;多模态融合网络模型包括用于提取各模态特征的模态特征提取网络,用于将各模态特征进行合并的模态特征融合网络,以及用于将合并后的目标特征进行分类任务或回归任务的决策网络;利用多模态数据集训练多模态融合网络模型;获取待测物体的不同光学模态信息,并输入至训练完成的多模态融合网络模型中,输出分类结果或回归结果。上述多模态数据处理方法主要包括获取物体的不同光学模态信息和基于神经网络的多模态信息融合两大部分,这样可以获取物体的各光学模态的丰富特征以及不同光学模态之间的内在关系,并实现多模态信息融合,将丰富目标特征高效完成分类或回归任务,进而能够促进多模态人工智能信息提取和融合的发展,提升在光信息和多模态人工智能的结合应用领域的竞争力。此外,本发明还针对多模态数据处理方法提供了相应的装置、设备及计算机可读存储介质,进一步使得上述方法更具有实用性,该装置、设备及计算机可读存储介质具有相应的优点。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的多模态数据处理方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (16)
1.一种多模态数据处理方法,其特征在于,包括:
获取目标物体的不同光学模态信息,制作多模态数据集;
构建多模态融合网络模型;所述多模态融合网络模型包括用于提取各模态特征的模态特征提取网络,用于将各模态特征进行合并的模态特征融合网络,以及用于将合并后的目标特征进行分类任务或回归任务的决策网络;
利用所述多模态数据集训练所述多模态融合网络模型;
获取待测物体的不同光学模态信息,并输入至训练完成的所述多模态融合网络模型中,输出分类结果或回归结果。
2.根据权利要求1所述的多模态数据处理方法,其特征在于,所述获取目标物体的不同光学模态信息,包括:
获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。
3.根据权利要求2所述的多模态数据处理方法,其特征在于,获取目标物体的强度、偏振和频率这三个不同模态的信息,包括:
通过分光系统将来自目标物体的反射光分为第一光束和第二光束;所述第一光束传输至光学微偏振器系统;所述第二光束传输至傅里叶4f系统;
通过所述光学微偏振器系统获取强度信息和偏振信息;
同时,通过所述傅里叶4f系统获取频率信息。
4.根据权利要求3所述的多模态数据处理方法,其特征在于,所述光学微偏振器系统包括第一凸透镜、微偏振片和第一探测器;其中,
所述第一凸透镜,用于将所述第一光束会聚到所述微偏振片上;
所述微偏振片,用于同时采集强度信息和偏振信息;
所述第一探测器,用于将所述微偏振片采集的强度信息和偏振信息转化为二维矩阵数据。
5.根据权利要求4所述的多模态数据处理方法,其特征在于,所述微偏振片中每个像素单元包括用于采集强度信息的两个增透子单元和用于采集偏振信息的两个线偏振子单元;
两个所述线偏振子单元呈对角分布;两个所述增透子单元呈对角分布。
6.根据权利要求3所述的多模态数据处理方法,其特征在于,所述傅里叶4f系统包括第二凸透镜、第三凸透镜、衍射屏和第二探测器;其中,
所述第二凸透镜,位于目标物体与所述分光系统之间,用于将来自目标物体的反射光进行会聚,得到平行光并传输至所述分光系统;
所述衍射屏,位于所述分光系统和所述第三凸透镜之间,用于将所述第二光束进行衍射,得到衍射光;
所述第三凸透镜,用于将所述衍射光会聚到所述第二探测器上;
所述第二探测器,用于采集频谱信号。
7.根据权利要求1所述的多模态数据处理方法,其特征在于,所述模态特征提取网络包括多个模态特征提取子网络;各所述模态特征提取子网络与各模态一一对应。
8.根据权利要求7所述的多模态数据处理方法,其特征在于,各所述模态特征提取子网络的输入为二维矩阵形式的多模态数据集,输出为模态嵌入向量;
所述模态特征融合网络的输入为所述模态嵌入向量,输出为通过计算三重笛卡尔乘积得到的融合模态。
所述决策网络的输入为所述融合模态,输出为完成分类任务或回归任务后的结果。
9.一种多模态数据处理装置,其特征在于,包括:
多模态信息采集模块,用于获取目标物体的不同光学模态信息;还用于获取待测物体的不同光学模态信息;
数据集制作模块,用于根据目标物体的不同光学模态信息,制作多模态数据集;
模型构建模块,用于构建多模态融合网络模型;所述多模态融合网络模型包括用于提取各模态特征的模态特征提取网络,用于将各模态特征进行合并的模态特征融合网络,以及用于将合并后的目标特征进行分类任务或回归任务的决策网络;
模型训练模块,用于利用所述多模态数据集训练所述多模态融合网络模型;
模型推理模块,用于将待测物体的不同光学模态信息输入至训练完成的所述多模态融合网络模型中,输出分类结果或回归结果。
10.根据权利要求9所述的多模态数据处理装置,其特征在于,所述多模态信息采集模块,具体用于获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。
11.根据权利要求10所述的多模态数据处理装置,其特征在于,所述多模态信息采集模块,包括:分光系统、光学微偏振器系统和傅里叶4f系统;
所述分光系统,用于将来自目标物体的反射光分为第一光束和第二光束;所述第一光束传输至光学微偏振器系统;所述第二光束传输至傅里叶4f系统;
所述光学微偏振器系统,用于获取强度信息和偏振信息;
所述傅里叶4f系统,用于获取频率信息。
12.根据权利要求11所述的多模态数据处理装置,其特征在于,所述光学微偏振器系统包括第一凸透镜、微偏振片和第一探测器;其中,
所述第一凸透镜,用于将所述第一光束会聚到所述微偏振片上;
所述微偏振片,用于同时采集强度信息和偏振信息;
所述第一探测器,用于将所述微偏振片采集的强度信息和偏振信息转化为二维矩阵数据。
13.根据权利要求12所述的多模态数据处理装置,其特征在于,所述微偏振片中每个像素单元包括用于采集强度信息的两个增透子单元和用于采集偏振信息的两个线偏振子单元;
两个所述线偏振子单元呈对角分布;两个所述增透子单元呈对角分布。
14.根据权利要求11所述的多模态数据处理装置,其特征在于,所述傅里叶4f系统包括第二凸透镜、第三凸透镜、衍射屏和第二探测器;其中,
所述第二凸透镜,位于目标物体与所述分光系统之间,用于将来自目标物体的反射光进行会聚,得到平行光并传输至所述分光系统;
所述衍射屏,位于所述分光系统和所述第三凸透镜之间,用于将所述第二光束进行衍射,得到衍射光;
所述第三凸透镜,用于将所述衍射光会聚到所述第二探测器上;
所述第二探测器,用于采集频谱信号。
15.一种多模态数据处理设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中存储的计算机程序时实现如权利要求1至8任一项所述的多模态数据处理方法。
16.一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的多模态数据处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111400866.8A CN114330488A (zh) | 2021-11-19 | 2021-11-19 | 一种多模态数据处理方法、装置、设备及存储介质 |
PCT/CN2022/095363 WO2023087659A1 (zh) | 2021-11-19 | 2022-05-26 | 一种多模态数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111400866.8A CN114330488A (zh) | 2021-11-19 | 2021-11-19 | 一种多模态数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114330488A true CN114330488A (zh) | 2022-04-12 |
Family
ID=81046073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111400866.8A Pending CN114330488A (zh) | 2021-11-19 | 2021-11-19 | 一种多模态数据处理方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114330488A (zh) |
WO (1) | WO2023087659A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023087659A1 (zh) * | 2021-11-19 | 2023-05-25 | 浪潮(北京)电子信息产业有限公司 | 一种多模态数据处理方法、装置、设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116561542B (zh) * | 2023-07-04 | 2023-10-20 | 北京聆心智能科技有限公司 | 模型的优化训练系统、方法以及相关装置 |
CN117226608B (zh) * | 2023-09-19 | 2024-04-02 | 中山市光大光学仪器有限公司 | 一种用于分光棱镜镀膜的抛光控制方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657965B (zh) * | 2015-03-12 | 2018-01-12 | 长春理工大学 | 基于离散连续曲波的偏振图像融合方法 |
CN105139367A (zh) * | 2015-07-27 | 2015-12-09 | 中国科学院光电技术研究所 | 一种基于非下采样剪切波的可见光偏振图像融合方法 |
CN107462336B (zh) * | 2017-09-30 | 2019-01-22 | 飞秒激光研究中心(广州)有限公司 | 一种飞秒激光多模态分子影像系统 |
EP3667299B1 (en) * | 2018-12-13 | 2022-11-09 | Imec VZW | Multimodal imaging system |
CN111462128B (zh) * | 2020-05-28 | 2023-12-12 | 南京大学 | 一种基于多模态光谱图像的像素级图像分割系统及方法 |
CN111738314B (zh) * | 2020-06-09 | 2021-11-02 | 南通大学 | 基于浅层融合的多模态图像能见度检测模型的深度学习方法 |
CN112129702B (zh) * | 2020-09-16 | 2022-08-26 | 飞秒激光研究中心(广州)有限公司 | 多模态信号采集装置及方法、激光影像系统 |
CN113040722B (zh) * | 2021-04-30 | 2022-03-15 | 电子科技大学 | 一种提高频域相干断层成像深度的方法 |
CN114330488A (zh) * | 2021-11-19 | 2022-04-12 | 浪潮(北京)电子信息产业有限公司 | 一种多模态数据处理方法、装置、设备及存储介质 |
-
2021
- 2021-11-19 CN CN202111400866.8A patent/CN114330488A/zh active Pending
-
2022
- 2022-05-26 WO PCT/CN2022/095363 patent/WO2023087659A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023087659A1 (zh) * | 2021-11-19 | 2023-05-25 | 浪潮(北京)电子信息产业有限公司 | 一种多模态数据处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023087659A1 (zh) | 2023-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pasquet-Itam et al. | Deep learning approach for classifying, detecting and predicting photometric redshifts of quasars in the Sloan Digital Sky Survey stripe 82 | |
CN114330488A (zh) | 一种多模态数据处理方法、装置、设备及存储介质 | |
Zeng et al. | RedCap: residual encoder-decoder capsule network for holographic image reconstruction | |
Javidi et al. | Three-dimensional identification of biological microorganism using integral imaging | |
US10706258B2 (en) | Systems and methods for cell identification using lens-less imaging | |
Zhu et al. | Microplastic pollution assessment with digital holography and zero-shot learning | |
Kyono et al. | Machine learning for quality assessment of ground-based optical images of satellites | |
Siebert et al. | Multi-modal fusion transformer for visual question answering in remote sensing | |
Xia et al. | Cloud/snow recognition of satellite cloud images based on multiscale fusion attention network | |
CN116665114B (zh) | 基于多模态的遥感场景识别方法、系统及介质 | |
Moore et al. | An application of CNNs to time sequenced one dimensional data in radiation detection | |
Zhang et al. | Heuristic dual-tree wavelet thresholding for infrared thermal image denoising of underground visual surveillance system | |
Ravi et al. | LiteF2DNet: A lightweight learning framework for 3D reconstruction using fringe projection profilometry | |
Tuba et al. | Brain Storm Optimization Algorithm for Thermal Image Fusion using DCT Coefficients | |
Ashraf et al. | Attention 3D central difference convolutional dense network for hyperspectral image classification | |
de León et al. | Generalized adversarial networks for stress field recovering processes from photoelasticity images | |
Rizvi et al. | High-speed image-free target detection and classification in single-pixel imaging | |
Zhao et al. | Minimum distance constrained sparse autoencoder network for hyperspectral unmixing | |
Chen et al. | Optical-electronic neural network for multi-modality and high-accurate lensless optics design and image reconstruction | |
Huo et al. | Lightweight iris segmentation network for low-power devices | |
Birch et al. | Optical systems for task-specific compressive classification | |
Liu et al. | Fabric defect detection based on visual saliency using deep feature and low-rank recovery | |
El-Bana et al. | Evaluating the Potential of Wavelet Pooling on Improving the Data Efficiency of Light-Weight CNNs | |
Qu et al. | Dimensionality-varied deep convolutional neural network for spectral–spatial classification of hyperspectral data | |
Billert et al. | Adaptive multiple filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |