CN112699907A - 数据融合的方法、装置和设备 - Google Patents
数据融合的方法、装置和设备 Download PDFInfo
- Publication number
- CN112699907A CN112699907A CN201911008258.5A CN201911008258A CN112699907A CN 112699907 A CN112699907 A CN 112699907A CN 201911008258 A CN201911008258 A CN 201911008258A CN 112699907 A CN112699907 A CN 112699907A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- input
- output data
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title abstract description 6
- 230000004927 fusion Effects 0.000 claims abstract description 99
- 238000000034 method Methods 0.000 claims abstract description 76
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000007670 refining Methods 0.000 claims description 16
- 238000013136 deep learning model Methods 0.000 claims description 13
- 230000008451 emotion Effects 0.000 claims description 12
- 238000003745 diagnosis Methods 0.000 claims description 10
- 238000003709 image segmentation Methods 0.000 claims description 9
- 238000000746 purification Methods 0.000 claims description 8
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 39
- 238000013461 design Methods 0.000 description 17
- 230000003727 cerebral blood flow Effects 0.000 description 12
- 238000002591 computed tomography Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 230000002490 cerebral effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种数据融合的方法、装置和设备,涉及人工智能领域。该方法包括:获取N个第一输入数据,其中,该N个第一输入数据分别为N个不同的模态的数据,该N个第一输入数据的维度相同,N为大于或等于2的正整数;对该N个第一输入数据进行特征提取,获得N个第一特征数据;对该N个第一特征数据进行融合,获得第一关联数据,该第一关联数据包括该N个第一特征数据之间的关联信息;对该第一关联数据中的每一个维度的数据进行权重分配,获得第一输出数据。上述技术方案能够将多模态数据进行融合,将利用该方法融合后的数据用于深度学习预测获得的预测结果的准确度较高。
Description
技术领域
本申请涉及人工智能领域,更具体地,涉及数据融合的方法、装置和设备。
背景技术
不同来源或者形式的数据,可以称为不同模态(modality)的数据。例如,根据人的触觉、听觉、视觉获得的数据分别为三个不同模态的数据;信息的类型为语音、视频、文字等的数据也可称为不同模态的数据;来自不同信息采集设备的数据,例如雷达信号、红外传感器获得的数据等也可称为不同模态的数据。另外,在两种不同情况下采集到的两个数据也可以称为两个模态的数据。
多模态融合(multimodal fusion)是指将多个模态的数据进行融合,得到融合后的数据的过程。通常,现有的利用深度学习方法进行工程应用时,利用融合后的数据进行深度学习的工程操作得到的结果通常会好于利用单一模态的数据得到的结果。例如将用户的语调、文字内容和面部表情这三个模态的数据进行融合,利用融合后的数据和深度学习模型进行人的情感判断,可以得到更为准确的结果。又如,将来自于同一个视频的音频信息和画面信息进行融合,利用融合后的数据和深度学习模型判断视频的类型,可以得到更为准确的结果。
现有的数据融合方法获得的融合后的数据用于深度学习模型,获得的预测结果的精度较低。
发明内容
本申请提供一种数据融合的方法、装置和设备,能够将多模态数据进行融合,根据融合后的数据获得的预测结果的准确度较高。
第一方面,本申请实施例提供一种数据融合的方法,该方法包括:取N个第一输入数据,其中,该N个第一输入数据分别为N个不同的模态的数据,该N个第一输入数据的维度相同,N为大于或等于2的正整数;对该N个第一输入数据进行特征提取,获得N个第一特征数据;对该N个第一特征数据进行融合,获得第一关联数据,该第一关联数据包括该N个第一特征数据之间的关联信息;对该第一关联数据中的每一个维度的数据进行权重分配,获得第一输出数据。
可选的,数据融合得到的目标输出数据可以是根据该第一输出数据得到的。例如,如果输入数据只包括该N个第一输入数据,那么该第一输出数据就是该目标输出数据。又如,如果输入数据除了该N个第一输入数据外还包括一个或多个维度不同于第一输入数据的第二输入数据,那么可以根据该第一输出数据,确定该目标输出数据。
该第一关联数据反映了N个第一特征数据之间的关联信息,对第一关联数据中的每一个维度的数据进行权重分配,获得的第一输出数据体现了N个第一特征数据之间的关联关系,实现了多模态数据之间的信息流动,且由于对各个维度的数据进行了权重分配,使得重要特征权重比值较大,次要特征权重比值较小。这样得到的目标输出数据在用于图像分割、情感判断、安全认证、医学诊断、视频鉴别等任务时可以得到更加准确的结果。
在一些可能的设计中,该方法还包括:获取第二输入数据,该第二输入数据的维度与该第一输入数据的维度不同;对该第二输入数据进行特征提取,获得第二特征数据;对该第二特征数据中的每一个维度的数据进行权重分配,获得第二输出数据;对该第一输出数据和该第二输出数据进行融合,获得目标输出数据,该目标输出数据包括该第一输出数据和该第二输出数据之间的关联信息。
可选的,该目标输出数据是对该第一输出数据和该第二输出数据进行融合后得到的数据。
可选的,在对该第一输出数据和该第二输出数据进行融合后,还可以对融合后的数据进行权重分配,重新分配权重后的数据为该目标输出数据。
在一些可能的设计中,该方法还包括:获取L个第二输入数据,该第二输入数据的维度与该第一输入数据的维度不同,该L个第二输入数据分别为L个不同的模态的数据,该L个第二输入数据的维度相同,L为大于或等于2的正整数;对该L个第二输入数据进行特征提取,获得L个第二特征数据;对该L个第二特征数据进行融合,获得第二关联数据,该第二关联数据包括该L个第二特征数据之间的关联信息;对该第二关联数据中的每一个维度的数据进行权重分配,获得第二输出数据;对该第一输出数据和该第二输出数据进行融合,获得目标输出数据,该目标输出数据包括该第一输出数据和该第二输出数据之间的关联信息。
可选的,该目标输出数据是对该第一输出数据和该第二输出数据进行融合后得到的数据。
可选的,在对该第一输出数据和该第二输出数据进行融合后,还可以对融合后的数据进行权重分配,重新分配权重后的数据为该目标输出数据。
在一些可能的设计中,该N个第一输入数据为N个不同来源的图像数据、或N个不同来源的视频数据、或N个不同来源的音频数据,该方法还包括:输入第一输出数据或目标输出数据至深度学习模型,获得预测结果,该预测结果包括以下任意一种:图像分割结果、情感判断结果、安全认证结果、医学诊断结果、视频鉴别结果。
在一些可能的设计中,该对该N个第一特征数据进行融合,获得第一关联数据,具体包括:根据该N个第一特征数据中的第n个第一特征数据以及与该第n个第一特征数据对应的Mn个第一特征数据,确定N个监督结果数据中的第n个监督结果数据,其中该Mn个第一特征数据是该N个第一特征数据中除该第n个第一特征数据以外的N-1个第一特征数据,n=1,…,N;合并该N个监督结果数据,得到该第一关联数据。
第二方面,本申请实施例提供一种数据融合装置,该数据融合装置包括特征融合模块,用于对N个第一特征数据进行融合,获得第一关联数据,该第一关联数据包括该N个第一特征数据之间的关联信息,该N个第一特征数据是对N个第一输入数据进行特征提取后得到的,该N个第一输入数据分别为N个不同的模态的数据,该N个第一数据的维度相同,N为大于或等于2的正整数;特征提纯模块,用于对该第一关联数据中的每一个维度的数据进行权重分配,获得第一输出数据。
可选的,数据融合得到的目标输出数据可以是根据该第一输出数据得到的。例如,如果输入数据只包括该N个第一输入数据,那么该第一输出数据就是该目标输出数据。又如,如果输入数据除了该N个第一输入数据外还包括一个或多个维度不同于第一输入数据的第二输入数据,那么可以根据该第一输出数据,确定该目标输出数据。
该第一关联数据反映了N个第一特征数据之间的关联信息,对第一关联数据中的每一个维度的数据进行权重分配,获得的第一输出数据体现了N个第一特征数据之间的关联关系,实现了多模态数据之间的信息流动,且由于对各个维度的数据进行了权重分配,使得重要特征权重比值较大,次要特征权重比值较小。这样得到的目标输出数据在用于图像分割、情感判断、安全认证、医学诊断、视频鉴别等任务时可以得到更加准确的结果。
在一些可能的设计中,该特征提纯模块,还用于对第二特征数据中的每一个维度的数据进行权重分配,获得第二输出数据,该第二特征数据是对第二输入数据进行特征提取得到的,该第二输入数据的维度与该第一输入数据的维度不同;该特征融合模块,还用于对该第一输出数据和该第二输出数据进行融合,获得目标输出数据,该目标输出数据包括该第一输出数据和该第二输出数据之间的关联信息。
可选的,该目标输出数据是对该第一输出数据和该第二输出数据进行融合后得到的数据。
可选的,在对该第一输出数据和该第二输出数据进行融合后,还可以对融合后的数据进行权重分配,重新分配权重后的数据为该目标输出数据。
在一些可能的设计中,该特征融合模块,还用于对L个第二特征数据进行融合,获得第二关联数据,该第二关联数据包括该L个第二特征数据之间的关联信息,该L个第二特征数据是对L个第二输入数据进行特征提取后得到的,该L个第二输入数据分别为L个不同的模态的数据,该L个第一数据的维度相同,该第二输入数据的维度与该第一输入数据的维度不同,L为大于或等于2的正整数;该特征提纯模块,还用于对该第二关联数据中的每一个维度的数据进行权重分配,获得第二输出数据;该特征融合模块,还用于对该第一输出数据和该第二输出数据进行融合,获得目标输出数据,该目标输出数据包括该第一输出数据和该第二输出数据之间的关联信息。
可选的,该目标输出数据是对该第一输出数据和该第二输出数据进行融合后得到的数据。
可选的,在对该第一输出数据和该第二输出数据进行融合后,还可以对融合后的数据进行权重分配,重新分配权重后的数据为该目标输出数据。
在一些可能的设计中,该N个第一输入数据为N个不同来源的图像数据、或N个不同来源的视频数据、或N个不同来源的音频数据,该装置还包括预测模块,用于将该第一输出数据或目标输出数据输入至深度学习模型,获得预测结果,该预测结果包括以下任意一种:图像分割结果、情感判断结果、安全认证结果、医学诊断结果、视频鉴别结果。
在一些可能的设计中,该特征融合模块,具体用于根据该N个第一特征数据中的第n个第一特征数据以及与该第n个第一特征数据对应的Mn个第一特征数据,确定N个监督结果数据中的第n个监督结果数据,其中该Mn个第一特征数据是该N个第一特征数据中除该第n个第一特征数据以外的N-1个第一特征数据,n=1,…,N;合并该N个监督结果数据,得到该第一关联数据。
第三方面,本申请实施例提供一种计算机设备,包括处理器和存储器。该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该计算机设备执行上述第一方面或第一方面的任一种可能的设计中的方法。
第四方面,本申请实施例提供一种电子装置,该电子装置可以为用于实现上述第一方面方法设计中的计算机设备,或者为设置在计算机设备中的芯片。该电子装置包括:处理器,与存储器耦合,可用于执行存储器中的指令和/或程序代码,以实现上述第一方面的方法设计中任意一种可能的设计中的方法。可选地,该电子装置还包括存储器。可选地,该电子装置还包括通信接口,处理器与通信接口耦合。
当该电子装置为计算机设备时,该通信接口可以是收发器,或,输入/输出接口。
当该电子装置为配置于计算机设备中的芯片时,该通信接口可以是输入/输出接口。
可选地,该收发器可以为收发电路。可选地,该输入/输出接口可以为输入/输出电路。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述第一方面的方法设计中任意一种可能的设计中的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序代码,当所述计算机程序代码被计算设备执行时,所述计算设备执行前述第一方面或第一方面的任意一种可能的设计中提供的方法。该存储介质包括但不限于易失性存储器,例如随机访问存储器,非易失性存储器,例如快闪存储器、硬盘(英文:hard diskdrive,缩写:HDD)、固态硬盘(英文:solid state drive,缩写:SSD)。
附图说明
图1是多模态数据用于深度学习处理的示意性流程图。
图2是多模态数据融合网络的示意性结构框图。
图3是根据申请实施例提供的数据融合的方法的示意性流程图。
图4是根据本申请实施例提供的数据融合的方法的示意性流程图。
图5是根据本申请实施例提供的一种数据融合装置的示意性结构框图。
图6是根据本申请实施例提供的一种计算机设备的示意性结构图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
本申请将围绕可包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是,各个系统可以包括另外的设备、组件、模块等,并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外,还可以使用这些方案的组合。
另外,在本申请实施例中,“示例的”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。
本申请实施例中,“相应的(corresponding,relevant)”和“对应的(corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
本申请实施例中,有时候下标如W1可能会笔误为非下标的形式如W1,在不强调其区别时,其所要表达的含义是一致的。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
深度学习是机器学习的分支,是一种基于对数据进行表征学习的算法。通常采用大量数据通过深度学习方法训练深度学习模型,可以使深度学习模型学习到数据的规律和特点,实现特定的任务(例如,人脸识别或面部表情识别等)。多模态数据用于深度学习处理,以使得训练后的深度学习模型可对多模态数据进行预测或识别在各行各业都有应用需求,下面以医学领域为例,介绍多模态数据用于深度学习处理的示意性流程。
图1是多模态数据用于深度学习处理的示意性流程图。
101,获取电子计算机断层成像(Computed Tomography,CT)数据、脑血流量(Cerebral Blood Flow,CBF)数据和脑血容量(Cerebral Blood Volume,CBV)数据。
该CT数据、该CBF数据以及该CBV数据是来自于同一患者的医学影像数据。CT数据主要反映了人体组织的分辨率,CBF数据跟CBV数据主要反映了血流的信息。
102,对CT数据、CBF数据以及CBV数据进行数据配准,获得配准后的CT数据、CBF数据以及CBV数据。
数据配准是将两个或两个以上坐标系中的数据点集转换到统一坐标系中的过程。以图像数据为例,图像配准是将将一副或多副图像映射到目标图像对应的坐标系中。这样,两幅或多幅图像中对应于空间同一位置的点可以一一对应起来。
103,对配准后的CT数据进行特征提取,得到CT特征数据;对配准后的CBF数据进行特征提取,得到CBF特征数据;对配准后的CBV数据进行特征提取,得到CBV特征数据。
特征提取是把原始数据转化为机器学习算法可以识别的数值特征的过程,例如:图片是由一系列像素点(原始数据)构成的,这些像素点本身无法被机器学习算法直接使用,但是如果将这些像素点转化成矩阵的形式(数值特征),那么机器学习算法就可以使用了,这个将像素点转换为数值矩阵的过程就称为特征提取。
进行特征提取的方法多种多类,且对于不同的原始数据类型可采用不同的特征提取方法。
以CT数据、CBV数据以及CBF数据为例,对图像数据进行特征提取的方法包括局部二值模式(Local Binary Patterns,LBP)、方向梯度直方图(Histogram of OrientedGradient,HOG)、尺度不变特征变换(Scale Invariant Feature Transform,SIFT)等。
以语音数据为例,常见的语音数据的特征提取方法包括线性预测分析(LinearPrediction Coefficients,LPC)、感知线性预测系数(Perceptual Linear Predictive,PLP)、线性预测倒谱系数(Linear Predictive Cepstral Coefficient,LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等。
除此之外,特征提取还可以利用深度学习实现。具体地,特征提取可以利用神经网络,例如卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(recurrentneural networks,RNN)、深度神经网络(deep neural network,DNN)等实现。本申请实施例对特征提取的实现方式并不进行限定。
104,对CT特征数据、CBF特征数据和CBV特征数据进行数据融合,得到多模态融合数据。
105,利用U-net对该多模态融合数据进行处理,得到分割后的数据。
U-Net是卷积神经网络的一种变形。整个U-Net主要由两部分组成:收缩路径(contracting path)和扩展路径(expanding path)。搜索路径主要是用来捕捉图片中的上下文信息(context information),而与之相对称的扩展路径则是为了对图片中所需要分割出来的部分进行精准定位(localization)。
步骤105利用U-net对该多模态融合数据进行处理在不同的阶段进行的处理不同。对于U-net模型的训练阶段,处理包括:利用大量多模态融合数据对初始U-net模型进行训练,以使得训练后的U-net模型学习到多模态融合数据中的规律,可用于对图片中所需要分割出来的部分进行精准定位和分割。若U-net模型已完成了训练,已具备图片分割的能力了,对多模态融合数据进行处理包括利用U-net对多模态融合数据进行预测,获得的预测结果即为图片分割的结果。应理解,在训练阶段和预测阶段,前述步骤101-104的方法步骤为相同的,仅是步骤105的处理方法不同。
图1所示的方法中,CT数据、CBF数据以及CBV数据是三种模态的数据。通过对这三种模态的数据进行融合并分割,使得医生可以更加方便和精确地从各个角度观察病灶和结构。另外,还可以对不同时刻采集的CT数据、CBF数据以及CBV数据进行如图1所示的操作,得到不同时刻的结果。这样可以便于医生分析病灶和器官的变化情况。图1所示的技术方案可以使得医疗诊断、制定手术计划、放射治疗计划等更准确可靠。
图1是以不同来源的图像数据作为输入输入数据,更具体地是以不同的医学影像数据作为输入数据为例对本申请的技术方案进行描述、本领域技术人员可以理解,除了将图像数据作为输入数据外,输入数据也可以是其他数据,例如不同来源的视频数据,或者,不同来源的音频数据,或者,不同来源的视频数据和音频数据等。
例如,在进行情绪判断时,可以通过采集判断对象的视频数据和音频数据,将视频数据和音频数据进行融合,并利用融合后的结果对判断对象的情绪进行判断。这样得到的结果比单纯使用视频数据或音频数据得到的结果更加准确、可靠。
对于各种应用场景,多模态数据的融合在深度学习处理中对于提升后续深度学习处理的准确性都具有重要意义,本申请提供一种对多模态数据进行融合的方法,可充分提取各个模态的数据之间的关联性,且可以对不同维度的数据进行权重分配,使得融合后的数据可更好地体现数据的重要特征,可大大提升后续融合后的数据用于深度学习处理的结果的准确率。
图2是一种多模态数据融合网络的示意性结构框图。如图2所示,多模态数据融合网络200可以包括前特征融合模块201和特征提纯模块202。
假设多模态数据共包括多个输入数据,可以分别对多个输入数据进行特征提取,得到多个特征数据。
输入前特征融合模块201的数据是特征数据。前特征融合模块201用于对维度相同的多个特征数据进行融合,得到关联数据。相同维度的特征数据是指这些特征数据是对维度相同的输入数据进行特征提取得到的。
换句话说,可以根据特征数据的维度对该多个特征数据进行分组。属于同一个特征数据组的多个特征的维度是相同的,属于不同特征数据组的两个特征数据的维度是不同的。
若一个特征数据组中包括多个特征数据,那么该特征数据组中的多个特征数据可以输入到前特征融合模块201。前特征融合模块201可以对该特征数据组包括的多个特征进行融合,得到对应于该特征数据组的关联数据。
例如,假设输入数据共包括数据1、数据2、数据3和数据4,其中数据1至数据4是四个模态的数据。对数据1进行特征提取,得到特征数据1;对数据2进行特征提取,得到特征数据2;对数据3进行特征提取,得到特征数据3;对数据4进行特征提取,得到特征数据4。
假设数据1和数据2是三维数据,数据3和数据4是二维数据,那么特征数据1和特征数据2可以组成一个特征数据组,特征数据3和特征数据4可以组成另一个特征数据组。在此情况下,前特征融合模块201可以对特征数据1和特征数据2进行融合,得到一个关联数据,该关联数据包括特征数据1和特征数据2之间的关联关系;特征融合模块可以对特征数据3和特征数据4进行融合,得到另一个关联数据,该关联数据包括特征数据3和特征数据4的关联关系。
又如,假设数据1、数据2和数据3是三维数据,数据4是二维数据,那么特征数据1、特征数据2和特征数据3可以组成一个特征数据组,特征数据4可以是另一个特征数据组。在此情况下,前特征融合模块201可以对特征数据1、特征数据2和特征数据3进行融合,得到一个关联数据,该关联数据包括特征数据1、特征数据2和特征数据3之间的关联关系。
为了便于描述,以下假设数据1、数据2和数据3是三维数据,数据4是二维数据。换句话说,数据1、数据2和数据3是维度相同的数据,数据4的维度不同于数据1至3中的任一个。为了便于描述,以下将特征数据1、特征数据2和特征数据3可以组成的特征数据组称为特征数据组1,将包括特征数据4的特征数据组称为特征数据组2。
前特征融合模块201在确定了关联数据后,可以将该关联数据输入到特征提纯模块202。
若一个特征数据组中只包括一个特征数据,那么该特征数据组中的一个特征数据可以输入到特征提纯模块202。
换句话说,输入到特征提纯模块202的数据可能包括以下几种情况:1,多个关联数据;2,至少一个关联数据和至少一个特征数据;3、多个特征数据。在输入到特征提纯模块202的数据包括多个特征数据的情况下,该多个特征数据中的任意两个特征数据的维度都是不同的。
特征提纯模块202可以对输入的数据中的每个维度的数据进行权重分配,得到输出数据。
下面分别对前特征融合模块201和特征提纯模块202进行介绍。
前特征融合模块201
前特征融合模块201可以通过互注意力模块(Inter-Attention,IA)模块实现相同维度的多个特征数据的融合。
IA模块可以对多个特征数据进行互监督处理流程,分别得到对该多个特征数据中的每个特征数据的监督结果数据,将监督结果数据合并,得到融合后的数据(即关联数据),获得的关联数据可以包含多个不同模特数据之间的关联性,使得各个模态的数据在用于后续深度学习处理时,被融合后的多模态数据进行训练后的深度学习模型可以学习到多模态数据之间的关联性,更好地进行深度学习预测。
例如,IA模块获取了N个第一特征数据,N为大于或等于2的正整数。该N个第一特征数据是对N个第一输入数据进行特征提取得到的。该N个第一输入数据分别为N个不同模态的数据,该N个第一输入数据的维度相同。
IA模块可以确定该N个第一特征数据中的第n个第一特征数据为参考数据,确定该N个第一特征数据中除第n个第一特征数据以外的第一特征数据为对应于第n个第一特征数据的监督数据。
换句话说,该N个第一特征数据可以分为N组数据,该N组数据中的第n组数据中的参考数据为该N个第一特征数据中的第n个第一特征数据。该N组数据中的第n组数据中的监督数据为该N个第一特征数据中除第n个第一特征数据以外的第一特征数据,n等于1,…,N。
例如,假设数据1、数据2和数据3是三维数据,对这三个数据进行特征提取得到的特征数据分别为特征数据1、特征数据2和特征数据3。那么,这三个特征数据可以划分为三组数据。在三组数据中的第一组数据中,特征数据1为参考数据,特征数据2和特征数据3为监督数据;在第二组数据中,特征数据2为参考数据,特征数据1和特征数据3为监督数据;在第三组数据中,特征数据3为参考数据,特征数据1和特征数据2为监督数据。
IA模块可以根据第一权重参数对Mn个特征数据进行处理。Mn个特征数据是该N个特征数据中第n个特征数据为参考数据时的N-1个特征数据,n等于1,…,N,M1=M2=…=Mn=M=N-1。为了便于描述,以下称Mn个特征数据是与第n个特征数据对应的特征数据。Mn个特征数据是N个特征数据中除第n个特征数据以外的N-1个特征数据。
该第一权重参数是根据输入到IA模块的N个特征数据和第一权重参数模型确定的。该第一权重参数模型是采用监督学习(supervised learning)的方式确定的。用于监督学习的训练数据可以包括多个训练参数组,该多个训练参数组中的每个训练参数组由[参数,标签]组成。用于训练该第一权重参数模型的训练参数组中的参数可以是输入到IA模块的数据,对应的标签是与该数据对应的权重。
用于确定该第一权重参数模型的机器学习算法可以是决策树(decision tree,DT)、随机森林(random forest,RF)、逻辑回归(logistic regression,LR)、支持向量机(support vector machine,SVM)、卷积神经网络(convolutional neural network,CNN)、循环神经网络(rucurrent neural network,RNN)等中的任一个。
例如,假设权重的初始化值为[1,1,1],输入的参数为[4,5,6]的标签是1(正样本)。输出为1×4+1×5+1×6=15,假设在这个模型中,输出大于16是正样本,小于或等于16的是负样本。现在输出的结果(即15)是负样本。在此情况下,需要更改[1,1,1]这个权重,通过这样不断输入数据,最终会得到一个能最好地区分数据的第一权重参数模型。
可选的,在一些实施例中,该第一权重参数可以包括N组权重值。该N组权重值中的每组权重值包括M个权重值。该N组权重值与该N个特征数据一一对应。该N组权重值中的第n组权重值对应于该N个特征数据中的第n个特征数据。该N组权重值中的第n组权重值用于处理与第n个特征数据对应的监督数据(即Mn个特征数据)。根据该第一权重参数对该Mn个特征数据进行处理可以包括:使用第n组权重值中的第m个权重值对该Mn个特征数据中的第m个特征数据进行处理,m=1,…,M。换句话说,该第n组权重值包括M个权重值,该M个权重值和该Mn个特征数据一一对应。根据该第一权重参数对该Mn个特征数据进行处理可以包括使用第一权重参数中的第n组权重值中的每个权重值对对应的特征数据进行处理。
可选的,使用第m个权重值对第m个特征数据进行处理的方式可以是将第m个权重值与该第m个特征数据中的每个元素相乘。例如,假设M1表示与数据a对应的M个特征数据中的一个特征数据,wa表示在参考数据为数据a的情况下特征数据M1的权重值。
假设参考数据从数据a变为数据b,且M1是与数据b对应的M个特征数据中的一个,wb表示在参考数据为数据b的情况下特征数据M1的权重值。在此情况下使用wb对特征数据M1进行处理后得到的数据为wb不等于wa。
可选的,在另一些实施例中,该第一权重参数可以包括N组权重值,该N组权重值中的每组权重值包括M个权重值集合。该N组权重值与该N个数据一一对应。该N组权重值中的第n组权重值对应于该N个数据中的第n个数据。该N组权重值中的第n组权重值用于处理与第n个数据对应的特征数据(即Mn个特征数据)。该M个权重值集合中的每个权重值集合包括的k个权重值,k为大于或等于2的正整数。该N个数据中的每个特征数据包括k个元素。第n组权重值中的M个权重值集合与Mn个特征数据一一对应。根据该第一权重参数对该Mn个特征数据进行处理可以包括:使用第n组权重值中的第m个权重值集合对该Mn个特征数据中的第m个特征数据进行处理,m=1,…,M。换句话说,该第n组权重值包括M个权重值集合,该M个权重值集合和该Mn个特征数据一一对应。根据该第一权重参数对该Mn个特征数据进行处理可以包括使用第一权重参数中的第n组权重值中的每个权重值集合对对应的特征数据进行处理。
可选的,该第m个权重值集合包括的k个权重值与第m个特征数据包括的k个元素一一对应。使用第m个权重值集合对第m个特征数据进行处理的方式可以是将第m个权重值集合中的k个权重值与该第m个特征数据中的对应元素相乘。例如,假设M1表示与数据a对应的M个特征数据中的一个特征数据,wa表示在参考数据为数据a的情况下特征数据M1的权重值。
假设参考数据从数据a变为数据b,且M1是与数据b对应的M个特征数据中的一个,wb表示在参考数据为数据b的情况下特征数据M1的权重值。
IA模块使用该第一权重参数对Mn个特征数据进行处理后得到的数据可以称为第一中间数据。
IA模块202可以使用该M个第一中间数据对参考信号进行处理,得到一个监督结果数据。
假设该M个第一中间数据中的每个第一中间数据包括k×k个元素,该参考信号包括k×k个元素。使用该M个第一中间数据对参考信号进行处理,可以得到一个监督结果数据,该监督结果数据包括k×k个元素,该监督结果数据中的k×k个元素是个M个第一中间数据中的k×k个元素和该参考信号中的k×k个元素相乘后得到的结果。
下面以特征数据组1为例对IA模块如何处理特征数据组1中的三个特征数据进行描述。
首先,以特征数据1作为参考数据,以特征数据2和特征数据3作为监督数据,得到监督结果数据1。
具体地,根据特征数据1、特征数据2和特征数据3,确定第一权重参数。根据该第一权重参数中与特征数据2对应的一个(或一组)权重参数和特征数据2,确定第一中间数据2;根据该第一权重参数中与特征数据3对应的一个(或一组)权重参数和特征数据3,确定第一中间数据3。将该特征数据1、第一中间数据2和第一中间数据3中每个元素进行相乘,得到监督结果数据1。
根据权重参数和特征数据得到第一中间数据的具体实现方式,以及根据特征数据和第一中间数据得到监督结果数据的具体实现方式可以参见以上描述,为了简洁,在此就不再赘述。
然后,以特征数据2作为参考数据,以特征数据1和特征数据3作为监督数据,得到监督结果数据2。然后,以特征数据3作为参考数据,以特征数据1和特征数据3作为监督数据,得到监督结果数据3。
确定监督结果数据2和监督结果数据3的具体实现方式与确定监督结果数据1的具体实现方式类似,为了简洁,在此就不再赘述。
最后,将监督结果数据1、监督结果数据2和监督结果数据3组合,得到第一关联数据。
假设监督结果数据1至监督结果数据3为3个5×5的数据,那么第一关联数据是一个5×5×3的数据,其中5×5×3的数据中的第一个5×5的数据为该监督结果数据1,第二个5×5的数据为该监督结果数据2,第三个5×5的数据为该监督结果数据3。
IA模块可以使得相同维度下的多模态数据进行融合。在融合过程中充分利用了不同模态数据之间的信息。例如,监督结果数据1是利用特征数据2和特征数据3对特征数据1进行监督得到的,监督结果数据1反映了特征数据1相对于特征数据2和特征数据3的关联关系;类似的,监督结果数据2是利用特征数据1和特征数据3对特征数据2进行监督得到的,监督结果数据2反映了特征数据2相对于特征数据1和特征数据3的关联关系;监督结果数据3是利用特征数据1和特征数据2对特征数据3进行监督得到的,监督结果数据3反映了特征数据3相对于特征数据1和特征数据2的关联关系。监督结果数据1、监督结果数据2和监督结果数据3组合得到的第一关联数据反映了特征数据1、特征数据2和特征数据3之间的关联关系。
IA模块得到的第一关联数据可以输入到特征提纯模块模块202。
特征提纯模块202
特征提纯模块可以使用第二权重数据对输入到特征提纯模块的数据进行处理,得到重新分配权重后的数据。特征提纯模块可以利用通用压缩激励(Generalized Squeeze-and-Excitation,GSE)模块对输入的数据进行权重重新分配处理。为了便于描述,以下可以称经过特征提纯模块进行重新分配权重后的数据为GSE输出数据,称输入到特征提纯模块的数据为GSE输入数据。GSE模块通过对输入数据中的各个维度进行权重的分配,可以使得输出的数据中较为重要的维度的数据的权重较高,较为次要的数据的权重较低。
该第二权重参数是根据输入到GSE模块的数据和第二权重参数模型确定的。该第二权重参数模型是采用监督学习(supervised learning)的方式确定的。用于监督学习的训练数据可以包括多个训练参数组,该多个训练参数组中的每个训练参数组由[参数,标签]组成。用于训练该第一权重参数模型的训练参数组中的参数可以是输入到GSE模块的数据,对应的标签是与该数据对应的权重。
用于确定该第二权重参数模型的机器学习算法可以是决策树(decision tree,DT)、随机森林(random forest,RF)、逻辑回归(logistic regression,LR)、支持向量机(support vector machine,SVM)、卷积神经网络(convolutional neural network,CNN)、循环神经网络(rucurrent neural network,RNN)等中的任一个。
可选的,在一些实施例中,该第二权重参数可以包括P权重值。根据该第二权重参数对GSE输入数据处理可以包括:根据该P个权重值中的第p个权重值对该GSE输入数据包括的P个元素中的第p个元素进行处理,p=1,…,P。换句话说,该第二权重参数包括P个权重值,该GSE输入数据包括的P个元素,该P个权重值和该P个元素一一对应。根据该第二权重参数对该GSE输入数据进行处理可以包括使用该P个权重值中的每个权重值对对应的元素进行处理。
可选的,使用第p个权重值对第p个元素进行处理的方式可以是将第p个权重值与该第p个元素相乘。
可选的,在另一些实施例中,该第二权重参数可以包括P组权重值,该P组权重值中的每组权重值包括的q×q个权重值,q为大于或等于2的正整数。该GSE输入数据可以分为P组数据,每组数据包括q×q的元素。例如,该GSE输入数据是IA模块输出的第一关联数据。该第一关联数据是由N个监督结果数据组成的,那么该GSE输入数据可以分为N组数据,该N组数据中的每组数据是一个监督结果数据,N等于P。根据该第二权重参数对该GSE输入数据进行处理可以包括:根据该P组权重值中的第p组权重值对该P组数据中的第p组数据进行处理,p=1,…,P。换句话说,该第二权重参数包括P组权重值,该P组权重值和该P组数据一一对应。根据该第二权重参数对该GSE输入数据进行处理可以包括使用该P组权重值中的每组权重值对对应的一组数据进行处理。
可选的,该第p组权重值包括的q×q个权重值与第p组数据包括的q×q个元素一一对应。使用第p组权重值对第p组数据进行处理的方式可以是将第p组权重值与该第p组数据中的每个对应元素相乘。例如,假设L1表示该P组数据中的一组数据,wb表示对应于该组数据的权重值。
若输入到多模态数据融合网络200中的数据的维度相同(即输入到多模态数据融合网络200的数据提取特征后属于同一个特征数据组),那么进过GSE模块得到的GSE输出数据就是该多模态数据融合网络融合后的数据。在此情况下,该GSE输出数据(即该多模态数据融合网络融合后的数据)可以称为目标输出数据。
例如,若输入到多模态数据融合网络200中的数据仅包括数据1、数据2和数据3,且特征数据1、特征数据2和特征数据3的维度相同。那么特征数据1、特征数据2和特征数据3经过前特征融合模块201和特征提纯模块202输出的GSE输出数据就是该多模态数据融合网络200确定的融合后的数据(即目标输出数据)。
若输入到多模态数据融合网络200中的数据包括多个维度的数据。那么多个维度的数据在经过特征提纯模块202处理后,可以在输入到后特征融合模块203中。后特征融合模块203对输入到后特征融合模块203的数据的处理方式与前特征融合模块201对输入到前特征融合模块201的数据的处理方式相同,为了简洁,在此就不再赘述。
例如,假设特征数据1、特征数据2和特征数据3是三维数据,特征数据4是二维数据。那么特征数据1、特征数据2和特征数据3可以经过前特征融合模块201和特征提纯模块202输出的一个GSE输出数据(可以为GSE输出数据1)。特征数据4可以经过特征提纯模块202输出一个GSE输出数据(可以称为GSE输出数据2)。GSE输出数据1和GSE输出数据2可以作为两个输入数据输入到后特征融合模块203中。后特征融合模块203对这两个输入数据进行互监督处理流程,得到两个监督结果数据,然后将这两个监督结果数据进行合并,得到一个第一关联数据。
可选的,在一些实施例中,后特征融合模块203对特征提纯模块202输出的数据进行处理后得到的第一关联数据可以作为融合后的数据。
可选的,在另一些实施例中,后特征融合模块203对特征提纯模块202输出的数据进行处理后得到的第一关联数据可以再次输入到特征提纯模块204中。特征提纯模块204可以对该数据进行处理,得到的输出数据可以作为融合后的数据。特征提纯模块204对输入到特征提纯模块204的数据的处理方式与特征提纯模块202对输入到特征提纯模块202的数据的处理方式相同,为了简洁,在此就不再赘述。
图3是根据申请实施例提供的数据融合的方法的示意性流程图。
如图3所示,输入到多模态数据融合网络中的数据包括数据1、数据2、数据3和数据4,其中数据1至数据4是四个模态的数据。假设数据1至数据3为三维数据,数据4为二维数据。
数据1至数据4分别输入到特征提取模块301。特征提取模块301分别对数据1至数据4进行特征提取,得到特征数据1至特征数据4。
特征数据1至特征数据3输入到前特征融合模块302。前特征融合模块302根据特征数据1至特征数据3得到输出数据1并输出该输出数据1。
输出数据1输入到特征提纯模块303。特征提纯模块303根据该输出数据1得到输出数据2并输出该输出数据2。
特征数据4输入到特征提纯模块304,特征提纯模块304根据特征数据4得到输出数据3并输出该输出数据3。
输出数据2和输出数据3输入后特征融合模块305。后特征融合模块305根据输出数据2和输出数据3得到输出数据4。
可选的,在一些实施例中,输出数据4可以直接用于执行目标任务,得到预测结果。该目标任务可以是图像分割、情感判断、安全认证、医学诊断、视频鉴别等操作。相应的,预测结果可以是图像分割结果、情感判断结果、安全认证结果、医学诊断结果、视频鉴别结果。
可选的,在另一些实施例中,输出数据4还可以输入到特征提纯模块306。特征提纯模块306根据输出数据4得到输出数据5。输出数据5作为用于执行目标任务。
图3中的特征提取模块301、前特征融合模块302、特征提纯模块303、特征提纯模块304、后特征融合模块305和特征提纯模块306的具体功能可以参考图2所示的方法,在此就不再赘述。
图4是根据本申请实施例提供的数据融合的方法的示意性流程图。
401,获取N个第一输入数据,其中,该N个第一输入数据分别为N个不同的模态的数据,该N个第一输入数据的维度相同,N为大于或等于2的正整数。
402,对该N个第一输入数据进行特征提取,获得N个第一特征数据。
403,对该N个第一特征数据进行融合,获得第一关联数据,该第一关联数据包括该N个第一特征数据之间的关联信息。
404,对该第一关联数据中的每一个维度的数据进行权重分配,获得第一输出数据。
可选的,在一些实施例中,该方法还包括:获取第二输入数据,该第二输入数据的维度与该第一输入数据的维度不同;对该第二输入数据进行特征提取,获得第二特征数据;对该第二特征数据中的每一个维度的数据进行权重分配,获得第二输出数据;对该第一输出数据和该第二输出数据进行融合,获得目标输出数据,该目标输出数据包括该第一输出数据和该第二输出数据之间的关联信息。
可选的,在另一些实施例中,该方法还包括:获取L个第二输入数据,该第二输入数据的维度与该第一输入数据的维度不同,该L个第二输入数据分别为L个不同的模态的数据,该L个第二输入数据的维度相同,L为大于或等于2的正整数;对该L个第二输入数据进行特征提取,获得L个第二特征数据;对该L个第二特征数据进行融合,获得第二关联数据,该第二关联数据包括该L个第二特征数据之间的关联信息;对该第二关联数据中的每一个维度的数据进行权重分配,获得第二输出数据;对该第一输出数据和该第二输出数据进行融合,获得目标输出数据,该目标输出数据包括该第一输出数据和该第二输出数据之间的关联信息。
可选的,在一些实施例中,该N个第一输入数据为N个不同来源的图像数据、或N个不同来源的视频数据、或N个不同来源的音频数据,该方法还包括:输入该第一输出数据至深度学习模型,获得预测结果,该预测结果包括以下任意一种:图像分割结果、情感判断结果、安全认证结果、医学诊断结果、视频鉴别结果。
可选的,在一些实施例中,该对该N个第一特征数据进行融合,获得第一关联数据,具体包括:根据该N个第一特征数据中的第n个第一特征数据以及与该第n个第一特征数据对应的Mn个第一特征数据,确定N个监督结果数据中的第n个监督结果数据,其中该Mn个第一特征数据是该N个第一特征数据中除该第n个第一特征数据以外的N-1个第一特征数据,n=1,…,N;合并该N个监督结果数据,得到该第一关联数据。
图4所示方法的各个步骤的具体实现方式可以参见图2和图3所示方法的描述,为了简洁,在此就不必赘述。
图5是根据本申请实施例提供的一种数据融合装置的示意性结构框图。如图5所示,数据融合装置500可以包括特征融合模块501和特征提纯模块502。数据融合装置500可以是一个软件系统或硬件设备,当数据融合装置500为软件系统时,其可以部署在云环境(例如:部署在云环境中的服务器中)、边缘环境(例如:部署在边缘环境中的边缘计算设备中)或者终端计算设备中。当数据融合装置500为软件系统时,其也可以分布式地部署在云环境、边缘环境或者终端计算设备中的任意两个或三个中。
特征融合模块501可以用于对输入的数据进行融合,得到关联数据。例如,特征融合模块501可以用于对N个第一特征数据进行融合,获得第一关联数据,该第一关联数据包括该N个第一特征数据之间的关联信息。
特征提纯模块502可以用于对输入的数据进行权重分配,获得输出数据。例如,特征提纯模块502可以用于对特征融合模块501输出的第一关联数据中的每个维度的数据进行权重重分配,获得第一输出数据。
可选的,在一些实施例中,数据融合装置500中还可以包括特征提取模块503。特征提取模块503用于对输入数据进行特征提取,得到特征数据。例如,特征提取模块503用于对获取到的N个第一输入数据进行特征提取,得到N个第一特征数据。特征融合模块501的输入数据就是特征提取模块503的输出数据。
可选的,在另一些实施例中,输入数据的特征提取可以由其他装置或设备执行。换句话说,特征融合模块501获取到的特征数据是由其他设备或装置提取的。
特征融合模块501和特征提纯模块502的具体功能和有益效果可以参见图2至图4中的描述,为了简洁,在此就不必赘述。
可选的,在一些实施例中,数据融合装置500中还可以包括预测模块。该预测模块用于将目标输出数据输入至深度学习模型,获得预测结果。
可选的,在另一些实施例,利用目标输出数据确定预测结果的可以是另一个装置或设备。数据融合装置500确定的目标输出数据可以发送至该装置或设备。该装置或设备可以利用该目标输出数据,获得预测结果。
本申请实施例还提供一种计算机设备,该计算机设备可以是个人电脑、服务器、笔记本电脑、平板电脑等设备。该计算机设备结构如图6。如图6所示的计算机设备600包括处理器601和存储器602。处理器601与存储器602耦合。存储器602用于存储用于实现上述方法的指令和/或程序代码。处理器601执行存储器602中的指令和/或程序代码,使得所述计算机设备执行如图4所示的方法。
应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请实施例还提供一种计算机设备中的芯片、电路或者系统级芯片(System onChip,SOC)。
本申请实施例中的芯片可以是编程门阵列(field programmable gate array,FPGA),可以是专用集成芯片(application specific integrated circuit,ASIC),还可以是系统芯片(system on chip,SoC),还可以是中央处理器(central processor unit,CPU),还可以是网络处理器(network processor,NP),还可以是数字信号处理电路(digital signal processor,DSP),还可以是微控制器(micro controller unit,MCU),还可以是可编程控制器(programmable logic device,PLD)、其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,或其他集成芯片。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
根据本申请实施例提供的方法,本申请还提供一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行图4所示实施例的方法。
根据本申请实施例提供的方法,本申请还提供一种计算机可读存储介质,该计算机可读存储介质存储有程序代码,当该程序代码在计算机上运行时,使得该计算机执行图4所示实施例的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种数据融合的方法,其特征在于,所述方法包括:
获取N个第一输入数据,其中,所述N个第一输入数据分别为N个不同的模态的数据,所述N个第一输入数据的维度相同,N为大于或等于2的正整数;
对所述N个第一输入数据进行特征提取,获得N个第一特征数据;
对所述N个第一特征数据进行融合,获得第一关联数据,所述第一关联数据包括所述N个第一特征数据之间的关联信息;
对所述第一关联数据中的每一个维度的数据进行权重分配,获得第一输出数据。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二输入数据,所述第二输入数据的维度与所述第一输入数据的维度不同;
对所述第二输入数据进行特征提取,获得第二特征数据;
对所述第二特征数据中的每一个维度的数据进行权重分配,获得第二输出数据;
对所述第一输出数据和所述第二输出数据进行融合,获得目标输出数据,所述目标输出数据包括所述第一输出数据和所述第二输出数据之间的关联信息。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取L个第二输入数据,所述第二输入数据的维度与所述第一输入数据的维度不同,所述L个第二输入数据分别为L个不同的模态的数据,所述L个第二输入数据的维度相同,L为大于或等于2的正整数;
对所述L个第二输入数据进行特征提取,获得L个第二特征数据;
对所述L个第二特征数据进行融合,获得第二关联数据,所述第二关联数据包括所述L个第二特征数据之间的关联信息;
对所述第二关联数据中的每一个维度的数据进行权重分配,获得第二输出数据;
对所述第一输出数据和所述第二输出数据进行融合,获得目标输出数据,所述目标输出数据包括所述第一输出数据和所述第二输出数据之间的关联信息。
4.如权利要求1至3中任一项所述的方法,其特征在于,所述N个第一输入数据为N个不同来源的图像数据、或N个不同来源的视频数据、或N个不同来源的音频数据,所述方法还包括:
输入所述第一输出数据或目标输出数据至深度学习模型,获得预测结果,所述预测结果包括以下任意一种:图像分割结果、情感判断结果、安全认证结果、医学诊断结果、视频鉴别结果。
5.如权利要求1至4中任一项所述的方法,其特征在于,所述对所述N个第一特征数据进行融合,获得第一关联数据,具体包括:
根据所述N个第一特征数据中的第n个第一特征数据以及与所述第n个第一特征数据对应的Mn个第一特征数据,确定N个监督结果数据中的第n个监督结果数据,其中所述Mn个第一特征数据是所述N个第一特征数据中除所述第n个第一特征数据以外的N-1个第一特征数据,n=1,…,N;
合并所述N个监督结果数据,得到所述第一关联数据。
6.一种数据融合装置,其特征在于,包括
特征融合模块,用于对N个第一特征数据进行融合,获得第一关联数据,所述第一关联数据包括所述N个第一特征数据之间的关联信息,所述N个第一特征数据是对N个第一输入数据进行特征提取后得到的,所述N个第一输入数据分别为N个不同的模态的数据,所述N个第一数据的维度相同,N为大于或等于2的正整数;
特征提纯模块,用于对所述第一关联数据中的每一个维度的数据进行权重分配,获得第一输出数据。
7.如权利要求6所述的装置,其特征在于,所述特征提纯模块,还用于对第二特征数据中的每一个维度的数据进行权重分配,获得第二输出数据,所述第二特征数据是对第二输入数据进行特征提取得到的,所述第二输入数据的维度与所述第一输入数据的维度不同;
所述特征融合模块,还用于对所述第一输出数据和所述第二输出数据进行融合,获得目标输出数据,所述目标输出数据包括所述第一输出数据和所述第二输出数据之间的关联信息。
8.如权利要求6所述的装置,其特征在于,所述特征融合模块,还用于对L个第二特征数据进行融合,获得第二关联数据,所述第二关联数据包括所述L个第二特征数据之间的关联信息,所述L个第二特征数据是对L个第二输入数据进行特征提取后得到的,所述L个第二输入数据分别为L个不同的模态的数据,所述L个第一数据的维度相同,所述第二输入数据的维度与所述第一输入数据的维度不同,L为大于或等于2的正整数;
所述特征提纯模块,还用于对所述第二关联数据中的每一个维度的数据进行权重分配,获得第二输出数据;
所述特征融合模块,还用于对所述第一输出数据和所述第二输出数据进行融合,获得目标输出数据,所述目标输出数据包括所述第一输出数据和所述第二输出数据之间的关联信息。
9.如权利要求6至8中任一项所述的装置,其特征在于,所述N个第一输入数据为N个不同来源的图像数据、或N个不同来源的视频数据、或N个不同来源的音频数据,所述装置还包括预测模块,用于将所述第一输出数据或目标输出数据输入至深度学习模型,获得预测结果,所述预测结果包括以下任意一种:图像分割结果、情感判断结果、安全认证结果、医学诊断结果、视频鉴别结果。
10.如权利要求6至9中任一项所述的装置,其特征在于,所述特征融合模块,具体用于根据所述N个第一特征数据中的第n个第一特征数据以及与所述第n个第一特征数据对应的Mn个第一特征数据,确定N个监督结果数据中的第n个监督结果数据,其中所述Mn个第一特征数据是所述N个第一特征数据中除所述第n个第一特征数据以外的N-1个第一特征数据,n=1,…,N;合并所述N个监督结果数据,得到所述第一关联数据。
11.一种计算机设备,其特征在于,包括:处理器,所述处理器用于与存储器耦合,读取并执行所述存储器中的指令和/或程序代码,以执行如权利要求1-5中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911008258.5A CN112699907B (zh) | 2019-10-22 | 2019-10-22 | 数据融合的方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911008258.5A CN112699907B (zh) | 2019-10-22 | 2019-10-22 | 数据融合的方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699907A true CN112699907A (zh) | 2021-04-23 |
CN112699907B CN112699907B (zh) | 2024-02-09 |
Family
ID=75504979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911008258.5A Active CN112699907B (zh) | 2019-10-22 | 2019-10-22 | 数据融合的方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699907B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963200A (zh) * | 2021-10-18 | 2022-01-21 | 郑州大学 | 模态数据融合处理方法、装置、设备及存储介质 |
WO2024066038A1 (zh) * | 2022-09-27 | 2024-04-04 | 深圳先进技术研究院 | 一种基于多模态数据集成的建筑工人实时安全监控方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778441A (zh) * | 2015-01-07 | 2015-07-15 | 深圳市唯特视科技有限公司 | 融合灰度信息和深度信息的多模态人脸识别装置及方法 |
CN109460737A (zh) * | 2018-11-13 | 2019-03-12 | 四川大学 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
CN109902702A (zh) * | 2018-07-26 | 2019-06-18 | 华为技术有限公司 | 目标检测的方法和装置 |
CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及系统 |
-
2019
- 2019-10-22 CN CN201911008258.5A patent/CN112699907B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778441A (zh) * | 2015-01-07 | 2015-07-15 | 深圳市唯特视科技有限公司 | 融合灰度信息和深度信息的多模态人脸识别装置及方法 |
CN109902702A (zh) * | 2018-07-26 | 2019-06-18 | 华为技术有限公司 | 目标检测的方法和装置 |
CN109460737A (zh) * | 2018-11-13 | 2019-03-12 | 四川大学 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及系统 |
Non-Patent Citations (1)
Title |
---|
孙俊: "光谱技术在农作物/农产品信息无损检测中的应用", 《东南大学出版社》, pages: 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963200A (zh) * | 2021-10-18 | 2022-01-21 | 郑州大学 | 模态数据融合处理方法、装置、设备及存储介质 |
WO2024066038A1 (zh) * | 2022-09-27 | 2024-04-04 | 深圳先进技术研究院 | 一种基于多模态数据集成的建筑工人实时安全监控方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112699907B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10482603B1 (en) | Medical image segmentation using an integrated edge guidance module and object segmentation network | |
JP7143008B2 (ja) | 深層学習に基づく医用画像検出方法及び装置、電子機器及びコンピュータプログラム | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
CN107944020B (zh) | 人脸图像查找方法及装置、计算机装置和存储介质 | |
Bhanu et al. | Deep learning for biometrics | |
Hoang Ngan Le et al. | Robust hand detection and classification in vehicles and in the wild | |
CN107958230B (zh) | 人脸表情识别方法及装置 | |
CN109559300A (zh) | 图像处理方法、电子设备及计算机可读存储介质 | |
US11514315B2 (en) | Deep neural network training method and apparatus, and computer device | |
Fareed et al. | ADD-Net: an effective deep learning model for early detection of Alzheimer disease in MRI scans | |
CN115034315B (zh) | 基于人工智能的业务处理方法、装置、计算机设备及介质 | |
Gao et al. | BLNN: Multiscale Feature Fusion‐Based Bilinear Fine‐Grained Convolutional Neural Network for Image Classification of Wood Knot Defects | |
WO2023108873A1 (zh) | 一种脑网络和脑成瘾连接计算方法及装置 | |
CN112699907B (zh) | 数据融合的方法、装置和设备 | |
Shahroudnejad et al. | TUN-Det: a novel network for thyroid ultrasound nodule detection | |
Ishikawa et al. | Audio-visual hybrid approach for filling mass estimation | |
Fekri-Ershad et al. | Cell phenotype classification based on joint of texture information and multilayer feature extraction in DenseNet | |
CN110889290B (zh) | 文本编码方法和设备、文本编码有效性检验方法和设备 | |
CN112801940A (zh) | 模型评测方法、装置、设备及介质 | |
Vasanthselvakumar et al. | Automatic detection and classification of chronic kidney diseases using CNN architecture | |
Mursalin et al. | EpNet: A deep neural network for ear detection in 3D point clouds | |
Adegun et al. | Deep convolutional network-based framework for melanoma lesion detection and segmentation | |
CN115841605A (zh) | 目标检测网络训练与目标检测方法、电子设备、存储介质 | |
Wang et al. | A fixed-point rotation-based feature selection method for micro-expression recognition | |
CN116258190A (zh) | 一种量化方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220216 Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province Applicant after: Huawei Cloud Computing Technologies Co.,Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Applicant before: HUAWEI TECHNOLOGIES Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |