CN113361559B

CN113361559B - 基于深宽度联合神经网络的多模态数据知识信息提取方法

Info

Publication number: CN113361559B
Application number: CN202110278271.3A
Authority: CN
Inventors: 刘雨晨; 余志文; 杨楷翔; 施一帆; 陈俊龙
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2023-10-17
Anticipated expiration: 2041-03-12
Also published as: CN113361559A

Abstract

本发明公开了一种基于深宽度联合神经网络的多模态数据知识信息提取方法，包括步骤：1)收集智能制造工厂生产所产生的多模态数据，进行数据清洗预处理后存储至Hadoop分布式文件系统中；2)将存储在HDFS中的原始数据日志记录按模态性质进行细分建表，分别将多模态数据处理成单模态数据特征，包括语音，文本，图像等单模态数据特征表等并存储到HIVE数据库中；3)利用深宽度联合网络对多模态数据特征表进行特征提取，得到对应的高层抽象特征知识，从而实现深宽度联合网络对多模态数据知识信息的提取。

Description

基于深宽度联合神经网络的多模态数据知识信息提取方法

技术领域

本发明涉及深度学习，宽度学习及多模态数据特征提取等技术领域，尤其是指一种基于深宽度联合神经网络的多模态数据知识信息提取方法。

背景技术

互联网技术高速发展，数字化产业链不断深入变革，大数据时代应运而生。云计算、人工智能等技术飞速增长，建立起了以大数据为核心的数字生态社会。来自于现实世界各方面的多模态数据，在现有的技术水平下很难得到有效分析。海量数据带来的处理难度也大大提高。为了解决这些问题，亟待采用一种全新的数据分析处理手段。运用最新AI技术融合来高效有效的处理多模态数据，同时提供更灵活的个性化服务，洞察分析跨模态数据的语义信息，最大程度发挥大数据价值，多模态数据的潜在价值将被真正激活。

当前，用于多模态数据的知识特征提取方法主要采用机器学习或者深度学习的方法来实现处理和理解多源模态信息的能力，但现有方法往往无法自适应实现多个模态数据特征间的有效融合(李慧芳,赵蕾蕾,胡光政.一种基于多模态融合深度学习的智能故障诊断方法,2018.)(仲崇亮.一种基于卷积神经网络的多模态特征融合方法及装置,2019.)。多模态学习历经多个发展阶段目前已经全面步入使用深度学习作为知识提取的主要手段，但传统深度学习方法耗时费力，尤其是应用在多模态数据领域中往往需要强大的计算资源，很难满足工业学术界的需要。然而近期提出的宽度学习为我们提供了另外一种快速有效的学习方法，宽度学习可以在不失准确率的基础上达到快速训练模型的目的；而深度学习可以通过多层神经网络，通过有监督信息的反向更新权重来提取到更具区分与代表性的特征。如何结合深度学习提取特征的强大能力与宽度学习快速训练的高效率，来设计一种新的用于提取多模态数据特征的有效方法成为了一个关键问题。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于深宽度联合神经网络的多模态数据知识信息提取方法，首先收集多模态数据进行清洗过滤预处理等；得到处理后的样本后将其存储至Hadoop分布式文件系统中并按各个模态数据性质进行细分建立特征表；对每个单模态数据建立不同层次的深度降噪自编码机，利用隐藏层学习得到的抽象低维特征来重构输入数据；在上层利用辅助桥接优化层根据特定的损失函数进行进一步优化；最后利用最上层的宽度网络对多模态数据样本进行预测。充分发挥了深度学习在提取模态数据特征中自主学习高层抽象代表性特征的优势以及宽度学习快速训练模型参数达到模型快速更新的能力以适应工业界的需要，从而提高了多模态数据领域特征提取的有效性以及时效性。

本发明至少通过如下技术方案之一实现。

基于深宽度联合神经网络的多模态数据知识信息提取方法，包括以下步骤：

1)收集人员对智能制造工厂所产生的多模态数据，对数据进行预处理，将处理后的数据样本进行存储；

2)对原始多模态数据进行细分建表，分别将多模态数据处理成单模态数据特征表；

3)利用深宽度联合网络对多模态数据特征表进行特征提取，得到对应的高层抽象特征知识，从而实现对多模态数据知识信息的提取。

优选的，在步骤1)中，收集智能制造工厂系统在日常流水线中产生的多模态数据日志并进行数据清洗过滤处理，将处理后的数据样本加载到以Kafka 为基础实现的分布式消息系统中，并将数据存储到Hadoop分布式文件系统的存储模块中。

优选的，在步骤2)中，存储到分布式文件系统中的原始多模态数据每一行包括各种模态的数据记录，将原始数据按照模态性质进行细分建表，分别将多模态数据处理成包括语音、文本、图像的单模态数据特征表，并存储到HIVE 数据库中。

优选的，步骤3)具体包括以下步骤：

3.1)对每个单模态数据建立不同层次的深度降噪自动编码网络，利用隐藏层学习得到的抽象低维特征重构输入数据；

3.2)将每个单模态数据由深度降噪自编码网络得到的抽象特征以不同的权值接入到上层的桥接层，并且不同模态的分支网络对应的权值不同，各个单模态数据所对应的深度降噪自编码网络的权值最终会自适应调整到最适合当前知识发现的权重值；

3.3)对于k类分类任务、m个模态数据、n个样本、桥接层的优化目标函数采用softmax分类器定义的损失函数来优化；

3.4)将所有模态的顶层输出通过外积乘法进行相连，得到融合后的语义特征空间作为上层宽度网络的多模态融合层R^m，融合公式为：

其中，Z₁至Z_m分别表示各模态对应的分支网络的最上层重构后的输入特征，代表外积算子；

3.5)将宽度网络特征层各个模态的输入分别再进行非线性映射从而使得模态特征映射到增强模态空间中，得到的增强模态特征将被concat合并起来作为宽度网络的增强模态层；

3.6)将上述步骤得到的最上层宽度网络的特征层、多模态融合层及增强模态层进行合并作为深宽度联合网络的输入，利用宽度网络求伪逆的训练方式对上层宽度网络进行训练。

优选的，在步骤3.1)中，从Hadoop分布式文件系统中存储的多模态数据特征表中读取经过数据清洗过滤预处理后的多模态数据日志，将该多模态数据日志作为深宽度联合网络训练的样本流数据，其中多模态数据日志的分区以小时为间隔；对于每个模态的数据特征都建立一个分支深度降噪自动编码网络，每个分支深度降噪自动编码网络包括多个隐藏神经网络层；

首先将每一种模态的独立组别特征利用最大最小归一化到[0，1]的特征向量表达空间，归一化利用如下公式：

式中，x^*为归一化后的特征，x为原始特征输入，x_max、x_min分别对应归一化前的特征最大和最小值；

深度降噪自动编码网络将各个模态归一化后的特征x^*作扰动处理，将特征 x^*投影到含有分布服从z_d的噪声输入x′～z_d(x′|x^*)，其中，x′表示在x^*加入噪声后的输入，z_d表示以概率定义的二项分布，x′～z_d(x′|x^*)表示在给定输入x^*的情况下，通过按照设置的概率将x^*某些值置为0，然后得到新的输入x′；

对各个模态对应的深度降噪自编码网络进行训练，训练分为两个阶段：无监督预训练及有监督多模态网络联合微调阶段；在无监督预训练阶段，每个独立模态所属的子网络是相互独立训练的；在有监督多模态网络联合微调阶段，隐藏层对含有噪声的输入x′进行编码处理：

h＝f_θ(Wx′+B)

式中，f_θ为编码的激活函数，W为编码的隐层权值矩阵，B是偏置向量，从而得到编码层的输出h；

在解码阶段，将隐层表达h解码为：

z＝g_θ(W′h+B′)

其中，g_θ是用来解码的激活函数，W′是用来解码的权值矩阵，B′是对应的偏置项；

降噪自动编码机的优化目标是最小化解码阶段得到的重构输入与原始输入 x^*之间的差异Γ(x^*，z)，其中z为经过降噪自编码网络解码后得到的输出即重构后的输入，如果输入值为连续的实数值，采用平方误差优化目标：

Γ(x^*，z)＝||x^*-z||²

如果输入为二值[0，1]或者为范围[0，1]之间的连续实数值，则采用交叉熵损失函数进行优化：

其中l表示样本个数，x_i和z_i分别表示第i个样本的原始输入和经过降噪自编码网络后的重构输入。

优选的，所述无监督预训练阶段采用逐层贪心式，对于每一个隐藏层都进行训练，如果训练后的深度降噪自编码网络是最后一层，则提取出编码层的输出作为最后代替原始输入的输入特征；如果训练后的深度降噪自编码网络是中间层，则提取出编码层的输出作为下一层降噪自编码网络的输入继续进行训练。

优选的，在步骤3.3)中，所述损失函数为：

其中yⁱ表示第i个样本的分类标签，若样本属于第j类，则相应的类标 W_l表示各个模态网络最上层与桥接层的连接权值矩阵W的第l个行向量，每个模态网络分别对应一个W_l，h_p表示第p个模态最上层的编码表达，1≤p≤m， b_l表示偏置项，条件函数表示当第i个样本属于第j类时值为1，否则为0，桥接层的实际输入x为从各个模态分支网络最上层抽取得到的隐含层特征表达；桥接层会通过最小化此损失函数并利用反向传播算法来迭代，以对各个单模态数据所对应的深度降噪自编码网络进行参数调整；将调整后的每个单模态数据所对应的深度降噪自编码网络最上层编码后的特征表示进行Stacking 合并操作，并把合并操作后的特征作为最上层宽度网络的特征层，其中桥接层的激活函数使用线性或非线性激活函数。

优选的，在步骤3.3)中，将经过桥接层调整优化后的各模态分支网络的最上层重构后的输入特征Z_i，1≤f≤m，合并到一起作为最终宽度网络分类器的特征输入层Z^m，其中m表示模态数据数量：

Z^m＝[Z₁|Z₂|...|Z_m]。

优选的，在步骤3.5)中，将宽度网络特征层m个模态的输入分别再进行非线性映射使得模态特征映射到增强模态空间中；给定第i个模态的分支深度降噪自动编码网络所重构后的输入特征为Z_i，1≤i≤m，其对应的增强模态特征空间为E_i，每个增强模态特征空间E_i由该模态数据所对应的分支深度降噪自动编码网络所提取到的重构输入特征经过一层非线性映射得到，具体映射公式为：

其中，耐应第i个模态映射到增强模态空间的激活函数，/>是对应的映射权值矩阵，/>是对应的偏置项，最后将得到的每个模态对应的增强模态特征进行合并得到宽度网络的增强模态层H：

H^m＝[E₁|E₂|...|E_m]。

优选的，在步骤3.6)中，将得到的特征层、融合模态层以及增强模态层的所有特征进行合并作为最终宽度网络的输入层A：

A≡[Z^m|R^m|H^m]

最终宽度网络的输出权重W^out用脊回归方法快速求得：

W^out＝(λI+AA^T)^-1A^TY

其中，λ表示加在输出权值矩阵上的惩罚项，Y表示真实的样本标签集合，I表示单位矩阵，A表示最终宽度网络的输入层。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明有效解决了现如今多模态数据知识提取发现领域的关键问题；其中包括a)本发明采用深度降噪自编码机对各个领域的模态数据进行编码从而提取到样本在各个模态不同领域的信息表达，采用降噪自编码可以克服多模态数据大量噪声的影响，提高鲁棒性；采用逐层训练，可以提取到更抽象更具代表性的有效特征；b)本发明通过桥接层将独立的各模态特征信息转换到统一先验信息指导的特征空间下，利用这些先验信息在不同模态间建立联系c)本发明通过采用各模态提取的知识特征信息进行外积使得各模态特征得到充分融合，弥补了各模态特征相互独立的缺陷；d)本发明通过增强模态层进一步挖掘了多模态数据可能存在的高维空间的特征信息，对采集到的数据进行了充分的数据探索发现；最后将得到的所有特征进行拼接可以有效克服多模态领域知识特征发现的困难。

2、本发明的深宽度联合网络采用深度降噪自编码机对单模态数据进行知识特征提取与融合，并采用宽度网络作为最终的分类器网络；有效结合了深宽度网络各自的优势；深度降噪自编码机提取到的特征比原始特征更具代表性，且维度更低，对噪声也有很强的鲁棒性；宽度网络强大的分类能力可以使得上层的分类器参数得到充分的训练，并且通过累加融合模态层及增强模态层，模型的性能将会得到进一步提升；并且宽度网络训练迅速，在工业界可以得到充分的应用与拓展。

附图说明

图1为本发明基于深宽度联合神经网络的多模态数据知识信息提取方法的逻辑流程图；

图2为本发明基于深宽度学习的面向智能制造多模态数据知识信息提取系统流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的基于深宽度联合神经网络的多模态数据知识信息提取方法，包括以下步骤：

1)收集智能制造工厂系统在日常流水线中产生的多模态数据日志，包括语音、文本、图像等不同种类的多模态数据，并对数据进行预处理等，将日志样本加入到以Kafka为基础实现的分布式日志系统中，由于处理的是海量样本，所以将处理后的数据样本存储到Hadoop分布式文件系统的存储模块中；

对智能制造工厂所生产的数据日志进行预处理，其中主要包括以下操作：对数据噪声过滤和数据特征缺失值的处理，对数据特征缺失值的处理主要是指按各个模态数据过去的历史日志记录，尝试利用这些历史数据的均值或是中位数来填补缺失值。

作为另一种实施例，也可以对过去出现的历史数据按频次进行加权平均来填补缺失值等；数据噪声的过滤主要是指在收集数据的过程中偶尔出现的与历史记录统计值差异极大的特征值，亦或是收集过程中由于网络故障，时间偏差，系统异常等导致单模态数据中出现与历史统计数据分布差异过大的异常值，这些数据将会被视为噪声点并被过滤掉；

数据清洗过滤处理包括检查数据一致性，检查数据是否合乎要求，处理无效值和缺失值，通过估算整例删除或变量删除等方法来替换或剔除含有缺失值的样本。

2)存储到Hadoop分布式文件系统中的原始多模态数据每一行包括各种模态的数据记录，为方便后续处理，将Hadoop分布式文件系统的原始数据按照模态性质进行细分建表，分别将多模态数据处理成单模态数据特征，包括语音，文本，图像等单模态数据特征表等并存储到HIVE数据库中；

3)对收集到的多模态数据建立深宽度联合网络从而实现对多模态输入数据进行预测，得到对应的高层抽象特征知识，建立基于深宽度学习的面向智能制造多模态数据知识信息提取系统，如图2所示，其过程如下；

3.1)从Hadoop存储的多模态数据特征表中读取经过处理的多模态数据日志，将其作为模型训练的样本流数据，其中数据日志的分区以小时为间隔；对于每个模态的数据特征都建立一个分支深度降噪自动编码网络。每个分支网络由多个隐藏神经网络层组成，由于各模态数据样本特征维度不同，处理难度不同，故每个模态数据对应的深度降噪自动编码网络结构也不同，隐层个数及神经元个数应视具体情况而定，比如若样本数据十分复杂且样本特征高维度，则隐层个数及隐层神经元个数可以相应的设置多一点，若样本数据量少，简单且样本特征维度低，则隐层个数及隐层神经元个数可以相应设置少一点。首先将每一种模态的独立组别特征利用最大最小归一化到[0，1]的特征向量表达空间 (为了激活隐层神经网络中的RELU激活函数)。归一化利用如下公式：

式中，x^*对应归一化后的特征，x对应原始特征输入，x_max、x_min分别对应归一化前的特征最大和最小值；

接着降噪自动编码机首先将各个模态归一化后的特征x^*作扰动处理，将其投影到含有分布服从z_d的噪声输入x′～z_d(x′|x^*)。其中，x′表示在x^*加入噪声后的输入，z_d表示以一定概率定义的二项分布，x′～z_d(x′|x^*)表示在给定输入x^*的情况下，通过按照一定的概率将x^*某些值置为0，然后得到新的输入x′。

作为另一种实施例，z_d也可以采用Dropout操作来完成这个加噪过程， Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，类似的，我们将Dropout作用在输入层而不是隐层，就可以完成对输入层数据按照一定概率清0的操作。

接下来对各个模态对应的深度降噪自编码网络进行训练时，整个训练将分为两个阶段：无监督预训练及有监督多模态网络联合微调阶段；在预训练阶段，每个独立模态所属的子网络是相互独立训练的。在编码阶段，隐藏层将对含有噪声的输入x′进行编码处理：

h＝f_θ(Wx′+B)

式中，f_θ是用来编码的激活函数，W是用来编码的隐层权值矩阵，B是偏置向量，从而得到编码层的输出h。

在解码阶段，将隐层表达h解码为：

z＝g_θ(W′h+B′)

其中，g_θ是用来解码的激活函数，W′是用来解码的权值矩阵，B′是对应的偏置项；f_θ和g_θ通常采用非线性变换例如sigmoid激活函数。

作为另一种实施例，非线性变换激活函数可以采用tanh函数或者relu。降噪自动编码机的优化目标是最小化解码阶段得到的重构输入与原始输入x^*之间的差异Γ(x^*，z)。重构误差也可以采用多种计算方式，如果输入值为连续的实数值，可以采用最为常见的平方误差：

Γ(x^*，z)＝||x^*-z||²

作为另一种实施例，如果输入为二值例如[0，1]或者为范围[0，1]之间的连续实数值，重构误差也可以采用常见的交叉熵损失函数进行计算：

另外为了预防深度网络训练中常遇到的梯度消失等问题，本方法采用逐层贪心式的预训练法，对于每一个隐藏层都采用如上方法进行训练。如果训练后的降噪自编码网络是最后一层，那么编码层输出将被提取出来作为最后代替原始输入的输入特征；如果训练后的降噪自编码网络是中间层，那么编码层输出将被提取出来作为下一层降噪自编码网络的输入继续进行训练；

由于使用重构误差作为损失，同时降噪编码可以减弱多模态数据中大量噪声带来的影响。从而学习到各模态数据的低维抽象表示，提高模型鲁棒性；

3.2)在全部模态分支的深度降噪自编码机得到充分的训练之后，对多个分支网络(各模态所对应的深度降噪自编码网络)组成的整体网络参数进行微调。因为各模态提取到的编码特征是处在各模态语义空间下的独立特征空间，可以看作是一种统一高度抽象语义的低层空间的不同层面的特征信息表达；所以在各个模态的低层次空间中很难去寻找它们之间的联系以及这高度抽象的统一表达的语义概念。为了将不同模态的异构信息转换到同一模态的信息空间内，在所有的模态分支网络上又加入了一个桥接层对整体网络的参数进行优化，从而使得整个多模态网络训练过程中可以利用到不同模态数据间的抽象隐含信息；样本的标签可以被看作是高度抽象的统一表达概念，样本在各个模态数据下经由分支网络得到的抽象特征输出可以看作是这一统一概念在低层空间当中的不同层面的表达；通过该桥接层网络可以将这些多模态特征转换到一种模态无关的统一抽象表达。

在整体网络参数的微调阶段，桥接层所用的优化目标函数将会被加入到之前训练的各个模态对应的分支深度自编码网络上，并通过反向传播算法对所有分支网络进行参数微调。对于k类分类任务，m个多模态数据，n个样本，采用softmax分类器定义的损失函数来优化：

其中yⁱ表示第i个样本的分类标签。若样本属于第j类，则相应的类标 W_l表示各个模态网络最上层与桥接层的连接权值矩阵W的第l个行向量(每个模态网络分别对应一个W_l)，h_p表示第p(1≤p≤m)个模态最上层的编码表达， b_l为偏置项，条件函数表示当第i个样本属于第j类时值为1，否则为 0。桥接层的实际输入x为从各个模态分支网络最上层抽取得到的隐含层特征表达。

3.3)经由步骤3.2)微调后的各个模态自编码机最上层的特征表达将被联系在一起，从而使得各模态领域下的独立特征表达被过渡到同一语义空间的表达，且弥补了单模态低层次空间特征无法有效表征样本标签信息的能力；之后将各模态分支网络的所提取到的重构输入特征Z_i(1≤i≤m)，合并到一起作为最终宽度网络分类器的特征输入层Z^m，其中m表示模态数量；

Z^m＝[Z₁|Z₂|...|Z_m]

3.4)为了充分挖掘多模态数据特征间的关系，让各个模态的语义得到充分融合；将所有模态的顶层输出通过外积乘法进行相连，得到融合后的语义特征空间作为宽度网络的多模态融合层R^m，融合公式为：

其中，Z₁至Z_m分别表示各模态对应的分支网络的最上层编码表达(即重构后的输入特征)，代表外积算子；

3.5)为了进一步挖掘多模态数据可能存在的高维空间的特征信息，对采集到的数据进行充分的数据探索发现，本方法将宽度网络特征层m个模态的输入分别再进行了一次非线性映射从而使得模态特征映射到增强模态空间中；给定第i个模态的分支网络所重构后的输入特征为Z_i(1≤i≤m)，那么其对应的增强模态特征空间为E_i(1≤i≤m)，每个E_i(1≤i≤m)由Z_i(1≤i≤m)经过一层非线性映射得到；具体映射公式为：

其中，对应第i个模态映射到增强模态空间的激活函数，具体可采用sigmoid 或者tanh等常用的激活函数。/>是对应的映射权值矩阵。/>是对应的偏置项。最后将得到的每个模态对应的增强模态特征进行合并得到宽度网络的增强模态层H：

H^m＝[E₁|E₂|...|E_m]

3.6)将以上步骤得到的特征层，融合模态层以及增强模态层的所有特征进行合并作为最终宽度网络的输入层A：

A≡[Z^m|R^m|H^m]

那么最终宽度网络的输出权重W^out可以用脊回归方法快速求得：

W^out＝(λI+AA^T)^-1A^TY

进一步的，所述基于深宽度学习的面向智能制造多模态数据知识信息提取方法将会被用于智能制造工厂生产过程中所产生的多模态数据去进行知识提取发现，并对未来生产链做出预测，给实际生产带来收益。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：包括以下步骤：

2)对原始多模态数据进行细分建表，分别将多模态数据处理成单模态数据特征表；存储到分布式文件系统中的原始多模态数据每一行包括各种模态的数据记录，将原始数据按照模态性质进行细分建表，分别将多模态数据处理成包括语音、文本、图像的单模态数据特征表，并存储到HIVE数据库中；

3)利用深宽度联合网络对多模态数据特征表进行特征提取，得到对应的高层抽象特征知识，从而实现对多模态数据知识信息的提取；具体包括以下步骤：

3.1)对每个单模态数据建立不同层次的深度降噪自动编码网络，利用隐藏层学习得到的抽象低维特征重构输入数据；从Hadoop分布式文件系统中存储的多模态数据特征表中读取经过数据清洗过滤预处理后的多模态数据日志，将该多模态数据日志作为深宽度联合网络训练的样本流数据，其中多模态数据日志的分区以小时为间隔；对于每个模态的数据特征都建立一个分支深度降噪自动编码网络，每个分支深度降噪自动编码网络包括多个隐藏神经网络层；

式中，x^*为归一化后的特征，x为原始特征输入,x_max、x_min分别对应归一化前的特征最大和最小值；

深度降噪自动编码网络将各个模态归一化后的特征x^*作扰动处理，将特征x^*投影到含有分布服从z_d的噪声输入x′～z_d(x′|x^*)，其中，x′表示在x^*加入噪声后的输入，z_d表示以概率定义的二项分布，x′～z_d(x′|x^*)表示在给定输入x^*的情况下，通过按照设置的概率将x^*某些值置为0，然后得到新的输入x′；

h＝f_θ(Wx′+B)

在解码阶段，将隐层表达h解码为：

z＝g_θ(W′h+B′)

降噪自动编码机的优化目标是最小化解码阶段得到的重构输入与原始输入x^*之间的差异Γ(x^*,z)，其中z为经过降噪自编码网络解码后得到的输出即重构后的输入，如果输入值为连续的实数值，采用平方误差优化目标：

Γ(x^*,z)＝||x^*-z||²

如果输入为二值[0,1]或者为范围[0,1]之间的连续实数值，则采用交叉熵损失函数进行优化：

其中l表示样本个数，x_i和z_i分别表示第i个样本的原始输入和经过降噪自编码网络后的重构输入；

2.根据权利要求1所述的基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：在步骤1)中，收集智能制造工厂系统在日常流水线中产生的多模态数据日志并进行数据清洗过滤处理，将处理后的数据样本加载到以Kafka为基础实现的分布式消息系统中，并将数据存储到Hadoop分布式文件系统的存储模块中。

3.根据权利要求1所述的基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：所述无监督预训练阶段采用逐层贪心式，对于每一个隐藏层都进行训练，如果训练后的深度降噪自编码网络是最后一层，则提取出编码层的输出作为最后代替原始输入的输入特征；如果训练后的深度降噪自编码网络是中间层，则提取出编码层的输出作为下一层降噪自编码网络的输入继续进行训练。

4.根据权利要求3所述的基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：在步骤3.3)中，所述损失函数为：

其中yⁱ表示第i个样本的分类标签，若样本属于第j类，则相应的类标W_l表示各个模态网络最上层与桥接层的连接权值矩阵W的第l个行向量，每个模态网络分别对应一个W_l,h_p表示第p个模态最上层的编码表达，1≤p≤m，b_l表示偏置项，条件函数/>表示当第i个样本属于第j类时值为1，否则为0，桥接层的实际输入x为从各个模态分支网络最上层抽取得到的隐含层特征表达；桥接层会通过最小化此损失函数并利用反向传播算法来迭代，以对各个单模态数据所对应的深度降噪自编码网络进行参数调整；将调整后的每个单模态数据所对应的深度降噪自编码网络最上层编码后的特征表示进行Stacking合并操作，并把合并操作后的特征作为最上层宽度网络的特征层，其中桥接层的激活函数使用线性或非线性激活函数。

5.根据权利要求4所述的基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：在步骤3.3)中，将经过桥接层调整优化后的各模态分支网络的最上层重构后的输入特征Z_i，1≤i≤m,合并到一起作为最终宽度网络分类器的特征输入层Z^m,其中m表示模态数据数量：

Z^m＝[Z₁|Z₂|…|Z_m]。

6.根据权利要求5所述的基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：在步骤3.5)中，将宽度网络特征层m个模态的输入分别再进行非线性映射使得模态特征映射到增强模态空间中；给定第i个模态的分支深度降噪自动编码网络所重构后的输入特征为Z_i，1≤i≤m,其对应的增强模态特征空间为E_i，每个增强模态特征空间E_i由该模态数据所对应的分支深度降噪自动编码网络所提取到的重构输入特征经过一层非线性映射得到，具体映射公式为：

其中，对应第i个模态映射到增强模态空间的激活函数，/>是对应的映射权值矩阵，/>是对应的偏置项，最后将得到的每个模态对应的增强模态特征进行合并得到宽度网络的增强模态层H:

H^m＝[E₁|E₂|…|E_m]。

7.根据权利要求6所述的基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：在步骤3.6)中，将得到的特征层、融合模态层以及增强模态层的所有特征进行合并作为最终宽度网络的输入层A:

A≡[Z^m|R^m|H^m]

最终宽度网络的输出权重W^out用脊回归方法快速求得：

W^out＝(λI+AA^T)^-1A^TY