CN117056863B

CN117056863B - 一种基于多模态数据融合的大数据处理方法

Info

Publication number: CN117056863B
Application number: CN202311307267.0A
Authority: CN
Inventors: 胡鹏飞; 李刚; 段海兰; 周涛
Original assignee: Hunan Chengxi Technology Co ltd
Current assignee: Hunan Chengxi Technology Co ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2023-12-26
Anticipated expiration: 2043-10-10
Also published as: CN117056863A

Abstract

本发明公开了一种基于多模态数据融合的大数据处理方法，涉及了多模态融合技术领域，构建数据抓取平台，并通过数据抓取平台获取不同数据类型的数据信息，对数据信息进行预处理，进而生成不同数据类型对应的建模数据；获取不同数据类型的建模数据，进而构建不同模态类型的模态数据，并对模态数据进行特征提取生成相应的模态特征向量；根据模态特征向量构建相应的模态特征图层，汇总模态特征图层进行特征融合，进而构建多模态数据融合图，设置切片窗口，并根据切片窗口将多模态数据融合图映射为相应的多模态融合模型。

Description

一种基于多模态数据融合的大数据处理方法

技术领域

本发明涉及多模态融合技术领域，具体是一种基于多模态数据融合的大数据处理方法。

背景技术

随着信息时代的到来，数据的规模和复杂性也越来越大，对于同一个事物对象，表征该事物对象的数据的类型也存在多样性，数据的类型包括文本数据、音视频数据以及图片数据等等。

当我们想从庞大的事物对象中提取其特征信息进行数据分析时，往往只是从某一个单一的维度出发，例如，汽车实现自动驾驶或辅助泊车时，只通过汽车上所布置的摄录设备进行图像的获取，并分析图像这一单一维度的数据，此时数据的维度信息过少，相对应自动驾驶和辅助泊车的精确度也较低，同样的例子，在抓取网页上的数据进行风险内容分析时，采用单一类型的数据，会造成分析的精准度出现较大的偏差，如何将同一个事物对象对应的不同类型数据的特征进行提取，综合利用数据的多重特征，从而获得更加全面和准确的信息，这是目前急需解决的问题，因此，需要一种基于多模态数据融合的大数据处理方法。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于多模态数据融合的大数据处理方法。

本发明的目的可以通过以下技术方案实现：一种基于多模态数据融合的大数据处理方法，包括以下步骤：

步骤S1：构建数据抓取平台，并通过数据抓取平台获取不同数据类型的数据信息，对数据信息进行预处理，进而生成不同数据类型对应的建模数据；

步骤S2：获取不同数据类型的建模数据，进而构建不同模态类型的模态数据，并对模态数据进行特征提取生成相应的模态特征向量；

步骤S3：根据模态特征向量构建相应的模态特征图层，汇总模态特征图层进行特征融合，进而构建多模态数据融合图，设置切片窗口，并根据切片窗口将多模态数据融合图映射为相应的多模态融合模型。

进一步的，构建所述数据抓取平台的过程包括：

构建数据抓取平台，所述数据抓取平台设置有若干个数据仓库，所述数据仓库设置有若干个数据存储节点，所述数据仓库和数据存储节点设置有不同的存储状态，根据存储状态执行相应的操作，对数据仓库和数据存储节点分别进行编号，生成一级定位索引和二级定位索引，进而根据一级定位索引和二级定位索引获取数据存储位置序列。

进一步的，通过所述数据抓取平台抓取不同数据类型的数据信息，并进行预处理生成相应的建模数据的过程包括：

由数据抓取平台内生成一个数据抓取队列，所述数据抓取队列包括若干种类型的队列节点单元，队列节点单元的类型包括字符节点单元、音视频节点单元以及图像节点单元，所述数据信息的类型包括文本数据、音视频数据以及图像数据；

若数据类型为文本数据，则对应的文本数据入队至字符节点单元；

若数据类型为音视频数据，则对应的音视频数据入队至音视频节点单元；

若数据类型为图像数据，则对应的图像数据入队至图像节点单元；

获取文本数据、音视频数据以及图像数据对应的数据格式，进而将各自的数据格式相应的转换为预设的文本建模数据格式、音视频建模数据格式和图像建模数据格式，并统计获取各自的建模属性，获取不同数据类型的数据信息与相对应的建模属性，进而封装生成不同的建模数据。

进一步的，构建所述不同模态类型的模态数据的过程包括：

所述模态数据的模态类型包括图像模态、文本模态、视频模态以及音频模态；

若获取到数据类型为文本数据的建模数据，则将建模数据对应的文本的词频、逆文档频率、TF-IDF属性、N-gram属性以及文本句长分别作为文本模态特征因子；所述文本模态特征因子有对应的文本系数因子，累加文本系数因子进而生成文本总特征系数，并将文本总特征系数与预设的文本模态生成界定值进行比对，进而构建文本模态；

若获取到数据类型为音视频数据的建模数据，则获取建模数据对应的音频特征和视频特征，并分别作为模态因素集合，预设有空模态模型，将模态因素集合作为模型参数输入至空模态模型中，进而分别构建音频模态和视频模态，合并音频模态和视频模态为音视频模态；

若获取到数据类型为图像数据的建模数据，则获取建模数据对应的颜色特征、纹理特征、形状特征以及尺度方向特征分别作为图像模态特征因子，根据图像模态特征因子获取图像总特征系数，并将图像总特征系数与预设的图像模态构建区间进行从属关系判断，进而构建图像模态。

进一步的，所述特征提取进而生成相应的模态特征向量的过程包括：

所述模态特征向量包括文本模态特征向量、音视频模态特征向量以及图像模态特征向量；

当模态数据为文本模态时，将文本数据对应的文本进行词组划分，进而划分为若干个等字段词组，并去除等字段词组中字符的噪声信息，设置频数阈值，获取每个等字段词组的出现次数，比对频数阈值与等字段词组的出现次数，进而划分出高频词组和低频词组，设置加权系数一和加权系数二，进而生成每个等字段词组的特征向量值，汇总若干个等字段词组以及对应的特征向量值生成文本模态特征向量；

当模态数据为音视频模态时，将音频数据和视频数据划分为若干个固定长度的帧片段，获取每个帧片段对应的时间戳，获取时间戳的帧数据，进而构建出帧数据关于时间戳的帧数据变化趋势图；帧数据变化趋势图映射有若干个特征向量坐标点位，将若干个特征向量坐标点位作为音视频模态特征向量；

当模态数据为图像模态时，将图像模态对应的图像划分为若干个子图，获取每个子图的RGB值、进而获取每个子图的纹理像素编码，汇总每个子图的纹理像素编码，进而生成纹理信息特征图；设置梯度阈值区间，获取每个子图的边缘信息梯度值，进而根据梯度阈值区间和每个子图的边缘信息梯度值生成边缘信息特征图，将纹理信息特征图作为待映射图层，将边缘信息特征图作为映射图层，将映射图层映射至待映射图层内，进而生成图像模态特征向量。

进一步的，根据所述模态特征向量构建模态特征图层的过程包括：

获取文本模态特征向量、图像模态特征向量以及音视频模态特征向量的向量维度，所述模态特征图层包括文本特征图层、音视频特征图层以及图像特征图层；对文本模态特征向量、图像模态特征向量以及音视频模态特征向量分别设置低纬度向量区间、中等维度向量区间以及高纬度向量区间；

将向量维度与低纬度向量区间、中等维度向量区间以及高纬度向量区间进行从属关系判断，根据从属关系判断结果决定是否构建相应的模态特征图层。

进一步的，通过所述特征融合进而构建多模态数据融合图的过程包括：

获取文本特征图层、图像特征图层以及音视频特征图层，所述模态特征图层包括维度图层和数据图层，分别将文本特征图层、图像特征图层以及音视频特征图层对应的维度图层设置为一级维度图层、二级维度图层和三级维度图层，将一级维度图层作为基础层，二级维度图层作为中间拼接层，三级维度图层作为封顶层，获取基础层、中间拼接层以及封顶层的通道数，并将通道数的数量进行统一，以中间拼接层的数据图层为数据载体，在通道数统一后，将基础层和拼接层的数据图层作为数据传输方，进而融合不同数据图层中所包括的模态数据，进而构建多模态数据融合图。

进一步的，设置切片窗口，并根据所述切片窗口将多模态数据融合图映射为多模态融合模型的过程包括：

设置切片窗口，所述切片窗口预设有对应的窗口规格，将多模态数据融合图划分为若干个以窗口规格对应数值为面积的子数据融合图区域，获取每个子数据融合图区域对应的模型切片数据，模型切片数据有对应的切片数据维度坐标，汇总同一子数据融合图区域的模型切片数据的若干个切片数据维度坐标，进而构建相应的子区域数据融合模型；

汇总若干个子区域数据融合模型，将子区域数据融合模型作为映射元素并映射至预设的模型构建网络内，进而由模型构建网络构建出多模态融合模型。

与现有技术相比，本发明的有益效果是：

1、获取不同数据类型的模态数据，如图像数据、文本数据以及音视频数据等，综合利用数据的多重特征，能够提供互补的信息，通过融合这些信息可以获得更全面、更准确的数据表示，例如，在图像识别任务中，结合图像和文本描述可以更好地理解图像内容；不同模态的数据可以提供不同的视角和特征，以及展示了不同的数据维度，进行多维度模态数据的融合能够增强构建出的模型对于输入数据的理解和分析能力，一定程度上增强了所构建模型的鲁棒性。

2、通过多模态融合模型进行数据分析，获取需要进行数据分析的数据集合，并将数据集合以预设的划分比例分为训练集和测试集，根据数据分析的实际预测结果对应的分析准确率与预设的期望准确率进行比对判断，进而根据比对判断的结果调整测试集与训练集的划分比例，优化训练模型，一定程度上提升了数据分析的准确性。

附图说明

图1为本发明的流程图。

具体实施方式

如图1所示，一种基于多模态数据融合的大数据处理方法，包括以下步骤：

需要进一步说明的是，在具体实施过程中，构建所述数据抓取平台的过程包括：

构建数据抓取平台，所述数据抓取平台设置有若干个数据仓库，对数据仓库进行编号，记编号为i，则有i＝1，2，3，……，n，其中n为大于0的自然数；

所述数据仓库设置有若干个数据存储节点，数据存储节点有对应的节点编号，记节点编号为j，则有j＝1，2，3，……，m，其中m为大于0的自然数；

所述数据仓库和数据存储节点设置有不同的存储状态，所述存储状态包括“存储启用”和“存储未开启”；

当数据仓库的存储状态为“存储启用”时，则继续判断该数据仓库下的若干个数据存储节点的存储状态；

若数据存储节点的存储状态为“存储启用”，则设置节点进度条，记为P，节点进度条的初始进度值为0%，当进度值为100%时，表示当前数据存储节点已存满，赋予当前的数据存储节点一个“full”标识，若当前数据仓库所包括的若干个数据存储节点的标识都为“full”时，则赋予当前数据仓库一个“Full”标识，表示当前的数据仓库已存满；

当存储状态为“存储未开启”时，表示当前的数据仓库或数据存储节点没有进行数据信息的存储；

将数据仓库的编号i作为一级定位索引，将每个数据仓库对应的若干个数据存储节点的节点编号j作为二级定位索引，进而形成数据存储位置序列，记为L，则有L＝<i，j>，其表示第i个数据仓库的第j个数据存储节点；

需要进一步说明的是，在具体实施过程中，通过所述数据抓取平台抓取不同数据类型的数据信息，并进行预处理生成相应的建模数据的过程包括：

获取数据抓取平台的通信权限，由数据抓取平台内生成一个数据抓取队列，所述数据抓取队列包括若干种类型的队列节点单元；

所述队列节点单元的类型包括字符节点单元、音视频节点单元以及图像节点单元；

通过数据抓取队列获取不同数据类型的数据信息，所述数据信息的类型包括文本数据、音视频数据以及图像数据；

不同类型的数据信息入队至数据抓取队列的不同队列节点单元的对应关系如下：

对不同类型的数据信息进行相应的预处理；

获取文本数据的数据格式，并将该数据格式与预设的文本建模数据格式进行比对，进而将文本数据的数据格式转换为文本建模数据格式；

获取转换为文本建模数据格式后的文本数据，进而统计文本数据对应的建模属性，所述建模属性包括文本的词频、逆文档频率、TF-IDF属性、N-gram属性以及文本句长；

需要说明的是，词频是指某个词在文本中出现的频率，逆文档频率用于衡量一个词的稀有程度，TF-IDF属性是词频和逆文档频率的乘积，N-gram属性为连续n个词构成的短语，文本句长是指文本中句子所包含的词数或字符数；

获取音视频数据和图像数据对应的数据格式，并预设有音视频建模数据格式和图像建模数据格式；

进而，将音视频数据和图像数据对应的数据格式转换为相应的音视频建模数据格式以及图像建模数据格式；

获取转换为音视频建模数据格式以及图像建模数据格式后的音视频数据和图像数据，并统计获取各自对应的建模属性；

音视频数据的建模属性包括音频特征和视频特征，所述音频特征包括声谱图、频谱参数以及梅尔频谱系数，所述视频特征包括帧差分、光流以及视频压缩格式；

需要说明的是，声谱图是一种将一段音频信号分为一系列窗口，并计算每个窗口内的频率成分强度的方法，可用于表示音频信号的时频变化，频谱参数则是一组反映音频信号频谱信息的统计量，例如频率中心、带宽、能量等，梅尔频谱系数是通过对音频信号的对数功率谱进行离散余弦变换得到的一种具有较好特性的频谱系数；帧差分是一种用于描述相邻视频帧之间的变化程度的方法，可以用于检测运动物体或者区分视频中的不同场景，光流是一种基于运动场理论的方法，用于描述相邻视频帧中像素之间的运动矢量，并可用于实现一些视频处理任务，如视频稳定和运动估计等，视频压缩格式则是指将原始视频压缩并编码后的格式，例如MPEG、H.264等，它不仅可以减少视频文件大小，也方便了视频数据的处理和传输。

图像数据的建模属性包括颜色特征、纹理特征、形状特征以及尺度方向特征；

获取不同数据类型的数据信息与相对应的建模属性，进而封装生成不同的建模数据；

需要进一步说明的是，在具体实施过程中，构建所述不同模态类型的模态数据的过程包括：

获取不同数据类型的建模数据，并构建相应模态类型的模态数据；

若获取到数据类型为文本数据的建模数据，则将建模数据对应的文本的词频、逆文档频率、TF-IDF属性、N-gram属性以及文本句长分别作为文本模态特征因子；

所述文本模态特征因子有对应的文本系数因子，分别记词频、逆文档频率、TF-IDF属性、N-gram属性以及文本句长的文本系数因子为α₁、α₂、α₃、α₄和α₅；

累加文本系数因子进而生成文本总特征系数，记文本总特征系数为λ，则λ＝α₁＋α₂＋α₃＋α₄＋α₅；

预设文本模态生成界定值，记为D1，若λ≥D1，则生成文本模态，否则，生成反馈加权因子，通过反馈加权因子调整文本总特征系数λ，直到λ≥D1，调整停止；

若获取到数据类型为音视频数据的建模数据，则将建模数据对应的音频特征和视频特征分别作为模态因素集合，并分别标记为G1和G2；

模态因素集合G1对应的声谱图、频谱参数以及梅尔频谱分别记为G11、G12和G13，模态因素集合G2对应的帧差分、光流以及视频压缩格式分别记为G21、G22和G23；

则有G1＝{G11，G12，G13}，G2＝{G21，G22，G23}；

预设有空模态模型，将模态因素集合G1和G2作为模型参数，并将模型参数分别输入至空模态模型中，进而分别生成音频模态和视频模态，合并音频模态和视频模态为音视频模态；

若获取到数据类型为图像数据的建模数据，则将建模数据对应的颜色特征、纹理特征、形状特征以及尺度方向特征分别作为图像模态特征因子；

当图像模态特征因子为颜色特征时，获取对应的图像RGB值，记图像RGB值为Gary，则有Gary＝R×0.25＋G×0.65＋B×0.1，预设像素色彩分区阈值，记为Q；

生成每个图像RGB值对应的矩阵填充数，所述矩阵填充数包括“1”和“0”；

若Gary≥Q，则生成“1”；

若Gary＜Q，则生成“0”；

将“0”和“1”按照预设的矩阵宽度和矩阵高度进行排列，进而生成灰度矩阵，累加灰度矩阵的若干个矩阵填充数，进而生成灰度矩阵系数，记为β₁；

所述纹理特征有对应的纹理值，形状特征有对应的形状因子系数，尺度方向特征包括尺度值和方向矢量数值，分别记纹理值、形状因子系数、尺度值以及方向矢量数值为β₂、β₃、β₄以及β₅；

获取图像总特征系数，记为μ，则有μ＝β₁＋β₂＋β₃＋β₄＋β₅；

预设图像模态构建区间，记为υ，若μ∈υ，则构建图像模态，若μυ，则对像素色彩分区阈值Q进行调整；

需要进一步说明的是，在具体实施过程中，对所述模态数据进行特征提取生成相应的模态特征向量的过程包括：

当模态数据为文本模态时，进行的特征提取操作为：将文本数据对应的文本进行词组划分，进而划分为若干个等字段词组，并去除等字段词组中字符为“的”“和”等表示冗余的噪声信息，设置频数阈值，记为H，获取每个等字段词组的出现次数，记为H`；

若H`≥H，则标记该等字段词组为高频词组；

若H`＜H，则标记该等字段词组为低频词组；

获取高频词组对应等字段词组的出现次数并乘以加权系数一，获取低频词组对应等字段词组的出现次数并乘以加权系数二，进而生成每个等字段词组的特征向量值，汇总若干个等字段词组以及对应的特征向量值生成文本模态特征向量；

当模态数据为音视频模态时，进行的特征提取操作为：将音频数据和视频数据划分为若干个固定长度的帧片段，获取每个帧片段对应的时间戳，获取每个帧片段对应时间戳的帧数据，进而构建出帧数据关于时间戳的帧数据变化趋势图；

所述帧数据变化趋势图绘制于笛卡尔坐标系上，并获取映射在笛卡尔坐标系上的若干个特征向量坐标点位，记为P`，有P`＝(Time，Z-Data)，其中Time为时间戳对应数值，Z-Data为帧数据对应数值；

将若干个特征向量坐标点位作为音视频模态特征向量；

当模态数据为图像模态时，进行的特征提取操作为：将图像模态对应的图像划分为若干个子图，进而获取每个子图的RGB值、通过局部二值化获取每个子图的纹理像素编码；

汇总每个子图纹理像素编码，进而生成纹理信息特征图；

设置梯度阈值区间，获取每个子图的边缘信息梯度值，若边缘信息梯度值在梯度阈值区间内，则标记为可用边缘信息，否则，标记为不可用边缘信息，保留可用边缘信息，并剔除不可用边缘信息；

汇总每个可用边缘信息的边缘信息梯度值，合并生成边缘信息特征图；

将纹理信息特征图作为待映射图层，将边缘信息特征图作为映射图层，将映射图层映射至待映射图层内，进而生成图像模态特征向量；

需要进一步说明的是，在具体实施过程中，根据所述模态特征向量构建模态特征图层的过程包括：

获取所述文本模态特征向量、音视频模态特征向量以及图像模态特征向量，进而获取文本模态特征向量、图像模态特征向量以及音视频模态特征向量的向量维度，分别记为i1、i2和i3；

所述模态特征图层包括文本特征图层、音视频特征图层以及图像特征图层；

对文本模态特征向量设置低纬度向量区间，记为ψ1；

若i1∈ψ1，则获取若干个文本模态特征向量，并作为文本图层绘制元素，汇总若干个文本图层绘制元素，进而构建文本特征图层；

对图像模态特征向量设置中等维度向量区间，记为ψ2；

若i2∈ψ2，则获取若干个图像模态特征向量，并作为图像图层绘制元素，汇总若干个图像图层绘制元素，进而构建图像特征图层；

对音视频模态特征向量设置高纬度向量区间，记为ψ3；

若i3∈ψ3，则获取若干个音视频模态特征向量，并作为音视频图层绘制元素，汇总若干个音视频图层绘制元素，进而构建音视频特征图层；

当i1ψ1，i2/>ψ2，i3/>ψ3时，不进行相应模态特征图层的构建；

需要进一步说明的是，在具体实施过程中，通过所述特征融合进而构建多模态数据融合图的过程包括：

获取文本特征图层、图像特征图层以及音视频特征图层；

所述模态特征图层包括维度图层和数据图层；

所述文本特征图层对应的维度图层设置为一级维度图层，所述图像特征图层对应的维度图层设置为二级维度图层，所述音视频特征图层对应的维度图层设置为三级维度图层；

将一级维度图层作为基础层，将二级维度图层作为中间拼接层，将三级维度图层作为封顶层，获取基础层、中间拼接层以及封顶层的通道数，分别记为Td1、Td2和Td3；

有Td1＜Td2＜Td3；

以中间拼接层的通道数为基准，将基础层的通道数Td1进行扩充，将封顶层的通道数Td3进行缩减，进而使得基础层、中间拼接层以及封顶层的通道数在数量上相统一，即Td1＝Td2＝Td3；

以中间拼接层的数据图层为数据载体，在通道数统一后，将基础层和拼接层的数据图层作为数据传输方，进而融合不同数据图层中所包括的模态数据，进而构建多模态数据融合图；

需要进一步说明的是，在具体实施过程中，设置切片窗口，并根据所述切片窗口将多模态数据融合图映射为多模态融合模型的过程包括：

设置切片窗口，所述切片窗口有预设的窗口规格，窗口规格包括窗口宽度和窗口高度，分别记为h和w；

获取多模态数据融合图，并以多模态数据融合图的左上角作为滑动遍历起始点，以切片窗口的窗口宽度为横向滑动步长，以切片窗口的窗口高度为竖向滑动步长；

从滑动遍历起始点开始，以横向滑动步长进行横向滑动，以竖向滑动步长进行竖向滑动，进而在横向滑动和竖向滑动结束后，将多模态数据融合图划分为若干个以窗口规格对应数值为面积的子数据融合图区域；

对若干个子数据融合图区域进行编号，记为e，则有e＝1，2，3，……，z，其中z为大于0的自然数，每个子数据融合图区域有对应的模型切片数据；

所述模型切片数据由不同数据图层的模态数据生成，模型切片数据有对应的切片数据维度坐标，汇总同一子数据融合图区域的模型切片数据的若干个切片数据维度坐标，进而构建相应的子区域数据融合模型；

进而获取若干个子数据融合图区域对应的子区域数据融合模型；

汇总若干个子区域数据融合模型，将子区域数据融合模型作为映射元素并映射至预设的模型构建网络内，进而由模型构建网络构建出多模态融合模型；

通过多模态融合模型进行数据分析，获取需要进行数据分析的数据集合，并将数据集合以预设的划分比例分为训练集和测试集，划分比例设置为训练集和测试集的比例为2:8；

将测试集输入至多模态融合模型中获取数据分析的实际预测结果，所述实际预测结果有对应的分析准确率，记为U，预设有期望准确率，记为U`；

若U≥U`，则标记当前的多模态融合模型为最佳模型，且U的数值越高，表示最佳模型的拟合度越高，数据分析越准确；

若U＜U`，则提升测试集的比例，继续训练多模态融合模型。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法精神和范围。

Claims

1.一种基于多模态数据融合的大数据处理方法，其特征在于，包括以下步骤：

步骤S3：根据模态特征向量构建相应的模态特征图层，汇总模态特征图层进行特征融合，进而构建多模态数据融合图，设置切片窗口，并根据切片窗口将多模态数据融合图映射为相应的多模态融合模型；

构建所述数据抓取平台的过程包括：

构建数据抓取平台，所述数据抓取平台设置有若干个数据仓库，所述数据仓库设置有若干个数据存储节点，所述数据仓库和数据存储节点设置有不同的存储状态，根据存储状态执行相应的操作，对数据仓库和数据存储节点分别进行编号，生成一级定位索引和二级定位索引，进而根据一级定位索引和二级定位索引获取数据存储位置序列；

通过所述数据抓取平台抓取不同数据类型的数据信息，并进行预处理生成相应的建模数据的过程包括：

获取文本数据、音视频数据以及图像数据对应的数据格式，进而将各自的数据格式相应的转换为预设的文本建模数据格式、音视频建模数据格式和图像建模数据格式，并统计获取各自的建模属性，获取不同数据类型的数据信息与相对应的建模属性，进而封装生成不同的建模数据；

构建所述不同模态类型的模态数据的过程包括：

若获取到数据类型为音视频数据的建模数据，则获取建模数据对应的音频特征和视频特征，分别作为模态因素集合，并分别标记为G1和G2，模态因素集合G1对应的声谱图、频谱参数以及梅尔频谱分别记为G11、G12和G13，模态因素集合G2对应的帧差分、光流以及视频压缩格式分别记为G21、G22和G23，则有G1＝{G11，G12，G13}，G2＝{G21，G22，G23}；

预设有空模态模型，将模态因素集合G1和G2作为模型参数输入至空模态模型中，进而分别构建音频模态和视频模态，合并音频模态和视频模态为音视频模态；

若获取到数据类型为图像数据的建模数据，则获取建模数据对应的颜色特征、纹理特征、形状特征以及尺度方向特征分别作为图像模态特征因子；

若Gary≥Q，则生成“1”；

若Gary＜Q，则生成“0”；

所述特征提取进而生成相应的模态特征向量的过程包括：

当模态数据为图像模态时，将图像模态对应的图像划分为若干个子图，获取每个子图的RGB值、进而获取每个子图的纹理像素编码，汇总每个子图的纹理像素编码，进而生成纹理信息特征图；设置梯度阈值区间，获取每个子图的边缘信息梯度值，进而根据梯度阈值区间和每个子图的边缘信息梯度值生成边缘信息特征图，将纹理信息特征图作为待映射图层，将边缘信息特征图作为映射图层，将映射图层映射至待映射图层内，进而生成图像模态特征向量；

根据所述模态特征向量构建模态特征图层的过程包括：

获取文本模态特征向量、图像模态特征向量以及音视频模态特征向量的向量维度，分别记为i1、i2和i3；

对文本模态特征向量设置低纬度向量区间，记为ψ1；

对图像模态特征向量设置中等维度向量区间，记为ψ2；

对音视频模态特征向量设置高纬度向量区间，记为ψ3；

当i1ψ1，i2/>ψ2，i3/>ψ3时，不进行相应模态特征图层的构建；

所述汇总模态特征图层进行特征融合，进而构建多模态数据融合图的过程包括：

获取文本特征图层、图像特征图层以及音视频特征图层，所述模态特征图层包括维度图层和数据图层，分别将文本特征图层、图像特征图层以及音视频特征图层对应的维度图层设置为一级维度图层、二级维度图层和三级维度图层，将一级维度图层作为基础层，二级维度图层作为中间拼接层，三级维度图层作为封顶层；

获取基础层、中间拼接层以及封顶层的通道数，分别记为Td1、Td2和Td3，其中Td1＜Td2＜Td3，以中间拼接层的通道数为基准，将基础层的通道数Td1进行扩充，将封顶层的通道数Td3进行缩减，进而使得Td1＝Td2＝Td3；

以中间拼接层的数据图层为数据载体，将基础层和拼接层的数据图层作为数据传输方，进而融合不同数据图层中所包括的模态数据，进而构建多模态数据融合图。

2.根据权利要求1所述的一种基于多模态数据融合的大数据处理方法，其特征在于，设置切片窗口，并根据所述切片窗口将多模态数据图融合图映射为多模态融合模型的过程包括：

设置切片窗口，所述切片窗口预设有对应的窗口规格，将多模态数据融合图划分为若干个以窗口规格对应数值为面积的子数据融合图区域，获取每个子数据融合图区域对应的模型切片数据，模型切片数据有对应的切片数据维度坐标，汇总同一子数据融合图区域的模型切片数据的若干个切片数据维度坐标，进而构建相应的子区域数据融合模型，汇总若干个子区域数据融合模型，将子区域数据融合模型作为映射元素并映射至预设的模型构建网络内，进而由模型构建网络构建出多模态融合模型。