CN115545093A

CN115545093A - 一种多模态数据的融合方法、系统及存储介质

Info

Publication number: CN115545093A
Application number: CN202211107885.6A
Authority: CN
Inventors: 鲍尚策; 刘立峰; 刁海峰; 于晓涛; 母健康; 王文重; 张建军
Original assignee: Zhuhai Comleader Information Technology Co Ltd
Current assignee: Zhuhai Comleader Information Technology Co Ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-12-30

Abstract

本发明公开了一种多模态数据的融合方法、系统及存储介质，方法包括：获取多模态原始数据；对文本数据进行分词编码操作，结合卷积神经网络提取得到预设维度的文本特征；对语音数据进行端点检测，结合语音特征提取工具包提取得到预设维度的语音特征；对视频数据进行序列化处理，结合循环神经网络提取得到预设维度的视频特征；对文本特征、语音特征和视频特征进行对齐拼接处理，得到预设通道的特征向量；根据特征向量，通过多核分类模型进行线性连接，得到多模态特征分类结果。本发明能够实现对文本、语音和视觉的多模态数据的统一特征提取和融合，从而促进从单模态数据到多模态数据的分析和应用，可广泛应用于数据处理技术领域。

Description

一种多模态数据的融合方法、系统及存储介质

技术领域

本发明涉及数据处理技术领域，尤其是一种多模态数据的融合方法、系统及存储介质。

背景技术

大数据是多源异构的。在信息技术飞速发展的今天，多模态数据已成为近来数据资源的主要形式，因此通过多模态深度学习模型构建方法，赋予计算机理解多源异构海量数据的能力具有重要价值。

但是当前的自动深度学习模型自动训练基本都是针对单模态数据的，例如，常规的机器学习模型主要关注处理文本分析、图片分析、语音分析处理。随着多模态技术的发展，将需要处理各种形式的多模式数据，如包含语音的图像、包含文字和图片等模态数据的网页等，多模态的数据的使用为信息挖掘和在知识处理方面，可扩展性、决策、数据融合、分布式体系结构和预测分析方面，还面临数据融合体征提取困难，融合分析等各种挑战。在传统的单模态处理方式，无法准确获取跨模态的数据信息相关性，从而在处理多模态数据时候难以保证准确率。

发明内容

有鉴于此，本发明实施例提供一种多模态数据的融合方法、系统及存储介质，能够促进单模态数据到多模态数据的分析应用。

一方面，本发明实施例提供了一种多模态数据的融合方法，包括：

获取多模态原始数据；其中，所述多模态原始数据包括文本数据、语音数据和视频数据；

对所述文本数据进行分词编码操作，结合卷积神经网络提取得到预设维度的文本特征；

对所述语音数据进行端点检测，结合语音特征提取工具包提取得到预设维度的语音特征；

对所述视频数据进行序列化处理，结合循环神经网络提取得到预设维度的视频特征；

对所述文本特征、所述语音特征和所述视频特征进行对齐拼接处理，得到预设通道的特征向量；

根据所述特征向量，通过多核分类模型进行线性连接，得到多模态特征分类结果；其中，所述多核分类模型的基底的数量与所述预设通道的数量一致。

可选地，所述对所述文本数据进行分词编码操作，结合卷积神经网络提取得到预设维度的文本特征，包括：

通过word2vec算法对所述文本数据进行分词操作，得到若干单词；

对若干所述单词进行one-hot编码操作，得到若干单词向量；

对若干所述单词向量进行拼接，得到多通道输入数据；

根据所述多通道输入数据，通过卷积神经网络进行特征提取得到预设维度的文本特征。

可选地，所述根据所述多通道输入数据，通过卷积神经网络进行特征提取得到预设维度的文本特征，包括：

通过卷积神经网络对所述多通道输入数据依次进行卷积处理、最大池化处理、激活处理和全连接处理，得到预设维度的文本特征；

其中，所述卷积神经网络包括卷积层、最大池化层、激活函数和全连接层。

可选地，所述对所述语音数据进行端点检测，结合语音特征提取工具包提取得到预设维度的语音特征，包括：

通过断电检测算法，对所述语音数据进行端点检测，确定目标音频片段；

在预设参数下，通过openSMILE工具包对所述目标音频片段进行特征提取，得到特征集；

对所述特征集进行数据融合，得到预设维度的音频特征。

可选地，所述对所述视频数据进行序列化处理，结合循环神经网络提取得到预设维度的视频特征，包括：

对所述视频数据进行抽帧，得到图像数据；

对所述图像数据进行预处理，基于时间依赖性排列得到序列化图像；

通过循环神经网络对所述序列化图像进行特征提取，得到预设维度的视频特征。

可选地，所述对所述文本特征、所述语音特征和所述视频特征进行对齐拼接处理，得到预设通道的特征向量，包括：

基于预设维度的所述文本特征、所述语音特征和所述视频特征进行维度对齐处理；

对所述维度对齐处理后的所述文本特征、所述语音特征和所述视频特征进行融合拼接，得到预设通道的特征向量。

可选地，还包括：

通过预设数量的基底进行线性组合，得到多核分类模型；其中，所述预设数量与所述预设通道的数量一致；

训练更新所述多核分类模型的权重和偏置。

另一方面，本发明实施例提供了一种多模态数据的融合系统，包括：

第一模块，用于获取多模态原始数据；其中，所述多模态原始数据包括文本数据、语音数据和视频数据；

第二模块，用于对所述文本数据进行分词编码操作，结合卷积神经网络提取得到预设维度的文本特征；

第三模块，用于对所述语音数据进行端点检测，结合语音特征提取工具包提取得到预设维度的语音特征；

第四模块，用于对所述视频数据进行序列化处理，结合循环神经网络提取得到预设维度的视频特征；

第五模块，用于对所述文本特征、所述语音特征和所述视频特征进行对齐拼接处理，得到预设通道的特征向量；

第六模块，用于根据所述特征向量，通过多核分类模型进行线性连接，得到多模态特征分类结果；其中，所述多核分类模型的基底的数量与所述预设通道的数量一致。

另一方面，本发明实施例提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

另一方面，本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例首先获取多模态原始数据；其中，所述多模态原始数据包括文本数据、语音数据和视频数据；对所述文本数据进行分词编码操作，结合卷积神经网络提取得到预设维度的文本特征；对所述语音数据进行端点检测，结合语音特征提取工具包提取得到预设维度的语音特征；对所述视频数据进行序列化处理，结合循环神经网络提取得到预设维度的视频特征；对所述文本特征、所述语音特征和所述视频特征进行对齐拼接处理，得到预设通道的特征向量；根据所述特征向量，通过多核分类模型进行线性连接，得到多模态特征分类结果；其中，所述多核分类模型的基底的数量与所述预设通道的数量一致。本发明通过卷积神经网络、循环神经网络以及多核分类模型等模型算法实现对文本、语音和视觉的多模态数据的统一特征提取和融合，从而促进从单模态数据到多模态数据的分析和应用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多模态数据的融合方法的步骤流程示意图；

图2为本发明实施例提供的多模态数据的融合方法的原理流程示意图；

图3为本发明实施例提供的文本特征提取的算法原理示意图；

图4为本发明实施例提供的语音特征提取的算法原理示意图；

图5为本发明实施例提供的视频特征提取的算法原理示意图；

图6为本发明实施例提供的多模态特征分类模型的算法原理示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了使本申请内容及技术方案更加清楚明白，对相关术语及含义进行说明：

深度学习：深度学习是机器学习的一种，而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本等。

NLP自然语言处理：自然语言处理(Natural Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分，自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。

语音处理：语音处理是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理、，达到人与计算机之间进行有效通讯。语音处理主要应用于语音分类、噪声检测、语音识别等方面。

计算机视觉：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

多核算法：多核学习是指使用一组预定义的核并学习最佳线性或非线性核组合作为算法的一部分的一组机器学习方法。使用多内核学习的原因包括：能够从一组较大的内核中选择最佳内核和参数；在允许采用更自动化的机器学习方法的同时减少由于内核选择而产生的偏差；以及b组合来自具有不同内核的不同来源的数据。相似性的概念，因此需要不同的内核。

多模态学习：每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时，模态也可以有非常广泛的定义，比如我们可以把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集，亦可认为是两种模态。因此，多模态机器学习，英文全称MultiModal Machine Learning(MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

信息融合：多模式信息融合是将收集的数据进行组合的过程分析任务的各种模式。它越来越受到来自不同领域的研究人员，由于其潜在的无数应用，包括但不限于情感分析、情感识别、语义概念检测、事件检测、人体跟踪、图像分割和视频分类等。多模态数据的融合可以提供更多信息以提高总体结果或决策的准确性。作为数据从各种模式中收集的信息有各种形式，也有必要考虑不同级别的多模式融合周期。迄今为止，主要有研究人员研究的两个层次或类型的融合：特征级融合或早期融合融合、决策级融合或后期融合。这些人还受雇于一些研究人员将其作为混合融合方法的一部分。此外，还有“模型级融合”，这是一种由研究人员根据其应用要求。

多模态深度模型：基于深度学习构建的多模态机器学习模型。

openSMILE：一种开源的语音处理工具包。

CNN：卷积神经网络，深度学习网络的一种。

RNN：循环神经网络(Recurrent neural network：RNN)是神经网络的一种。单纯的RNN因为无法处理随着递归，权重指数级爆炸或梯度消失问题，难以捕捉长期时间关联；而结合不同的LSTM可以很好解决这个问题。

SVM：SVM是机器学习里面最强大最好用的工具之一,它试图在特征空间里寻找一个超平面,以最小的错分率把正负样本分开。

MKL：多核算法。

word2vec：自然语言处理中一种词向量的开源方法。

针对现有技术存在的问题，本发明旨在通过同步提取文本、语音和视觉数据特征，实现多模态特征数据特征的对齐、融合，多模态深度模型的训练和发布。一方面，本发明实施例提供了一种多模态数据的融合方法，参照图1和图2，方法包括以下步骤：

S100、获取多模态原始数据；

具体地，获取多模态原始输入数据，多模态原始输入数据包括了文本数据、语音数据和视频数据。

S200、对文本数据进行分词编码操作，结合卷积神经网络提取得到预设维度的文本特征；

需要说明的是，通过word2vec算法对文本数据进行分词操作，得到若干单词；对若干单词进行one-hot编码操作，得到若干单词向量；对若干单词向量进行拼接，得到多通道输入数据；根据多通道输入数据，通过卷积神经网络进行特征提取得到预设维度的文本特征。

其中，通过卷积神经网络对多通道输入数据依次进行卷积处理、最大池化处理、激活处理和全连接处理，得到预设维度的文本特征；卷积神经网络包括卷积层、最大池化层、激活函数和全连接层。

文本特征提取的算法实现如图3所示，具体地，对于文本数据的特征提取，首先对文本输入进行预处理，主要通过word2vec算法把整个文本进行单个词语的分词操作，并对每个分好的单词进行one-hot编码操作，表示成一个个不同的向量，并把这些向量进行拼接形成多通道的输入数据。其次就是模型的搭建和输入输的的特征提取，本实施例使用了16层的CNN卷积神经网络作为主干特征提取网络，对于每个卷积层，采用卷积-池化-激活函数的块构造，其中卷积特征提取上采用不同数量的卷积核进行特征提取，在特征降维上的池化工作采取最大池化操作，即对池化核内的特征区域采用最大值作为该区域的特征向量，其中的池化核为4x4大小，步长为2的结构，在池化后的特征非线性变换的工作采取relu激活函数进行搭建，最终经过16层的卷积块的特征提取后的特征图经过一层全连接层(1024个卷积核组成)得到1024*1*1的文本特征。

S300、对语音数据进行端点检测，结合语音特征提取工具包提取得到预设维度的语音特征；

需要说明的是，通过断电检测算法，对语音数据进行端点检测，确定目标音频片段；在预设参数下，通过openSMILE工具包对目标音频片段进行特征提取，得到特征集；对特征集进行数据融合，得到预设维度的音频特征。

语音特征提取的算法实现如图4所示，具体地，首先对原始语音进行有效提取，在这里采取断点检测算法：端点检测，也叫语音活动检测，目的是对语音和非语音的区域进行区分，就是为了从带有噪声的语音中准确的定位出语音的开始点和结束点，去掉静音的部分，去掉噪声的部分，找到一段语音真正有效的内容。

进而自动从每个带注释的音频片段中提取音频特征。在30Hz的帧速率下提取音频特征，使用滑动窗口为100ms，为了计算通过使用的开源语音特征提取：具体来说，该工具包自动提取音高和声音强度。通过语音归一化，对语音强度设置了阈值识别有无语音的样本。openSMILE提取的特征由几个低级描述符(LLD)及其统计函数组成。一些函数是振幅平均值、算术平均值、平方根平均值、标准偏差、平坦度、偏度、峰度、四分位数、四分位数范围，线性回归斜率等。

其中，主要特征的特征集包括：

Mel频率倒谱系数–MFCC基于短时计算傅里叶变换(STFT)。首先，计算了震级谱的对数振幅然后速傅立叶变换进行分组和平滑处理根据感知激励的Mel频率变换(FFT)箱缩放比例；

光谱质心–光谱质心是震级的重心STFT的光谱，质心用于测量光谱形状，质心值越大，表示纹理越频率更高；

光谱通量–光谱通量定义为连续窗口的归一化大小，光谱通量表示局部光谱变化量；

节拍直方图–它是一个直方图，显示不同信号中有节奏的周期；

节拍和–该特征以节拍中所有条目的和来衡量直方图，这是一个很好的衡量节奏重要性的标准信号；

最强节拍–它被定义为信号中最强的节拍，单位为每分钟的节拍，它是通过在拍频直方图中识别最强的bin来发现的；

Pause duration–Pause direction是演讲者沉默的时间百分比音频段；

音高–根据口语的音高水平标准偏差计算段；

语音质量–音频信号中的谐波噪声比；

PLP–音频段的感知线性预测系数为使用openSMILE工具包计算；

最终，把上述特征经过数据融合得到一维特征向量，向量统一维度为1024*1*1的语音特征。

S400、对视频数据进行序列化处理，结合循环神经网络提取得到预设维度的视频特征；

需要说明的是，对视频数据进行抽帧，得到图像数据；对图像数据进行预处理，基于时间依赖性排列得到序列化图像；通过循环神经网络对所述序列化图像进行特征提取，得到预设维度的视频特征。

视频特征提取的算法实现如图5所示，具体地，由于视频数据非常大，在推理期间使用抽帧的方式，即每10帧采集一次图像输入数据，把时序的视频数据转换为一系列的静态的单帧的2D数据形式。并统一归一化到512*512分辨率大小，并对图像进行去均值除方差的预处理工作。输入是视频中的一系列图像，为了捕获时间依赖性，将t、t+1到t+n的连续图像通过时序n层的RNN(循环神经网络)网络模型进行特征提取，RNN的每层神经元之间有反馈连接，可以按时间序列建立前后帧的相互依赖关系，其中每个隐藏神经层状态都是前一图像状态特征和当前图像状态特征和的函数映射，最后得到1024*1*n的视频特征。

S500、对文本特征、语音特征和视频特征进行对齐拼接处理，得到预设通道的特征向量；

需要说明的是，基于预设维度的文本特征、语音特征和视频特征进行维度对齐处理；对维度对齐处理后的文本特征、语音特征和视频特征进行融合拼接，得到预设通道的特征向量。

具体地，通过将上述S200至S400中文本CNN模型提取到的文本特征、openSMILE算法包提取到的语音特征和视频RNN模型提取到的由序列图像组成的视频特征进行维度对齐，本发明统一维度为1024。对于对齐后的文本特征1024*1*1、语音特征1024*1*1和时序视频特征1024*1*n进行融合拼接形成通道n+2的特征向量即1024*1*(n+2)。

S600、根据特征向量，通过多核分类模型进行线性连接，得到多模态特征分类结果；

需要说明的是，多核分类模型的基底的数量与预设通道的数量一致。

具体地，融合后的多模态特征向量1024*1*(n+2)与n+2个核函数组成MKL模型进行线性连接，最终输出分类结果。包括类别及其可信度得分。相比传统的SVM分类，MKL多核学习模型机即解决了多模态特征分类的瓶颈，又可以带来推理速度和精度的提升。

在一些实施了，还包括多核分类模型的搭建与训练步骤。需要说明的是，通过预设数量的基底进行线性组合，得到多核分类模型；其中，预设数量与所述预设通道的数量一致；训练更新所述多核分类模型的权重和偏置。

多模态特征分类模型的算法实现如图6所示，具体地，MKL多核分类模型搭建：对于传统单通道特征分类经常采用SVM单核进行分类，对于本发明中多模态的多通道特征进行分类需要采用多核的线性组合的分类形式，这里需求的是MKL多核学习算法分类器。SVM都是单核的，在使用的时候，需要根据经验或试验来选择用哪种核函数、怎样指定它的参数，这样很不方便。另一方面，实际应用当中，特征往往不是单通道的，而是异构的，这些不同类特征对应的最佳的核函数未必相同，让他们共用同一个核函数，未必能得到最优的映射。对这些问题的思考，就引出了MKL。具体来说，给定一些base kernels(基底)，对于每一个，可以指定多组参数，与多模态特征通道数一致，也就是一共有N+2个base kernels，用多核之间的线性组合来作为最终的核函数。由于融合了各种kernel，可以适配多模态的异构特征；由于自动学习权重，就不需要特意设计和参数了，只需把可能的核、参数组合起来就可以了。

MKL模型训练：通过训练，得到这个线性组合中每个kernel的权重和偏置，且多模态模型只训练此MKL分类器的权重和偏置，训练之前我们对文本模型、语音模型和视觉模型采用预训练好的高精度模型参数进行初始化，训练期间对三类模态模型进行锁死、固化，对其权重不进行更新操作。

第一模块，用于获取多模态原始数据；其中，多模态原始数据包括文本数据、语音数据和视频数据；

第二模块，用于对文本数据进行分词编码操作，结合卷积神经网络提取得到预设维度的文本特征；

第三模块，用于对语音数据进行端点检测，结合语音特征提取工具包提取得到预设维度的语音特征；

第四模块，用于对视频数据进行序列化处理，结合循环神经网络提取得到预设维度的视频特征；

第五模块，用于对文本特征、语音特征和视频特征进行对齐拼接处理，得到预设通道的特征向量；

第六模块，用于根据特征向量，通过多核分类模型进行线性连接，得到多模态特征分类结果；其中，多核分类模型的基底的数量与预设通道的数量一致。

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

存储器用于存储程序；

处理器执行程序实现如前面的方法。

本发明方法实施例的内容均适用于本电子设备实施例，本电子设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明方法实施例的内容均适用于本计算机可读存储介质实施例，本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

综上所述，本发明实施例提出了语言、声音和视觉的融合多模态深度模型构建技术，一种用于音频、视频和文本多模态数据特征提取的时间深度卷积神经网络，并通过使用MKL多核算法来融合这三种模态数据特征，通过使用多个内核来适应不同的模态，从而实现更高的精度；通过CNN与RNN网络的集成，它在多模态数据处理上比传统的MKL算法计算速度快，另外，为了更好地建模在时间卷积过程中学习到的特征之间的重叠，我们考虑了视频中的分布式时滞特征。这可以通过用CNN学习到的输出特征向量的协方差矩阵初始化RNN的权值来实现。具体地，本发明实施了使用一种新的基于多模态深度学习的网络来提取文本、语音和视觉数据特征，并通过MKL多模态特征融合算法构造有效的深层网络模型，其表现优于其他单个模态数据的处理模式。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种多模态数据的融合方法，其特征在于，包括：

2.根据权利要求1所述的一种多模态数据的融合方法，其特征在于，所述对所述文本数据进行分词编码操作，结合卷积神经网络提取得到预设维度的文本特征，包括：

对若干所述单词进行one-hot编码操作，得到若干单词向量；

对若干所述单词向量进行拼接，得到多通道输入数据；

3.根据权利要求2所述的一种多模态数据的融合方法，其特征在于，所述根据所述多通道输入数据，通过卷积神经网络进行特征提取得到预设维度的文本特征，包括：

4.根据权利要求1所述的一种多模态数据的融合方法，其特征在于，所述对所述语音数据进行端点检测，结合语音特征提取工具包提取得到预设维度的语音特征，包括：

对所述特征集进行数据融合，得到预设维度的音频特征。

5.根据权利要求1所述的一种多模态数据的融合方法，其特征在于，所述对所述视频数据进行序列化处理，结合循环神经网络提取得到预设维度的视频特征，包括：

对所述视频数据进行抽帧，得到图像数据；

6.根据权利要求1所述的一种多模态数据的融合方法，其特征在于，所述对所述文本特征、所述语音特征和所述视频特征进行对齐拼接处理，得到预设通道的特征向量，包括：

7.根据权利要求1所述的一种多模态数据的融合方法，其特征在于，还包括：

训练更新所述多核分类模型的权重和偏置。

8.一种多模态数据的融合系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。