发明内容
本发明提供一种面向电力物联网的多模态数据融合分析方法,方法可以辅助企业实时、准确、高效地了解电力用户需求。
面向电力物联网的多模态数据融合分析方法包括:
步骤A、对收集的电力用户反馈的多模态数据样本进行完整性检查,用电力用户反馈的文本数据集T、电力用户反馈的音频数据集A、电力用户反馈的图像数据集G创建包含N个样本的多模态数据集M=(T,A,G),对每个样本打上所属类别标签;
步骤B、对音频数据集A进行预处理,得到对应的语谱图数据集
,用文本数据集T、语谱图数据集
和图像数据集G按照M中的对应关系创建新的多模态数据集
,并按照9:1的比例将
划分为训练集
和验证集
;
步骤C、构建文本分类模型、语谱图分类模型和图像分类模型,分别使用
中的文本数据集、语谱图数据集和图像数据数据集对三个模型进行训练,生成文本多分类器、语谱图多分类器和图像多分类器;
步骤D、将测试集
输入到单模态多分类模型中,计算各个单模态多分类器的误差,根据误差情况为各个单模态数据的概率矩阵分配融合权重;
步骤E、对待分析多模态数据预处理后,将不同类型的单模态数据分别输入到不同的单模态多分类模型中,计算单模态数据的概率矩阵,根据分配的权重,将概率矩阵拼接成融合概率矩阵,并输出概率混淆矩阵,展示分析结果。
进一步需要说明的是,步骤A还包括:
步骤A1、多模态样本包含电力用户反馈的文本数据,电力用户反馈的音频数据以及电力用户反馈的图像数据;
若样本的文本数据缺失,则通过语音识别的方式将音频数据转为文本数据,用文本数据集T,音频数据集A和图像数据集G创建一个包含N个样本的多模态数据集M=(T,A,G);
步骤A2、对多模态数据集M打上多分类标签,
被标为类别j时,其包含的文本数据
,音频数据
和图像数据
的类别标签均为j。
进一步需要说明的是,所述步骤B包括以下步骤:
步骤B1、使用信号分帧加窗、快速傅里叶变换、能量密度计算的步骤处理音频数据
转换成语谱图
;
首先,读取音频数据,得到需测量的时间序列值,用16kHZ频率进行信号采样,将离散语音信号a(i)分为多个帧
,进行加窗处理消除两端无意义波形,生成周期信号,加窗函数
运算公式如下:
其中,i为帧序,L为窗口长度,等于帧长,m是一帧内采样点序号;
步骤B2、用快速傅里叶变换FFT将时域信号转为频域信号,获取加窗后信号帧
对应的频谱
,运算公式如下:
其中,k表示傅里叶变换的长度,L表示窗口长度,j表示虚数单位,m是一帧内采样点序号,K是常量,取值256/512/1024;
步骤B3、通过离散傅里叶变换计算得到语谱图坐标(n,k)处的短时幅度谱估计X(n,k),运算公式如下:
其中,L表示帧长,j表示虚数单位,m表示一帧内采样点序号;
步骤B4、用语谱图中坐标为(n,k)处的短时幅度估计X(n,k)计算出对应的频谱能量密度P(n,k),然后转换为语谱图;
其中,语谱图中的每个点含音频信号对应时间、频率和能量信息,频谱能量密度运算公式如下:
进一步需要说明的是,步骤C还包括以下步骤:
步骤C1、构建Bert通用多分类器模型,提取文本特征向量,用训练集
中的文本特征对模型进行预训练并对模型进行微调,计算文本所属类别的概率向量,并用softmax函数对概率进行归一化,学习预测分类
;
步骤C2、构建含有输入层、5个卷积层、3个池化层和1个全连接层的卷积模型,提取语谱图的特征向量,将
语谱图特征输入到模型中,计算语谱图所属类别概率,并用一个softmax层对概率进行归一化,学习预测分类
;
步骤C3、构建含有输入层、3个含激活函数的卷积与池化层、1个扁平层、3个全连接层和输出层的卷积神经网络模型,通过卷积池化操作提取图像特征,将
图像特征输入到模型中,计算图像所属类别概率,并用一个softmax层对概率进行归一化,学习预测标签
。
使用构建的单模态多分类模型计算单模态数据特征经过多层非线性变换得到概率向量,然后将概率向量进行归一化,运算公式如下:
进一步需要说明的是,步骤D还包括以下步骤:
步骤D1、使用测试集
验证文本多分类模型、语谱图多分类模型和图像多分类模型,计算概率矩阵
,
i表示样本索引,N’表示测试集样本数,j表示类别索引,c为类别总数,k表示多分类器索引,
表示在第k个多分类器中第i个样本被判为类别j的概率,等于
;
步骤D2、根据概率矩阵对测试样本进行分类,当样本i被预测为类别j时的概率
大于被预测为其他类别的概率时,则将样本i预测为类别j,
运算公式如下:
其中k,j均是类别索引,
表示样本i预测为类别j的概率,
表示样本i的预测类别,c为类别总数;
步骤D3、通过概率矩阵得到训练集
的混淆矩阵,计算出单模态分类模型的错误率
,根据多分类模型的
分配融合权重,融合权重分配公式如下:
其中,m表示单模态分类模型总数,i,k是模型索引,
是模型k的错误率,
是模型k分得的权重。
通过预测类别与真实标签对比,生成混淆矩阵,统计预测为类别j且预测正确的样本数,计算错误率
,运算公式如下:
其中,k表示单模态多分类模型索引,
表示单模态多分类模型k的准确率,c表示类别总数,j表示类别索引,
表示预测为类别j且实际为类别j的样本数,
表示测试集
中的样本总数。
进一步需要说明的是,步骤E还包括以下步骤:
步骤E1、检查待分析的多模态数据的完整性,将单模态音频数据转换成语谱图数据,将多模态数据预处理后的单模态数据分别输入单模态数据分类模型中,得到对应的概率矩阵;
步骤E2、根据分配的权重将单模态数据的概率矩阵
拼接成融合概率矩阵
,并输出融合概率矩阵提供可视化分析结果,矩阵融合的运算公式如下:
其中,k是单模态多分类模型索引,m是模型总数,
单模态多分类模型k输出的概率矩阵
分得的权重。
本发明还提供一种面向电力物联网的多模态数据融合分析系统,系统包括:数据打标模块、数据处理模块、数据生成模块、数据计算模块、数据分析模块以及展示模块;
数据打标模块用于对收集的电力用户反馈的多模态数据样本进行完整性检查,用电力用户反馈的文本数据集T、电力用户反馈的音频数据集A、电力用户反馈的图像数据集G创建包含N个样本的多模态数据集M=(T,A,G),对每个样本打上所属类别标签;
数据处理模块用于对音频数据集A进行预处理,得到对应的语谱图数据集
,用文本数据集T、语谱图数据集
和图像数据集G按照M中的对应关系创建新的多模态数据集
,并按照9:1的比例将
划分为训练集
和验证集
;
数据生成模块用于构建文本分类模型、语谱图分类模型和图像分类模型,分别使用
中的文本数据集、语谱图数据集和图像数据数据集对三个模型进行训练,生成文本多分类器、语谱图多分类器和图像多分类器;
数据计算模块用于将测试集
输入到单模态多分类模型中,计算各个单模态多分类器的误差,根据误差情况为各个单模态数据的概率矩阵分配融合权重;
数据分析模块用于对待分析多模态数据预处理后,将不同类型的单模态数据分别输入到不同的单模态多分类模型中,计算单模态数据的概率矩阵,根据分配的权重,将概率矩阵拼接成融合概率矩阵;
展示模块用于展示分析过程以及分析结果。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供的分析方法是结合电力物联网背景下的用户反馈处理的多模态融合分析技术,相较于单模态数据分析的方法,在准确率上有较大提升并且具有稳定性,其次能够处理多种类型反馈数据,提供结果可视化,实现具有实时性、高准度、高效率等优点的智能分析方法与系统,为电力企业带来更好的客户服务,更好的用户前景。
而且本发明涉及的面向电力物联网的多模态数据融合的用户反馈智能分析方法与系统,能够为电力物联网公司处理用户问题反馈提供辅助,克服了传统人工分析高成本、耗时、非实时等缺陷,同时克服了传统的单模态数据特征分析精度低且针对不同模态数据需定制化方法导致开发成本高等缺陷。
具体实施方式
本发明提供的面向电力物联网的多模态数据融合分析方法是为了能够更好地把握电力用户的需求,提供品质服务,就需要准确高效地分析用户反馈。
本发明提供的面向电力物联网的多模态数据融合分析方法能够配备一套用户反馈智能分析方法与系统来辅助企业实时、准确、高效地了解电力用户需求,为企业带来更好的发展前景。借助多模态数据融合技术,结合电力物联网用户数据的多样性,包括用户文本数据、音频数据、图像数据等,搭建一种多模态数据融合的电力用户反馈智能分析方法与系统能够帮助有效帮助电力企业留住老用户,吸引新用户,为企业带来更大的利润。
本发明提供的面向电力物联网的多模态数据融合分析方法中,所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明提供的面向电力物联网的多模态数据融合分析方法的附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在本发明提供的面向电力物联网的多模态数据融合分析方法中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和2所示,本发明提供的面向电力物联网的多模态数据融合分析方法包括:
步骤A、对收集的电力用户反馈的多模态数据样本进行完整性检查,用电力用户反馈的文本数据集T、电力用户反馈的音频数据集A、电力用户反馈的图像数据集G创建包含N个样本的多模态数据集M=(T,A,G),对每个样本打上所属类别标签;
步骤A具体包括:
步骤A1、多模态样本包含电力用户反馈的文本数据,电力用户反馈的音频数据以及电力用户反馈的图像数据;
若样本的文本数据缺失,则通过语音识别的方式将音频数据转为文本数据,用文本数据集T,音频数据集A和图像数据集G创建一个包含N个样本的多模态数据集M=(T,A,G);
步骤A2、对多模态数据集M打上多分类标签,
被标为类别j时,其包含的文本数据
,音频数据
和图像数据
的类别标签均为j。
步骤B、对音频数据集A进行预处理,得到对应的语谱图数据集
,用文本数据集T、语谱图数据集
和图像数据集G按照M中的对应关系创建新的多模态数据集
,并按照9:1的比例将
划分为训练集
和验证集
;
具体来讲,如图3所示,步骤B包括以下步骤:
步骤B1、使用信号分帧加窗、快速傅里叶变换、能量密度计算的步骤处理音频数据
转换成语谱图
,读取音频数据。首先,得到需测量的时间序列值,用16kHZ频率进行信号采样,将离散语音信号a(i)分为多个帧
,进行加窗处理消除两端无意义波形,生成周期信号,加窗函数
运算公式如下:
其中,i为帧序,L为窗口长度,等于帧长,m是一帧内采样点序号;
步骤B2、用快速傅里叶变换FFT将时域信号转为频域信号,获取加窗后信号帧
对应的频谱
,运算公式如下:
其中,k表示傅里叶变换的长度,L表示窗口长度,j表示虚数单位,m是一帧内采样点序号,K是常量,取值256/512/1024;
步骤B3、通过离散傅里叶变换计算得到语谱图坐标(n,k)处的短时幅度谱估计X(n,k),运算公式如下:
其中,L表示帧长,j表示虚数单位,m表示一帧内采样点序号;
步骤B4、用语谱图中坐标为(n,k)处的短时幅度估计X(n,k)计算出对应的频谱能量密度P(n,k),然后转换为语谱图;
其中,语谱图中的每个点含音频信号对应时间、频率和能量信息,频谱能量密度运算公式如下:
步骤B5、按照M=(T,A,G)对应关系,用文本数据集T,语谱图数据集
和图像数据集构建新的多模态数据集
,并将
按照9:1的比例划分为训练集
和测试集
。
步骤C、构建文本分类模型、语谱图分类模型和图像分类模型,分别使用
中的文本数据集、语谱图数据集和图像数据数据集对三个模型进行训练,生成文本多分类器、语谱图多分类器和图像多分类器;
步骤C还包括以下步骤:
步骤C1、构建Bert通用多分类器模型,提取文本特征向量,用训练集
中的文本特征对模型进行预训练并对模型进行微调,计算文本所属类别的概率向量,并用softmax函数对概率进行归一化,学习预测分类
;
步骤C2、构建含有输入层、5个卷积层、3个池化层和1个全连接层的卷积模型,提取语谱图的特征向量,将
语谱图特征输入到模型中,计算语谱图所属类别概率,并用一个softmax层对概率进行归一化,学习预测分类
;
步骤C3、构建含有输入层、3个含激活函数的卷积与池化层、1个扁平层、3个全连接层和输出层的卷积神经网络模型,通过卷积池化操作提取图像特征,将
图像特征输入到模型中,计算图像所属类别概率,并用一个softmax层对概率进行归一化,学习预测标签
。
使用构建的单模态多分类模型计算单模态数据特征经过多层非线性变换得到概率向量,然后将概率向量进行归一化,运算公式如下:
步骤D、将测试集
输入到单模态多分类模型中,计算各个单模态多分类器的误差,根据误差情况为各个单模态数据的概率矩阵分配融合权重;
步骤D还包括以下步骤:
步骤D1、使用测试集
验证文本多分类模型、语谱图多分类模型和图像多分类模型,计算概率矩阵
,
i表示样本索引,N’表示测试集样本数,j表示类别索引,c为类别总数,k表示多分类器索引,
表示在第k个多分类器中第i个样本被判为类别j的概率,等于
;
步骤D2、根据概率矩阵对测试样本进行分类,当样本i被预测为类别j时的概率
大于被预测为其他类别的概率时,则将样本i预测为类别j,
运算公式如下:
其中k,j均是类别索引,
表示样本i预测为类别j的概率,
表示样本i的预测类别,c为类别总数;
步骤D3、通过概率矩阵得到训练集
的混淆矩阵,计算出单模态分类模型的错误率
,根据多分类模型的
分配融合权重,融合权重分配公式如下:
其中,m表示单模态分类模型总数,i,k是模型索引,
是模型k的错误率,
是模型k分得的权重。
通过预测类别与真实标签对比,生成混淆矩阵,统计预测为类别j且预测正确的样本数,计算错误率
,运算公式如下:
其中,k表示单模态多分类模型索引,
表示单模态多分类模型k的准确率,c表示类别总数,j表示类别索引,
表示预测为类别j且实际为类别j的样本数,
表示测试集
中的样本总数。
步骤E、对待分析多模态数据预处理后,将不同类型的单模态数据分别输入到不同的单模态多分类模型中,计算单模态数据的概率矩阵,根据分配的权重,将概率矩阵拼接成融合概率矩阵,并输出概率混淆矩阵,展示分析结果。
进一步的讲,步骤E还包括以下步骤:
步骤E1、检查待分析的多模态数据的完整性,将单模态音频数据转换成语谱图数据,将多模态数据预处理后的单模态数据分别输入单模态数据分类模型中,得到对应的概率矩阵;
步骤E2、根据分配的权重将单模态数据的概率矩阵
拼接成融合概率矩阵
,并输出融合概率矩阵提供可视化分析结果,矩阵融合的运算公式如下:
其中,k是单模态多分类模型索引,m是模型总数,
单模态多分类模型k输出的概率矩阵
分得的权重。
基于本发明提供的面向电力物联网的多模态数据融合分析方法能够快速且智能分析用户问题反馈并输出分析结果,具有高效率、高准度、实时性、可视化等特点,能够为电力物联网公司处理用户问题反馈提供辅助,克服了传统人工分析高成本、耗时、非实时等缺陷,同时克服了传统的单模态数据特征分析精度低且针对不同模态数据需定制化方法导致开发成本高等缺陷。
结合上述方法,如图4所示,本发明还提供面向电力物联网的多模态数据融合分析系统,系统包括:数据打标模块、数据处理模块、数据生成模块、数据计算模块、数据分析模块以及展示模块;
数据打标模块用于对收集的电力用户反馈的多模态数据样本进行完整性检查,用电力用户反馈的文本数据集T、电力用户反馈的音频数据集A、电力用户反馈的图像数据集G创建包含N个样本的多模态数据集M=(T,A,G),对每个样本打上所属类别标签;
数据处理模块用于对音频数据集A进行预处理,得到对应的语谱图数据集
,用文本数据集T、语谱图数据集
和图像数据集G按照M中的对应关系创建新的多模态数据集
,并按照9:1的比例将
划分为训练集
和验证集
;
数据生成模块用于构建文本分类模型、语谱图分类模型和图像分类模型,分别使用
中的文本数据集、语谱图数据集和图像数据数据集对三个模型进行训练,生成文本多分类器、语谱图多分类器和图像多分类器;
数据计算模块用于将测试集
输入到单模态多分类模型中,计算各个单模态多分类器的误差,根据误差情况为各个单模态数据的概率矩阵分配融合权重;
数据分析模块用于对待分析多模态数据预处理后,将不同类型的单模态数据分别输入到不同的单模态多分类模型中,计算单模态数据的概率矩阵,根据分配的权重,将概率矩阵拼接成融合概率矩阵;
展示模块用于展示分析过程以及分析结果。
本发明涉及的面向电力物联网的多模态数据融合的用户反馈智能分析方法与系统,相较于单模态数据分析的方法,在准确率上有较大提升并且具有稳定性,其次能够处理多种类型反馈数据,提供结果可视化,实现具有实时性、高准度、高效率等优点的智能分析方法与系统,为电力企业带来更好的客户服务,更好的用户前景。
本发明涉及的面向电力物联网的多模态数据融合的用户反馈智能分析方法与系统是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属技术领域的技术人员能够理解,本发明涉及的面向电力物联网的多模态数据融合的用户反馈智能分析方法各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。