CN114841293A

CN114841293A - 一种面向电力物联网的多模态数据融合分析方法与系统

Info

Publication number: CN114841293A
Application number: CN202210776158.2A
Authority: CN
Inventors: 李温静; 张楠; 张毅琦; 刘柱; 谢可; 刘彩; 郭文静; 陈锋; 梅盺苏; 肖钧浩; 田桂媚; 张帅; 陈坤庆
Original assignee: State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Siji Location Service Co ltd; State Grid Information and Telecommunication Co Ltd
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-08-02
Anticipated expiration: 2042-07-04
Also published as: CN114841293B

Abstract

本发明提供一种面向电力物联网的多模态数据融合分析方法与系统，涉及电力数据分析技术领域，方法对收集的电力用户反馈的多模态数据样本进行完整性检查，创建包含N个样本的多模态数据集，对每个样本打上所属类别标签；对音频数据集进行预处理，得到对应的语谱图数据集，按照预设的比例划分训练集和验证集；构建分类模型，进行训练生成分类器；将测试集输入到单模态多分类模型中，计算各个单模态多分类器的误差，根据误差情况为各个单模态数据的概率矩阵分配融合权重；对待分析多模态数据预处理后，计算单模态数据的概率矩阵，将概率矩阵拼接成融合概率矩阵；并展示分析结果。本发明可以高效且有效的处理并分析多模态数据。

Description

一种面向电力物联网的多模态数据融合分析方法与系统

技术领域

本发明涉及电力数据分析技术领域，尤其涉及一种面向电力物联网的多模态数据融合分析方法与系统。

背景技术

反馈是直接通往客户的渠道，而且是无价的。对于电力物联网企业而言，能够及时、高效、精准地分析电力用户反馈，意味着能够为电力用户提供更好的产品和服务，意味着能够大大提升电力用户的满意度，留住更多用户的同时，吸引更多的新的电力用户。准确地分析用户反馈，就是“抓住”了用户的需求，能够预测新的市场趋势，将在行业竞争中抢占先机，脱颖而出。

客户反馈方法主要包括线下反馈和线上反馈。传统的线下反馈主要是通过用户与客服人员面对面进行交流的形式反馈用户需求或用户问题，然后再由客服人员进行分析或者客服部门开会进行研究分析，最终提取要点并找到解决方案。这种方式不仅缺乏便捷性、效率性，同时要求用户的时间与客服时间要契合，而且无法并行处理多个用户反馈，具有低效、非并行、耗时、高成本等缺陷。线上反馈包括实时交互式反馈和非实时交互式反馈，二者都弥补了传统线下反馈的一些缺陷，但是实时反馈处理要求能够并行处理，需要较多的客服人员，成本较高，非实时反馈方式则是无法为用户实时处理反馈，影响用户体验。

当前为解决实时处理反馈，提出了面向电力物联网企业用户的问题反馈或需求分析的解决方法，主要是基于单模态数据的分析方法，其中更多的是基于用户相关的文本数据信息进行分析处理。该文本信息主要包括用户个人信息、用电情况、反馈内容等方面综合分析，然后给出相应的解决方案。比如，根据用户个人信息结合用户所处地区以及用电情况来预估未来用户的用电量，从而对电力企业电价或者企业政策作出相应调整。这种方法具有一定的准确度，能够预测正常情况下的用电，但相较于多模态数据融合智能分析方法而言，准确率较低，不能有效处理语音、图像等非文本数据。其次，针对突发状况，预测的准确率不高。

发明内容

本发明提供一种面向电力物联网的多模态数据融合分析方法，方法可以辅助企业实时、准确、高效地了解电力用户需求。

面向电力物联网的多模态数据融合分析方法包括：

步骤A、对收集的电力用户反馈的多模态数据样本进行完整性检查，用电力用户反馈的文本数据集T、电力用户反馈的音频数据集A、电力用户反馈的图像数据集G创建包含N个样本的多模态数据集M=（T，A，G），对每个样本打上所属类别标签；

步骤B、对音频数据集A进行预处理，得到对应的语谱图数据集

，用文本数据集T、语谱图数据集

和图像数据集G按照M中的对应关系创建新的多模态数据集

，并按照9:1的比例将

划分为训练集

和验证集

；

步骤C、构建文本分类模型、语谱图分类模型和图像分类模型，分别使用

中的文本数据集、语谱图数据集和图像数据数据集对三个模型进行训练，生成文本多分类器、语谱图多分类器和图像多分类器；

步骤D、将测试集

输入到单模态多分类模型中，计算各个单模态多分类器的误差，根据误差情况为各个单模态数据的概率矩阵分配融合权重；

步骤E、对待分析多模态数据预处理后，将不同类型的单模态数据分别输入到不同的单模态多分类模型中，计算单模态数据的概率矩阵，根据分配的权重，将概率矩阵拼接成融合概率矩阵，并输出概率混淆矩阵，展示分析结果。

进一步需要说明的是，步骤A还包括：

步骤A1、多模态样本包含电力用户反馈的文本数据，电力用户反馈的音频数据以及电力用户反馈的图像数据；

若样本的文本数据缺失，则通过语音识别的方式将音频数据转为文本数据，用文本数据集T，音频数据集A和图像数据集G创建一个包含N个样本的多模态数据集M=（T，A，G）；

步骤A2、对多模态数据集M打上多分类标签，

被标为类别j时，其包含的文本数据

，音频数据

和图像数据

的类别标签均为j。

进一步需要说明的是，所述步骤B包括以下步骤：

步骤B1、使用信号分帧加窗、快速傅里叶变换、能量密度计算的步骤处理音频数据

转换成语谱图

；

首先，读取音频数据，得到需测量的时间序列值，用16kHZ频率进行信号采样，将离散语音信号a（i）分为多个帧

，进行加窗处理消除两端无意义波形，生成周期信号，加窗函数

运算公式如下：

其中，i为帧序，L为窗口长度，等于帧长，m是一帧内采样点序号；

步骤B2、用快速傅里叶变换FFT将时域信号转为频域信号，获取加窗后信号帧

对应的频谱

，运算公式如下：

其中，k表示傅里叶变换的长度，L表示窗口长度，j表示虚数单位，m是一帧内采样点序号，K是常量，取值256/512/1024；

步骤B3、通过离散傅里叶变换计算得到语谱图坐标（n，k）处的短时幅度谱估计X（n，k），运算公式如下：

其中，L表示帧长，j表示虚数单位，m表示一帧内采样点序号；

步骤B4、用语谱图中坐标为（n，k）处的短时幅度估计X（n，k）计算出对应的频谱能量密度P（n，k），然后转换为语谱图；

其中，语谱图中的每个点含音频信号对应时间、频率和能量信息，频谱能量密度运算公式如下：

进一步需要说明的是，步骤C还包括以下步骤：

步骤C1、构建Bert通用多分类器模型，提取文本特征向量，用训练集

中的文本特征对模型进行预训练并对模型进行微调，计算文本所属类别的概率向量，并用softmax函数对概率进行归一化，学习预测分类

；

步骤C2、构建含有输入层、5个卷积层、3个池化层和1个全连接层的卷积模型，提取语谱图的特征向量，将

语谱图特征输入到模型中，计算语谱图所属类别概率，并用一个softmax层对概率进行归一化，学习预测分类

；

步骤C3、构建含有输入层、3个含激活函数的卷积与池化层、1个扁平层、3个全连接层和输出层的卷积神经网络模型，通过卷积池化操作提取图像特征，将

图像特征输入到模型中，计算图像所属类别概率，并用一个softmax层对概率进行归一化，学习预测标签

。

预测分类

运算流程如下：

使用构建的单模态多分类模型计算单模态数据特征经过多层非线性变换得到概率向量，然后将概率向量进行归一化，运算公式如下：

进一步需要说明的是，步骤D还包括以下步骤：

步骤D1、使用测试集

验证文本多分类模型、语谱图多分类模型和图像多分类模型，计算概率矩阵

,

i表示样本索引，N’表示测试集样本数，j表示类别索引，c为类别总数，k表示多分类器索引，

表示在第k个多分类器中第i个样本被判为类别j的概率，等于

；

步骤D2、根据概率矩阵对测试样本进行分类，当样本i被预测为类别j时的概率

大于被预测为其他类别的概率时，则将样本i预测为类别j，

运算公式如下：

其中k，j均是类别索引，

表示样本i预测为类别j的概率，

表示样本i的预测类别，c为类别总数；

步骤D3、通过概率矩阵得到训练集

的混淆矩阵，计算出单模态分类模型的错误率

，根据多分类模型的

分配融合权重，融合权重分配公式如下：

其中，m表示单模态分类模型总数，i，k是模型索引，

是模型k的错误率，

是模型k分得的权重。

通过预测类别与真实标签对比，生成混淆矩阵，统计预测为类别j且预测正确的样本数，计算错误率

，运算公式如下：

其中，k表示单模态多分类模型索引，

表示单模态多分类模型k的准确率，c表示类别总数，j表示类别索引，

表示预测为类别j且实际为类别j的样本数，

表示测试集

中的样本总数。

进一步需要说明的是，步骤E还包括以下步骤：

步骤E1、检查待分析的多模态数据的完整性，将单模态音频数据转换成语谱图数据，将多模态数据预处理后的单模态数据分别输入单模态数据分类模型中，得到对应的概率矩阵；

步骤E2、根据分配的权重将单模态数据的概率矩阵

拼接成融合概率矩阵

，并输出融合概率矩阵提供可视化分析结果，矩阵融合的运算公式如下：

其中，k是单模态多分类模型索引，m是模型总数，

单模态多分类模型k输出的概率矩阵

分得的权重。

本发明还提供一种面向电力物联网的多模态数据融合分析系统，系统包括：数据打标模块、数据处理模块、数据生成模块、数据计算模块、数据分析模块以及展示模块；

数据打标模块用于对收集的电力用户反馈的多模态数据样本进行完整性检查，用电力用户反馈的文本数据集T、电力用户反馈的音频数据集A、电力用户反馈的图像数据集G创建包含N个样本的多模态数据集M=（T，A，G），对每个样本打上所属类别标签；

数据处理模块用于对音频数据集A进行预处理，得到对应的语谱图数据集

，用文本数据集T、语谱图数据集

和图像数据集G按照M中的对应关系创建新的多模态数据集

，并按照9:1的比例将

划分为训练集

和验证集

；

数据生成模块用于构建文本分类模型、语谱图分类模型和图像分类模型，分别使用

数据计算模块用于将测试集

数据分析模块用于对待分析多模态数据预处理后，将不同类型的单模态数据分别输入到不同的单模态多分类模型中，计算单模态数据的概率矩阵，根据分配的权重，将概率矩阵拼接成融合概率矩阵；

展示模块用于展示分析过程以及分析结果。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供的分析方法是结合电力物联网背景下的用户反馈处理的多模态融合分析技术，相较于单模态数据分析的方法，在准确率上有较大提升并且具有稳定性，其次能够处理多种类型反馈数据，提供结果可视化，实现具有实时性、高准度、高效率等优点的智能分析方法与系统，为电力企业带来更好的客户服务，更好的用户前景。

而且本发明涉及的面向电力物联网的多模态数据融合的用户反馈智能分析方法与系统，能够为电力物联网公司处理用户问题反馈提供辅助，克服了传统人工分析高成本、耗时、非实时等缺陷，同时克服了传统的单模态数据特征分析精度低且针对不同模态数据需定制化方法导致开发成本高等缺陷。

附图说明

为了更清楚地说明本发明的技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为面向电力物联网的多模态数据融合分析方法流程图；

图2为面向电力物联网的多模态数据融合分析方法实施例流程图；

图3为步骤B的音频转换语谱图实现流程图；

图4为面向电力物联网的多模态数据融合分析系统示意图。

具体实施方式

本发明提供的面向电力物联网的多模态数据融合分析方法是为了能够更好地把握电力用户的需求，提供品质服务，就需要准确高效地分析用户反馈。

本发明提供的面向电力物联网的多模态数据融合分析方法能够配备一套用户反馈智能分析方法与系统来辅助企业实时、准确、高效地了解电力用户需求，为企业带来更好的发展前景。借助多模态数据融合技术，结合电力物联网用户数据的多样性，包括用户文本数据、音频数据、图像数据等，搭建一种多模态数据融合的电力用户反馈智能分析方法与系统能够帮助有效帮助电力企业留住老用户，吸引新用户，为企业带来更大的利润。

本发明提供的面向电力物联网的多模态数据融合分析方法中，所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本发明提供的面向电力物联网的多模态数据融合分析方法的附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在本发明提供的面向电力物联网的多模态数据融合分析方法中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和2所示，本发明提供的面向电力物联网的多模态数据融合分析方法包括：

步骤A具体包括：

步骤A2、对多模态数据集M打上多分类标签，

被标为类别j时，其包含的文本数据

，音频数据

和图像数据

的类别标签均为j。

，用文本数据集T、语谱图数据集

和图像数据集G按照M中的对应关系创建新的多模态数据集

，并按照9:1的比例将

划分为训练集

和验证集

；

具体来讲，如图3所示，步骤B包括以下步骤：

转换成语谱图

，读取音频数据。首先，得到需测量的时间序列值，用16kHZ频率进行信号采样，将离散语音信号a（i）分为多个帧

运算公式如下：

对应的频谱

，运算公式如下：

步骤B5、按照M=（T，A，G）对应关系，用文本数据集T，语谱图数据集

和图像数据集构建新的多模态数据集

，并将

按照9:1的比例划分为训练集

和测试集

。

步骤C还包括以下步骤：

；

；

。

预测分类

运算流程如下：

步骤D、将测试集

步骤D还包括以下步骤：

步骤D1、使用测试集

,

表示在第k个多分类器中第i个样本被判为类别j的概率，等于

；

大于被预测为其他类别的概率时，则将样本i预测为类别j，

运算公式如下：

其中k，j均是类别索引，

表示样本i预测为类别j的概率，

表示样本i的预测类别，c为类别总数；

步骤D3、通过概率矩阵得到训练集

的混淆矩阵，计算出单模态分类模型的错误率

，根据多分类模型的

分配融合权重，融合权重分配公式如下：

其中，m表示单模态分类模型总数，i，k是模型索引，

是模型k的错误率，

是模型k分得的权重。

，运算公式如下：

其中，k表示单模态多分类模型索引，

表示预测为类别j且实际为类别j的样本数，

表示测试集

中的样本总数。

进一步的讲，步骤E还包括以下步骤：

步骤E2、根据分配的权重将单模态数据的概率矩阵

拼接成融合概率矩阵

其中，k是单模态多分类模型索引，m是模型总数，

单模态多分类模型k输出的概率矩阵

分得的权重。

基于本发明提供的面向电力物联网的多模态数据融合分析方法能够快速且智能分析用户问题反馈并输出分析结果，具有高效率、高准度、实时性、可视化等特点，能够为电力物联网公司处理用户问题反馈提供辅助，克服了传统人工分析高成本、耗时、非实时等缺陷，同时克服了传统的单模态数据特征分析精度低且针对不同模态数据需定制化方法导致开发成本高等缺陷。

结合上述方法，如图4所示，本发明还提供面向电力物联网的多模态数据融合分析系统，系统包括：数据打标模块、数据处理模块、数据生成模块、数据计算模块、数据分析模块以及展示模块；

，用文本数据集T、语谱图数据集

和图像数据集G按照M中的对应关系创建新的多模态数据集

，并按照9:1的比例将

划分为训练集

和验证集

；

数据计算模块用于将测试集

展示模块用于展示分析过程以及分析结果。

本发明涉及的面向电力物联网的多模态数据融合的用户反馈智能分析方法与系统，相较于单模态数据分析的方法，在准确率上有较大提升并且具有稳定性，其次能够处理多种类型反馈数据，提供结果可视化，实现具有实时性、高准度、高效率等优点的智能分析方法与系统，为电力企业带来更好的客户服务，更好的用户前景。

本发明涉及的面向电力物联网的多模态数据融合的用户反馈智能分析方法与系统是结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属技术领域的技术人员能够理解，本发明涉及的面向电力物联网的多模态数据融合的用户反馈智能分析方法各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。