CN112464281A

CN112464281A - 基于隐私分组和情感识别的网络信息分析方法

Info

Publication number: CN112464281A
Application number: CN202011366110.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Harbin Engineering University
Current assignee: Shenzhen Sodi Statistical Technology Co ltd
Priority date: 2020-11-29
Filing date: 2020-11-29
Publication date: 2021-03-09
Anticipated expiration: 2040-11-29
Also published as: CN112464281B

Abstract

本发明属于人工智能大数据分析领域，具体涉及一种基于隐私分组和情感识别的网络信息分析方法。本发明包括：将预处理后的大数据信道信息输入双向长短期记忆网络，进行特征提取，得到特征向量；将特征向量进行二次训练，得到基于多重注意力模型的Encoder‑Decoder模型；将采集到的待识别大数据集进行预处理，得到识别后的大数据集等。本发明使用双向长短期记忆网络进行特征提取，同时优化整个模型提出基于多重注意力模型的Encoder‑Decoder模型与双向长短期记忆网络相结合的方法，时长相对更短、预测速度也会相对更快、收敛速度快、识别准确率高。提高了情感分析的准确性，判断出的结果比传统的情感分析算法具有更高的精度。

Description

基于隐私分组和情感识别的网络信息分析方法

技术领域

本发明属于人工智能大数据分析领域，具体涉及一种基于隐私分组和情感识别的网络信息分析方法。

背景技术

随着互联网大数据和人工智能的迅猛发展，多种网络社交手段已经深入到人类社会生活的各个方面，各种社交信息在网络上表达，包含个人和团体的态度、意见和情感。当今，网络信息已经从简单的浏览与接受向各个维度发展并形成了大数据级别的规模。信息识别的方法包括语音识别、动作识别、文字识别、音乐识别、密码识别和信道信息识别等。对于大数据技术和人工智能技术而言，一个很大的难题在于对信息文本进行自动化处理和分析，从分析结果中收集期望的价值信息。随着网络信息技术的不断积累，现在已经有各种大数据系统储存、聚集并分析处理了海量的大数据信息。然而，由于大数据信息中存有海量的个人、公司、社会团体等隐私，在大数据信息发布的过程中，如果不采取相关的保护措施，极有可能泄露敏感信息，造成意想不到的损失。

现有的技术包括类似双模态情感识别模型训练识别方法及基于大数据的隐私数据分级方法，其中动态大数据的要求应用适当的噪声添加机制，如果稍有不当即会累加极大的误差，使添加保护措施后的数据毫无用处。目前已经发布的面向动态大数据发布的相关方法，多是基于滑动窗口模型处理更新的数据，但是对衡量和增量数据的相似度的敏感性较差。最后现有方法并未考虑离线阶段训练的用户与在线阶段识别的用户出现差别可能的情况。由于不同用户发布相同信息都不会完全一致，而这种不一致在信道信息上表现的更明显，所以直接影响了识别的准确率。上述方法大多是用单一的方法去解决人工智能的大数据分析问题，无论是算法模型的可解释性、有效性还是应用性，都还有改进的空间。

发明内容

本发明的目的在于提供一种收敛速度快、识别准确率高的基于隐私分组和情感识别的网络信息分析方法。

本发明的目的是这样实现的：

基于隐私分组和情感识别的网络信息分析方法，包括如下步骤：

(1)获取大数据信道信息；

(2)对大数据信道信息进行预处理；

(3)将预处理后的大数据信道信息输入双向长短期记忆网络，进行特征提取，得到特征向量；

(4)将特征向量进行二次训练，得到基于多重注意力模型的Encoder-Decoder模型；

(5)将采集到的待识别大数据集进行预处理，输入已训练好的多重注意力模型的Encoder-Decoder模型中进行识别，得到识别后的大数据集；

(6)读取第i时间点接收的大数据集D_i；

(7)将大数据集D_i与上一个时间点接收的大数据集D_i-1进行推土机距离相似度计算；

(8)当推土机距离大于阈值τ，则对当前时间点的大数据集添加拉普拉斯噪声后进行直接发布，否则，执行步骤(9)；

(9)判断上一次大数据集发布是否为直接发布，如果是直接发布，则先对当前时间点的大数据集进行贪心分组，再进行发布；否则执行步骤(10)；

(10)用上一个时间点发布的噪声数据来代替当前时间点的大数据集进行直接发布。

所述的预处理包括：

对大数据的信道信息清洗，使用局部离群因子检测方法滤除异常值，若异常值大于1，则将该信道信息视为离群点去除，采用word2vec模型将清洗后的信道信息向量化，信道信息向量的矩阵维度为m×d，其中m是信道信息包含的单元数，d为每个单元的维度。

预处理后的大数据信道信息输入双向长短期记忆网络包括：

得到的信道信息信道信息向量作为双向长短期记忆网络的序列化输入，使模型分别从两个方向提取大数据信道信息的特征向量，把特征向量合并到双向长短期记忆网络单元中，设计三个方面门来控制分别被导入到输入门、遗忘门和输出门中的方面向量数量，最终获得每个时间点上的隐藏层状态和带有方面感知的信息整体表示。

所述的得到基于多重注意力模型的Encoder-Decoder模型包括：

在Encoder-Decoder模型中引入注意力机制，将双向长短期记忆网络输出的隐藏层状态与带有方面感知的信息相结合，并进行注意力操作，最终得到识别后的大数据集；针对不同方面的感知的信息经过全链接层和softmax函数后，输出经过隐私分类样本在每个情感分类上的概率，即可得到与不同方面相对应的情感极性。

所述的推土机距离相似度计算包括：

对时间点p发布的大数据集D_i中选择属性A的不同元素值进行统计，统计数据集CD_i＝{(x_p1,f_p1),(x_p2,f_p2),…(x_pm,f_pm)}，x_pi为元素值，f_pi为x_pi在D_i中出现的频数；

对f_pi进行归一化处理，

得到

P＝{(x_p1,g_p1),(x_p2,g_p2),…(x_pm,g_pm)}

对上一个时间点发布的含噪直方图所对应的数据集归一化后为Q，时间点q发布的大数据集

Q＝{(x_q1,g_q1),(x_q2,g_q2),…(x_qm,g_qm)}

计算P和Q之间的相似度：

其中，1≤i≤m，1≤j≤m，

进行最优化：

解出f_ij。

所述的双向长短期记忆网络为：

α_i＝(W_αi[A,h_t-1]+b_αi)

I_t＝σ(W_I[x_t,h_t-1]+α_i⊙A+b_I)

α_f＝σ(W_αf[A,h_t-1]+b_αf)

f_t＝σ(W_f[x_t,h_t-1]+α_f⊙A+b_f)

α_t＝σ(W_α0[A,h_t-1]+b_α0)

o_t＝σ(W₀[x_t,h_t-1]+α₀⊙A+b₀)

h_t＝o_t×tanh(C_t)

其中，x_t为时间步长t对应的大数据集的输入嵌入向量，A为方面向量，h_t-1为前一隐藏状态，h_t为该时间步长隐藏状态，σ和tanh为sigmoid和正切函数，⊙表示元素的乘法，W_αi、W_αf、W_α0、W_I、W_f、W_c、W₀为加权矩阵，b_αi、b_I、b_αf、b_f、b_c、b_α0、b₀为对应偏置，da,dc为方面向量维数和隐藏单元数，I_t、f_t、o_t分别代表输入门、遗忘门和输出门，α_i、α_f、α₀分别代表方面输入门、方面遗忘门和方面输出门。

所述的Encoder-Decoder模型包括编码模型和解码模型，编码部分对于长度为n的数据，隐藏层输出矩阵为

H＝[h₁,h₂,…,h_n]

生成数据为v_s：

解码模型由方面注意力模块组成，模块数量N与数据集的方面总个数相同，即一个方面注意力模块对应一个特定的方面；当输入数据包含有多个方面时，编码得到的输出H被分别送入对应的方面注意力模块中，在每个方面注意力模块中，各有一个对应的方面信息，即方面向量v_ai，方面向量v_ai与输入矩阵H中的每个隐状态进行拼接，再进行注意力计算，最后通过加权平均，获得有关特定方面的数据：

e_tif＝tanh(W_aif[h_t,v_aif]+b_aif)

其中，if为第if个方面注意力模块，W_aif为注意力的权重矩阵，b_aif为注意力的偏置项，e_tif是tif时刻注意力分数，e_jif是jif时刻注意力分数，a_tif是注意力权重值。

本发明的有益效果在于：

(1)由于不同的信道状态信息即使做相同的分析处理也不会完全一致，同时用户间的差异性直接影响了识别的准确率。在现实条件下，待识别的用户训练不完全。而本发明使用双向长短期记忆网络进行特征提取，同时优化整个模型提出基于多重注意力模型的Encoder-Decoder模型与双向长短期记忆网络相结合的方法，时长相对更短、预测速度也会相对更快、收敛速度快、识别准确率高。这样只需要少数用户的训练，即可实现对更多用户的数据识别。

(2)本发明方法中对不同方面情感分析的单一性及笼统型问题，提高了方面级别情感分析的准确性，判断出的结果比传统的情感分析算法具有更高的精度。

(3)本发明采用的推土机距离是平滑的，推土机距离能够反映两个概率分布的远近，且有较高地衡量数据相似度的敏感性。利用推土机距离来计算数据之间的差异，根据距离测度与阈值的比较结果，动态地分配隐私预算，有效提高了动态数据发布的效用，并在数据发布过程中利用贪心分组的方式对采样点上的数据进行发布，降低全局敏感度，以此来提高数据发布效用，降低数据发布误差。

附图说明

图1是本发明基于隐私分组和情感识别的网络信息分析方法。

图2是本发明的word2vec模型的基本原理示意图。

图3是本发明的双向长短期记忆网络模型。

图4是本发明的Encoder-decoder模型示意图。

具体实施方式

下面结合附图对本发明做进一步描述。各模型示意图如图2-4所示。本发明的基于隐私分组和情感识别的网络信息分析方法的详细步骤包括：

(1)获取大数据信道信息；

(2)对大数据信道信息进行预处理；

所述的预处理包括：

预处理后的大数据信道信息输入双向长短期记忆网络包括：

所述的双向长短期记忆网络为：

α_i＝(W_αi[A,h_t-1]+b_αi)

I_t＝σ(W_I[x_t,h_t-1]+α_i⊙A+b_I)

α_f＝σ(W_αf[A,h_t-1]+b_αf)

f_t＝σ(W_f[x_t,h_t-1]+α_f⊙A+b_f)

α_t＝σ(W_α0[A,h_t-1]+b_α0)

o_t＝σ(W₀[x_t,h_t-1]+α₀⊙A+b₀)

h_t＝o_t×tanh(C_t)

所述的得到基于多重注意力模型的Encoder-Decoder模型包括：

H＝[h₁,h₂,…,h_n]

生成数据为v_s：

e_tif＝tanh(W_aif[h_t,v_aif]+b_aif)

(6)读取第i时间点接收的大数据集D_i；

所述的推土机距离相似度计算包括：

对f_pi进行归一化处理，

得到

P＝{(x_p1,g_p1),(x_p2,g_p2),…(x_pm,g_pm)}

Q＝{(x_q1,g_q1),(x_q2,g_q2),…(x_qm,g_qm)}

计算P和Q之间的相似度：

其中，1≤i≤m，1≤j≤m，

进行最优化：

解出f_ij。

相对于对比文件而言，本发明的区别在于采用了双向长短期记忆网络、Encoder-Decoder模型和推土机距离相似度计算三种方式的结合，实现对大数据信息进行隐私分组和情感识别后的分析发布。由于现有文件中均没有相关的记载，同时本发明使用双向长短期记忆网络进行特征提取，同时优化整个模型提出基于多重注意力模型的Encoder-Decoder模型与双向长短期记忆网络相结合的方法，时长相对更短、预测速度也会相对更快、收敛速度快、识别准确率高。这样只需要少数用户的训练，即可实现对更多用户的数据识别。对不同方面情感分析的单一性及笼统型问题，提高了方面级别情感分析的准确性，判断出的结果比传统的情感分析算法具有更高的精度。利用推土机距离来计算数据之间的差异，根据距离测度与阈值的比较结果，动态地分配隐私预算，有效提高了动态数据发布的效用，并在数据发布过程中利用贪心分组的方式对采样点上的数据进行发布，降低全局敏感度，以此来提高数据发布效用，降低数据发布误差。所以，本发明具有突出的实质性特点和显著的技术进步。具备充分的创造性条件。

实施例1

结合图1，以CSI数据图像处理发布为例。

首先从接收机采集无线信号原始的CSI数据，依次进行数据预处理、特征提取和识别。在采集大数据阶段，将发射机和接收机安排在任意位置，用户在发射机与接收机之间做动作采集，发射机使用无线路由器，接收机采用网卡并外接计算机，设置采样频率为1000Hz，使用接收机获取信道状态信息。若所求得的局部异常因子LOF值大于1，则将其视为离群点去除。然后进行特征提取，如果接收到3条链路上的信息，每条链路包含30个子载波，每次获得30*3的矩阵。信号的采样率设置为每秒1000个数据包，选取200ms接收到的数据包内容，构建200*30*3指纹矩阵。使用网络进行训练。此时得到网络模型，在线训练结束。再把得到的特征向量带入已训练好的模型中进行识别发布。

实施例2

H＝[h₁,h₂,…,h_n]

生成数据为v_s：

e_tif＝tanh(W_aif[h_t,v_aif]+b_aif)

实施例3

相似于实施例1和2，区别在于，情感极性分类包括：将v_s送入全链接层，通过softmax函数输出待分类样本在每个情感分类上的概率，得到与不同方面相对应的情感极性：

其中P_tif为全链接层的权重矩阵，b_pif为全链接层的偏置项，C为类别数。

为验证本发明结果，选用F1值指标进行对比试验。F1值是查准率和查全率的调和平均，即：

本发明选用6个经典模型进行三分类对比，验证结果如表1所示。从对比结果可以看出，在消极分类和中性分类F2值上，本发明提升了4.49％和6.32％。在消极分类效果相似的情况下，加入方面信息或使用注意力机制，能使中性分类效果得到明显改善，分别提升了6.05％和6.94％。在三分类F2值上，分别提升了0.94％、3.39％和5.94％，同样在中性分类效果上改善明显。这表明本发明提出的方法能有效地处理情感极性模糊、表达不清晰等情况下的信息。

表1

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于隐私分组和情感识别的网络信息分析方法，其特征在于，包括如下步骤：

(1)获取大数据信道信息；

(2)对大数据信道信息进行预处理；

(6)读取第i时间点接收的大数据集D_i；

2.根据权利要求1所述的基于隐私分组和情感识别的网络信息分析方法，其特征在于，所述的预处理包括：

3.根据权利要求2所述的基于隐私分组和情感识别的网络信息分析方法，其特征在于，预处理后的大数据信道信息输入双向长短期记忆网络包括：

4.根据权利要求3所述的基于隐私分组和情感识别的网络信息分析方法，其特征在于，所述的得到基于多重注意力模型的Encoder-Decoder模型包括：

5.根据权利要求4所述的基于隐私分组和情感识别的网络信息分析方法，其特征在于，所述的推土机距离相似度计算包括：

对时间点p发布的大数据集D_i中选择属性A的不同元素值进行统计，统计数据集CD_i＝{(x_p1，f_p1)，(x_p2，f_p2)，…(x_pm，f_pm)}，x_pi为元素值，f_pi为x_pi在D_i中出现的频数；

对f_pi进行归一化处理，

P＝{(x_p1，g_p1)，(x_p2，g_p2)，…(x_pm，g_pm)}

Q＝{(x_q1，g_q1)，(x_q2，g_q2)，…(x_qm，g_qm)}

计算P和Q之间的相似度：

其中，1≤i≤m，1≤j≤m，

进行最优化：

解出f_ij。

6.根据权利要求5所述的基于隐私分组和情感识别的网络信息分析方法，其特征在于，所述的双向长短期记忆网络为：

α_i＝(W_αi[A，h_t-1]+b_αi)

I_t＝σ(W_I[x_t，h_t-1]+α_i⊙A+b_I)

α_f＝σ(W_αf[A，h_t-1]+b_αf)

f_t＝σ(W_f[x_t，h_t-1]+α_f⊙A+b_f)

α_t＝σ(W_α0[A，h_t-1]+b_α0)

o_t＝σ(W₀[x_t，h_t-1]+α₀⊙A+b₀)

h_t＝o_t×tanh(C_t)

其中，x_t为时间步长t对应的大数据集的输入嵌入向量，A为方面向量，h_t-1为前一隐藏状态，h_t为该时间步长隐藏状态，σ和tanh为sigmoid和正切函数，⊙表示元素的乘法，W_αi、W_αf、W_α0、W_I、W_f、W_e、W₀为加权矩阵，b_αi、b_I、b_αf、b_f、b_c、b_α0、b₀为对应偏置，da，dc为方面向量维数和隐藏单元数，I_t、f_t、o_t分别代表输入门、遗忘门和输出门，α_i、α_f、α₀分别代表方面输入门、方面遗忘门和方面输出门。

7.根据权利要求6所述的基于隐私分组和情感识别的网络信息分析方法，其特征在于，所述的Encoder-Decoder模型包括编码模型和解码模型，编码部分对于长度为n的数据，隐藏层输出矩阵为

H＝[h₁，h₂，…，h_n]

生成数据为v_s：

e_tif＝tanh(W_aif[h_t，v_aif]+b_aif)