CN112464281A - 基于隐私分组和情感识别的网络信息分析方法 - Google Patents

基于隐私分组和情感识别的网络信息分析方法 Download PDF

Info

Publication number
CN112464281A
CN112464281A CN202011366110.1A CN202011366110A CN112464281A CN 112464281 A CN112464281 A CN 112464281A CN 202011366110 A CN202011366110 A CN 202011366110A CN 112464281 A CN112464281 A CN 112464281A
Authority
CN
China
Prior art keywords
data set
attention
model
channel information
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011366110.1A
Other languages
English (en)
Other versions
CN112464281B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sodi Statistical Technology Co ltd
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202011366110.1A priority Critical patent/CN112464281B/zh
Publication of CN112464281A publication Critical patent/CN112464281A/zh
Application granted granted Critical
Publication of CN112464281B publication Critical patent/CN112464281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于人工智能大数据分析领域,具体涉及一种基于隐私分组和情感识别的网络信息分析方法。本发明包括:将预处理后的大数据信道信息输入双向长短期记忆网络,进行特征提取,得到特征向量;将特征向量进行二次训练,得到基于多重注意力模型的Encoder‑Decoder模型;将采集到的待识别大数据集进行预处理,得到识别后的大数据集等。本发明使用双向长短期记忆网络进行特征提取,同时优化整个模型提出基于多重注意力模型的Encoder‑Decoder模型与双向长短期记忆网络相结合的方法,时长相对更短、预测速度也会相对更快、收敛速度快、识别准确率高。提高了情感分析的准确性,判断出的结果比传统的情感分析算法具有更高的精度。

Description

基于隐私分组和情感识别的网络信息分析方法
技术领域
本发明属于人工智能大数据分析领域,具体涉及一种基于隐私分组和情感识别的网络信息分析方法。
背景技术
随着互联网大数据和人工智能的迅猛发展,多种网络社交手段已经深入到人类社会生活的各个方面,各种社交信息在网络上表达,包含个人和团体的态度、意见和情感。当今,网络信息已经从简单的浏览与接受向各个维度发展并形成了大数据级别的规模。信息识别的方法包括语音识别、动作识别、文字识别、音乐识别、密码识别和信道信息识别等。对于大数据技术和人工智能技术而言,一个很大的难题在于对信息文本进行自动化处理和分析,从分析结果中收集期望的价值信息。随着网络信息技术的不断积累,现在已经有各种大数据系统储存、聚集并分析处理了海量的大数据信息。然而,由于大数据信息中存有海量的个人、公司、社会团体等隐私,在大数据信息发布的过程中,如果不采取相关的保护措施,极有可能泄露敏感信息,造成意想不到的损失。
现有的技术包括类似双模态情感识别模型训练识别方法及基于大数据的隐私数据分级方法,其中动态大数据的要求应用适当的噪声添加机制,如果稍有不当即会累加极大的误差,使添加保护措施后的数据毫无用处。目前已经发布的面向动态大数据发布的相关方法,多是基于滑动窗口模型处理更新的数据,但是对衡量和增量数据的相似度的敏感性较差。最后现有方法并未考虑离线阶段训练的用户与在线阶段识别的用户出现差别可能的情况。由于不同用户发布相同信息都不会完全一致,而这种不一致在信道信息上表现的更明显,所以直接影响了识别的准确率。上述方法大多是用单一的方法去解决人工智能的大数据分析问题,无论是算法模型的可解释性、有效性还是应用性,都还有改进的空间。
发明内容
本发明的目的在于提供一种收敛速度快、识别准确率高的基于隐私分组和情感识别的网络信息分析方法。
本发明的目的是这样实现的:
基于隐私分组和情感识别的网络信息分析方法,包括如下步骤:
(1)获取大数据信道信息;
(2)对大数据信道信息进行预处理;
(3)将预处理后的大数据信道信息输入双向长短期记忆网络,进行特征提取,得到特征向量;
(4)将特征向量进行二次训练,得到基于多重注意力模型的Encoder-Decoder模型;
(5)将采集到的待识别大数据集进行预处理,输入已训练好的多重注意力模型的Encoder-Decoder模型中进行识别,得到识别后的大数据集;
(6)读取第i时间点接收的大数据集Di
(7)将大数据集Di与上一个时间点接收的大数据集Di-1进行推土机距离相似度计算;
(8)当推土机距离大于阈值τ,则对当前时间点的大数据集添加拉普拉斯噪声后进行直接发布,否则,执行步骤(9);
(9)判断上一次大数据集发布是否为直接发布,如果是直接发布,则先对当前时间点的大数据集进行贪心分组,再进行发布;否则执行步骤(10);
(10)用上一个时间点发布的噪声数据来代替当前时间点的大数据集进行直接发布。
所述的预处理包括:
对大数据的信道信息清洗,使用局部离群因子检测方法滤除异常值,若异常值大于1,则将该信道信息视为离群点去除,采用word2vec模型将清洗后的信道信息向量化,信道信息向量的矩阵维度为m×d,其中m是信道信息包含的单元数,d为每个单元的维度。
预处理后的大数据信道信息输入双向长短期记忆网络包括:
得到的信道信息信道信息向量作为双向长短期记忆网络的序列化输入,使模型分别从两个方向提取大数据信道信息的特征向量,把特征向量合并到双向长短期记忆网络单元中,设计三个方面门来控制分别被导入到输入门、遗忘门和输出门中的方面向量数量,最终获得每个时间点上的隐藏层状态和带有方面感知的信息整体表示。
所述的得到基于多重注意力模型的Encoder-Decoder模型包括:
在Encoder-Decoder模型中引入注意力机制,将双向长短期记忆网络输出的隐藏层状态与带有方面感知的信息相结合,并进行注意力操作,最终得到识别后的大数据集;针对不同方面的感知的信息经过全链接层和softmax函数后,输出经过隐私分类样本在每个情感分类上的概率,即可得到与不同方面相对应的情感极性。
所述的推土机距离相似度计算包括:
对时间点p发布的大数据集Di中选择属性A的不同元素值进行统计,统计数据集CDi={(xp1,fp1),(xp2,fp2),…(xpm,fpm)},xpi为元素值,fpi为xpi在Di中出现的频数;
对fpi进行归一化处理,
Figure BDA0002805485680000021
得到
P={(xp1,gp1),(xp2,gp2),…(xpm,gpm)}
对上一个时间点发布的含噪直方图所对应的数据集归一化后为Q,时间点q发布的大数据集
Q={(xq1,gq1),(xq2,gq2),…(xqm,gqm)}
计算P和Q之间的相似度:
Figure BDA0002805485680000031
Figure BDA0002805485680000032
其中,1≤i≤m,1≤j≤m,
进行最优化:
Figure BDA0002805485680000033
Figure BDA0002805485680000034
解出fij
所述的双向长短期记忆网络为:
αi=(Wαi[A,ht-1]+bαi)
It=σ(WI[xt,ht-1]+αi⊙A+bI)
αf=σ(Wαf[A,ht-1]+bαf)
ft=σ(Wf[xt,ht-1]+αf⊙A+bf)
Figure BDA0002805485680000035
Figure BDA0002805485680000036
αt=σ(Wα0[A,ht-1]+bα0)
ot=σ(W0[xt,ht-1]+α0⊙A+b0)
ht=ot×tanh(Ct)
其中,xt为时间步长t对应的大数据集的输入嵌入向量,A为方面向量,ht-1为前一隐藏状态,ht为该时间步长隐藏状态,σ和tanh为sigmoid和正切函数,⊙表示元素的乘法,Wαi、Wαf、Wα0、WI、Wf、Wc、W0为加权矩阵,bαi、bI、bαf、bf、bc、bα0、b0为对应偏置,da,dc为方面向量维数和隐藏单元数,It、ft、ot分别代表输入门、遗忘门和输出门,αi、αf、α0分别代表方面输入门、方面遗忘门和方面输出门。
所述的Encoder-Decoder模型包括编码模型和解码模型,编码部分对于长度为n的数据,隐藏层输出矩阵为
H=[h1,h2,…,hn]
生成数据为vs
Figure BDA0002805485680000041
解码模型由方面注意力模块组成,模块数量N与数据集的方面总个数相同,即一个方面注意力模块对应一个特定的方面;当输入数据包含有多个方面时,编码得到的输出H被分别送入对应的方面注意力模块中,在每个方面注意力模块中,各有一个对应的方面信息,即方面向量vai,方面向量vai与输入矩阵H中的每个隐状态进行拼接,再进行注意力计算,最后通过加权平均,获得有关特定方面的数据:
etif=tanh(Waif[ht,vaif]+baif)
Figure BDA0002805485680000042
Figure BDA0002805485680000043
其中,if为第if个方面注意力模块,Waif为注意力的权重矩阵,baif为注意力的偏置项,etif是tif时刻注意力分数,ejif是jif时刻注意力分数,atif是注意力权重值。
本发明的有益效果在于:
(1)由于不同的信道状态信息即使做相同的分析处理也不会完全一致,同时用户间的差异性直接影响了识别的准确率。在现实条件下,待识别的用户训练不完全。而本发明使用双向长短期记忆网络进行特征提取,同时优化整个模型提出基于多重注意力模型的Encoder-Decoder模型与双向长短期记忆网络相结合的方法,时长相对更短、预测速度也会相对更快、收敛速度快、识别准确率高。这样只需要少数用户的训练,即可实现对更多用户的数据识别。
(2)本发明方法中对不同方面情感分析的单一性及笼统型问题,提高了方面级别情感分析的准确性,判断出的结果比传统的情感分析算法具有更高的精度。
(3)本发明采用的推土机距离是平滑的,推土机距离能够反映两个概率分布的远近,且有较高地衡量数据相似度的敏感性。利用推土机距离来计算数据之间的差异,根据距离测度与阈值的比较结果,动态地分配隐私预算,有效提高了动态数据发布的效用,并在数据发布过程中利用贪心分组的方式对采样点上的数据进行发布,降低全局敏感度,以此来提高数据发布效用,降低数据发布误差。
附图说明
图1是本发明基于隐私分组和情感识别的网络信息分析方法。
图2是本发明的word2vec模型的基本原理示意图。
图3是本发明的双向长短期记忆网络模型。
图4是本发明的Encoder-decoder模型示意图。
具体实施方式
下面结合附图对本发明做进一步描述。各模型示意图如图2-4所示。本发明的基于隐私分组和情感识别的网络信息分析方法的详细步骤包括:
(1)获取大数据信道信息;
(2)对大数据信道信息进行预处理;
所述的预处理包括:
对大数据的信道信息清洗,使用局部离群因子检测方法滤除异常值,若异常值大于1,则将该信道信息视为离群点去除,采用word2vec模型将清洗后的信道信息向量化,信道信息向量的矩阵维度为m×d,其中m是信道信息包含的单元数,d为每个单元的维度。
(3)将预处理后的大数据信道信息输入双向长短期记忆网络,进行特征提取,得到特征向量;
预处理后的大数据信道信息输入双向长短期记忆网络包括:
得到的信道信息信道信息向量作为双向长短期记忆网络的序列化输入,使模型分别从两个方向提取大数据信道信息的特征向量,把特征向量合并到双向长短期记忆网络单元中,设计三个方面门来控制分别被导入到输入门、遗忘门和输出门中的方面向量数量,最终获得每个时间点上的隐藏层状态和带有方面感知的信息整体表示。
所述的双向长短期记忆网络为:
αi=(Wαi[A,ht-1]+bαi)
It=σ(WI[xt,ht-1]+αi⊙A+bI)
αf=σ(Wαf[A,ht-1]+bαf)
ft=σ(Wf[xt,ht-1]+αf⊙A+bf)
Figure BDA0002805485680000051
Figure BDA0002805485680000052
αt=σ(Wα0[A,ht-1]+bα0)
ot=σ(W0[xt,ht-1]+α0⊙A+b0)
ht=ot×tanh(Ct)
其中,xt为时间步长t对应的大数据集的输入嵌入向量,A为方面向量,ht-1为前一隐藏状态,ht为该时间步长隐藏状态,σ和tanh为sigmoid和正切函数,⊙表示元素的乘法,Wαi、Wαf、Wα0、WI、Wf、Wc、W0为加权矩阵,bαi、bI、bαf、bf、bc、bα0、b0为对应偏置,da,dc为方面向量维数和隐藏单元数,It、ft、ot分别代表输入门、遗忘门和输出门,αi、αf、α0分别代表方面输入门、方面遗忘门和方面输出门。
(4)将特征向量进行二次训练,得到基于多重注意力模型的Encoder-Decoder模型;
所述的得到基于多重注意力模型的Encoder-Decoder模型包括:
在Encoder-Decoder模型中引入注意力机制,将双向长短期记忆网络输出的隐藏层状态与带有方面感知的信息相结合,并进行注意力操作,最终得到识别后的大数据集;针对不同方面的感知的信息经过全链接层和softmax函数后,输出经过隐私分类样本在每个情感分类上的概率,即可得到与不同方面相对应的情感极性。
(5)将采集到的待识别大数据集进行预处理,输入已训练好的多重注意力模型的Encoder-Decoder模型中进行识别,得到识别后的大数据集;
所述的Encoder-Decoder模型包括编码模型和解码模型,编码部分对于长度为n的数据,隐藏层输出矩阵为
H=[h1,h2,…,hn]
生成数据为vs
Figure BDA0002805485680000061
解码模型由方面注意力模块组成,模块数量N与数据集的方面总个数相同,即一个方面注意力模块对应一个特定的方面;当输入数据包含有多个方面时,编码得到的输出H被分别送入对应的方面注意力模块中,在每个方面注意力模块中,各有一个对应的方面信息,即方面向量vai,方面向量vai与输入矩阵H中的每个隐状态进行拼接,再进行注意力计算,最后通过加权平均,获得有关特定方面的数据:
etif=tanh(Waif[ht,vaif]+baif)
Figure BDA0002805485680000062
Figure BDA0002805485680000071
其中,if为第if个方面注意力模块,Waif为注意力的权重矩阵,baif为注意力的偏置项,etif是tif时刻注意力分数,ejif是jif时刻注意力分数,atif是注意力权重值。
(6)读取第i时间点接收的大数据集Di
(7)将大数据集Di与上一个时间点接收的大数据集Di-1进行推土机距离相似度计算;
所述的推土机距离相似度计算包括:
对时间点p发布的大数据集Di中选择属性A的不同元素值进行统计,统计数据集CDi={(xp1,fp1),(xp2,fp2),…(xpm,fpm)},xpi为元素值,fpi为xpi在Di中出现的频数;
对fpi进行归一化处理,
Figure BDA0002805485680000072
得到
P={(xp1,gp1),(xp2,gp2),…(xpm,gpm)}
对上一个时间点发布的含噪直方图所对应的数据集归一化后为Q,时间点q发布的大数据集
Q={(xq1,gq1),(xq2,gq2),…(xqm,gqm)}
计算P和Q之间的相似度:
Figure BDA0002805485680000073
Figure BDA0002805485680000074
其中,1≤i≤m,1≤j≤m,
进行最优化:
Figure BDA0002805485680000075
Figure BDA0002805485680000076
解出fij
(8)当推土机距离大于阈值τ,则对当前时间点的大数据集添加拉普拉斯噪声后进行直接发布,否则,执行步骤(9);
(9)判断上一次大数据集发布是否为直接发布,如果是直接发布,则先对当前时间点的大数据集进行贪心分组,再进行发布;否则执行步骤(10);
(10)用上一个时间点发布的噪声数据来代替当前时间点的大数据集进行直接发布。
相对于对比文件而言,本发明的区别在于采用了双向长短期记忆网络、Encoder-Decoder模型和推土机距离相似度计算三种方式的结合,实现对大数据信息进行隐私分组和情感识别后的分析发布。由于现有文件中均没有相关的记载,同时本发明使用双向长短期记忆网络进行特征提取,同时优化整个模型提出基于多重注意力模型的Encoder-Decoder模型与双向长短期记忆网络相结合的方法,时长相对更短、预测速度也会相对更快、收敛速度快、识别准确率高。这样只需要少数用户的训练,即可实现对更多用户的数据识别。对不同方面情感分析的单一性及笼统型问题,提高了方面级别情感分析的准确性,判断出的结果比传统的情感分析算法具有更高的精度。利用推土机距离来计算数据之间的差异,根据距离测度与阈值的比较结果,动态地分配隐私预算,有效提高了动态数据发布的效用,并在数据发布过程中利用贪心分组的方式对采样点上的数据进行发布,降低全局敏感度,以此来提高数据发布效用,降低数据发布误差。所以,本发明具有突出的实质性特点和显著的技术进步。具备充分的创造性条件。
实施例1
结合图1,以CSI数据图像处理发布为例。
首先从接收机采集无线信号原始的CSI数据,依次进行数据预处理、特征提取和识别。在采集大数据阶段,将发射机和接收机安排在任意位置,用户在发射机与接收机之间做动作采集,发射机使用无线路由器,接收机采用网卡并外接计算机,设置采样频率为1000Hz,使用接收机获取信道状态信息。若所求得的局部异常因子LOF值大于1,则将其视为离群点去除。然后进行特征提取,如果接收到3条链路上的信息,每条链路包含30个子载波,每次获得30*3的矩阵。信号的采样率设置为每秒1000个数据包,选取200ms接收到的数据包内容,构建200*30*3指纹矩阵。使用网络进行训练。此时得到网络模型,在线训练结束。再把得到的特征向量带入已训练好的模型中进行识别发布。
实施例2
所述的Encoder-Decoder模型包括编码模型和解码模型,编码部分对于长度为n的数据,隐藏层输出矩阵为
H=[h1,h2,…,hn]
生成数据为vs
Figure BDA0002805485680000081
解码模型由方面注意力模块组成,模块数量N与数据集的方面总个数相同,即一个方面注意力模块对应一个特定的方面;当输入数据包含有多个方面时,编码得到的输出H被分别送入对应的方面注意力模块中,在每个方面注意力模块中,各有一个对应的方面信息,即方面向量vai,方面向量vai与输入矩阵H中的每个隐状态进行拼接,再进行注意力计算,最后通过加权平均,获得有关特定方面的数据:
etif=tanh(Waif[ht,vaif]+baif)
Figure BDA0002805485680000091
Figure BDA0002805485680000092
其中,if为第if个方面注意力模块,Waif为注意力的权重矩阵,baif为注意力的偏置项,etif是tif时刻注意力分数,ejif是jif时刻注意力分数,atif是注意力权重值。
实施例3
相似于实施例1和2,区别在于,情感极性分类包括:将vs送入全链接层,通过softmax函数输出待分类样本在每个情感分类上的概率,得到与不同方面相对应的情感极性:
Figure BDA0002805485680000093
其中Ptif为全链接层的权重矩阵,bpif为全链接层的偏置项,C为类别数。
为验证本发明结果,选用F1值指标进行对比试验。F1值是查准率和查全率的调和平均,即:
Figure BDA0002805485680000094
本发明选用6个经典模型进行三分类对比,验证结果如表1所示。从对比结果可以看出,在消极分类和中性分类F2值上,本发明提升了4.49%和6.32%。在消极分类效果相似的情况下,加入方面信息或使用注意力机制,能使中性分类效果得到明显改善,分别提升了6.05%和6.94%。在三分类F2值上,分别提升了0.94%、3.39%和5.94%,同样在中性分类效果上改善明显。这表明本发明提出的方法能有效地处理情感极性模糊、表达不清晰等情况下的信息。
表1
Figure BDA0002805485680000101
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.基于隐私分组和情感识别的网络信息分析方法,其特征在于,包括如下步骤:
(1)获取大数据信道信息;
(2)对大数据信道信息进行预处理;
(3)将预处理后的大数据信道信息输入双向长短期记忆网络,进行特征提取,得到特征向量;
(4)将特征向量进行二次训练,得到基于多重注意力模型的Encoder-Decoder模型;
(5)将采集到的待识别大数据集进行预处理,输入已训练好的多重注意力模型的Encoder-Decoder模型中进行识别,得到识别后的大数据集;
(6)读取第i时间点接收的大数据集Di
(7)将大数据集Di与上一个时间点接收的大数据集Di-1进行推土机距离相似度计算;
(8)当推土机距离大于阈值τ,则对当前时间点的大数据集添加拉普拉斯噪声后进行直接发布,否则,执行步骤(9);
(9)判断上一次大数据集发布是否为直接发布,如果是直接发布,则先对当前时间点的大数据集进行贪心分组,再进行发布;否则执行步骤(10);
(10)用上一个时间点发布的噪声数据来代替当前时间点的大数据集进行直接发布。
2.根据权利要求1所述的基于隐私分组和情感识别的网络信息分析方法,其特征在于,所述的预处理包括:
对大数据的信道信息清洗,使用局部离群因子检测方法滤除异常值,若异常值大于1,则将该信道信息视为离群点去除,采用word2vec模型将清洗后的信道信息向量化,信道信息向量的矩阵维度为m×d,其中m是信道信息包含的单元数,d为每个单元的维度。
3.根据权利要求2所述的基于隐私分组和情感识别的网络信息分析方法,其特征在于,预处理后的大数据信道信息输入双向长短期记忆网络包括:
得到的信道信息信道信息向量作为双向长短期记忆网络的序列化输入,使模型分别从两个方向提取大数据信道信息的特征向量,把特征向量合并到双向长短期记忆网络单元中,设计三个方面门来控制分别被导入到输入门、遗忘门和输出门中的方面向量数量,最终获得每个时间点上的隐藏层状态和带有方面感知的信息整体表示。
4.根据权利要求3所述的基于隐私分组和情感识别的网络信息分析方法,其特征在于,所述的得到基于多重注意力模型的Encoder-Decoder模型包括:
在Encoder-Decoder模型中引入注意力机制,将双向长短期记忆网络输出的隐藏层状态与带有方面感知的信息相结合,并进行注意力操作,最终得到识别后的大数据集;针对不同方面的感知的信息经过全链接层和softmax函数后,输出经过隐私分类样本在每个情感分类上的概率,即可得到与不同方面相对应的情感极性。
5.根据权利要求4所述的基于隐私分组和情感识别的网络信息分析方法,其特征在于,所述的推土机距离相似度计算包括:
对时间点p发布的大数据集Di中选择属性A的不同元素值进行统计,统计数据集CDi={(xp1,fp1),(xp2,fp2),…(xpm,fpm)},xpi为元素值,fpi为xpi在Di中出现的频数;
对fpi进行归一化处理,
Figure FDA0002805485670000021
P={(xp1,gp1),(xp2,gp2),…(xpm,gpm)}
对上一个时间点发布的含噪直方图所对应的数据集归一化后为Q,时间点q发布的大数据集
Q={(xq1,gq1),(xq2,gq2),…(xqm,gqm)}
计算P和Q之间的相似度:
Figure FDA0002805485670000022
Figure FDA0002805485670000023
其中,1≤i≤m,1≤j≤m,
进行最优化:
Figure FDA0002805485670000024
Figure FDA0002805485670000025
解出fij
6.根据权利要求5所述的基于隐私分组和情感识别的网络信息分析方法,其特征在于,所述的双向长短期记忆网络为:
αi=(Wαi[A,ht-1]+bαi)
It=σ(WI[xt,ht-1]+αi⊙A+bI)
αf=σ(Wαf[A,ht-1]+bαf)
ft=σ(Wf[xt,ht-1]+αf⊙A+bf)
Figure FDA0002805485670000031
Figure FDA0002805485670000032
αt=σ(Wα0[A,ht-1]+bα0)
ot=σ(W0[xt,ht-1]+α0⊙A+b0)
ht=ot×tanh(Ct)
其中,xt为时间步长t对应的大数据集的输入嵌入向量,A为方面向量,ht-1为前一隐藏状态,ht为该时间步长隐藏状态,σ和tanh为sigmoid和正切函数,⊙表示元素的乘法,Wαi、Wαf、Wα0、WI、Wf、We、W0为加权矩阵,bαi、bI、bαf、bf、bc、bα0、b0为对应偏置,da,dc为方面向量维数和隐藏单元数,It、ft、ot分别代表输入门、遗忘门和输出门,αi、αf、α0分别代表方面输入门、方面遗忘门和方面输出门。
7.根据权利要求6所述的基于隐私分组和情感识别的网络信息分析方法,其特征在于,所述的Encoder-Decoder模型包括编码模型和解码模型,编码部分对于长度为n的数据,隐藏层输出矩阵为
H=[h1,h2,…,hn]
生成数据为vs
Figure FDA0002805485670000033
解码模型由方面注意力模块组成,模块数量N与数据集的方面总个数相同,即一个方面注意力模块对应一个特定的方面;当输入数据包含有多个方面时,编码得到的输出H被分别送入对应的方面注意力模块中,在每个方面注意力模块中,各有一个对应的方面信息,即方面向量vai,方面向量vai与输入矩阵H中的每个隐状态进行拼接,再进行注意力计算,最后通过加权平均,获得有关特定方面的数据:
etif=tanh(Waif[ht,vaif]+baif)
Figure FDA0002805485670000034
Figure FDA0002805485670000035
其中,if为第if个方面注意力模块,Waif为注意力的权重矩阵,baif为注意力的偏置项,etif是tif时刻注意力分数,ejif是jif时刻注意力分数,atif是注意力权重值。
CN202011366110.1A 2020-11-29 2020-11-29 基于隐私分组和情感识别的网络信息分析方法 Active CN112464281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011366110.1A CN112464281B (zh) 2020-11-29 2020-11-29 基于隐私分组和情感识别的网络信息分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011366110.1A CN112464281B (zh) 2020-11-29 2020-11-29 基于隐私分组和情感识别的网络信息分析方法

Publications (2)

Publication Number Publication Date
CN112464281A true CN112464281A (zh) 2021-03-09
CN112464281B CN112464281B (zh) 2022-11-18

Family

ID=74809600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011366110.1A Active CN112464281B (zh) 2020-11-29 2020-11-29 基于隐私分组和情感识别的网络信息分析方法

Country Status (1)

Country Link
CN (1) CN112464281B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932487A (zh) * 2023-09-15 2023-10-24 北京安联通科技有限公司 一种基于数据段落划分的量化式数据分析方法及系统
CN116975897A (zh) * 2023-09-22 2023-10-31 青岛国信城市信息科技有限公司 一种智慧社区人员隐私信息安全管理系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法
WO2019096149A1 (zh) * 2017-11-15 2019-05-23 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN109992780A (zh) * 2019-03-29 2019-07-09 哈尔滨理工大学 一种基于深度神经网络特定目标情感分类方法
CN110188200A (zh) * 2019-05-27 2019-08-30 哈尔滨工程大学 一种使用社交上下文特征的深度微博情感分析方法
CN111079409A (zh) * 2019-12-16 2020-04-28 东北大学秦皇岛分校 一种利用上下文和方面记忆信息的情感分类方法
CN111274398A (zh) * 2020-01-20 2020-06-12 福州大学 一种方面级用户产品评论情感分析方法及系统
CN111368082A (zh) * 2020-03-03 2020-07-03 南京信息工程大学 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN111915059A (zh) * 2020-06-29 2020-11-10 西安理工大学 基于注意力机制的Seq2seq泊位占有率预测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
WO2019096149A1 (zh) * 2017-11-15 2019-05-23 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法
CN109992780A (zh) * 2019-03-29 2019-07-09 哈尔滨理工大学 一种基于深度神经网络特定目标情感分类方法
CN110188200A (zh) * 2019-05-27 2019-08-30 哈尔滨工程大学 一种使用社交上下文特征的深度微博情感分析方法
CN111079409A (zh) * 2019-12-16 2020-04-28 东北大学秦皇岛分校 一种利用上下文和方面记忆信息的情感分类方法
CN111274398A (zh) * 2020-01-20 2020-06-12 福州大学 一种方面级用户产品评论情感分析方法及系统
CN111368082A (zh) * 2020-03-03 2020-07-03 南京信息工程大学 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN111915059A (zh) * 2020-06-29 2020-11-10 西安理工大学 基于注意力机制的Seq2seq泊位占有率预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JINGJIN GUO 等: "Attention-Based BiLSTM Network for Chinese Simile Recognition", 《2018 IEEE 9TH INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING AND SERVICE SCIENCE (ICSESS)》 *
刘慧艺: "面向数据流的差分隐私直方图发布", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
刘鉴 等: "基于双向LSTM和自注意力机制的中文关系抽取研究", 《山西大学学报(自然科学版)》 *
史振杰 等: "基于BiLSTM-Attention的电商评论情感分析", 《河北省科学院学报》 *
彭祝亮 等: "基于BLSTM与方面注意力模块的情感分类方法", 《计算机工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932487A (zh) * 2023-09-15 2023-10-24 北京安联通科技有限公司 一种基于数据段落划分的量化式数据分析方法及系统
CN116932487B (zh) * 2023-09-15 2023-11-28 北京安联通科技有限公司 一种基于数据段落划分的量化式数据分析方法及系统
CN116975897A (zh) * 2023-09-22 2023-10-31 青岛国信城市信息科技有限公司 一种智慧社区人员隐私信息安全管理系统
CN116975897B (zh) * 2023-09-22 2023-12-19 青岛国信城市信息科技有限公司 一种智慧社区人员隐私信息安全管理系统

Also Published As

Publication number Publication date
CN112464281B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN107633265B (zh) 用于优化信用评估模型的数据处理方法及装置
CN108737406A (zh) 一种异常流量数据的检测方法及系统
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN111275113A (zh) 基于代价敏感混合网络的偏斜类时间序列异常检测方法
CN112464281B (zh) 基于隐私分组和情感识别的网络信息分析方法
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN112581265A (zh) 一种基于AdaBoost的互联网金融客户申请欺诈检测方法
CN111339440B (zh) 面向新闻文本基于层级状态神经网络的社会情绪排序方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN108647714A (zh) 负面标签权重的获取方法、终端设备及介质
CN113283901B (zh) 一种面向区块链平台的基于字节码的诈骗合约检测方法
CN111724241B (zh) 基于动态边特征的图注意力网络的企业发票虚开检测方法
CN116189671B (zh) 一种用于语言教学的数据挖掘方法及系统
CN116629716A (zh) 一种智能交互系统工效分析方法
CN115758218A (zh) 一种基于长短时特征和决策融合的三模态情感分析方法
CN113935023A (zh) 一种数据库异常行为检测方法及装置
CN113850483A (zh) 一种企业信用风险评级系统
Shukla et al. Sentiment analysis of international relations with artificial intelligence
CN112507299A (zh) 持续身份认证系统中的自适应击键行为认证方法及装置
CN111833171B (zh) 异常操作检测和模型训练方法、装置以及可读存储介质
CN110728615B (zh) 基于序贯假设检验的隐写分析方法、终端设备及存储介质
CN113822309B (zh) 用户的分类方法、装置和非易失性计算机可读存储介质
CN113191433B (zh) 一种数据分类方法、装置及设备
Nawaz Analysis of Transactional Data with Long Short-Term Memory Recurrent Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221018

Address after: 518000 817-818, Block B, Jiuzhou Electrical Building, No. 007, Keji South 12th Road, High tech District Community, Nanshan District, Shenzhen, Guangdong

Applicant after: Shenzhen Sodi Statistical Technology Co.,Ltd.

Address before: 150001 No. 145-1, Nantong Avenue, Nangang District, Heilongjiang, Harbin

Applicant before: HARBIN ENGINEERING University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant