CN109857871B - 一种基于社交网络海量情景数据的用户关系发现方法 - Google Patents
一种基于社交网络海量情景数据的用户关系发现方法 Download PDFInfo
- Publication number
- CN109857871B CN109857871B CN201910077708.XA CN201910077708A CN109857871B CN 109857871 B CN109857871 B CN 109857871B CN 201910077708 A CN201910077708 A CN 201910077708A CN 109857871 B CN109857871 B CN 109857871B
- Authority
- CN
- China
- Prior art keywords
- user
- vector
- network
- nodes
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于用户关系挖掘领域,尤其涉及一种基于社交网络海量情景数据的用户关系发现方法,包括获取网络中用户产生的情景数据信息以及用户所在网络的边关系类型,提取图像中的文本信息,对文本类型数据集进行预处理;利用实体链接工具获取预处理后的情景数据集中文本的实体向量,作为先验知识加入到对应文本中;构建卷积神经网络提取文本数据集中的有效特征等综合考虑来对节点进行量化;根据节点的向量化结果求出每两个节点的余弦距离并以此来作为用户间的关系强弱值;本发明增加原有数据的语义信息,提高机器对文本的可读性和理解性,减少深度学习对数据标签的依赖性,还能减弱很多分类问题中出现的边缘问题,降低过拟合的风险,优化模型性能。
Description
技术领域
本发明属于用户关系挖掘领域,尤其涉及一种基于社交网络海量情景数据的用户关系发现方法。
背景技术
随着社交网络的兴起,微博,facebook等新型社交媒体已经逐渐成为人们发布信息的平台,这些主流媒体在促进社会经济发展,人文交流的同时,也带来了“信息爆炸”的问题。同时不断增长的用户数量,错综复杂的用户关系网络也增加了社会,经济和服务的压力,因此准确分析用户关系不仅可以刺激和促进社会关系网络的扩大,引导社会舆论的发展方向,还可以根据相似用户,判断用户爱好,对用户进行准确,适当的个性化推荐,间接的促进社会经济的发展。同时对用户关系进行分析还有利于对舆情事件进行监控,降低有害事件的危害性,凝聚民众力量。
目前对社交用户关系的研究主要分为两个方面,一个是对用户群体的分析,另一个是对网络中关键用户的分析如:意见领袖,结构洞等。同时用户关系的挖掘主要是从用户所在关系网络的结构和用户自身的行为属性来进行分析的。
现有的对用户关系的分析,主要是对用户所在网络以及情景数据进行量化来作为用户属性的表示展开研究,但这些算法大多都只会为网络节点学习固定的表示向量,而实际上,一个节点与其它邻居节点网络节点交互时,会根据关系的不同产生出不同的边权重(如图1)。同时知识图谱作为现阶段人工智能符号主义的代表,与传统知识表示形式相比,他具有实体覆盖率高,结构友好以及质量高等优势。如果将知识图谱的语义信息作为节点量化时的先验知识,可以增强机器对数据的理解,提升模型的性能。
发明内容
为了增强机器对数据的理解、提升模型的性能,本发明提出一种基于社交网络海量情景数据的用户关系发现方法,包括:
S1、获取特定网络中用户产生的情景数据以及不同用户间的边关系;
S2、对用户情景数据进行预处理,用户情景数据包括用户发送的文本、图像及视频信息,提取用户发送图像中的文字信息,并将其加入用户文本信息中,同时利用word2vec将边关系转换为向量;
S3、调用已有的实体链接工具包提取预处理后的文本数据实体集合及其向量;
S4、将实体链接得到的实体向量加入到对应用户的文本数据中,作为新的文本数据集;
S5、将文本数据集转化为句子矩阵;
S6、利用卷积神经网络对句子矩阵进行卷积、池化、激活操作;
S7、对激活层输出的向量加入选择注意机制select attention,求出不同边关系情况下的节点量化结果;
S8、将S7输出到全连接层,得到用户节点新的向量表示;
S9、将S8结果作为softmax层的输入,最大化softmax函数;
S10、获得网络中节点的向量结果后,求算每两个节点间的余弦距离,以此来作为用户关系的强弱表示。
进一步的,所述句子矩阵的列对应句子中的每个单词、行对应每个单词的向量表示;单词的向量表示为随机初始的值或者为使用预先训练好的词向量且没有在预训练集合中的单词可被随机量化;通过填充padding操作将输入长短不一的句子长度进行统一;若一个文本中句子的长度为n,si表示长度为n的句子中第i个单词的向量表示,si=(e1,e2,...,er),er表示构成si中的第r个元素;那么最终神经网络的输入矩阵表示为:S=(s1,s2,s3,...sn)。
进一步的,利用卷积神经网络对句子矩阵进行卷积包括利用卷积操作获取句子矩阵的局部特征,主要是通过一个h×k的卷积核ω在输入层从上到下进行滑动进行卷积操作,通过该卷积操作得到一个特征图像feature map;feature map的列为1,行为(n-h+1),其中单词序列Si:i+h-1经过卷积窗口得到生成的特征xi表示为:
xi=f(ω×si:i+h-1+b);
其中,xi表示经过卷积窗口所产生的局部特征,b是一个偏置项,f为一个非线性函数,si:i+h-1表示卷积操作中的一个单词序列;k是词向量的维度数,h表示卷积核的大小。
进一步的,所述select attention为根据用户间不同的边关系来对用户关系网络赋予权重,对于给定的两个用户μ和ν及其边关系向量r,权重α的计算具体表示为:
进一步的,步骤S8中所述的用户节点新的向量表示表示为:
进一步的,所述最大化softmax函数的条件概率:
进一步的,利用交叉熵损失来优化网络参数:
其中,J(Q)表示交叉熵,r为边关系向量,Q表示模型的所有参数。
进一步的,两个节点间的余弦距离表示为:
其中,cosθ为两个用户之间的余弦距离;||·||表示求范数。
本发明综合考虑了社交网络中节点用户所在的网络结构和用户产生的情景数据,并对其进行量化,已有的工作大部分只能学习节点的固定表示如node2vec、struc2vec,word2vec等;而实际上用户所在网络中边关系的不同,也会影响用户嵌入结果,因此文本考虑使用select attention来对不同边关系设置权重,结合用户的情景数据,对用户节点进行学习;卷积神经网络可以有效地捕捉局部特征,获取数据的语义信息;因此本文构建卷积神经网络框架来对用户产生的情景数据进行处理。考虑到神经网络对数据集标签的依赖性以及难以有效利用先验知识的问题,本文利用知识图谱中的实体链接技术,调用已有的工具包如:Fast Entity Linker,获得情景数据中的实体向量,加入到对应文本中,这样可以增加原有数据的语义信息,提高机器对文本的可读性和理解性,减少深度学习对数据标签的依赖性,同时在一定程度上还能减弱很多分类问题中出现的“边缘”问题,降低过拟合的风险,优化模型性能;最后根据用户节点的向量化结果计算用户间的余弦距离作为用户关系的判定值,根据这个值得大小,可以对用户进行适当的个性化推荐,同时也可以对疑似危险用户进行实时监控等。
附图说明
图1为本发明不同关系权重的网络示例图;
图2为本发明采用的流程示意图;
图3为本发明采用的select attention求解过程示意图;
图4为本发明采用的卷积神经网络提取文本特征示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于社交网络海量情景数据的用户关系发现方法,如图2,包括:
S1、获取特定网络中用户产生的情景数据以及不同用户间的边关系;
S2、对用户情景数据进行预处理,用户情景数据包括用户发送的文本、图像及视频信息,提取用户发送图像中的文字信息,并将其加入用户文本信息中,同时利用word2vec将边关系转换为向量;
S3、调用已有的实体链接工具包提取预处理后的文本数据实体集合及其向量;
S4、将实体链接得到的实体向量加入到对应用户的文本数据中,作为新的文本数据集;
S5、将文本数据集转化为句子矩阵;
S6、利用卷积神经网络对句子矩阵进行卷积、池化、激活操作;
S7、对激活层输出的向量加入select attention,求出不同边关系情况下的节点量化结果;
S8、将S7输出到全连接层,得到用户节点新的向量表示;
S9、将S8结果作为softmax层的输入,最大化softmax函数;
S10、获得网络中节点的向量结果后,求算每两个节点间的余弦距离,以此来作为用户关系的强弱表示。
在本实施例中调用Fast Entity Linker工具包获取用户情景数据中的实体及其向量,其输入为用户文本数据,输出为文本数据对应的实体、实体向量以及置信度得分。由于用户产生文本数据的内容和长度的不同,所以从每个用户文本数据中获取得到的实体个数也不相同。为了后续的统计及计算的方便性,本发明统一使用置信度排名前2的实体向量加入到对应文本中;如图2中,文本预处理之后将加入先验知识,所述先验知识为图片中提取的文本信息,。
在句子矩阵中,句子矩阵的列对应句子中的每个单词、行为每个单词对应的向量表示;本发明使用预先训练好的100维的Glove词向量且没有在预训练集合中的单词可以被随机量化,对于输入长短不一的句子通过padding操作设置句子的统一长度nb_timesteps,其他短于该长度的序列都会在后部填充0以达到该长度,长于nb_timesteps的序列将会被截断,以使其匹配目标长度;若一个文本中句子的长度为n,si表示长度为n的句子中第i个单词的向量表示,si=(e1,e2,...,er),er表示构成si中的第r个元素;那么最终神经网络的输入矩阵表示为:S=(s1,s2,s3,...sn)。
本实施例通过卷积操作获取情景数据的局部特征,如图3所示,本发明使用一层卷积,其有不同大小的卷积核构成,卷积核大小分别为3、4、5;具体来说,利用卷积操作获取句子矩阵的局部特征,主要是通过一个h×k的卷积核w在输入层从上到下进行滑动进行卷积操作(在本实施例中k=100,h表示卷积核的大小),通过该卷积操作得到一个特征图像feature map,feature map的列为1,行为(n-h+1),其中单词序列Si:i+h-1经过卷积窗口得到生成的特征xi表示为:
xi=f(ω×si:i+l-1+b);
其中,b是一个偏置项,f是一个非线性函数。
本发明使用大小分别为3、4、5的卷积核进行卷积时,所得到的feature map的列均为1,卷积核3、4、5对应的行分别为(n-3+1)、(n-4+1)、(n-5+1)。
当完成卷积操作之后可以得到n个feature map,通过maxpooling操作获取最大特征值,该最大池化过程表示为:
xi=max(xi);
用户数据从卷积神经网络输出后,可根据用户之间的边关系来对用户关系网络赋予权重,如图4,对于两个给定的用户μ和ν及其边关系向量r,权重α的计算包括:
在引入上述的权重对用户的值进行加权操作之后,可以更新用户μ、用户ν的值,更新过程定义为:
在利用神经网络对句子矩阵进行卷积、池化、激活操作的过程中,利用用户间的交叉熵来优化神经网络的网络参数,该优化过程可以表示为:
对网络中所有节点进行性最大化softmax函数的操作之后,以两个节点之间的余弦距离作为两个节点之间的强弱关系,可以表示为:
其中,||·||表示求范数,即求向量的长度或者大小。
目前已有的对用户节点的表示学习算法,大多只能学习节点的固定表示,如基于网络结构或者基于文本数据信息。本文综合考虑了网络中用户产生的情景数据和所在的关系网络来对用户进行嵌入。卷积神经网络可以有效的提取文本局部信息,但其对数据标签的依赖性强而且不能有效利用先验知识,因此本文引入了知识图谱技术,通过已有的实体链接工具包获取情景数据中的实体向量,并将其加入到原始文本中作为先验知识,这样既可以增强情景数据的语义,提高机器对数据的理解性,同时也可以减弱神经网络在分类问题中的“边缘”问题,提高模型精度。最后利用节点向量化的结果求算节点间的余弦距离,以此来作为用户关系强弱的判定值。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,所述方法包括:
S1、获取特定网络中用户产生的情景数据以及不同用户间的边关系;
S2、对用户情景数据进行预处理,用户情景数据包括用户发送的文本、图像及视频信息,提取用户发送图像中的文字信息,并将其加入用户文本信息中,同时利用word2vec将边关系转换为向量;
S3、调用已有的实体链接工具包提取预处理后的文本数据实体集合及其向量;
S4、将实体链接得到的实体向量加入到对应用户的文本数据中,作为新的文本数据集;
S5、将文本数据集转化为句子矩阵;
S6、利用卷积神经网络对句子矩阵进行卷积、池化、激活操作;
S7、对激活层输出的向量加入选择注意机制select attention,求出不同边关系情况下的节点量化结果,即select attention为根据用户间不同的边关系来对用户关系网络赋予权重,对于给定的两个用户μ和ν及其边关系向量r,权重α的计算具体表示为:
S8、将不同边关系情况下的节点量化结果输出到全连接层,更新得到用户节点向量表示;
S9、将用户节点向量表示作为softmax层的输入,并最大化softmax函数;
S10、获得网络中节点的向量结果后,求算每两个节点间的余弦距离,以此来作为用户关系的强弱表示。
2.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,所述句子矩阵的列对应句子中的每个单词、行对应每个单词的向量表示;单词的向量表示为随机初始的值或者为使用预先训练好的词向量且没有在预训练集合中的单词可被随机量化;通过填充padding操作将输入长短不一的句子长度进行统一;若一个文本中句子的长度为n,si表示长度为n的句子中第i个单词的向量表示,si=(e1,e2,...,er),er表示构成si中的第r个元素;那么最终神经网络的输入矩阵表示为:S=(s1,s2,s3,...sn)。
3.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,利用卷积神经网络对句子矩阵进行卷积包括利用卷积操作获取句子矩阵的局部特征,主要是通过一个h×k的卷积核ω在输入层从上到下进行滑动进行卷积操作,通过该卷积操作得到一个特征图像feature map,feature map的列为1,行为n-h+1,其中单词序列Si:i+h-1经过卷积窗口得到生成的局部特征xi表示为:
xi=f(ω×si:i+h-1+b);
其中,xi表示经过卷积窗口所产生的局部特征,b是一个偏置项,f为一个非线性函数,si:i+h-1表示卷积操作中的一个单词序列,k是词向量的维度数,h表示卷积核的大小,n为句子矩阵的长度。
4.根据权利要求3所述的一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,经过卷积运算得到n个feature map,将这n个feature map进行最大池化操作,并在池化操作之后经过修正线性单元分别输出用户μ和用户ν的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910077708.XA CN109857871B (zh) | 2019-01-28 | 2019-01-28 | 一种基于社交网络海量情景数据的用户关系发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910077708.XA CN109857871B (zh) | 2019-01-28 | 2019-01-28 | 一种基于社交网络海量情景数据的用户关系发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109857871A CN109857871A (zh) | 2019-06-07 |
CN109857871B true CN109857871B (zh) | 2021-04-20 |
Family
ID=66896373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910077708.XA Active CN109857871B (zh) | 2019-01-28 | 2019-01-28 | 一种基于社交网络海量情景数据的用户关系发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857871B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597971B (zh) * | 2019-08-22 | 2022-04-29 | 卓尔智联(武汉)研究院有限公司 | 基于神经网络的自动问答装置、方法及可读存储介质 |
CN110837602B (zh) * | 2019-11-05 | 2022-10-04 | 重庆邮电大学 | 基于表示学习和多模态卷积神经网络的用户推荐方法 |
CN111143701A (zh) * | 2019-12-13 | 2020-05-12 | 中国电子科技网络信息安全有限公司 | 一种基于多维度的社交网络用户推荐方法及系统 |
CN111177395A (zh) * | 2020-01-13 | 2020-05-19 | 庄诗琪 | 一种人工智能海量问题生成方法 |
CN111476642A (zh) * | 2020-04-14 | 2020-07-31 | 广东技术师范大学 | 一种基于社交平台用户头像分析的保险推荐方法及系统 |
CN112115233B (zh) * | 2020-09-27 | 2024-03-26 | 北京百度网讯科技有限公司 | 关系网络生成方法、装置、电子设备及存储介质 |
CN112269922B (zh) * | 2020-10-14 | 2022-05-31 | 西华大学 | 一种基于网络表示学习的社区舆论关键人物发现方法 |
CN113822494B (zh) * | 2021-10-19 | 2022-07-22 | 平安科技(深圳)有限公司 | 风险预测方法、装置、设备及存储介质 |
CN117349386B (zh) * | 2023-10-12 | 2024-04-12 | 吉玖(天津)技术有限责任公司 | 一种基于数据强弱关联模型的数字人文应用方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN108959270A (zh) * | 2018-08-10 | 2018-12-07 | 新华智云科技有限公司 | 一种基于深度学习的实体链接方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8773437B1 (en) * | 2011-07-12 | 2014-07-08 | Relationship Science LLC | Weighting paths in a social graph based on time |
CN103279484B (zh) * | 2013-04-23 | 2016-03-30 | 中国科学院计算技术研究所 | 一种面向微博客系统中未来意见领袖的创建方法及系统 |
WO2015058307A1 (en) * | 2013-10-25 | 2015-04-30 | Sysomos L.P. | Systems and methods for dynamically determining influencers in a social data network using weighted analysis |
CN107305545A (zh) * | 2016-04-18 | 2017-10-31 | 南京理工大学 | 一种基于文本倾向性分析的网络意见领袖的识别方法 |
CN107180247A (zh) * | 2017-05-19 | 2017-09-19 | 中国人民解放军国防科学技术大学 | 基于选择性注意力卷积神经网络的关系分类器及其方法 |
US10268646B2 (en) * | 2017-06-06 | 2019-04-23 | Facebook, Inc. | Tensor-based deep relevance model for search on online social networks |
CN108733792B (zh) * | 2018-05-14 | 2020-12-01 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
-
2019
- 2019-01-28 CN CN201910077708.XA patent/CN109857871B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN108959270A (zh) * | 2018-08-10 | 2018-12-07 | 新华智云科技有限公司 | 一种基于深度学习的实体链接方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109857871A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857871B (zh) | 一种基于社交网络海量情景数据的用户关系发现方法 | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN109902301B (zh) | 基于深度神经网络的关系推理方法、装置及设备 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN112115967B (zh) | 一种基于数据保护的图像增量学习方法 | |
CN113486190A (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN111464881A (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN116680343A (zh) | 基于融合多模态信息的实体和关系表示的链接预测方法 | |
CN113806564B (zh) | 多模态信息性推文检测方法及系统 | |
CN117216281A (zh) | 一种基于知识图谱的用户兴趣扩散推荐方法及系统 | |
CN113409157B (zh) | 一种跨社交网络用户对齐方法以及装置 | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
CN111651660B (zh) | 一种跨媒体检索困难样本的方法 | |
CN116543289B (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
CN113076744A (zh) | 一种基于卷积神经网络的文物知识关系抽取方法 | |
CN116756391A (zh) | 一种基于图数据增强的不平衡图节点神经网络分类方法 | |
CN111581386A (zh) | 多输出文本分类模型的构建方法、装置、设备及介质 | |
CN114638984B (zh) | 一种基于胶囊网络的恶意网站url检测方法 | |
CN116108127A (zh) | 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
US20230168989A1 (en) | BUSINESS LANGUAGE PROCESSING USING LoQoS AND rb-LSTM | |
CN115329073A (zh) | 一种基于注意力机制的方面级文本情感分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |