CN113505307B - 一种基于弱监督增强的社交网络用户地域识别方法 - Google Patents
一种基于弱监督增强的社交网络用户地域识别方法 Download PDFInfo
- Publication number
- CN113505307B CN113505307B CN202111035304.8A CN202111035304A CN113505307B CN 113505307 B CN113505307 B CN 113505307B CN 202111035304 A CN202111035304 A CN 202111035304A CN 113505307 B CN113505307 B CN 113505307B
- Authority
- CN
- China
- Prior art keywords
- user
- region
- data set
- identification model
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000003068 static effect Effects 0.000 claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 70
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000005728 strengthening Methods 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于弱监督增强的社交网络用户地域识别方法,该方法包括如下步骤:步骤1.从原始社交网络用户数据集中筛选出地域标签已知的用户数据集,形成初始训练数据集;步骤2.抽取用户社交关系特征、推文内容特征和静态属性特征;步骤3.利用深层神经网络融合多维特征构建用户地域识别模型;步骤4.对构建的用户地域识别模型进行训练,得到训练后的用户地域识别模型;步骤5.基于弱监督学习强化用户地域识别模型;步骤6.针对社交网络中的目标用户,利用训练好的用户地域识别模型预测用户的地域标签。本发明克服了社交网络中用户地域标签的稀疏性问题,能够有效地识别社交网络用户关联的地理区域。
Description
技术领域
本发明涉及一种基于弱监督增强的社交网络用户地域识别方法。
背景技术
社交网络将不同地域的用户紧密联系在一起,现实社会中的热点事件经过社交网络的发酵和用户的传播,具有强大的渗透力、扩散力与影响力。由于社交网络中参与热点事件讨论的用户身份错综复杂,不同地域的用户关注事件的焦点与看待事件的观点不同,因此,不同地域用户的行为与观点互动,容易驱动事件发生快速演化,进而引发网络用户行为态势漂移动荡,反过来对线下事件的发展形成舆论压力,最终容易引起社会风险。
基于此,针对社交网络中参与热点事件讨论的用户群体,准确判断每名用户相关联的地域对于感知事件态势,调控事件演化趋势,进而维护网络空间安全至关重要。由于大部分用户在社交网络中不会显式公开与自己相关的地域(如家乡所在地、大学所在地、工作所在地等),需要对社交网络用户地域标签进行识别,以确定用户关联的地域。当前用户地域识别方法包括基于文本内容特征的方法、基于用户网络特征的方法以及基于多维特征融合的方法。
其中,基于文本内容特征的方法仅在用户显式发表附带地理位置的推文内容时才能体现出良好的效果,同时由于推文内容的地域属性与发布者的地域属性未必具有一致性,因此,仅根据内容特征对用户地域进行识别具有较大的局限性。基于用户网络特征的方法受制于社交网络固有的稀疏性特质,难以准确地刻画地域未知用户与地域已知用户之间的联系。
基于多维特征融合的方法能够有效缓解信息冗余,更全面地描述用户与地域之间的关联。然而,现有基于多维特征融合的方法难以处理社交网络用户地域标签的稀疏性问题,分类器对稀疏样本的刻画能力不足,导致分类器性能普遍较低,使得基于多维特征融合的方法,无法对社交网络中地域标签信息未知用户的地域标签分布进行有效预测。
发明内容
本发明的目的在于提出一种基于弱监督增强的社交网络用户地域识别方法,该方法能够对社交网络中地域标签信息未知用户的地域标签分布进行有效预测。
本发明为了实现上述目的,采用如下技术方案:
一种基于弱监督增强的社交网络用户地域识别方法,包括如下步骤:
步骤1. 首先从原始社交网络用户数据集中筛选出地域标签已知的用户数据集,并将筛选出的地域标签已知的用户数据集,作为初始训练数据集;
步骤2. 抽取用户社交关系特征、用户推文内容特征以及用户静态属性特征;
步骤3. 利用深层神经网络融合步骤2抽取的用户社交关系特征、用户推文内容特征以及用户静态属性特征,构建用户地域识别模型;
步骤4. 对构建的用户地域识别模型进行训练,得到训练后的用户地域识别模型;
步骤5. 对于原始社交网络用户数据集中地域标签未知的用户,首先基于步骤2抽取该地域标签未知的用户的社交关系特征、推文内容特征以及静态属性特征;
然后将地域标签未知的用户的社交关系特征、推文内容特征以及静态属性特征输入到步骤4训练后的用户地域识别模型中,得到地域标签未知的用户的地域标签分布;
按照预设的置信度筛选出带有可信地域标签的用户,并将筛选出的带有可信地域标签的用户加入到初始训练数据集中,形成新的训练数据集;
新的训练数据集中用户的社交关系特征、推文内容特征和静态属性特征均已知;
返回步骤3进行迭代,直到原始社交网络用户数据集中所有用户均被用于用户地域识别模型的训练或者用户地域识别模型的准确度不再变化时,迭代停止;
将最后一次迭代时训练好的用户地域识别模型,作为最终的用户地域识别模型;
步骤6. 针对社交网络中的任意目标用户,将目标用户的社交关系特征、推文内容特征以及静态属性特征作输入到最终的用户地域识别模型中,得到目标用户的地域标签分布。
优选地,步骤1中,依据用户发布的推文内容、推文附带的地理位置标记和用户静态属性中的城市信息,从原始社交网络用户数据集中筛选出地域标签已知的用户数据集。
优选地,步骤2中,用户社交关系特征的抽取过程如下:
首先构建一种三视图用户社交关系网络,每一个视图包含相同的用户节点和不同的关系边,依次为关注关系边、转发关系边和评论关系边;
定义三个视图分别为关注视图GF、转发视图GR和评论视图GC;
采用结构化深度嵌入表示方法从用户ui的社交关系中抽取用户ui的社交关系特征,分别获得关注视图GF、转发视图GR和评论视图GC的网络嵌入表示矩阵XF、XR和XC;
其中,XF、XR、XC∈RN×d,RN×d表示N×d维矩阵;
N表示初始训练数据集中用户的数量,d表示网络嵌入表示的维度;
基于获取到的三个视图中用户ui的网络嵌入表示,采用注意力机制学习三个视图的权重并按照权重进行加权求和,从而获取用户ui的社交关系特征;
利用注意力机制计算用户ui在第k个视图下的注意力权重λi k的方法如下:
其中,xi k∈Rd表示用户ui在第k个视图下的网络嵌入表示,k∈{1,2,3},z∈Rd表示需要学习的d维参数向量,Rd表示d维向量;基于用户ui在第k个视图下的注意力权重λi k,依据权重进行加权求和,获得用户ui的社交关系特征Si,计算方法如下:
其中,Si∈Rd表示用户ui的社交关系特征。
优选地,步骤2中,用户推文内容特征的抽取过程如下:
采用两层注意力机制抽取用户推文中的地理关联信息,其中:
1). 在单词层面上,利用BERT预训练词向量库获得用户推文中每个单词的向量表示;
设用户ui的第m条推文共包含L个单词,词向量依次为{Wm1,Wm2,…,WmL};其中,Wmj∈Rd表示第m条推文第j个单词的d维向量表示;
将词向量按次序输入双向长短时记忆循环神经网络,分别获得L个单词的隐含向量表示{hm1, hm2,…, hmL},其中,hmj∈Rd表示第m条推文第j个单词的d维隐含向量表示;
采用注意力机制学习第m条推文第j个单词的权重αmj,计算方法如下:
其中,p∈Rd表示需要学习的d维参数向量;基于计算得到的每个单词的权重,依据权重进行加权求和获得第m条推文的嵌入表示xm,计算方法如下:
其中,xm∈Rd表示第m条推文的嵌入表示,Rd表示d维向量;
2). 在句子层面上,设用户ui共发表T条推文,推文的嵌入表示依次为{x1, x2,…,xT},其中,xt∈Rd表示第t条推文的d维向量表示;
再次采用注意力机制学习第t条推文的权重βt,计算方法如下:
其中,q∈Rd表示需要学习的d维参数向量;基于计算得到的每条推文的权重,依据权重进行加权求和获得用户ui的推文内容特征Ci,计算方法如下:
其中,Ci∈Rd表示用户ui的推文内容特征,Rd表示d维向量。
优选地,步骤2中,用户静态属性特征的抽取过程如下:
用户静态属性包括用户昵称、性别、所在城市、年龄和职业;
1). 首先利用BERT预训练词向量库获得用户昵称单词与性别单词的词向量;
2). 如果所在城市、年龄以及职业属性显式给出,同样利用BERT预训练词向量库获得城市名称单词、年龄单词、职业单词的词向量;否则,将这些属性处理为0向量;
3). 将所有静态属性单词的词向量进行拼接,获得用户的静态属性特征Pi,其中,Pi∈Rd表示用户ui的静态属性特征,Rd表示d维向量。
优选地,步骤3中,定义用户ui的社交关系特征为Si,用户ui的推文内容特征为Ci,用户ui的静态属性特征为Pi,Si∈Rd,Ci∈Rd,Pi∈Rd,Rd表示d维向量;
将社交关系特征Si、推文内容特征Ci以及静态属性特征Pi进行拼接,得到用户ui的总体特征Hf,其中,Hf∈R3d,R3d表示3d维向量;
将用户ui的总体特征Hf作为多层感知机的输入,将用户ui的地域标签概率分布作为多层感知机的输出,完成用户地域识别模型的构建,从输入到输出的计算过程如下:
Y1=ψ(Hf);
Y2=ψ(Y 1);
…
Yr=softmax(W·ψ(Y r-1)+b);
其中,ψ(·)表示非线性激活函数;Y1 表示第一层的输出、Y2 表示第二层的输出、Y r-1表示第r-1层的输出,Yr表示最后一层的输出;r表示多层感知机的神经网络层数;
W∈Rd×d表示多层感知机最后一层神经网络中需要学习的权重矩阵;
b∈Rd表示最后一层神经网络的偏置向量;
最后一层的输出Yr表示用户地域识别模型计算得到的用户ui的地域标签概率分布。
优选地,步骤4具体为:
将社交网络用户地域识别问题视作多标签分类问题,基于用户真实地域标签分布和模型预测的用户地域标签分布之间的交叉熵,构造用户地域识别模型的损失函数:
其中,Yu(j)表示用户u的真实地域标签分布Yu中的第j个元素;
Yu * (j)表示用户地域识别模型预测的用户u的地域标签分布Yu *的第j个元素;
U表示初始训练数据集中全体用户集合;
Z表示地域标签分布的维度,即初始训练数据集中全体地域的数量;
对损失函数Loss最小化,学习用户地域识别模型的参数;
最小化损失函数的过程,采用自适应矩估计算法完成梯度下降的自主步长学习。
优选地,按照预设的置信度筛选出带有可信地域标签的用户的过程如下:
对于原始社交网络用户数据集中地域标签信息未知的用户uo,基于步骤4训练后的用户地域识别模型预测用户uo的地域标签分布Yo;
将地域标签分布Yo中每一个元素与预设的置信度δ进行大小比较:
若地域标签分布Yo中第j个元素Yo(j)的值大于或等于置信度δ的值,则保留该元素;若地域标签分布Yo中第j个元素值Yo(j) 的值小于置信度δ的值,则置该元素为0;
将按照置信度δ筛选后的地域标签分布记为Yo *;
将地域标签分布Yo *视作用户uo的真实地域标签,筛选出带有可信地域标签的用户。
本发明具有如下优点:
如上所述,本发明述及了一种基于弱监督增强的社交网络用户地域识别方法,该方法从社交网络用户的社交关系、推文内容与静态属性中抽取地域相关因素,获得多维地域相关特征,然后利用深度神经网络充分融合多维特征,以分类器的形式构建用户地域识别模型。本发明进一步通过弱监督学习对训练数据集进行持续扩充,有效地缓解了用户地域标签数据的稀疏性问题,增强了用户地域识别模型的准确性,能够对社交网络中地域标签信息未知用户的地域标签分布进行有效预测,便于准确识别出社交网络用户关联的地理区域。
附图说明
图1为本发明实施例中基于弱监督增强的社交网络用户地域识别方法的流程示意图;
图2为本发明实施例中所要解决的社交网络用户地域识别问题示意图;
图3为本发明实施例提出的基于两层注意力机制的用户推文内容特征抽取方法示意图。
具体实施方式
以图2为例,假设某微博用户未公开家乡与工作地,通过微博网站的用户数据(个人首页描述、好友所在城市、历史推文内容、推文附带的地理位置标记)能够推知其家乡城市为南京,工作城市为上海,那么该用户的地域标签分布即为“#南京、#上海”。
本发明旨在通过社交网络用户数据,预测用户的地域标签分布。为了能够准确预测用户的地域标签分布,本发明在融合用户社交关系特征、推文内容特征与静态属性特征的基础上,通过弱监督学习方法进行训练数据集增强,从而有效地缓解了用户地域标签数据的稀疏性问题,进而构建一个基于弱监督学习与多维特征融合的用户地域识别模型,进而能够对社交网络中地域标签信息未知用户的地域标签分布进行有效预测。
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1所示,一种基于弱监督增强的社交网络用户地域识别方法,包括如下步骤:
步骤1. 首先从原始社交网络用户数据集中筛选出地域标签已知的用户数据集,并将筛选出的地域标签已知的用户数据集,作为初始训练数据集。
其中,地域标签已知的用户数据集的筛选过程如下:
依据用户发布的推文内容、推文附带的地理位置标记和用户静态属性中的城市信息,从原始社交网络用户数据集中筛选出地域标签已知的用户数据集。
初始训练数据集中的每一名用户均有确定的地域标签,用于用户地域识别模型的有监督学习,初始训练数据集中用户的数量为N,其中N为自然数。
步骤2. 抽取多维特征,包括用户社交关系特征、推文内容特征以及静态属性特征。
步骤2.1. 用户社交关系特征的抽取过程如下:
首先构建一种三视图用户社交关系网络,每一个视图包含相同的用户节点和不同的关系边,依次为关注关系边、转发关系边和评论关系边。
定义三个视图分别为关注视图GF、转发视图GR和评论视图GC。
采用结构化深度嵌入表示方法从用户ui的社交关系中抽取用户ui的社交关系特征,分别获得关注视图GF、转发视图GR和评论视图GC的网络嵌入表示矩阵XF、XR和XC。
其中,XF、XR、XC∈RN×d,RN×d表示N×d维矩阵,d表示网络嵌入表示的维度。
本实施例中结构化深度嵌入表示方法可采用现有的结构化深度嵌入表示方法(Structural Deep Network Embedding, SDNE),此处不再详细赘述。
基于获取到的三个视图中用户ui的网络嵌入表示,采用注意力机制学习三个视图的权重并按照权重进行加权求和,从而获取用户ui的社交关系特征。
利用注意力机制计算用户ui在第k个视图下的注意力权重λi k的方法如下:
其中,xi k∈Rd表示用户ui在第k个视图下的网络嵌入表示,由于共有三个视图,因此,k∈{1,2,3},z∈Rd表示需要学习的d维参数向量,Rd表示d维向量。
基于用户ui在第k个视图下的注意力权重λi k,依据权重进行加权求和,获得用户ui的社交关系特征Si,计算方法如下:
其中,Si∈Rd表示用户ui的社交关系特征。
步骤2.2. 用户推文内容特征的抽取过程如下:
采用两层注意力机制抽取用户推文中的地理关联信息,如图3所示。
1). 在单词层面上,利用BERT预训练词向量库获得用户推文中每个单词的向量表示。
设用户ui的第m条推文共包含L个单词,词向量依次为{Wm1,Wm2,…,WmL};其中,Wmj∈Rd表示第m条推文第j个单词的d维向量表示。
将词向量按次序输入双向长短时记忆循环神经网络,分别获得L个单词的隐含向量表示{hm1, hm2,…, hmL},其中,hmj∈Rd表示第m条推文第j个单词的d维隐含向量表示。
采用注意力机制学习第m条推文第j个单词的权重αmj,计算方法如下:
其中,p∈Rd表示需要学习的d维参数向量;基于计算得到的每个单词的权重,依据权重进行加权求和获得第m条推文的嵌入表示xm,计算方法如下:
其中,xm∈Rd表示第m条推文的嵌入表示,Rd表示d维向量。
2). 在句子层面上,设用户ui共发表T条推文,推文的嵌入表示依次为{x1, x2,…,xT},其中,xt∈Rd表示第t条推文的d维向量表示。
再次采用注意力机制学习第t条推文的权重βt,计算方法如下:
其中,q∈Rd表示需要学习的d维参数向量;基于计算得到的每条推文的权重,依据权重进行加权求和获得用户ui的推文内容特征Ci,计算方法如下:
其中,Ci∈Rd表示用户ui的推文内容特征,Rd表示d维向量。
步骤2.3. 用户静态属性特征的抽取过程如下:
用户静态属性包括用户昵称、性别、所在城市、年龄和职业。
1). 由于社交网络中,用户昵称与性别属性是显式给出的,因此,本发明首先利用BERT预训练词向量库获得用户昵称单词与性别单词的词向量。
2). 如果所在城市、年龄以及职业属性显式给出,同样利用BERT预训练词向量库获得城市名称单词、年龄单词、职业单词的词向量;
否则,如果所在城市、年龄、职业属性未显式给出,将这些属性处理为0向量。
3). 随后将所有静态属性单词的词向量进行拼接,获得用户的静态属性特征Pi,其中,Pi∈Rd表示用户ui的静态属性特征,Rd表示d维向量。
步骤3. 利用深层神经网络融合步骤2抽取的用户社交关系特征、用户推文内容特征以及用户静态属性特征等多维特征,构建用户地域识别模型。
定义用户ui的社交关系特征为Si,用户ui的推文内容特征为Ci,用户ui的静态属性特征为Pi,Si∈Rd,Ci∈Rd,Pi∈Rd,Rd表示d维向量。
将社交关系特征Si、推文内容特征Ci以及静态属性特征Pi进行拼接,得到用户ui的总体特征Hf,其中,Hf∈R3d,R3d表示3d维向量。
将用户ui的总体特征Hf作为多层感知机的输入,将用户ui的地域标签概率分布作为多层感知机的输出,完成用户地域识别模型的构建,从输入到输出的计算过程如下:
Y1=ψ(Hf);
Y2=ψ(Y 1);
…
Yr=softmax(W·ψ(Y r-1)+b);
其中,ψ(·)表示非线性激活函数;Y1 表示第一层的输出、Y2 表示第二层的输出、Y r-1表示第r-1层的输出,Yr表示最后一层的输出;r表示多层感知机的神经网络层数;
W∈Rd×d表示多层感知机最后一层神经网络中需要学习的权重矩阵;
b∈Rd表示最后一层神经网络的偏置向量;
最后一层的输出Yr表示用户地域识别模型计算得到的用户ui的地域标签概率分布。
步骤4. 对构建的用户地域识别模型进行训练,得到训练后的用户地域识别模型。
本发明将社交网络用户地域识别问题视作多标签分类问题,基于用户真实地域标签分布和模型预测的用户地域标签分布之间的交叉熵,构造用户地域识别模型的损失函数:
其中,Yu(j)表示用户u的真实地域标签分布Yu中的第j个元素;
Yu * (j)表示用户地域识别模型预测的用户u的地域标签分布Yu *的第j个元素;
U表示初始训练数据集中全体用户集合;
Z表示地域标签分布的维度,即初始训练数据集中全体地域的数量;
对损失函数Loss最小化,学习用户地域识别模型的参数,包括注意力机制中有待学习的参数向量z、p、q,多层感知机中有待学习的权重矩阵W和偏置向量b。
最小化损失函数的过程,采用自适应矩估计算法(Adam)完成梯度下降的自主步长学习。
步骤5. 基于弱监督学习强化用户地域识别模型。
本发明实施例借鉴弱监督学习的思想,充分利用原始社交网络用户数据集中地域标签未知的用户数据,强化步骤3中构建的用户地域识别模型。
对于原始社交网络用户数据集中地域标签未知的用户uo,首先基于步骤2抽取该地域标签未知的用户uo的社交关系特征、推文内容特征以及静态属性特征。
然后将地域标签未知的用户的社交关系特征、推文内容特征以及静态属性特征输入到步骤4训练后的用户地域识别模型中,得到地域标签未知的用户uo的地域标签分布Yo。
预设置信度δ,按照预设的置信度筛选出带有可信地域标签的用户,并将筛选出的带有可信地域标签的用户加入到初始训练数据集中,形成新的训练数据集。
按照预设的置信度筛选出带有可信地域标签的用户的过程如下:
将地域标签分布Yo中的每一个元素与预设的置信度δ进行大小比较:
若地域标签分布Yo中第j个元素Yo(j)的值大于或等于置信度δ的值,则保留该元素;若地域标签分布Yo中第j个元素值Yo(j) 的值小于置信度δ的值,则置该元素为0。
将按照置信度δ筛选后的地域标签分布记为Yo *。
将地域标签分布Yo *视作用户uo的真实地域标签,筛选出带有可信地域标签的用户。
将筛选出带有可信地域标签的用户加入初始训练数据集中,并形成新的训练数据集,新的训练数据集中用户的社交关系特征、推文内容特征和静态属性特征均已知。
返回步骤3进行迭代,直到原始社交网络用户数据集中所有用户均被用于用户地域识别模型的训练或者用户地域识别模型的准确度不再变化时,迭代停止。
将最后一次迭代时训练好的用户地域识别模型,作为最终的用户地域识别模型。
需要说明的是,本实施例中置信度δ取值越大,则原始社交网络用户数据集中可用于用户地域识别模型训练的用户数量越少,用户地域识别模型的准确度越高;
反之,本实施例中置信度δ取值越小,则原始社交网络用户数据集中可用于用户地域识别模型训练的用户数量越多,用户地域识别模型的准确度越低。
地域标签和地域标签分布是两个概念,地域标签指某一个单独的标签,如图2中的一个标签“#南京”,它是一个具有语义特征的标签,意味着用户uo与“南京”这个城市有关;
而地域标签分布是指多个地域标签形成的数值形式的概率分布,例如用户uo的地域标签分布“#南京,#上海”的数值形式概率分布可能为Yo =[0.9,0.1]。
本发明基于构建的用户地域识别模型,获得原始社交网络用户数据集中地域标签未知用户的地域标签,按照预设的置信度筛选出这些用户的可信地域标签,从而扩充初始训练数据集,继续用户地域识别模型的训练,强化原有用户地域识别模型的准确性。
步骤6. 针对社交网络中的任意目标用户ur,将目标用户ur的社交关系特征、推文内容特征以及静态属性特征作输入到最终的用户地域识别模型中,根据模型输出得到目标用户ur的地域标签分布。
本发明从用户社交关系、用户推文内容、用户静态属性中捕捉地域因素,抽取社交关系特征、推文内容特征、静态属性特征;利用深度神经网络有效融合多维特征,通过多标签分类器的形式构建用户地域识别模型;借鉴弱监督学习思想,对初始训练数据集进行不断扩充,对构建的用户识别模型持续训练,缓解用户地域标签数据的稀疏性问题,有效增强用户地域识别模型的准确性,能够对社交网络中地域标签信息未知用户的地域标签分布有效预测。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (4)
1.一种基于弱监督增强的社交网络用户地域识别方法,其特征在于,包括如下步骤:
步骤1. 首先从原始社交网络用户数据集中筛选出地域标签已知的用户数据集,并将筛选出的地域标签已知的用户数据集,作为初始训练数据集;
步骤2. 抽取用户社交关系特征、用户推文内容特征以及用户静态属性特征;
所述步骤2中,用户社交关系特征的抽取过程如下:
首先构建一种三视图用户社交关系网络,每一个视图包含相同的用户节点和不同的关系边,依次为关注关系边、转发关系边和评论关系边;
定义三个视图分别为关注视图GF、转发视图GR和评论视图GC;
采用结构化深度嵌入表示方法从用户ui的社交关系中抽取用户ui的社交关系特征,分别获得关注视图GF、转发视图GR和评论视图GC的网络嵌入表示矩阵XF、XR和XC;
其中,XF、XR、XC∈RN×d,RN×d表示N×d维矩阵;
N表示初始训练数据集中用户的数量,d表示网络嵌入表示的维度;
基于获取到的三个视图中用户ui的网络嵌入表示,采用注意力机制学习三个视图的权重并按照权重进行加权求和,从而获取用户ui的社交关系特征;
利用注意力机制计算用户ui在第k个视图下的注意力权重λi k的方法如下:
其中,xi k∈Rd表示用户ui在第k个视图下的网络嵌入表示,k∈{1,2,3},z∈Rd表示需要学习的d维参数向量,Rd表示d维向量;基于用户ui在第k个视图下的注意力权重λi k,依据权重进行加权求和,获得用户ui的社交关系特征Si,计算方法如下:
其中,Si∈Rd表示用户ui的社交关系特征;
所述步骤2中,用户推文内容特征的抽取过程如下:
采用两层注意力机制抽取用户推文中的地理关联信息,其中:
1). 在单词层面上,利用BERT预训练词向量库获得用户推文中每个单词的向量表示;
设用户ui的第m条推文共包含L个单词,词向量依次为{Wm1,Wm2,…,WmL};其中,Wmj∈Rd表示第m条推文第j个单词的d维向量表示;
将词向量按次序输入双向长短时记忆循环神经网络,分别获得L个单词的隐含向量表示{hm1, hm2,…, hmL},其中,hmj∈Rd表示第m条推文第j个单词的d维隐含向量表示;
采用注意力机制学习第m条推文第j个单词的权重αmj,计算方法如下:
其中,p∈Rd表示需要学习的d维参数向量;基于计算得到的每个单词的权重,依据权重进行加权求和获得第m条推文的嵌入表示xm,计算方法如下:
其中,xm∈Rd表示第m条推文的嵌入表示;
2). 在句子层面上,设用户ui共发表T条推文,推文的嵌入表示依次为{x1, x2,…, xT},其中,xt∈Rd表示第t条推文的d维向量表示;
再次采用注意力机制学习第t条推文的权重βt,计算方法如下:
其中,q∈Rd表示需要学习的d维参数向量;基于计算得到的每条推文的权重,依据权重进行加权求和获得用户ui的推文内容特征Ci,计算方法如下:
其中,Ci∈Rd表示用户ui的推文内容特征;
所述步骤2中,用户静态属性特征的抽取过程如下:
用户静态属性包括用户昵称、性别、所在城市、年龄和职业;
1). 首先利用BERT预训练词向量库获得用户昵称单词与性别单词的词向量;
2). 如果所在城市、年龄以及职业属性显式给出,同样利用BERT预训练词向量库获得城市名称单词、年龄单词、职业单词的词向量;否则,将这些属性处理为0向量;
3). 将所有静态属性单词的词向量进行拼接,获得用户的静态属性特征Pi,其中,Pi∈Rd表示用户ui的静态属性特征;
步骤3. 利用深层神经网络融合步骤2抽取的用户社交关系特征、用户推文内容特征以及用户静态属性特征,构建用户地域识别模型;
将社交关系特征Si、推文内容特征Ci以及静态属性特征Pi进行拼接,得到用户ui的总体特征Hf,其中,Hf∈R3d,R3d表示3d维向量;
将用户ui的总体特征Hf作为多层感知机的输入,将用户ui的地域标签概率分布作为多层感知机的输出,完成用户地域识别模型的构建,从输入到输出的计算过程如下:
Y1=ψ(Hf);
Y2=ψ(Y1);
…
Yr=softmax(W·ψ(Y r-1)+b);
其中,ψ(·)表示非线性激活函数;Y1 表示第一层的输出、Y2 表示第二层的输出、Yr-1表示第r-1层的输出,Yr表示最后一层的输出;r表示多层感知机的神经网络层数;
W∈Rd×d表示多层感知机最后一层神经网络中需要学习的权重矩阵;
b∈Rd表示最后一层神经网络的偏置向量;
最后一层的输出Yr表示用户地域识别模型计算得到的用户ui的地域标签概率分布;
步骤4. 对构建的用户地域识别模型进行训练,得到训练后的用户地域识别模型;
步骤5. 对于原始社交网络用户数据集中地域标签未知的用户,首先基于步骤2抽取地域标签未知的用户的社交关系特征、推文内容特征以及静态属性特征;
然后将地域标签未知的用户的社交关系特征、推文内容特征以及静态属性特征输入到步骤4训练后的用户地域识别模型中,得到地域标签未知的用户的地域标签分布;
预设置信度,按照预设的置信度筛选出带有可信地域标签的用户,并将筛选出的带有可信地域标签的用户加入到初始训练数据集中,形成新的训练数据集;
新的训练数据集中用户的社交关系特征、推文内容特征和静态属性特征均已知;
返回步骤3进行迭代,直到原始社交网络用户数据集中所有用户均被用于用户地域识别模型的训练或者用户地域识别模型的准确度不再变化时,迭代停止;
将最后一次迭代时训练好的用户地域识别模型,作为最终的用户地域识别模型;
步骤6. 针对社交网络中的任意目标用户,将目标用户的社交关系特征、推文内容特征以及静态属性特征作输入到最终的用户地域识别模型中,得到目标用户的地域标签分布。
2.根据权利要求1所述的基于弱监督增强的社交网络用户地域识别方法,其特征在于,
所述步骤1中,依据用户发布的推文内容、推文附带的地理位置标记和用户静态属性中的城市信息,从原始社交网络用户数据集中筛选出地域标签已知的用户数据集。
3.根据权利要求1所述的基于弱监督增强的社交网络用户地域识别方法,其特征在于,
所述步骤4具体为:
将社交网络用户地域识别问题视作多标签分类问题,基于用户真实地域标签分布和模型预测的用户地域标签分布之间的交叉熵,构造用户地域识别模型的损失函数:
其中,Yu(w)表示用户u的真实地域标签分布Yu中的第w个元素;
Yu * (w)表示用户地域识别模型预测的用户u的地域标签分布Yu *的第w个元素;
U表示初始训练数据集中全体用户集合;
Z表示地域标签分布的维度,即初始训练数据集中全体地域的数量;
对损失函数Loss最小化,学习用户地域识别模型的参数;
最小化损失函数的过程,采用自适应矩估计算法完成梯度下降的自主步长学习。
4.根据权利要求3所述的基于弱监督增强的社交网络用户地域识别方法,其特征在于,
所述步骤5中,按照预设的置信度筛选出带有可信地域标签的用户的过程如下:
对于原始社交网络用户数据集中地域标签信息未知的用户uo,基于步骤4训练后的用户地域识别模型预测用户uo的地域标签分布Yo;
将地域标签分布Yo中每一个元素与预设的置信度δ进行大小比较:
若地域标签分布Yo中第w个元素Yo(w)的值大于或等于置信度δ的值,则保留该元素;若地域标签分布Yo中第w个元素值Yo(w) 的值小于置信度δ的值,则置该元素为0;
将按照置信度δ筛选后的地域标签分布记为Yo *;
将地域标签分布Yo *视作用户uo的真实地域标签,筛选出带有可信地域标签的用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111035304.8A CN113505307B (zh) | 2021-09-06 | 2021-09-06 | 一种基于弱监督增强的社交网络用户地域识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111035304.8A CN113505307B (zh) | 2021-09-06 | 2021-09-06 | 一种基于弱监督增强的社交网络用户地域识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505307A CN113505307A (zh) | 2021-10-15 |
CN113505307B true CN113505307B (zh) | 2021-12-07 |
Family
ID=78016279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111035304.8A Active CN113505307B (zh) | 2021-09-06 | 2021-09-06 | 一种基于弱监督增强的社交网络用户地域识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505307B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114741515B (zh) * | 2022-04-25 | 2024-07-26 | 西安交通大学 | 基于图生成的社交网络用户属性预测方法及系统 |
CN115033804B (zh) * | 2022-06-06 | 2024-02-27 | 西北工业大学 | 一种基于随机生长的社交网络关键转发者检测方法 |
CN115080750B (zh) * | 2022-08-16 | 2022-11-08 | 之江实验室 | 基于融合提示序列的弱监督文本分类方法、系统和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569920A (zh) * | 2019-09-17 | 2019-12-13 | 国家电网有限公司 | 一种多任务机器学习的预测方法 |
CN110781406A (zh) * | 2019-10-14 | 2020-02-11 | 西安交通大学 | 一种基于变分自动编码器的社交网络用户多属性推断方法 |
CN112528163A (zh) * | 2020-12-04 | 2021-03-19 | 中山大学 | 一种基于图卷积网络的社交平台用户职业预测方法 |
-
2021
- 2021-09-06 CN CN202111035304.8A patent/CN113505307B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569920A (zh) * | 2019-09-17 | 2019-12-13 | 国家电网有限公司 | 一种多任务机器学习的预测方法 |
CN110781406A (zh) * | 2019-10-14 | 2020-02-11 | 西安交通大学 | 一种基于变分自动编码器的社交网络用户多属性推断方法 |
CN112528163A (zh) * | 2020-12-04 | 2021-03-19 | 中山大学 | 一种基于图卷积网络的社交平台用户职业预测方法 |
Non-Patent Citations (3)
Title |
---|
A Simple Scalable Neural Networks based Model for Geolocation Prediction in Twitter;Yasuhide Miura等;《Proceedings of the 2nd Workshop on Noisy User-generated Text》;20161211;第235–239页 * |
Where Are You Settling Down: Geo-locating Twitter Users Based on Tweets and Social Networks;Kejiang Ren 等;《Springer-Verlag Berlin Heidelberg 2012》;20121231;第150–161页 * |
采用位置信息的半监督链接预测方法;朱乔亚 等;《计算机技术与发展》;20150731;第25卷(第7期);第63-66页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113505307A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111538912B (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN113505307B (zh) | 一种基于弱监督增强的社交网络用户地域识别方法 | |
CN112966074B (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
CN105740401B (zh) | 一种基于个体行为和群体兴趣的兴趣地点推荐方法及装置 | |
CN110263160B (zh) | 一种计算机问答系统中的问句分类方法 | |
US20220391433A1 (en) | Scene graph embeddings using relative similarity supervision | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN110598206A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
Cao et al. | Online news recommender based on stacked auto-encoder | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN111382361A (zh) | 信息推送方法、装置、存储介质和计算机设备 | |
CN114693397B (zh) | 一种基于注意力神经网络的多视角多模态商品推荐方法 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
Sina Mirabdolbaghi et al. | Model optimization analysis of customer churn prediction using machine learning algorithms with focus on feature reductions | |
CN112800344A (zh) | 一种基于深度神经网络的电影推荐方法 | |
CN114357151A (zh) | 文本类目识别模型的处理方法、装置、设备及存储介质 | |
CN116228368A (zh) | 一种基于深度多行为网络的广告点击率预测方法 | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
Okokpujie et al. | Predictive modeling of trait-aging invariant face recognition system using machine learning | |
CN113516094B (zh) | 一种用于为文档匹配评议专家的系统以及方法 | |
Patil et al. | A survey on artificial intelligence (AI) based job recommendation systems | |
Moholkar et al. | Lioness adapted GWO-based deep belief network enabled with multiple features for a novel question answering system | |
CN112925983A (zh) | 一种电网资讯信息的推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |