CN113505307B

CN113505307B - 一种基于弱监督增强的社交网络用户地域识别方法

Info

Publication number: CN113505307B
Application number: CN202111035304.8A
Authority: CN
Inventors: 胥帅
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-12-07
Anticipated expiration: 2041-09-06
Also published as: CN113505307A

Abstract

本发明公开了一种基于弱监督增强的社交网络用户地域识别方法，该方法包括如下步骤：步骤1.从原始社交网络用户数据集中筛选出地域标签已知的用户数据集，形成初始训练数据集；步骤2.抽取用户社交关系特征、推文内容特征和静态属性特征；步骤3.利用深层神经网络融合多维特征构建用户地域识别模型；步骤4.对构建的用户地域识别模型进行训练，得到训练后的用户地域识别模型；步骤5.基于弱监督学习强化用户地域识别模型；步骤6.针对社交网络中的目标用户，利用训练好的用户地域识别模型预测用户的地域标签。本发明克服了社交网络中用户地域标签的稀疏性问题，能够有效地识别社交网络用户关联的地理区域。

Description

一种基于弱监督增强的社交网络用户地域识别方法

技术领域

本发明涉及一种基于弱监督增强的社交网络用户地域识别方法。

背景技术

社交网络将不同地域的用户紧密联系在一起，现实社会中的热点事件经过社交网络的发酵和用户的传播，具有强大的渗透力、扩散力与影响力。由于社交网络中参与热点事件讨论的用户身份错综复杂，不同地域的用户关注事件的焦点与看待事件的观点不同，因此，不同地域用户的行为与观点互动，容易驱动事件发生快速演化，进而引发网络用户行为态势漂移动荡，反过来对线下事件的发展形成舆论压力，最终容易引起社会风险。

基于此，针对社交网络中参与热点事件讨论的用户群体，准确判断每名用户相关联的地域对于感知事件态势，调控事件演化趋势，进而维护网络空间安全至关重要。由于大部分用户在社交网络中不会显式公开与自己相关的地域（如家乡所在地、大学所在地、工作所在地等），需要对社交网络用户地域标签进行识别，以确定用户关联的地域。当前用户地域识别方法包括基于文本内容特征的方法、基于用户网络特征的方法以及基于多维特征融合的方法。

其中，基于文本内容特征的方法仅在用户显式发表附带地理位置的推文内容时才能体现出良好的效果，同时由于推文内容的地域属性与发布者的地域属性未必具有一致性，因此，仅根据内容特征对用户地域进行识别具有较大的局限性。基于用户网络特征的方法受制于社交网络固有的稀疏性特质，难以准确地刻画地域未知用户与地域已知用户之间的联系。

基于多维特征融合的方法能够有效缓解信息冗余，更全面地描述用户与地域之间的关联。然而，现有基于多维特征融合的方法难以处理社交网络用户地域标签的稀疏性问题，分类器对稀疏样本的刻画能力不足，导致分类器性能普遍较低，使得基于多维特征融合的方法，无法对社交网络中地域标签信息未知用户的地域标签分布进行有效预测。

发明内容

本发明的目的在于提出一种基于弱监督增强的社交网络用户地域识别方法，该方法能够对社交网络中地域标签信息未知用户的地域标签分布进行有效预测。

本发明为了实现上述目的，采用如下技术方案：

一种基于弱监督增强的社交网络用户地域识别方法，包括如下步骤：

步骤1. 首先从原始社交网络用户数据集中筛选出地域标签已知的用户数据集，并将筛选出的地域标签已知的用户数据集，作为初始训练数据集；

步骤2. 抽取用户社交关系特征、用户推文内容特征以及用户静态属性特征；

步骤3. 利用深层神经网络融合步骤2抽取的用户社交关系特征、用户推文内容特征以及用户静态属性特征，构建用户地域识别模型；

步骤4. 对构建的用户地域识别模型进行训练，得到训练后的用户地域识别模型；

步骤5. 对于原始社交网络用户数据集中地域标签未知的用户，首先基于步骤2抽取该地域标签未知的用户的社交关系特征、推文内容特征以及静态属性特征；

然后将地域标签未知的用户的社交关系特征、推文内容特征以及静态属性特征输入到步骤4训练后的用户地域识别模型中，得到地域标签未知的用户的地域标签分布；

按照预设的置信度筛选出带有可信地域标签的用户，并将筛选出的带有可信地域标签的用户加入到初始训练数据集中，形成新的训练数据集；

新的训练数据集中用户的社交关系特征、推文内容特征和静态属性特征均已知；

返回步骤3进行迭代，直到原始社交网络用户数据集中所有用户均被用于用户地域识别模型的训练或者用户地域识别模型的准确度不再变化时，迭代停止；

将最后一次迭代时训练好的用户地域识别模型，作为最终的用户地域识别模型；

步骤6. 针对社交网络中的任意目标用户，将目标用户的社交关系特征、推文内容特征以及静态属性特征作输入到最终的用户地域识别模型中，得到目标用户的地域标签分布。

优选地，步骤1中，依据用户发布的推文内容、推文附带的地理位置标记和用户静态属性中的城市信息，从原始社交网络用户数据集中筛选出地域标签已知的用户数据集。

优选地，步骤2中，用户社交关系特征的抽取过程如下：

首先构建一种三视图用户社交关系网络，每一个视图包含相同的用户节点和不同的关系边，依次为关注关系边、转发关系边和评论关系边；

定义三个视图分别为关注视图G_F、转发视图G_R和评论视图G_C；

采用结构化深度嵌入表示方法从用户u_i的社交关系中抽取用户u_i的社交关系特征，分别获得关注视图G_F、转发视图G_R和评论视图G_C的网络嵌入表示矩阵X_F、X_R和X_C；

其中，X_F、X_R、X_C∈R^N×d，R^N×d表示N×d维矩阵；

N表示初始训练数据集中用户的数量，d表示网络嵌入表示的维度；

基于获取到的三个视图中用户u_i的网络嵌入表示，采用注意力机制学习三个视图的权重并按照权重进行加权求和，从而获取用户u_i的社交关系特征；

利用注意力机制计算用户u_i在第k个视图下的注意力权重λ_i ^k的方法如下：

；

其中，x_i ^k∈R^d表示用户u_i在第k个视图下的网络嵌入表示，k∈{1,2,3}，z∈R^d表示需要学习的d维参数向量，R^d表示d维向量；基于用户u_i在第k个视图下的注意力权重λ_i ^k，依据权重进行加权求和，获得用户u_i的社交关系特征S_i，计算方法如下：

；

其中，S_i∈R^d表示用户u_i的社交关系特征。

优选地，步骤2中，用户推文内容特征的抽取过程如下：

采用两层注意力机制抽取用户推文中的地理关联信息，其中：

1). 在单词层面上，利用BERT预训练词向量库获得用户推文中每个单词的向量表示；

设用户u_i的第m条推文共包含L个单词，词向量依次为{W_m1,W_m2,…,W_mL}；其中，W_mj∈R^d表示第m条推文第j个单词的d维向量表示；

将词向量按次序输入双向长短时记忆循环神经网络，分别获得L个单词的隐含向量表示{h_m1, h_m2,…, h_mL}，其中，h_mj∈R^d表示第m条推文第j个单词的d维隐含向量表示；

采用注意力机制学习第m条推文第j个单词的权重α_mj，计算方法如下：

；

其中，p∈R^d表示需要学习的d维参数向量；基于计算得到的每个单词的权重，依据权重进行加权求和获得第m条推文的嵌入表示x_m，计算方法如下：

；

其中，x_m∈R^d表示第m条推文的嵌入表示，R^d表示d维向量；

2). 在句子层面上，设用户u_i共发表T条推文，推文的嵌入表示依次为{x₁, x₂,…,x_T}，其中，x_t∈R^d表示第t条推文的d维向量表示；

再次采用注意力机制学习第t条推文的权重β_t，计算方法如下：

；

其中，q∈R^d表示需要学习的d维参数向量；基于计算得到的每条推文的权重，依据权重进行加权求和获得用户u_i的推文内容特征C_i，计算方法如下：

；

其中，C_i∈R^d表示用户u_i的推文内容特征，R^d表示d维向量。

优选地，步骤2中，用户静态属性特征的抽取过程如下：

用户静态属性包括用户昵称、性别、所在城市、年龄和职业；

1). 首先利用BERT预训练词向量库获得用户昵称单词与性别单词的词向量；

2). 如果所在城市、年龄以及职业属性显式给出，同样利用BERT预训练词向量库获得城市名称单词、年龄单词、职业单词的词向量；否则，将这些属性处理为0向量；

3). 将所有静态属性单词的词向量进行拼接，获得用户的静态属性特征P_i，其中，P_i∈R^d表示用户u_i的静态属性特征，R^d表示d维向量。

优选地，步骤3中，定义用户u_i的社交关系特征为S_i，用户u_i的推文内容特征为C_i，用户u_i的静态属性特征为P_i，S_i∈R^d，C_i∈R^d，P_i∈R^d，R^d表示d维向量；

将社交关系特征S_i、推文内容特征C_i以及静态属性特征P_i进行拼接，得到用户u_i的总体特征H_f，其中，H_f∈R^3d，R^3d表示3d维向量；

将用户u_i的总体特征H_f作为多层感知机的输入，将用户u_i的地域标签概率分布作为多层感知机的输出，完成用户地域识别模型的构建，从输入到输出的计算过程如下：

Y₁=ψ(H_f)；

Y₂=ψ(Y₁)；

…

Y_r=softmax(W·ψ(Y_r-1)+b)；

其中，ψ(·)表示非线性激活函数；Y₁ 表示第一层的输出、Y₂ 表示第二层的输出、Y_r-1表示第r-1层的输出，Y_r表示最后一层的输出；r表示多层感知机的神经网络层数；

W∈R^d×d表示多层感知机最后一层神经网络中需要学习的权重矩阵；

b∈R^d表示最后一层神经网络的偏置向量；

最后一层的输出Y_r表示用户地域识别模型计算得到的用户u_i的地域标签概率分布。

优选地，步骤4具体为：

将社交网络用户地域识别问题视作多标签分类问题，基于用户真实地域标签分布和模型预测的用户地域标签分布之间的交叉熵，构造用户地域识别模型的损失函数：

；

其中，Y_u(j)表示用户u的真实地域标签分布Y_u中的第j个元素；

Y_u ^* (j)表示用户地域识别模型预测的用户u的地域标签分布Y_u ^*的第j个元素；

U表示初始训练数据集中全体用户集合；

Z表示地域标签分布的维度，即初始训练数据集中全体地域的数量；

对损失函数Loss最小化，学习用户地域识别模型的参数；

最小化损失函数的过程，采用自适应矩估计算法完成梯度下降的自主步长学习。

优选地，按照预设的置信度筛选出带有可信地域标签的用户的过程如下：

对于原始社交网络用户数据集中地域标签信息未知的用户u_o，基于步骤4训练后的用户地域识别模型预测用户u_o的地域标签分布Y_o；

将地域标签分布Y_o中每一个元素与预设的置信度δ进行大小比较：

若地域标签分布Y_o中第j个元素Y_o(j)的值大于或等于置信度δ的值，则保留该元素；若地域标签分布Y_o中第j个元素值Y_o(j) 的值小于置信度δ的值，则置该元素为0；

将按照置信度δ筛选后的地域标签分布记为Y_o ^*；

将地域标签分布Y_o ^*视作用户u_o的真实地域标签，筛选出带有可信地域标签的用户。

本发明具有如下优点：

如上所述，本发明述及了一种基于弱监督增强的社交网络用户地域识别方法，该方法从社交网络用户的社交关系、推文内容与静态属性中抽取地域相关因素，获得多维地域相关特征，然后利用深度神经网络充分融合多维特征，以分类器的形式构建用户地域识别模型。本发明进一步通过弱监督学习对训练数据集进行持续扩充，有效地缓解了用户地域标签数据的稀疏性问题，增强了用户地域识别模型的准确性，能够对社交网络中地域标签信息未知用户的地域标签分布进行有效预测，便于准确识别出社交网络用户关联的地理区域。

附图说明

图1为本发明实施例中基于弱监督增强的社交网络用户地域识别方法的流程示意图；

图2为本发明实施例中所要解决的社交网络用户地域识别问题示意图；

图3为本发明实施例提出的基于两层注意力机制的用户推文内容特征抽取方法示意图。

具体实施方式

以图2为例，假设某微博用户未公开家乡与工作地，通过微博网站的用户数据（个人首页描述、好友所在城市、历史推文内容、推文附带的地理位置标记）能够推知其家乡城市为南京，工作城市为上海，那么该用户的地域标签分布即为“#南京、#上海”。

本发明旨在通过社交网络用户数据，预测用户的地域标签分布。为了能够准确预测用户的地域标签分布，本发明在融合用户社交关系特征、推文内容特征与静态属性特征的基础上，通过弱监督学习方法进行训练数据集增强，从而有效地缓解了用户地域标签数据的稀疏性问题，进而构建一个基于弱监督学习与多维特征融合的用户地域识别模型，进而能够对社交网络中地域标签信息未知用户的地域标签分布进行有效预测。

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，一种基于弱监督增强的社交网络用户地域识别方法，包括如下步骤：

步骤1. 首先从原始社交网络用户数据集中筛选出地域标签已知的用户数据集，并将筛选出的地域标签已知的用户数据集，作为初始训练数据集。

其中，地域标签已知的用户数据集的筛选过程如下：

依据用户发布的推文内容、推文附带的地理位置标记和用户静态属性中的城市信息，从原始社交网络用户数据集中筛选出地域标签已知的用户数据集。

初始训练数据集中的每一名用户均有确定的地域标签，用于用户地域识别模型的有监督学习，初始训练数据集中用户的数量为N，其中N为自然数。

步骤2. 抽取多维特征，包括用户社交关系特征、推文内容特征以及静态属性特征。

步骤2.1. 用户社交关系特征的抽取过程如下：

首先构建一种三视图用户社交关系网络，每一个视图包含相同的用户节点和不同的关系边，依次为关注关系边、转发关系边和评论关系边。

定义三个视图分别为关注视图G_F、转发视图G_R和评论视图G_C。

采用结构化深度嵌入表示方法从用户u_i的社交关系中抽取用户u_i的社交关系特征，分别获得关注视图G_F、转发视图G_R和评论视图G_C的网络嵌入表示矩阵X_F、X_R和X_C。

其中，X_F、X_R、X_C∈R^N×d，R^N×d表示N×d维矩阵，d表示网络嵌入表示的维度。

本实施例中结构化深度嵌入表示方法可采用现有的结构化深度嵌入表示方法（Structural Deep Network Embedding, SDNE），此处不再详细赘述。

基于获取到的三个视图中用户u_i的网络嵌入表示，采用注意力机制学习三个视图的权重并按照权重进行加权求和，从而获取用户u_i的社交关系特征。

；

其中，x_i ^k∈R^d表示用户u_i在第k个视图下的网络嵌入表示，由于共有三个视图，因此，k∈{1,2,3}，z∈R^d表示需要学习的d维参数向量，R^d表示d维向量。

基于用户u_i在第k个视图下的注意力权重λ_i ^k，依据权重进行加权求和，获得用户u_i的社交关系特征S_i，计算方法如下：

；

其中，S_i∈R^d表示用户u_i的社交关系特征。

步骤2.2. 用户推文内容特征的抽取过程如下：

采用两层注意力机制抽取用户推文中的地理关联信息，如图3所示。

1). 在单词层面上，利用BERT预训练词向量库获得用户推文中每个单词的向量表示。

设用户u_i的第m条推文共包含L个单词，词向量依次为{W_m1,W_m2,…,W_mL}；其中，W_mj∈R^d表示第m条推文第j个单词的d维向量表示。

将词向量按次序输入双向长短时记忆循环神经网络，分别获得L个单词的隐含向量表示{h_m1, h_m2,…, h_mL}，其中，h_mj∈R^d表示第m条推文第j个单词的d维隐含向量表示。

；

。

其中，x_m∈R^d表示第m条推文的嵌入表示，R^d表示d维向量。

2). 在句子层面上，设用户u_i共发表T条推文，推文的嵌入表示依次为{x₁, x₂,…,x_T}，其中，x_t∈R^d表示第t条推文的d维向量表示。

；

。

其中，C_i∈R^d表示用户u_i的推文内容特征，R^d表示d维向量。

步骤2.3. 用户静态属性特征的抽取过程如下：

用户静态属性包括用户昵称、性别、所在城市、年龄和职业。

1). 由于社交网络中，用户昵称与性别属性是显式给出的，因此，本发明首先利用BERT预训练词向量库获得用户昵称单词与性别单词的词向量。

2). 如果所在城市、年龄以及职业属性显式给出，同样利用BERT预训练词向量库获得城市名称单词、年龄单词、职业单词的词向量；

否则，如果所在城市、年龄、职业属性未显式给出，将这些属性处理为0向量。

3). 随后将所有静态属性单词的词向量进行拼接，获得用户的静态属性特征P_i，其中，P_i∈R^d表示用户u_i的静态属性特征，R^d表示d维向量。

步骤3. 利用深层神经网络融合步骤2抽取的用户社交关系特征、用户推文内容特征以及用户静态属性特征等多维特征，构建用户地域识别模型。

定义用户u_i的社交关系特征为S_i，用户u_i的推文内容特征为C_i，用户u_i的静态属性特征为P_i，S_i∈R^d，C_i∈R^d，P_i∈R^d，R^d表示d维向量。

将社交关系特征S_i、推文内容特征C_i以及静态属性特征P_i进行拼接，得到用户u_i的总体特征H_f，其中，H_f∈R^3d，R^3d表示3d维向量。

Y₁=ψ(H_f)；

Y₂=ψ(Y₁)；

…

Y_r=softmax(W·ψ(Y_r-1)+b)；

b∈R^d表示最后一层神经网络的偏置向量；

步骤4. 对构建的用户地域识别模型进行训练，得到训练后的用户地域识别模型。

本发明将社交网络用户地域识别问题视作多标签分类问题，基于用户真实地域标签分布和模型预测的用户地域标签分布之间的交叉熵，构造用户地域识别模型的损失函数：

；

U表示初始训练数据集中全体用户集合；

对损失函数Loss最小化，学习用户地域识别模型的参数，包括注意力机制中有待学习的参数向量z、p、q，多层感知机中有待学习的权重矩阵W和偏置向量b。

最小化损失函数的过程，采用自适应矩估计算法（Adam）完成梯度下降的自主步长学习。

步骤5. 基于弱监督学习强化用户地域识别模型。

本发明实施例借鉴弱监督学习的思想，充分利用原始社交网络用户数据集中地域标签未知的用户数据，强化步骤3中构建的用户地域识别模型。

对于原始社交网络用户数据集中地域标签未知的用户u_o，首先基于步骤2抽取该地域标签未知的用户u_o的社交关系特征、推文内容特征以及静态属性特征。

然后将地域标签未知的用户的社交关系特征、推文内容特征以及静态属性特征输入到步骤4训练后的用户地域识别模型中，得到地域标签未知的用户u_o的地域标签分布Y_o。

预设置信度δ，按照预设的置信度筛选出带有可信地域标签的用户，并将筛选出的带有可信地域标签的用户加入到初始训练数据集中，形成新的训练数据集。

按照预设的置信度筛选出带有可信地域标签的用户的过程如下：

将地域标签分布Y_o中的每一个元素与预设的置信度δ进行大小比较：

若地域标签分布Y_o中第j个元素Y_o(j)的值大于或等于置信度δ的值，则保留该元素；若地域标签分布Y_o中第j个元素值Y_o(j) 的值小于置信度δ的值，则置该元素为0。

将按照置信度δ筛选后的地域标签分布记为Y_o ^*。

将筛选出带有可信地域标签的用户加入初始训练数据集中，并形成新的训练数据集，新的训练数据集中用户的社交关系特征、推文内容特征和静态属性特征均已知。

返回步骤3进行迭代，直到原始社交网络用户数据集中所有用户均被用于用户地域识别模型的训练或者用户地域识别模型的准确度不再变化时，迭代停止。

将最后一次迭代时训练好的用户地域识别模型，作为最终的用户地域识别模型。

需要说明的是，本实施例中置信度δ取值越大，则原始社交网络用户数据集中可用于用户地域识别模型训练的用户数量越少，用户地域识别模型的准确度越高；

反之，本实施例中置信度δ取值越小，则原始社交网络用户数据集中可用于用户地域识别模型训练的用户数量越多，用户地域识别模型的准确度越低。

地域标签和地域标签分布是两个概念，地域标签指某一个单独的标签，如图2中的一个标签“#南京”，它是一个具有语义特征的标签，意味着用户u_o与“南京”这个城市有关；

而地域标签分布是指多个地域标签形成的数值形式的概率分布，例如用户u_o的地域标签分布“#南京，#上海”的数值形式概率分布可能为Y_o =[0.9,0.1]。

本发明基于构建的用户地域识别模型，获得原始社交网络用户数据集中地域标签未知用户的地域标签，按照预设的置信度筛选出这些用户的可信地域标签，从而扩充初始训练数据集，继续用户地域识别模型的训练，强化原有用户地域识别模型的准确性。

步骤6. 针对社交网络中的任意目标用户u_r，将目标用户u_r的社交关系特征、推文内容特征以及静态属性特征作输入到最终的用户地域识别模型中，根据模型输出得到目标用户u_r的地域标签分布。

本发明从用户社交关系、用户推文内容、用户静态属性中捕捉地域因素，抽取社交关系特征、推文内容特征、静态属性特征；利用深度神经网络有效融合多维特征，通过多标签分类器的形式构建用户地域识别模型；借鉴弱监督学习思想，对初始训练数据集进行不断扩充，对构建的用户识别模型持续训练，缓解用户地域标签数据的稀疏性问题，有效增强用户地域识别模型的准确性，能够对社交网络中地域标签信息未知用户的地域标签分布有效预测。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种基于弱监督增强的社交网络用户地域识别方法，其特征在于，包括如下步骤：

所述步骤2中，用户社交关系特征的抽取过程如下：

其中，X_F、X_R、X_C∈R^N×d，R^N×d表示N×d维矩阵；

；

；

其中，S_i∈R^d表示用户u_i的社交关系特征；

所述步骤2中，用户推文内容特征的抽取过程如下：

；

；

其中，x_m∈R^d表示第m条推文的嵌入表示；

2). 在句子层面上，设用户u_i共发表T条推文，推文的嵌入表示依次为{x₁, x₂,…, x_T}，其中，x_t∈R^d表示第t条推文的d维向量表示；

；

；

其中，C_i∈R^d表示用户u_i的推文内容特征；

所述步骤2中，用户静态属性特征的抽取过程如下：

3). 将所有静态属性单词的词向量进行拼接，获得用户的静态属性特征P_i，其中，P_i∈R^d表示用户u_i的静态属性特征；

Y₁=ψ(H_f)；

Y₂=ψ(Y₁)；

…

Y_r=softmax(W·ψ(Y_r-1)+b)；

b∈R^d表示最后一层神经网络的偏置向量；

最后一层的输出Y_r表示用户地域识别模型计算得到的用户u_i的地域标签概率分布；

步骤5. 对于原始社交网络用户数据集中地域标签未知的用户，首先基于步骤2抽取地域标签未知的用户的社交关系特征、推文内容特征以及静态属性特征；

预设置信度，按照预设的置信度筛选出带有可信地域标签的用户，并将筛选出的带有可信地域标签的用户加入到初始训练数据集中，形成新的训练数据集；

2.根据权利要求1所述的基于弱监督增强的社交网络用户地域识别方法，其特征在于，

所述步骤1中，依据用户发布的推文内容、推文附带的地理位置标记和用户静态属性中的城市信息，从原始社交网络用户数据集中筛选出地域标签已知的用户数据集。

3.根据权利要求1所述的基于弱监督增强的社交网络用户地域识别方法，其特征在于，

所述步骤4具体为：

；

其中，Y_u(w)表示用户u的真实地域标签分布Y_u中的第w个元素；

Y_u ^* (w)表示用户地域识别模型预测的用户u的地域标签分布Y_u ^*的第w个元素；

U表示初始训练数据集中全体用户集合；

对损失函数Loss最小化，学习用户地域识别模型的参数；

4.根据权利要求3所述的基于弱监督增强的社交网络用户地域识别方法，其特征在于，

所述步骤5中，按照预设的置信度筛选出带有可信地域标签的用户的过程如下：

若地域标签分布Y_o中第w个元素Y_o(w)的值大于或等于置信度δ的值，则保留该元素；若地域标签分布Y_o中第w个元素值Y_o(w) 的值小于置信度δ的值，则置该元素为0；

将按照置信度δ筛选后的地域标签分布记为Y_o ^*；