CN107577782A

CN107577782A - 一种基于异质数据的人物相似度刻画方法

Info

Publication number: CN107577782A
Application number: CN201710827978.9A
Authority: CN
Inventors: 王卿; 刘春阳; 包秀国; 张旭; 王萌; 李雄; 吴俊杰; 蒋丽娜
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-01-12
Anticipated expiration: 2037-09-14
Also published as: CN107577782B

Abstract

本发明公开了一种基于异质数据的人物相似度刻画方法，属于数据挖掘领域。本发明首先搜集用户的微博文本，获取用户之间的关注关系以及各用户的基本信息，针对不同类型数据的特点个性化选择处理方式，并对于微博文本采用Doc2vec模型，结合上下文信息将文本表示成向量，再根据定义的相似度函数衡量相似度，最后将不同维度得到的矩阵进行融合，刻画用户最终的相似度。本发明引入了多种社交网络信息，包括社交关系数据、用户属性数据和用户文本数据等，通过对不同类型的信息加以综合考虑，以得到更全面的人物相似度刻画方法；同时本发明提供了对于多种数据的处理和计算方案，利用完整的数据和加权融合方法，个性化计算不同偏好的人物相似度。

Description

一种基于异质数据的人物相似度刻画方法

技术领域

本发明属于数据挖掘领域，涉及一种相似度计算技术，具体是一种基于异质数据的人物相似度刻画方法。

背景技术

随着互联网的发展，人们的生活越来越离不开网络，依靠互联网进行工作、社交和发表言论越来越密切，导致线上和线下的界限逐渐模糊。在此过程中，人们通过不同形式表达出了自己的兴趣和特点；但是，面对巨大的信息量，人们要从海量信息中鉴别出自己感兴趣的内容和找到志趣相同的朋友，商家和政府机构要找到对自己更有价值的用户群体，并根据用户信息进行进一步的研究或推荐，越来越困难。

截至2016年6月，中国网民规模达7.10亿，互联网普及率达到51.7％，超过全球平均水平3.1个百分点，其中手机网民规模达6.56亿，社会网络的代表应用——微博的用户规模也达到了2.42亿，使用率为34％。基于此，充分利用社交网络的优势，根据用户在微博上发布的信息得到用户感兴趣的内容，根据用户的关注关系得到用户的交友情况，提取出用户不同的兴趣爱好，发现用户所处的社区，不仅为用户提高接收到信息的价值、节省社交成本，也为企业做用户群体发现、精准推荐等应用提供了巨大的价值。

发明内容

本发明鉴于微博中信息丰富，表达方式多样化，信息量大等特点，从中挖掘有用信息很困难，且用户相似度不易衡量的问题，提出了一种基于异质数据的人物相似度刻画方法，分别从用户的文本特征，关注关系特征以及基本信息特征等角度分析用户相似度，最后进行加权融合，刻画用户之间的相似度特征，并利用刻画的人物相似度做用户推荐或者社区发现。

具体步骤如下：

步骤一、从网络中收集关于某领域或者活跃度较高的微博数据流，进行预处理并存储在数据库中；

预处理是指：提取出每条微博的用户ID和文本信息，将文本信息存储在数据库中，并根据用户ID爬取微博网页，得到用户的基本信息和关注关系，存储在数据库中。

步骤二、从数据库中选取部分用户的文本信息作为样本，进行分词和筛选，训练Doc2vec模型。

分词是根据中文语言的特点，将选择的每条中文文本切割成一个一个的单词。

筛选是指对分词后的结果，分别去除无意义的停用词，单个词，以及高频词和低频词。

步骤三、利用数据库中剩余用户的文本信息为测试样本，输入训练后的Doc2vec模型，得到测试样本的每个文本信息的向量分布，进而计算文本相似度矩阵M₁；

文本相似度矩阵M₁中的每个元素是两个用户之间的余弦相似度值；

用户i与用户j之间的余弦相似度S_i,j值为：v_i为用户i的文本向量。

步骤四、针对测试样本，抽取各用户的关注关系，计算用户间的杰卡德相似性，构成链接关系矩阵M₂；同时根据用户之间的关注关系，构建关注相似度矩阵M₃；

链接关系矩阵M₂中的每个元素是：采用杰卡德系数计算两个用户间的共同朋友数占总朋友数的比例值；其中，用户i与用户j之间的杰卡德相似性计算公式为：

其中，f_i为用户i的朋友集合。

关注相似度矩阵M₃中的元素根据两个用户原始的互相关注关系定义，若用户i与用户j相互关注，则元素R_i,j值为1，没有相互关注，元素R_i,j值为0。

步骤五、针对测试样本，抽取各用户的基本信息，对不同类型数据采用不同处理方法，并加权得到基本信息的相似度矩阵M₄；

相似度矩阵M₄中的每个元素计算如下：

首先，针对两个用户的基本信息，先分别计算类别型数据的信息相似度，文本型数据的信息相似度，以及连续型数据的信息相似度；然后，对三个相似度进行加权，所有的加权值构成基本信息的相似度矩阵M₄。

具体为：

步骤501、针对用户i与用户j的基本信息中，计算类别型数据的信息相似度；

公式如下：

为用户i在类别信息中的取值,其中分母a_c表示类别信息的总数，分子表示用户i的类别与用户j的类别相等的数量。

步骤502、计算用户i与用户j的基本信息中文本型数据的信息相似度；

具体为：首先进行分词和筛选，输入训练后的Doc2vec模型，得到每个文本信息的向量分布，从而计算文本信息相似度

步骤503、计算用户i与用户j的基本信息中两个连续型数据的信息相似度；

首先，分别对用户i与用户j取对数，对连续型数据进行归一化，计算公式如下：

其中，表示用户i在连续属性s中的取值，为s属性下用户数值取对数后的平均值，为s属性下用户数值取对数后的标准差。

然后，采用欧式距离衡量在属性数值上的差距，以刻画用户间属性的相似程度；

计算公式为：

其中，s为当前选择的属性，n为属性的数量。

步骤504、对类别型数据的信息相似度，文本型数据的信息相似度，以及两个用户的属性相似度进行加权；

为用户属性相似度的加权值；为类别型数据的信息相似度的加权值；t∈T；

步骤505、用户i与用户j的加权值为属性信息相似度矩阵M₄的元素。

步骤六、融合文本相似度矩阵M₁，链接关系矩阵M₂，关注相似度矩阵M₃和基本信息的相似度矩阵M₄，刻画矩阵中两个用户之间的相似性；

针对用户i与用户j具体融合公式如下：

M＝ω₁*M₁+ω₂*M₂+ω₃*M₃+ω₄*M₄

ω₁为文本相似度矩阵M₁的加权值；ω₂为链接关系矩阵M₂的加权值；ω₃为关注相似度矩阵M₃的加权值；ω₄为基本信息的相似度矩阵M₄的加权值，每个加权值根据用户需求的分配。

步骤七、利用两个用户之间的相似性进行用户推荐或社区发现。

本发明的优点在于：

1)、一种基于异质数据的人物相似度刻画方法，引入了多种社交网络信息，包括：社交关系数据、用户属性数据和用户文本数据等，它们都与用户真实的兴趣有关，通过对不同类型的信息加以综合考虑，以得到更全面的人物相似度刻画方法。

2)、一种基于异质数据的人物相似度刻画方法，对于文本信息的处理，结合上下文信息将文本表示成向量，再根据定义的相似度函数衡量相似度，可以保留更多文本的信息量。

3)、一种基于异质数据的人物相似度刻画方法，提供了对于多种数据(离散型、连续型、关系型、文本型等)的处理和计算方案，利用完整的数据和加权融合方法，个性化计算不同偏好的人物相似度。

附图说明

图1为本发明一种基于异质数据的人物相似度刻画方法的流程图；

图2为本发明对Doc2vec模型进行训练的示意图；

具体实施方式

下面结合附图对本发明的具体实施方法进行详细说明。

本发明所述的基于微博平台的异质数据对人物相似度刻画方法，首先搜集用户的微博文本，获取用户之间的关注关系以及各用户的基本信息，针对不同类型数据的特点个性化选择处理方式，并对于微博文本采用Doc2vec模型，考虑到上下文特点，计算文本相似度，最后将不同维度得到的矩阵进行融合，刻画用户最终的相似度。

如图1所示，具体实施步骤下：

对于接收到的微博数据流，搜集用户的基本信息，关注被关注关系，以及近期发布的微博文本信息；

首先对微博数据流进行预处理，提取出每条微博的用户ID和文本信息，将文本信息存储在数据库中，然后根据得到的用户ID爬取微博网页，得到用户的基本信息和关注关系，存储在数据库中，以供后续处理。

选取样本用户的最近200条文本信息，合并成一个长文本，使用中科院分词系统ICTCLAS对合并后的文本信息进行分词处理，即根据中文语言的特点，将训练语料中选择的每条中文文本切割成一个一个的单词。

筛选是指对分词后的结果，做如下处理：其一是去除无意义的停用词，其二是去除单个词，其三是去除高频和低频词。

对Doc2vec模型采用“输入层——隐含层——输出层”的三层神经网络进行训练，DM模型(Distributed Memory Model)的训练过程如图2所示：

每篇文档映射为一个向量，其中包含了唯一的ID，以及词汇的上下文信息，结合文档向量和当前词的左右共n个词，对下一个词向量进行预测，DM模型需要使目标函数最大化：

其中z为词的数量，ω_t表示词t的向量，即在给定邻居词向量和文档ID的情况下，需要最大化当前词出现的概率。

在训练过程中，通过对词向量构建霍夫曼树的编码形式，可以更有效率的计算这个目标函数，以加速训练过程，经过DM模型的训练，使得语义相似的文档在向量中的距离更近。

将剩余用户的文本信息输入训练后的Doc2vec模型中，得到剩余用户文本最终的向量值，根据剩余用户的文本在向量上的分布情况，构建用户间的文本相似度矩阵M₁。

步骤四、针对测试样本，抽取各用户的关注关系，计算用户间的杰卡德相似性，构成链接关系矩阵M₂；同时根据用户之间的互相关注关系，构建关注相似度矩阵M₃；

其中，f_i为用户i的朋友集合。

相似度矩阵M₄中的每个元素计算如下：

首先，针对两个用户的基本信息，将用户的属性信息进行预处理，将类别型数据离散化，计算类别型数据的信息相似度；文本型数据利用Doc2vec模型计算文本型数据的信息相似度，以及对连续型数据归一化，分别计算欧式距离，计算连续型数据的信息相似度；然后，对三个相似度进行加权，所有的加权值构成基本信息的相似度矩阵M₄。

具体为：

对于性别、省份等类别型数据可直接进行离散化，判断类别是否相等，以得到类别信息相似性；公式如下：

用户i与用户j类别信息不同的数量与总数的比值，为类别信息的距离；为用户i在类别信息中的取值,其中分母a_c表示类别信息的总数，分子表示用户i的类别与用户j的类别相等的数量。

对于用户的昵称、个人描述等文本信息，首先进行分词和筛选，输入训练后的Doc2vec模型转换为向量形式，得到每个文本信息的向量分布，从而计算文本信息相似度

步骤503、计算用户i与用户j的基本信息中两个用户的连续型数据的相似度；

对于注册日期、粉丝数、关注数等连续型数据，需要标准化，由于粉丝数、关注数数据值差异较大，为了减少进行归一化，计算公式如下：

然后，分别得到不同属性的值后，采用欧式距离衡量在属性数值上的差距，以刻画用户间属性的相似程度；

计算公式为：

其中，s为当前选择的属性，n为属性的数量。

步骤504、对类别型数据的信息相似度，文本型数据的信息相似度，以及两个用户的连续型数据的信息相似度进行加权；

针对用户i与用户j不同类型的数据，在合并时采取加权的方式，可以方便根据数据集的不同调整权重，将得到的文本相似度矩阵M₁，链接关系矩阵M₂，关注相似度矩阵M₃以及属性信息相似度矩阵M₄加权得到混合矩阵M:

M＝ω₁*M₁+ω₂*M₂+ω₃*M₃+ω₄*M₄

由于加入了属性、文本及链接相似度，混合后的矩阵M中非零值会增加，但在实际情况中，用户所能接触到的好友和信息有限，因此设定阈值m，对于每个用户，只考虑前m个相似度最大的用户作为相似用户。

Claims

1.一种基于异质数据的人物相似度刻画方法，其特征在于，包括如下步骤：

步骤二、从数据库中选取部分用户的文本信息作为样本，进行分词和筛选，训练Doc2vec模型；

分词是根据中文语言的特点，将选择的每条中文文本切割成一个一个的单词；

筛选是指对分词后的结果，分别去除无意义的停用词，单个词，以及高频词和低频词；

用户i与用户j之间的余弦相似度S_i,j值为：v_i为用户i的文本向量；

其中，f_i为用户i的朋友集合；

关注相似度矩阵M₃中的元素根据两个用户原始的互相关注关系定义，若用户i与用户j相互关注，则元素R_i,j值为1，没有相互关注，元素R_i,j值为0；

相似度矩阵M₄中的每个元素计算如下：

首先，针对两个用户的基本信息，先分别计算类别型数据的信息相似度，文本型数据的信息相似度，以及连续型数据的信息相似度；然后，对三个相似度进行加权，所有的加权值构成基本信息的相似度矩阵M₄；

针对用户i与用户j具体融合公式如下：

M＝ω₁*M₁+ω₂*M₂+ω₃*M₃+ω₄*M₄

ω₁为文本相似度矩阵M₁的加权值；ω₂为链接关系矩阵M₂的加权值；ω₃为关注相似度矩阵M₃的加权值；ω₄为基本信息的相似度矩阵M₄的加权值，每个加权值根据用户需求的分配；

2.如权利要求1所述的一种基于异质数据的人物相似度刻画方法，其特征在于，步骤一中，所述的预处理是指：提取出每条微博的用户ID和文本信息，将文本信息存储在数据库中，并根据用户ID爬取微博网页，得到用户的基本信息和关注关系，存储在数据库中。

3.如权利要求1所述的一种基于异质数据的人物相似度刻画方法，其特征在于，步骤五中，所述的步骤五中相似度矩阵M₄的计算过程如下：

公式如下：

为用户i在类别信息中的取值,其中分母a_c表示类别信息的总数，分子表示用户i的类别与用户j的类别相等的数量；

其中，表示用户i在连续属性s中的取值，为s属性下用户数值取对数后的平均值，为s属性下用户数值取对数后的标准差；

计算公式为：

<mrow> <msub> <mi>a</mi> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>=</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>a</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>-</mo> <msub> <mi>a</mi> <msub> <mi>s</mi> <mi>j</mi> </msub> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

其中，s为当前选择的属性，n为属性的数量；

<mrow> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>N</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>-</mo> <msub> <mi>a</mi> <msub> <mi>&omega;</mi> <mn>1</mn> </msub> </msub> <mo>*</mo> <mi>N</mi> <mi>o</mi> <mi>r</mi> <mo>(</mo> <msub> <mi>a</mi> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>)</mo> <mo>-</mo> <msub> <mi>a</mi> <msub> <mi>&omega;</mi> <mn>2</mn> </msub> </msub> <mo>*</mo> <mi>N</mi> <mi>o</mi> <mi>r</mi> <mo>(</mo> <msub> <mi>a</mi> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>;</mo> </mrow>