CN107577782A - 一种基于异质数据的人物相似度刻画方法 - Google Patents

一种基于异质数据的人物相似度刻画方法 Download PDF

Info

Publication number
CN107577782A
CN107577782A CN201710827978.9A CN201710827978A CN107577782A CN 107577782 A CN107577782 A CN 107577782A CN 201710827978 A CN201710827978 A CN 201710827978A CN 107577782 A CN107577782 A CN 107577782A
Authority
CN
China
Prior art keywords
msub
mrow
user
similarity
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710827978.9A
Other languages
English (en)
Other versions
CN107577782B (zh
Inventor
王卿
刘春阳
包秀国
张旭
王萌
李雄
吴俊杰
蒋丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201710827978.9A priority Critical patent/CN107577782B/zh
Publication of CN107577782A publication Critical patent/CN107577782A/zh
Application granted granted Critical
Publication of CN107577782B publication Critical patent/CN107577782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异质数据的人物相似度刻画方法,属于数据挖掘领域。本发明首先搜集用户的微博文本,获取用户之间的关注关系以及各用户的基本信息,针对不同类型数据的特点个性化选择处理方式,并对于微博文本采用Doc2vec模型,结合上下文信息将文本表示成向量,再根据定义的相似度函数衡量相似度,最后将不同维度得到的矩阵进行融合,刻画用户最终的相似度。本发明引入了多种社交网络信息,包括社交关系数据、用户属性数据和用户文本数据等,通过对不同类型的信息加以综合考虑,以得到更全面的人物相似度刻画方法;同时本发明提供了对于多种数据的处理和计算方案,利用完整的数据和加权融合方法,个性化计算不同偏好的人物相似度。

Description

一种基于异质数据的人物相似度刻画方法
技术领域
本发明属于数据挖掘领域,涉及一种相似度计算技术,具体是一种基于异质数据的人物相似度刻画方法。
背景技术
随着互联网的发展,人们的生活越来越离不开网络,依靠互联网进行工作、社交和发表言论越来越密切,导致线上和线下的界限逐渐模糊。在此过程中,人们通过不同形式表达出了自己的兴趣和特点;但是,面对巨大的信息量,人们要从海量信息中鉴别出自己感兴趣的内容和找到志趣相同的朋友,商家和政府机构要找到对自己更有价值的用户群体,并根据用户信息进行进一步的研究或推荐,越来越困难。
截至2016年6月,中国网民规模达7.10亿,互联网普及率达到51.7%,超过全球平均水平3.1个百分点,其中手机网民规模达6.56亿,社会网络的代表应用——微博的用户规模也达到了2.42亿,使用率为34%。基于此,充分利用社交网络的优势,根据用户在微博上发布的信息得到用户感兴趣的内容,根据用户的关注关系得到用户的交友情况,提取出用户不同的兴趣爱好,发现用户所处的社区,不仅为用户提高接收到信息的价值、节省社交成本,也为企业做用户群体发现、精准推荐等应用提供了巨大的价值。
发明内容
本发明鉴于微博中信息丰富,表达方式多样化,信息量大等特点,从中挖掘有用信息很困难,且用户相似度不易衡量的问题,提出了一种基于异质数据的人物相似度刻画方法,分别从用户的文本特征,关注关系特征以及基本信息特征等角度分析用户相似度,最后进行加权融合,刻画用户之间的相似度特征,并利用刻画的人物相似度做用户推荐或者社区发现。
具体步骤如下:
步骤一、从网络中收集关于某领域或者活跃度较高的微博数据流,进行预处理并存储在数据库中;
预处理是指:提取出每条微博的用户ID和文本信息,将文本信息存储在数据库中,并根据用户ID爬取微博网页,得到用户的基本信息和关注关系,存储在数据库中。
步骤二、从数据库中选取部分用户的文本信息作为样本,进行分词和筛选,训练Doc2vec模型。
分词是根据中文语言的特点,将选择的每条中文文本切割成一个一个的单词。
筛选是指对分词后的结果,分别去除无意义的停用词,单个词,以及高频词和低频词。
步骤三、利用数据库中剩余用户的文本信息为测试样本,输入训练后的Doc2vec模型,得到测试样本的每个文本信息的向量分布,进而计算文本相似度矩阵M1
文本相似度矩阵M1中的每个元素是两个用户之间的余弦相似度值;
用户i与用户j之间的余弦相似度Si,j值为:vi为用户i的文本向量。
步骤四、针对测试样本,抽取各用户的关注关系,计算用户间的杰卡德相似性,构成链接关系矩阵M2;同时根据用户之间的关注关系,构建关注相似度矩阵M3
链接关系矩阵M2中的每个元素是:采用杰卡德系数计算两个用户间的共同朋友数占总朋友数的比例值;其中,用户i与用户j之间的杰卡德相似性计算公式为:
其中,fi为用户i的朋友集合。
关注相似度矩阵M3中的元素根据两个用户原始的互相关注关系定义,若用户i与用户j相互关注,则元素Ri,j值为1,没有相互关注,元素Ri,j值为0。
步骤五、针对测试样本,抽取各用户的基本信息,对不同类型数据采用不同处理方法,并加权得到基本信息的相似度矩阵M4
相似度矩阵M4中的每个元素计算如下:
首先,针对两个用户的基本信息,先分别计算类别型数据的信息相似度,文本型数据的信息相似度,以及连续型数据的信息相似度;然后,对三个相似度进行加权,所有的加权值构成基本信息的相似度矩阵M4
具体为:
步骤501、针对用户i与用户j的基本信息中,计算类别型数据的信息相似度;
公式如下:
为用户i在类别信息中的取值,其中分母ac表示类别信息的总数,分子表示用户i的类别与用户j的类别相等的数量。
步骤502、计算用户i与用户j的基本信息中文本型数据的信息相似度;
具体为:首先进行分词和筛选,输入训练后的Doc2vec模型,得到每个文本信息的向量分布,从而计算文本信息相似度
步骤503、计算用户i与用户j的基本信息中两个连续型数据的信息相似度;
首先,分别对用户i与用户j取对数,对连续型数据进行归一化,计算公式如下:
其中,表示用户i在连续属性s中的取值,为s属性下用户数值取对数后的平均值,为s属性下用户数值取对数后的标准差。
然后,采用欧式距离衡量在属性数值上的差距,以刻画用户间属性的相似程度;
计算公式为:
其中,s为当前选择的属性,n为属性的数量。
步骤504、对类别型数据的信息相似度,文本型数据的信息相似度,以及两个用户的属性相似度进行加权;
为用户属性相似度的加权值;为类别型数据的信息相似度的加权值;t∈T;
步骤505、用户i与用户j的加权值为属性信息相似度矩阵M4的元素。
步骤六、融合文本相似度矩阵M1,链接关系矩阵M2,关注相似度矩阵M3和基本信息的相似度矩阵M4,刻画矩阵中两个用户之间的相似性;
针对用户i与用户j具体融合公式如下:
M=ω1*M12*M23*M34*M4
ω1为文本相似度矩阵M1的加权值;ω2为链接关系矩阵M2的加权值;ω3为关注相似度矩阵M3的加权值;ω4为基本信息的相似度矩阵M4的加权值,每个加权值根据用户需求的分配。
步骤七、利用两个用户之间的相似性进行用户推荐或社区发现。
本发明的优点在于:
1)、一种基于异质数据的人物相似度刻画方法,引入了多种社交网络信息,包括:社交关系数据、用户属性数据和用户文本数据等,它们都与用户真实的兴趣有关,通过对不同类型的信息加以综合考虑,以得到更全面的人物相似度刻画方法。
2)、一种基于异质数据的人物相似度刻画方法,对于文本信息的处理,结合上下文信息将文本表示成向量,再根据定义的相似度函数衡量相似度,可以保留更多文本的信息量。
3)、一种基于异质数据的人物相似度刻画方法,提供了对于多种数据(离散型、连续型、关系型、文本型等)的处理和计算方案,利用完整的数据和加权融合方法,个性化计算不同偏好的人物相似度。
附图说明
图1为本发明一种基于异质数据的人物相似度刻画方法的流程图;
图2为本发明对Doc2vec模型进行训练的示意图;
具体实施方式
下面结合附图对本发明的具体实施方法进行详细说明。
本发明所述的基于微博平台的异质数据对人物相似度刻画方法,首先搜集用户的微博文本,获取用户之间的关注关系以及各用户的基本信息,针对不同类型数据的特点个性化选择处理方式,并对于微博文本采用Doc2vec模型,考虑到上下文特点,计算文本相似度,最后将不同维度得到的矩阵进行融合,刻画用户最终的相似度。
如图1所示,具体实施步骤下:
步骤一、从网络中收集关于某领域或者活跃度较高的微博数据流,进行预处理并存储在数据库中;
对于接收到的微博数据流,搜集用户的基本信息,关注被关注关系,以及近期发布的微博文本信息;
首先对微博数据流进行预处理,提取出每条微博的用户ID和文本信息,将文本信息存储在数据库中,然后根据得到的用户ID爬取微博网页,得到用户的基本信息和关注关系,存储在数据库中,以供后续处理。
步骤二、从数据库中选取部分用户的文本信息作为样本,进行分词和筛选,训练Doc2vec模型。
选取样本用户的最近200条文本信息,合并成一个长文本,使用中科院分词系统ICTCLAS对合并后的文本信息进行分词处理,即根据中文语言的特点,将训练语料中选择的每条中文文本切割成一个一个的单词。
筛选是指对分词后的结果,做如下处理:其一是去除无意义的停用词,其二是去除单个词,其三是去除高频和低频词。
对Doc2vec模型采用“输入层——隐含层——输出层”的三层神经网络进行训练,DM模型(Distributed Memory Model)的训练过程如图2所示:
每篇文档映射为一个向量,其中包含了唯一的ID,以及词汇的上下文信息,结合文档向量和当前词的左右共n个词,对下一个词向量进行预测,DM模型需要使目标函数最大化:
其中z为词的数量,ωt表示词t的向量,即在给定邻居词向量和文档ID的情况下,需要最大化当前词出现的概率。
在训练过程中,通过对词向量构建霍夫曼树的编码形式,可以更有效率的计算这个目标函数,以加速训练过程,经过DM模型的训练,使得语义相似的文档在向量中的距离更近。
步骤三、利用数据库中剩余用户的文本信息为测试样本,输入训练后的Doc2vec模型,得到测试样本的每个文本信息的向量分布,进而计算文本相似度矩阵M1
将剩余用户的文本信息输入训练后的Doc2vec模型中,得到剩余用户文本最终的向量值,根据剩余用户的文本在向量上的分布情况,构建用户间的文本相似度矩阵M1
文本相似度矩阵M1中的每个元素是两个用户之间的余弦相似度值;
用户i与用户j之间的余弦相似度Si,j值为:vi为用户i的文本向量。
步骤四、针对测试样本,抽取各用户的关注关系,计算用户间的杰卡德相似性,构成链接关系矩阵M2;同时根据用户之间的互相关注关系,构建关注相似度矩阵M3
链接关系矩阵M2中的每个元素是:采用杰卡德系数计算两个用户间的共同朋友数占总朋友数的比例值;其中,用户i与用户j之间的杰卡德相似性计算公式为:
其中,fi为用户i的朋友集合。
关注相似度矩阵M3中的元素根据两个用户原始的互相关注关系定义,若用户i与用户j相互关注,则元素Ri,j值为1,没有相互关注,元素Ri,j值为0。
步骤五、针对测试样本,抽取各用户的基本信息,对不同类型数据采用不同处理方法,并加权得到基本信息的相似度矩阵M4
相似度矩阵M4中的每个元素计算如下:
首先,针对两个用户的基本信息,将用户的属性信息进行预处理,将类别型数据离散化,计算类别型数据的信息相似度;文本型数据利用Doc2vec模型计算文本型数据的信息相似度,以及对连续型数据归一化,分别计算欧式距离,计算连续型数据的信息相似度;然后,对三个相似度进行加权,所有的加权值构成基本信息的相似度矩阵M4
具体为:
步骤501、针对用户i与用户j的基本信息中,计算类别型数据的信息相似度;
对于性别、省份等类别型数据可直接进行离散化,判断类别是否相等,以得到类别信息相似性;公式如下:
用户i与用户j类别信息不同的数量与总数的比值,为类别信息的距离;为用户i在类别信息中的取值,其中分母ac表示类别信息的总数,分子表示用户i的类别与用户j的类别相等的数量。
步骤502、计算用户i与用户j的基本信息中文本型数据的信息相似度;
对于用户的昵称、个人描述等文本信息,首先进行分词和筛选,输入训练后的Doc2vec模型转换为向量形式,得到每个文本信息的向量分布,从而计算文本信息相似度
步骤503、计算用户i与用户j的基本信息中两个用户的连续型数据的相似度;
对于注册日期、粉丝数、关注数等连续型数据,需要标准化,由于粉丝数、关注数数据值差异较大,为了减少进行归一化,计算公式如下:
其中,表示用户i在连续属性s中的取值,为s属性下用户数值取对数后的平均值,为s属性下用户数值取对数后的标准差。
然后,分别得到不同属性的值后,采用欧式距离衡量在属性数值上的差距,以刻画用户间属性的相似程度;
计算公式为:
其中,s为当前选择的属性,n为属性的数量。
步骤504、对类别型数据的信息相似度,文本型数据的信息相似度,以及两个用户的连续型数据的信息相似度进行加权;
为用户属性相似度的加权值;为类别型数据的信息相似度的加权值;t∈T;
步骤505、用户i与用户j的加权值为属性信息相似度矩阵M4的元素。
步骤六、融合文本相似度矩阵M1,链接关系矩阵M2,关注相似度矩阵M3和基本信息的相似度矩阵M4,刻画矩阵中两个用户之间的相似性;
针对用户i与用户j不同类型的数据,在合并时采取加权的方式,可以方便根据数据集的不同调整权重,将得到的文本相似度矩阵M1,链接关系矩阵M2,关注相似度矩阵M3以及属性信息相似度矩阵M4加权得到混合矩阵M:
M=ω1*M12*M23*M34*M4
ω1为文本相似度矩阵M1的加权值;ω2为链接关系矩阵M2的加权值;ω3为关注相似度矩阵M3的加权值;ω4为基本信息的相似度矩阵M4的加权值,每个加权值根据用户需求的分配。
由于加入了属性、文本及链接相似度,混合后的矩阵M中非零值会增加,但在实际情况中,用户所能接触到的好友和信息有限,因此设定阈值m,对于每个用户,只考虑前m个相似度最大的用户作为相似用户。
步骤七、利用两个用户之间的相似性进行用户推荐或社区发现。

Claims (3)

1.一种基于异质数据的人物相似度刻画方法,其特征在于,包括如下步骤:
步骤一、从网络中收集关于某领域或者活跃度较高的微博数据流,进行预处理并存储在数据库中;
步骤二、从数据库中选取部分用户的文本信息作为样本,进行分词和筛选,训练Doc2vec模型;
分词是根据中文语言的特点,将选择的每条中文文本切割成一个一个的单词;
筛选是指对分词后的结果,分别去除无意义的停用词,单个词,以及高频词和低频词;
步骤三、利用数据库中剩余用户的文本信息为测试样本,输入训练后的Doc2vec模型,得到测试样本的每个文本信息的向量分布,进而计算文本相似度矩阵M1
文本相似度矩阵M1中的每个元素是两个用户之间的余弦相似度值;
用户i与用户j之间的余弦相似度Si,j值为:vi为用户i的文本向量;
步骤四、针对测试样本,抽取各用户的关注关系,计算用户间的杰卡德相似性,构成链接关系矩阵M2;同时根据用户之间的关注关系,构建关注相似度矩阵M3
链接关系矩阵M2中的每个元素是:采用杰卡德系数计算两个用户间的共同朋友数占总朋友数的比例值;其中,用户i与用户j之间的杰卡德相似性计算公式为:
<mrow> <msub> <mi>I</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>&amp;cap;</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>&amp;cup;</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> </mrow> <mo>|</mo> </mrow> </mfrac> </mrow>
其中,fi为用户i的朋友集合;
关注相似度矩阵M3中的元素根据两个用户原始的互相关注关系定义,若用户i与用户j相互关注,则元素Ri,j值为1,没有相互关注,元素Ri,j值为0;
<mrow> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> </mrow>
步骤五、针对测试样本,抽取各用户的基本信息,对不同类型数据采用不同处理方法,并加权得到基本信息的相似度矩阵M4
相似度矩阵M4中的每个元素计算如下:
首先,针对两个用户的基本信息,先分别计算类别型数据的信息相似度,文本型数据的信息相似度,以及连续型数据的信息相似度;然后,对三个相似度进行加权,所有的加权值构成基本信息的相似度矩阵M4
步骤六、融合文本相似度矩阵M1,链接关系矩阵M2,关注相似度矩阵M3和基本信息的相似度矩阵M4,刻画矩阵中两个用户之间的相似性;
针对用户i与用户j具体融合公式如下:
M=ω1*M12*M23*M34*M4
ω1为文本相似度矩阵M1的加权值;ω2为链接关系矩阵M2的加权值;ω3为关注相似度矩阵M3的加权值;ω4为基本信息的相似度矩阵M4的加权值,每个加权值根据用户需求的分配;
步骤七、利用两个用户之间的相似性进行用户推荐或社区发现。
2.如权利要求1所述的一种基于异质数据的人物相似度刻画方法,其特征在于,步骤一中,所述的预处理是指:提取出每条微博的用户ID和文本信息,将文本信息存储在数据库中,并根据用户ID爬取微博网页,得到用户的基本信息和关注关系,存储在数据库中。
3.如权利要求1所述的一种基于异质数据的人物相似度刻画方法,其特征在于,步骤五中,所述的步骤五中相似度矩阵M4的计算过程如下:
步骤501、针对用户i与用户j的基本信息中,计算类别型数据的信息相似度;
公式如下:
<mrow> <msub> <mi>a</mi> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>a</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mo>&amp;cap;</mo> <msub> <mi>a</mi> <msub> <mi>c</mi> <mi>j</mi> </msub> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>a</mi> <mi>c</mi> </msub> <mo>|</mo> </mrow> </mfrac> </mrow>
为用户i在类别信息中的取值,其中分母ac表示类别信息的总数,分子表示用户i的类别与用户j的类别相等的数量;
步骤502、计算用户i与用户j的基本信息中文本型数据的信息相似度;
具体为:首先进行分词和筛选,输入训练后的Doc2vec模型,得到每个文本信息的向量分布,从而计算文本信息相似度
步骤503、计算用户i与用户j的基本信息中两个连续型数据的信息相似度;
首先,分别对用户i与用户j取对数,对连续型数据进行归一化,计算公式如下:
<mrow> <msub> <mi>a</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <mfrac> <mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>Ave</mi> <msub> <mi>a</mi> <mi>s</mi> </msub> </msub> </mrow> <mrow> <msub> <mi>Var</mi> <msub> <mi>a</mi> <mi>s</mi> </msub> </msub> </mrow> </mfrac> </mrow>
其中,表示用户i在连续属性s中的取值,为s属性下用户数值取对数后的平均值,为s属性下用户数值取对数后的标准差;
然后,采用欧式距离衡量在属性数值上的差距,以刻画用户间属性的相似程度;
计算公式为:
<mrow> <msub> <mi>a</mi> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>=</mo> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>a</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>-</mo> <msub> <mi>a</mi> <msub> <mi>s</mi> <mi>j</mi> </msub> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>
其中,s为当前选择的属性,n为属性的数量;
步骤504、对类别型数据的信息相似度,文本型数据的信息相似度,以及两个用户的属性相似度进行加权;
<mrow> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>N</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>-</mo> <msub> <mi>a</mi> <msub> <mi>&amp;omega;</mi> <mn>1</mn> </msub> </msub> <mo>*</mo> <mi>N</mi> <mi>o</mi> <mi>r</mi> <mo>(</mo> <msub> <mi>a</mi> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>)</mo> <mo>-</mo> <msub> <mi>a</mi> <msub> <mi>&amp;omega;</mi> <mn>2</mn> </msub> </msub> <mo>*</mo> <mi>N</mi> <mi>o</mi> <mi>r</mi> <mo>(</mo> <msub> <mi>a</mi> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
<mrow> <mi>N</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>t</mi> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
为用户属性相似度的加权值;为类别型数据的信息相似度的加权值;t∈T;
步骤505、用户i与用户j的加权值为属性信息相似度矩阵M4的元素。
CN201710827978.9A 2017-09-14 2017-09-14 一种基于异质数据的人物相似度刻画方法 Active CN107577782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710827978.9A CN107577782B (zh) 2017-09-14 2017-09-14 一种基于异质数据的人物相似度刻画方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710827978.9A CN107577782B (zh) 2017-09-14 2017-09-14 一种基于异质数据的人物相似度刻画方法

Publications (2)

Publication Number Publication Date
CN107577782A true CN107577782A (zh) 2018-01-12
CN107577782B CN107577782B (zh) 2021-04-30

Family

ID=61035993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710827978.9A Active CN107577782B (zh) 2017-09-14 2017-09-14 一种基于异质数据的人物相似度刻画方法

Country Status (1)

Country Link
CN (1) CN107577782B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520042A (zh) * 2018-04-03 2018-09-11 公安部第三研究所 实现经侦工作中嫌疑人涉案角色标定和角色评估的系统及方法
CN108665311A (zh) * 2018-05-08 2018-10-16 湖南大学 一种基于深度神经网络的电商用户时变特征相似性计算推荐方法
CN109002488A (zh) * 2018-06-26 2018-12-14 北京邮电大学 一种基于元路径上下文的推荐模型训练方法及装置
CN109241430A (zh) * 2018-09-06 2019-01-18 国家计算机网络与信息安全管理中心 一种互联网多源异质数据融合的选举预测方法
CN110162580A (zh) * 2019-05-24 2019-08-23 合肥蓬桉数据技术服务有限公司 基于分布式预警平台的数据挖掘与深度分析方法及应用
CN110569920A (zh) * 2019-09-17 2019-12-13 国家电网有限公司 一种多任务机器学习的预测方法
CN117746078A (zh) * 2024-02-21 2024-03-22 杭州觅睿科技股份有限公司 一种基于用户自定义类别的物体检测方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907840A (en) * 1997-07-25 1999-05-25 Claritech Corporation Overlapping subdocuments in a vector space search process
CN101540739A (zh) * 2009-04-14 2009-09-23 腾讯科技(深圳)有限公司 用户推荐方法及用户推荐系统
CN102467542A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 获取用户相似度的方法、装置及用户推荐方法、系统
CN102999538A (zh) * 2011-09-08 2013-03-27 富士通株式会社 人物搜索方法和设备
US20140288999A1 (en) * 2013-03-12 2014-09-25 Correlor Technologies Ltd Social character recognition (scr) system
CN104268171A (zh) * 2014-09-11 2015-01-07 东北大学 基于活动相似和社交信任的社交网好友推荐系统及方法
CN104765873A (zh) * 2015-04-24 2015-07-08 百度在线网络技术(北京)有限公司 用户相似度确定方法和装置
CN105468598A (zh) * 2014-08-18 2016-04-06 大连民族学院 好友推荐方法及装置
CN105653518A (zh) * 2015-12-25 2016-06-08 北京理工大学 一种基于微博数据的特定群体发现及扩充方法
CN106202047A (zh) * 2016-07-15 2016-12-07 国家计算机网络与信息安全管理中心 一种基于微博文本的人物性格刻画方法
CN106484829A (zh) * 2016-09-29 2017-03-08 中国国防科技信息中心 一种微博排序模型的建立及微博多样性检索方法
CN107066554A (zh) * 2017-03-24 2017-08-18 国家计算机网络与信息安全管理中心 微博相关人物推荐方法
CN107122455A (zh) * 2017-04-26 2017-09-01 中国人民解放军国防科学技术大学 一种基于微博的网络用户增强表示方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907840A (en) * 1997-07-25 1999-05-25 Claritech Corporation Overlapping subdocuments in a vector space search process
CN101540739A (zh) * 2009-04-14 2009-09-23 腾讯科技(深圳)有限公司 用户推荐方法及用户推荐系统
CN102467542A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 获取用户相似度的方法、装置及用户推荐方法、系统
CN102999538A (zh) * 2011-09-08 2013-03-27 富士通株式会社 人物搜索方法和设备
US20140288999A1 (en) * 2013-03-12 2014-09-25 Correlor Technologies Ltd Social character recognition (scr) system
CN105468598A (zh) * 2014-08-18 2016-04-06 大连民族学院 好友推荐方法及装置
CN104268171A (zh) * 2014-09-11 2015-01-07 东北大学 基于活动相似和社交信任的社交网好友推荐系统及方法
CN104765873A (zh) * 2015-04-24 2015-07-08 百度在线网络技术(北京)有限公司 用户相似度确定方法和装置
CN105653518A (zh) * 2015-12-25 2016-06-08 北京理工大学 一种基于微博数据的特定群体发现及扩充方法
CN106202047A (zh) * 2016-07-15 2016-12-07 国家计算机网络与信息安全管理中心 一种基于微博文本的人物性格刻画方法
CN106484829A (zh) * 2016-09-29 2017-03-08 中国国防科技信息中心 一种微博排序模型的建立及微博多样性检索方法
CN107066554A (zh) * 2017-03-24 2017-08-18 国家计算机网络与信息安全管理中心 微博相关人物推荐方法
CN107122455A (zh) * 2017-04-26 2017-09-01 中国人民解放军国防科学技术大学 一种基于微博的网络用户增强表示方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU BING YU等: "Microblog community discovery algorithm based on dynamic topic model with multidimensional data fusion", 《JOURNAL OF SOFTWARE》 *
赵秋月: "基于信任的社会化推荐方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520042A (zh) * 2018-04-03 2018-09-11 公安部第三研究所 实现经侦工作中嫌疑人涉案角色标定和角色评估的系统及方法
CN108520042B (zh) * 2018-04-03 2022-02-08 公安部第三研究所 实现经侦工作中嫌疑人涉案角色标定和角色评估的系统及方法
CN108665311A (zh) * 2018-05-08 2018-10-16 湖南大学 一种基于深度神经网络的电商用户时变特征相似性计算推荐方法
CN108665311B (zh) * 2018-05-08 2022-02-25 湖南大学 一种基于深度神经网络的电商用户时变特征相似性计算推荐方法
CN109002488A (zh) * 2018-06-26 2018-12-14 北京邮电大学 一种基于元路径上下文的推荐模型训练方法及装置
CN109002488B (zh) * 2018-06-26 2020-10-02 北京邮电大学 一种基于元路径上下文的推荐模型训练方法及装置
CN109241430A (zh) * 2018-09-06 2019-01-18 国家计算机网络与信息安全管理中心 一种互联网多源异质数据融合的选举预测方法
CN110162580A (zh) * 2019-05-24 2019-08-23 合肥蓬桉数据技术服务有限公司 基于分布式预警平台的数据挖掘与深度分析方法及应用
CN110569920A (zh) * 2019-09-17 2019-12-13 国家电网有限公司 一种多任务机器学习的预测方法
CN110569920B (zh) * 2019-09-17 2022-05-10 国家电网有限公司 一种多任务机器学习的预测方法
CN117746078A (zh) * 2024-02-21 2024-03-22 杭州觅睿科技股份有限公司 一种基于用户自定义类别的物体检测方法及系统

Also Published As

Publication number Publication date
CN107577782B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN107577782A (zh) 一种基于异质数据的人物相似度刻画方法
CN106250412B (zh) 基于多源实体融合的知识图谱构建方法
CN105005594B (zh) 异常微博用户识别方法
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN103365867B (zh) 一种对用户评价进行情感分析的方法和装置
CN103970873B (zh) 一种音乐推荐方法和系统
CN104598588B (zh) 基于双聚类的微博用户标签自动生成算法
CN104182517B (zh) 数据处理的方法及装置
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN109753602B (zh) 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN103425763B (zh) 基于sns的用户推荐方法及装置
CN106940732A (zh) 一种面向微博的疑似水军发现方法
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN106055661B (zh) 基于多Markov链模型的多兴趣资源推荐方法
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN110569920B (zh) 一种多任务机器学习的预测方法
CN104133817A (zh) 网络社区交互方法、装置及网络社区平台
CN103970866B (zh) 基于微博文本的微博用户兴趣发现方法及系统
CN103235824A (zh) 根据浏览网页确定用户感兴趣的网页文本的方法和系统
CN107562947A (zh) 一种移动时空感知下动态即时推荐服务模型建立方法
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN106960044A (zh) 一种基于张量分解及加权hits的时间感知个性化poi推荐方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant