CN107369098A - 社交网络中数据的处理方法和装置 - Google Patents
社交网络中数据的处理方法和装置 Download PDFInfo
- Publication number
- CN107369098A CN107369098A CN201610311864.4A CN201610311864A CN107369098A CN 107369098 A CN107369098 A CN 107369098A CN 201610311864 A CN201610311864 A CN 201610311864A CN 107369098 A CN107369098 A CN 107369098A
- Authority
- CN
- China
- Prior art keywords
- network node
- topic
- knowledge
- updated
- concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000012545 processing Methods 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 209
- 238000005070 sampling Methods 0.000 claims description 53
- 238000009826 distribution Methods 0.000 claims description 49
- 238000005295 random walk Methods 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 238000013507 mapping Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000003672 processing method Methods 0.000 description 10
- 238000011160 research Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 5
- 244000089409 Erythrina poeppigiana Species 0.000 description 4
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 235000011430 Malus pumila Nutrition 0.000 description 1
- 235000015103 Malus silvestris Nutrition 0.000 description 1
- 240000008790 Musa x paradisiaca Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了社交网络中数据处理的方法和装置,该方法包括:确定D个弱监督信息,所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点di和与所述网络节点di相关的Mi个知识概念,所述弱监督信息表示网络节点和知识概念的交互信息;根据所述D个弱监督信息,生成异构贝叶斯模型,所述异构贝叶斯模型表示社交网络和知识图谱之间的连接模型;根据所述异构贝叶斯模型,确定第一网络节点与第一知识概念之间的有效联系。本发明实施例可以方便地区分与社交网络中每个网络节点相关的核心知识概念和边缘知识概念。
Description
技术领域
本发明涉及计算机领域,更具体的,涉及计算机领域中社交网络中数据处理的方法和装置。
背景技术
社交网络可以是拥有巨大用户群体的在线社交平台,比如脸书(Facebook),推特(Twitter),新浪微博和微信等,也可以是不以在线平台为依托的社交网络,比如学术社交网络和线下人际关系网络。
社交网络数据挖掘的一个重要研究课题就是如何理解海量用户的行为,挖掘海量用户的兴趣和关注点。比如,在在线社交网络中,我们希望挖掘每个用户的兴趣和关注点,从而更精准地投放广告和进行个性化用户推荐。就学术社交网络而言,每一位研究者都是这个学术社交网络中的一个节点,他们之间存在的学术合作关系组成了一张庞大的学术社交网络,我们希望挖掘每个研究者的研究兴趣,从而能够更有效地帮助科研人员找到某一个研究方向的其他研究人员,进行学术合作推荐,增强以知识为基础的学术搜索功能。
此外,群体智能的兴起诞生了一些大规模知识图谱,这些知识图谱上有丰富的语料,大规模的知识概念,以及知识概念之间的关系。对于大规模知识图谱的应用将有助于人们对海量的互联网数据进行语义理解。
但是目前大规模社交网络和大规模知识图谱之间普遍缺乏联系,不能方便地通过社交网络使用知识图谱。
发明内容
本发明实施例提供了社交网络中数据处理的方法和装置,能够在社交网络和知识图谱之间建立有效的联系。
第一方面,本发明实施例提供了一种社交网络中数据处理的方法,该方法包括:
确定D个弱监督信息,所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点di和与所述网络节点di相关的Mi个知识概念,其中,所述网络节点di表示为嵌入式向量,所述Mi个知识概念分别表示为嵌入式向量,D和Mi分别为大于1的正整数,i为取值范围为1至D的正整数;
根据所述D个弱监督信息,生成异构贝叶斯模型,所述异构贝叶斯模型包括T个话题和D个文档,所述T个话题中的第j个话题包括参数μj r、λj r、μjm k、λjm k,所述D个文档中的第i个文档包括所述网络节点di和所述Mi个知识概念,所述第i个文档还包括与所述Mi个知识概念一一对应的Mi个第一话题隐变量、与所述网络节点di一一对应的第二话题隐变量和参数θ,所述网络节点di对应的第二话题隐变量可以为一个。
其中,μj r表示所述第j个话题对应的所述网络节点di的高斯分布的均值,λj r表示所述第j个话题对应的所述网络节点di的高斯分布的精度,μjm k表示所述第j个话题对应的所述Mi个知识概念中的第m个知识概念的高斯分布的均值,λjm k表示所述第j个话题对应的所述Mi个知识概念中的m个知识概念的高斯分布的精度,θ表示所述网络节点di的话题多项分布,T为大于1的正整数,j为取值范围为1至T的正整数,m为取值范围为1至Mi的正整数;
根据所述异构贝叶斯模型,确定第一网络节点与第一知识概念连接之间的有效联系,其中,所述第一网络节点为所述D个弱监督信息中的所有网络节点之中的一个,所述第一知识概念为所述D个弱监督信息中的所有知识概念之中的一个。
本发明实施例的社交网络中数据处理的方法,通过确定一系列弱监督信息,该弱监督信息表示网络节点和知识概念的交互信息,并根据该弱监督信息,生成异构贝叶斯模型,该异构贝叶斯模型表示社交网络和知识图谱之间的连接模型,然后根据该异构贝叶斯模型,能够确定给定的网络节点和给定的知识概念之间的有效联系。
可选的,本发明实施例中,第一网络节点与第一知识概念成为邻居的概率可以通过下式计算:
其中,表示该第一网络节点的嵌入式向量,表示该第一知识概念的嵌入式向量。
本发明实施例中,给定的网络节点a和给定的知识概念1的成为邻居的概率即为该网络节点a和知识概念1的条件概率。当该条件概率的值比较大时,表示该知识概念1为该网络节点a的核心知识概念。反之,当该条件概率的值比较小时,表示该知识概念为该网络节点a的边缘知识概念。因此,本发明实施例可以方便地区分与社交网络中每个网络节点相关的核心知识概念和边缘知识概念。
可选的,本发明实施例中,所述根据所述D个弱监督信息,生成所述异构贝叶斯模型,包括:
随机确定所述Mi个第一话题隐变量的初始值和所述第二话题隐变量的初始值,这里,第二话题隐变量的数量与网络节点的数量相同。
根据所述第二话题隐变量的初始值、所述第i个弱监督信息和所述网络节点di的话题的条件概率,对所述第二话题隐变量进行tb次抽样更新,其中,所述网络节点di的话题的条件概率表示所述网络节点di的第二话题隐变量在给定除所述网络节点di的第二话题隐变量之外的其他话题隐变量、所述第二话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点di的嵌入式向量的情况下的条件概率。
对于文档d,在给定文档-d的第二话题隐变量y-d和第一话题隐变量z、网络节点的嵌入式表示和知识概念的嵌入式表示的情况下,网络节点的话题yd=t的条件概率可以写成:
其中,文档-d表示除文档d之外的其他文档,y-d表示文档-d的第二话题隐变量,表示文档d中话题为t的知识概念的数目。函数G'(·)定义为:
其中,n是所有y=t对应的f的数目。假设x是所有y=t的对应的嵌入式向量f的第e维组成的向量。n'=n-nd,nd是文档中y=t对应的f的数目。
根据所述Mi个第一话题隐变量的初始值、所述第i个弱监督信息和所述Mi个知识概念的话题的条件概率,对所述Mi个第一话题隐变量进行tb次抽样更新,其中,所述Mi个知识概念的话题的条件概率中的每个知识概念的话题的条件概率表示所述每个知识概念的第一话题隐变量在给定除所述每个知识概念的第一话题隐变量之外的其他话题隐变量、所述Mi个第一话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点di的嵌入式向量的情况下的条件概率。
本发明实施例中,在给定话题隐变量z-dm、y、网络节点的嵌入式表示和知识概念的嵌入式表示的情况下,文档d中的知识概念m的话题zdm=t的条件概率可以写成:
其中,z-dm表示除了文档d中的知识概念m之外的第一话题隐变量。
在对所述Mi个第一话题隐变量和所述第二话题隐变量分别进行tb次抽样更新之后,分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj r、λj r、μjm k、λjm k进行抽样更新,以生成所述异构贝叶斯模型。
可选的,本发明实施例中,所述在对所述Mi个第一话题隐变量和所述第二话题隐变量分别进行tb次抽样更新之后,分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj r、λj r、μjm k、λjm k进行更新,包括:
根据所述更新后的Mi个第一话题隐变量、所述第i个弱监督信息和所述所述Mi个知识概念的话题的条件概率,对所述更新后的Mi个第一话题隐变量进行tp次抽样更新;
根据所述更新后的第二话题隐变量、所述第i个弱监督信息和所述网络节点di的话题的条件概率,对所述更新后的第二话题隐变量进行tp次抽样更新。
这里,所述网络节点di的话题的条件概率和所述Mi个知识概念的话题的条件概率分别为上述公式(1)和公式(2)。
在对所述更新后的Mi个第一话题隐变量和所述更新后的第二话题隐变量分别进行tp次抽样更新之后,分别对θ、μj r、λj r、μjm k、λjm k进行更新。
本发明实施例中,对于文档d,话题分布参数θd更新如下:
对于话题t,假设n是所有z=t的知识概念的数目,x是所有z=t的知识概念对应的嵌入表示组成的向量,则对于嵌入表示的每一维,参数和更新如下:
对于话题t,假设n是所有y=t的网络节点的数目,x是所有的网络节点y=t对应的嵌入式向量组成的向量,则对于嵌入式向量的每一维,参数和更新如下:
可选的,本发明实施例中,所述分别对θ、μj r、λj r、μjm k、λjm k进行更新包括:分别对所述参数θ、μj r、λj r、μjm k、λjm k进行N次抽样更新,其中,所述N次更新中的每次更新均执行对所述更新后的Mi个第一话题隐变量进行tp次抽样更新,对所述更新后的Mi个第一话题隐变量进行tp次抽样更新和分别对θ、μj r、λj r、μjm k、λjm k进行更新,得到N次更新后的θ、μj r、λj r、μjm k、λjm k;
对所述N次更新后的θ累加求平均值,将θ累加求得的平均值作为更新后的所述异构贝叶斯模型的θ参数;
对所述N次更新后的μj r累加求平均值,将μj r累加求得的平均值作为更新后的所述异构贝叶斯模型的μj r参数;
对所述N次更新后的λj r累加求平均值,将λj r累加求得的平均值作为更新后的所述异构贝叶斯模型的λj r参数;
对所述N次更新后的μjm k累加求平均值,将μjm k累加求得的平均值作为更新后的所述异构贝叶斯模型的μjm k参数;
对所述N次更新后的λjm k累加求平均值,将λjm k累加求得的平均值作为更新后的所述异构贝叶斯模型的λjm k参数。
可选的,本发明实施例中,所述分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj r、λj r、μjm k、λjm k进行更新之后,还包括:
根据所述网络节点di的嵌入式向量和所述Mi个知识概念的嵌入式向量,确定在给定所述Mi个第一隐变量和所述第二隐变量的情况下的初始对数似然。
给定第一话题隐变量和第二话题隐变量情况下的嵌入表示的对数似然的计算公式,如下:
其中表示所有文档中话题为t的知识概念数目。
这里,将没有更新的网络节点di的嵌入式向量和没有更新的Mi个知识概念的嵌入式向量的对数似然称为初始对数似然。
根据所述初始对数似然,确定所述网络节点di更新后的嵌入式向量;
根据所述初始对数似然,分别确定所述Mi个知识概念更新后的嵌入式向量。
可选的,本发明实施例中,所述根据所述初始对数似然,确定所述网络节点di更新后的嵌入式向量,包括:
根据所述初始对数似然确定所述网络节点di的嵌入式向量的梯度;
具体的,网络节点的嵌入表示的梯度为:
根据所述网络节点di的嵌入式向量的梯度、网络节点学习率和所述网络节点di的嵌入式向量,确定所述网络节点di更新后的嵌入式向量,其中,所述网络节点学习率表示所述所述网络节点di的嵌入式向量的梯度下降的学习率。
可选的,本发明实施例中,所述根据所述初始对数似然,分别确定所述Mi个知识概念更新后的嵌入式向量,包括:
根据所述初始对数似然确定所述Mi个知识概念的嵌入式向量的梯度;
具体的,知识概念的嵌入表示的梯度为:
根据所述Mi个知识概念的知识概念的嵌入表示的梯度、Mi个知识概念的知识概念学习率和所述Mi个知识概念的嵌入式向量,分别确定所述更新后的所述Mi个知识概念的嵌入式向量,其中,所述Mi个知识概念中的每个知识概念的知识概念学习率表示所述每个知识概念的嵌入式向量的梯度下降的学习率。
可选的,本发明实施例中,所述方法还包括:
根据所述网络节点di的更新后的嵌入式向量和所述Mi个知识概念的更新后的嵌入式向量,确定在给定所述Mi个第一隐变量和所述第二隐变量的情况下的的更新对数似然。
这里,将网络节点di的更新之后的嵌入式向量和Mi个知识概念的更新之后的嵌入式向量的对数似然称为更新对数似然。
若所述更新对数似然大于或等于所述初始对数似然,则将所述网络节点di的嵌入式向量替换为所述网络节点di的更新后的嵌入式向量,将所述Mi个知识概念的嵌入式向量替换为所述Mi个知识概念的更新后的嵌入式向量;
若所述更新对数似然小于所述初始对数似然,则将所述网络节点学习率更新为所述网络节点学习率与第一衰减指数的乘积,将所述Mi个知识概念的知识概念学习率分别更新为所述Mi个知识概念的知识概念学习率与第二衰减指数的乘积,并且保留所述网络节点di的嵌入式向量不变,保留所述Mi个知识概念的嵌入式向量不变,其中,所述第一衰减指数表示所述网络节点学习率的衰减程度,所述第二衰减指数表示所述Mi个知识概念学习率中的每个知识概念学习率的衰减程度。
这里,第一衰减指数与第二衰减指数可以相同,也可以不同,本发明对此不作限定。
可选的,本发明实施例中,所述确定D个弱监督信息,包括:
确定D个初始弱监督信息,所述D个初始弱监督信息中的第i个初始弱监督息包括所述网络节点di和与所述网络节点di相关的所有知识概念;
根据所述所有知识概念中每个知识概念的分值和无监督生成率r,确定所述Mi个知识概念,其中,所述Mi个知识概念中的每一个知识概念的分值大于所述所有知识概念中除所述Mi个知识概念之外的每一个知识概念的分值,所述每个知识概念的分值表示所述每个知识概念处于所述所有知识概念的中心位置的程度,所述无监督生成率r为确定的知识概念的数量Mi与所述所有知识概念的数量的预设比值,r的取值范围为0至1。
可选的,本发明实施例中,知识概念的分值可以表示为:
其中,cos(·)表示余弦相似度,表示知识概念,表示另一知识概念,n是出现在所有知识概念Dd中的次数。
可选的,本发明实施例中,在所述确定D个弱监督信息之前,所述方法还包括:
根据知识概念集合、语料的长度和所述语料的最大的N-gram长度,对所述语料进行转换,所述知识概念集合包括所述D个弱监督信息中的所有知识概念;
将转换后的所述语料输入至第一skipgram模型,获取所述知识概念集合中每个知识概念的嵌入式向量。
可选的,本发明实施例中,在所述确定D个弱监督信息之前,所述方法还包括:
确定所述社交网络中的每个网络节点的加权概率,其中,所述每个网络节点的加权概率表示所述每个网络节点访问下一个网络节点的概率,所述社交网络中所有网络节点包括所述D个弱监督信息中的所有网络节点;
具体的,网络节点的加权概率可以表示为:
根据所述每个网络节点的加权概率,确定所述每个网络节点的至少一个随机游走序列;
将所述每个网络节点的至少一个随机游走序列输入至第二skipgram模型,获取所述每个网络节点的嵌入式向量。
本发明实施例中,该第一skipgram模型和该第二skipgram模型可以相同,也可以不同,本发明对此不作限定。
第二方面,本发明实施例提供了一种社交网络中数据处理的装置,用于执行上述第一方面或第一方面的任意可能的实现方式中的方法,具体的,该装置包括用于执行上述第一方面或第一方面任意可能的实现方式中的方法的模块。
第三方面,本发明实施例提供了一种社交网络中数据处理的装置,该装置包括:存储器、处理器、收发器和总线系统。其中,该存储器和该处理器通过该总线系统相连,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,该执行使得该处理器执行第一方面或第一方面的任意可能的实现方式中的方法。
第四方面,本发明实施例提供了一种计算机可读介质,用于存储计算机程序,该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的社交网络中数据处理的方法的应用场景图。
图2是本发明一个实施例的社交网络中数据处理的方法的示意性流程图。
图3是本发明一个实施例的社交网络中数据处理的方法中生成的异构贝叶斯模型的示意性框图。
图4是本发明一个实施例的社交网络中数据处理的装置的示意性框图。
图5是本发明另一个实施例的社交网络中数据处理的装置的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
图1示出了本发明实施例的社交网络中数据处理的方法的应用场景的示意性框图。可以理解,大规模的社交网络中可以具有很多个网络节点,大规模的语料中可以具有很多个知识概念或词条,图1仅仅示意性的示出了社交网络中的部分网络节点和语料中的部分知识概念或词条。
具体的,图1中的社交网络可以包括多个网络节点,该网络节点例如可以为图中的a、b、c、d或e。例如,在学术社会网络系统Aminer中,网络节点a、b、c、d和e可以分别为不同的专家学者、学术机构或者科研团队。在其他社交网络如新浪微博中,网络节点a、b、c、d和e可以分别为不同的博主。
对社交网络的理解,需要对社交网络的网络结构进行刻画。例如,可以根据Deepwalk将分布式向量嵌入的方法应用到社交网络上,为每一个社交网络的网络节点学习得到一个嵌入式向量,即可以完成对社交网络的网络结构进行刻画。本发明实施例中,可以称嵌入式向量为嵌入向量表示。
图1中语料可以为维基百科(Wikipedia)中的所有知识概念或者百度百科内的所有词条,例如,语料中的1、2、3、4、5、6、7或8分别为维基百科中的不同的知识概念,或者语料中的1、2、3、4、5、6、7或8分别为百度百科内的不同的词条,这些知识概念(或词条)例如可以为大数据、智能家居、机器学习、清华大学、光通信、长期演进(Long Term Evolution,LTE)等。
目前主要通过话题模型或嵌入模型对语料中的知识概念(或词条)的文本语义进行建模和分析。
话题模型例如可以为概率潜在语义分析模型(probabilistic Latent SemanticIndexing,pLSI)和潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)。
LDA是一种贝叶斯生成模型,通过对每一个文档生成一个话题分布和对每一个话题生成一个词分布来最终生成每一个文档里的每一个词。话题模型的优点是能够通过话题隐变量对不同词的语义进行刻画,并用文档和词的分布进行约束。但是,话题模型只能输出离散的词,不能输出连续的语义表示。
例如,当话题为体育时,该话题对应的词可以为篮球、姚明、世界杯和奥运会等等;当话题为水果时,该话题对应的词可以为苹果、梨和香蕉等等。因为一个文档中可以包括多个话题,一个话题还可以包括多个词,话题模型可以对每个文档生成多个话题分布,对每个话题生成多个词分布,最终生成每个文档中的每个词。
嵌入模型是一种分布式向量嵌入表示的学习方法,例如Word2Vec学习方法。Word2Vec学习方法通过优化给定语境中一个词出现的似然来学习每一个词的连续向量嵌入表示。每一个词在特征空间中的位置表征了这个词的语义。分布式向量嵌入学习的优点是能够对每一个词得到一个在连续特征空间上的表示,并且优化目标可以刻画二阶共现关系。但是,嵌入模型难以理解每个词对应的隐含话题。
图1中社交网络中的网络节点与语料中的知识概念(或词条)连接的直线表示该网络节点与该知识概念(或词条)的有效联系,px表示该网络节点与该知识概念(或词条)的条件概率。也就是说,本发明实施例中,该有效联系可以为该网络节点与该知识概念(或词条)的条件概率。大规模的社交网络中的网络节点与语料中的知识概念(或词条)之间的条件概率也可以称为该网络节点与该知识概念(或词条)之间的链接概率,或者成为该网络节点与该知识概念成为邻居的概率。
如图1所示,一个网络节点可以与多个知识概念之间具有有效联系。例如,网络节点b分别与知识概念(或词条)2、知识概念(或词条)4和知识概念(或词条)5具有有效联系。同时,一个知识概念(或词条)也可以同时和多个网络节点之间具有有效联系。例如,知识概念(或词条)6分别与网络节点e和网络节点d具有有效联系。因此,大规模的社交网络和大规模的知识图谱之间可以具有复杂的联系。
但是,社交网络的结构信息和语料中的文本语义信息为两种异构的信息,现有技术中只能够针对其中的一种信息做处理,并没有将两种信息关联起来的处理方法。因此,现有技术中的大规模的社交网络和大规模的知识图谱之间缺乏普遍的联系,并不能方便的通过社交网络使用知识图谱,即现有技术不能够在社交网络和知识图谱之间建立上述有效的联系。
本发明实施例提供的一种社交网络中数据处理的方法,能够在社交网络和知识图谱之间建立有效的联系,进而可以有效地区分与社交网络中每个网络节点相关的核心知识概念和边缘知识概念。
可选的,本发明实施例可以在语料中无监督地学习每个知识概念的嵌入向量表示,嵌入向量表示能够对知识概念的文本语义进行刻画。
本发明实施例的确定每个知识概念的嵌入向量表示的方法可以应用于学术社会网络系统AMiner中,这时语料C即为Wikipedia中的所有知识概念。此外,本发明实施例的确定每个知识概念的嵌入向量表示的方法也可以应用于其他社交网络如在新浪微博中,这时可将百度百科内的所有词条作为语料C。
这里,在语料中无监督地学习每个知识概念的嵌入向量表示时,可以根据知识概念集合、语料的长度和语料中的最大N-gram长度,对语料进行转换,所述知识概念集合包括所述D个弱监督信息中的所有知识概念。
具体的,对于给定语料C和知识概念集合Vk,需要根据该知识概念集合Vk对语料进行转换。在对语料进行转换时,需要确定语料的长度L和最大的N-gram长度。
首先需要确定N-gram的长度。具体的,N表示词的长度,gram表示按长度N切分原词得到的词段。N取最小值规则,如果原词的长度大于5,则N最小值为3,如果原词的长度等于5,则最小值为2,否则最小值为1。
然后按照对N从最大取值到2,分别对语料进行线性扫描,即当N取最大值时,将语料中的所有N-gram和知识概念集合Vk进行匹配,如果该N-gram在知识概念集合Vk中存在,则将语料中的N-gram替换为一个单词。然后N减小1,继续将语料中的所有N-gram和知识概念集合Vk进行匹配,如果该N-gram在知识概念集合Vk中存在,则将语料中的N-gram替换为一个单词。本发明实施例中,N-gram的枚举从最大的N开始,直至N的取值为2。因此,如果一个知识概念是另一个知识概念的字串,则只考虑长度最长的字符串。
本发明实施例中,在对语料进行转换之后,将转换之后的语料输入至skipgram模型,可以获取该知识概念集合中的每个知识概念的嵌入向量表示。
具体的,skipgram模型的目标函数是给定当前考察的单词,计算所有与当前词在上下文中距离小于阈值的条件概率。
在计算条件概率的归一化项时,本发明实施例采用了用hierarchical softmax来加速训练的速度,即根据词频生成采用哈夫曼(Huffmann)贪心算法生成一棵哈夫曼树,在哈夫曼树生成之后,条件概率表示为:
其中,w是要预测的词,wI是作为上下文的词,L(w)表示从哈夫曼树的根节点到w这个词的路径长度,n(w,j)表示从哈夫曼树的根节点到w这个词的路径上的第j个节点。ch(w)表示哈夫曼树中w节点的一个孩子,由于哈夫曼树是一棵二叉树,所以每个节点有0或2个孩子,ch(w)为非叶子节点的两个孩子中事先任意指定的某一个。是一个指标函数,如果变量为真那么返回1,否则返回-1。σ(·)是softmax函数。
当n(w,j+1)=ch(n(w,j))时,指标函数的值为1,上述条件概率可以表示为:
而当n(w,j+1)≠ch(n(w,j))时,指标函数的值为-1,上述条件概率可以表示为:
根据softmax函数的性质,上述两个概率加起来为1。所以hierarchical softmax即是将所有节点组织成一棵二叉树,在每一个非叶子节点存在一个分叉,该概率分成两半,最后到某一个节点的概率就等于路径所有分配的概率的乘积。容易看出,根据这个性质,无需再对概率进行归一化,因为所有叶子节点的概率加起来等于1。
这样,本发明实施例可以通过大量无标注数据得到知识概念的语义,从而可以帮助区分知识概念的不同话题,区分社交网络用户对应的主要知识概念和次要知识概念。
本发明实施例中,上述确定知识概念的嵌入向量表示的方法的时间复杂度从原来的线性级别降低为对数级别,可以适用于大规模语料。可选的,本发明实施例中,可以从大规模社交网络中无监督的学习每个网络节点的嵌入向量表示,该嵌入向量表示能够对社交网络的结构信息进行刻画。
本发明实施例中确定每个网络节点的嵌入向量表示的方法可以应用于学术社会网络系统AMiner中,这时网络节点即为每一位专家学者。本发明实施例中确定每个网络节点的嵌入向量表示的方法还可以应用于在其他社交网络如新浪微博中,这时网络节点是每一个博主。
本发明实施例中,从大规模社交网络中无监督的学习每个网络节点的嵌入向量表示,首先可以确定所述社交网络中的每个网络节点的加权概率,其中,所述每个网络节点的加权概率表示所述每个网络节点访问下一个网络节点的概率,所述社交网络中所有网络节点包括所述D个弱监督信息中的所有网络节点。
具体的,本发明实施例中,可以采用DeepWalk算法学习社交网络中每个节点的嵌入向量表示。DeepWalk算法是从每一个节点开始产生一定数量的随机游走,然后将随机游走得到的节点序列作为语料训练Skipgram模型。
DeepWalk算法是针对无权无向图提出来的,但是在发明实施例中,社交网络上的边应该是有权无向的。因此,DeepWalk算法并不能直接应用。
本发明实施例中在每次进行随机游走时,都使用一个加权概率来选择下一个访问的节点。形式化地,假定当前节点是v,那么我们在选择随机游走的下一个节点u时,采用如下的概率进行抽样:
其中,等号右边第一项表示该节点u必须是v的邻居,nu,v表示u和v边上的整数权值。
在确定所述社交网络中的每个网络节点的加权概率之后,根据所述每个网络节点的加权概率,确定所述每个网络节点的至少一个随机游走序列,将所述每个网络节点的至少一个随机游走序列输入至skipgram模型,能够获取所述每个网络节点的嵌入向量表示。
具体的,本发明实施例根据上述的概率进行抽样,可以生成带权无向图的随机游走序列。将该带权无向图的随机游走序列输入到skipgram模型,可以学习得到社交网络上每个节点的嵌入表示。在社交网络中无监督学习网络节点的嵌入表示能够有效地解决数据的稀疏性问题,并充分利用网络结构来帮助生成社交知识图谱。通过将每一个网络节点映射到一个连续的特征空间,我们可以从语义上有效的刻画每一个节点。
本发明实施例中,确定知识概念的嵌入向量表示的skipgram模型与确定网络节点的嵌入向量表示的skipgram模型可以相同,也可以不同,本发明实施例对此不作限定。
图2示出了本发明实施例的一种社交网络中数据处理的方法100的示意性流程图。该方法100包括:
S110,确定D个弱监督信息。
所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点di和与所述网络节点di相关的Mi个知识概念,其中,所述网络节点di表示为嵌入向量表示,所述Mi个知识概念分别表示为嵌入向量表示,D和Mi分别为大于1的正整数,i为取值范围为1至D的正整数。
本发明实施例中,需要生成的异构贝叶斯模型的输入是一系列弱监督信息,例如上述D个弱监督信息。该D个弱监督信息中的D个网络节点为实验可获得的大规模社交网络中的部分网络节点。因为弱监督信息包括一系列的网络节点和与每个网络节点交互过的所有知识概念,因此弱监督信息能够表示网络节点与文本的交互信息。这样,本发明实施例能够根据给定的弱监督信息进行异构贝叶斯模型的建立。
本发明实施例的确定弱监督信息的方法可以应用于学术社会网络系统AMiner中,这时弱监督信息即为一个研究者的所有论文中包含的知识概念,即其发表过每篇论文的题目和摘要。本发明实施例的确定弱监督信息的方法还可以应用在其他社交网络如新浪微博中,此时弱监督信息即为每个博主发表过的所有微博。
可选的,本发明实施例中,为了避免由于使用全部弱监督信息而引入噪声,本算法提出了对弱监督信息的无监督生成方法,即本发明实施例能够过滤掉全部弱监督信息中的部分数据,用过滤之后的数据来训练得到表现更好的模型。下面为本发明实施例的过滤数据的方法。
首先,本发明实施例需要确定D个初始弱监督信息,所述D个初始弱监督信息中的第i个初始弱监督息包括所述网络节点di和与所述网络节点di相关的所有知识概念。
然后,根据所述所有知识概念中每个知识概念的分值和无监督生成率r,确定所述Mi个知识概念,其中,所述Mi个知识概念中的每一个知识概念的分值大于所述所有知识概念中除所述Mi个知识概念之外的每一个知识概念的分值,所述每个知识概念的分值表示所述每个知识概念处于所述所有知识概念的中心位置的程度,所述无监督生成率r为确定的知识概念的数量Mi与所述所有知识概念的数量的预设比值,r的取值范围为0至1。
具体的,对于一个网络节点d的所有知识概念Dd,根据下面公式计算某一知识概念同其他所有知识概念的余弦相似度的加权和。
其中,cos(·)表示余弦相似度,表示知识概念,表示另一知识概念,n是出现在所有知识概念Dd中的次数。
本发明实施例中,将上述加权和作sw作为该知识概念的分值。知识概念分值越高,说明该知识概念处于Dd中知识概念中的越靠中心的位置。上述计算过程中,把知识概念出现在Dd中的次数作为权重,使得出现次数越多,对其分值的贡献越大。在计算完分值之后,筛选分值最大的|Dd|×r个知识概念作为D′d。
S120,根据所述D个弱监督信息,生成异构贝叶斯模型。
所述异构贝叶斯模型包括T个话题和D个文档,所述T个话题中的第j个话题包括参数μj r、λj r、μjm k、λjm k,所述D个文档中的第i个文档包括所述网络节点di和所述Mi个知识概念,所述第i个文档还包括与所述Mi个知识概念一一对应的Mi个第一话题隐变量、与所述网络节点di对应的第二话题隐变量和参数θ。这里,上标r表示研究者(researcher),即多种网络节点类型中的其中一种,上标k表示关键字(keyword),即多种知识概念类型中的其中一种。
其中,上述μj r表示所述第j个话题对应的所述网络节点di的高斯分布的均值,λj r表示所述第j个话题对应的所述网络节点di的高斯分布的精度,μjm k表示所述第j个话题对应的所述Mi个知识概念中的第m个知识概念的高斯分布的均值,λjm k表示所述第j个话题对应的所述Mi个知识概念中的m个知识概念的高斯分布的精度,θ表示所述网络节点di的话题多项分布,T为大于1的正整数,j为取值范围为1至T的正整数,m为取值范围为1至Mi的正整数。
本发明实施例中的该异构贝叶斯模型能够在异构的嵌入表示之间通过类似LDA的话题隐变量建立联系。按照话题模型的传统,本发明实施例中,可以将一个弱监督信息条目称为一个文档,因此该异构贝叶斯模型中,每个文档可以包含社交网络节点以及与该社交网络节点交互过的所有知识概念。
可理解,本发明实施例的社交网络中数据处理的方法具有普适性。根据输入的社交网络及语料库不同,可以生成不同的知识图谱。
比如输入是学术社交网络中的学者,对应语料库是学者研究兴趣相关的一些知识概念,交互信息是学者发表的论文,那么就可以生成学者的研究兴趣的知识图谱。如果输入是微博社交网络中影视娱乐方面的博主,语料库是影视娱乐相关的知识概念,交互信息是博主发表的帖子,那么生成的知识图谱就是微博博主最关注的影视娱乐相关的热点。
下文中,将第一话题隐变量称为话题隐变量z,将第二话题隐变量称为y。
图2是本发明实施例的异构贝叶斯模型的图的表示。这里,α是狄利克雷分布的超参数,fr是社交网络节点的嵌入表示,fk是知识概念的嵌入表示,τk是知识概念嵌入表示的normal Gamma先验的超参数,τr是社交网络节点嵌入表示的normal Gamma先验的超参数。
根据上述的异构贝叶斯模型,对于T个话题中的每一个话题t,对于知识概念的嵌入向量表示的每一个维度,从分布NG(τk)生成μk和λk,对于网络节点嵌入表示的每一维度,从分布NG(τr)生成μr和λr。本发明实施例中,嵌入向量表示的维度大概为200。这里,为了简便,省略了μk、λk、μr和λr的下标。
本发明实施例中,对于D个文档中的每个文档d,从Dir(α)分布生成话题多项分布θd。对于文档d中的每一个知识概念w,可以从多项分布θd生成知识概念的话题z,对于每一个知识概念w的每一个维度,从高斯分布N(μk z,λk z)生成嵌入向量表示fk。本发明实施例中,还可以从文档d中的所有知识概念的话题z中uniform生成网络节点的话题y,对于网络节点的嵌入向量表示的每一个维度,从高斯分布N(μr y,λr y)生成嵌入向量表示fk。
本发明实施例中的异构贝叶斯模型的联合概率分布可以写成如下形式:
p(θ,μr,λr,μk,λk,z,y,fr,fk;α,τr,τk)=p(θ;θ)p(μr,λr;τr)p(μk,λk;τk)
p(z|θ)p(fk|y,μk,λk)p(fr|y,μr,λr)p(y|z)
下面对上述等式右边的每一项进行单独展开。
θ的分布服从狄利克雷分布,超参数是α,其概率可以表示为:
其中,下面d表示文档,下标t表示话题。
高斯分布的参数μ和λ由normal Gamma分布生成,超参数是τr和τk。因此高斯分布参数的概率可以写成如下形式:
其中,下标t表示话题,e表示嵌入向量表示的某一个维度,normal Gamma的超参数τ被展开成四个标量参数{μ0,λ0,α0,β0}。注意,作为normal Gamma分布超参数的μ0,λ0,α0与模型中的高斯参数μk,λk,μr,λr以及狄利克雷超参数α含义不同。
从多项分布生成话题的概率如下:
其中,下标d表示文档,下标m表示知识概念。
从知识概念的话题生成网络节点的话题的概率是一个uniform分布,由于一个知识概念话题可能出现多次,所以该话题被生成的概率正比于出现的次数:
其中,下标d表示文档,下标m表示知识概念。
本发明实施例中,如果采用上述式子作为生成网络节点话题的概率,网络节点的话题必须在知识概念的话题中出现过,因为没有出现过的话题的概率是零。为了使得概率分布更加平滑,采用了拉普拉斯平滑的技巧,所以可以将生成网络节点话题的概率改写为下式:
其中拉普拉斯平滑系数l∈(0,1)。
对于知识概念嵌入表示的每一个维度,其生成概率是一个单变量高斯分布:
其中,λk和μk均是在对应话题对应维度下的取值,为了简洁,这里省略了其下标。
对于网络节点嵌入表示的每个维度,其生成概率是一个单变量高斯分布:
其中,λr和μr均是在对应话题对应维度下的取值,为了简洁,这里省略了其下标。
这里,可以借鉴吉布斯采样的思想,对模型参数μr,λr,μk,λk,θ进行积分,得到变量关于模型超参数的联合概率分布。
对参数θ进行积分,
其中,nd是一个长度为T的向量,向量中每个元素表示文档d中被分配到话题t的知识概念的数目。α作为狄利克雷函数的超参数,也是一个长度为T的向量。
对参数μk,λk进行积分,
其中,函数G(·)定义为:
其中,n是所有y=t对应的f的数目。假设x是所有y=t的对应的嵌入向量表示f的第e维组成的向量,则:
αn=α0+n/2
κn=κ0+n
其中,表示x中所有元素的均值。
相似地,可以对参数μr,λr进行积分,
综上,通过对参数μr,λr,μk,λk,θ进行积分,可以得到对所有模型参数积分之后所有变量关于模型超参数的联合概率分布,如下:
其中,Er和Ek分别表示网络节点和知识概念嵌入表示的维度。
本发明实施例中,采用吉布斯采样对模型进行概率推理,为了进行吉布斯采样,需要推导每个变量在给定其他变量情况下的条件概率。
对于文档d,在给定文档-d的话题隐变量y-d、z、知识概念的嵌入向量表示和网络节点的嵌入向量表示的情况下,网络节点的话题yd=t的条件概率可以写成:
其中,文档-d表示除文档d之外的文档,表示文档d中话题为t的知识概念的数目。函数G'(·)定义为:
其中,n是所有y=t对应的f的数目。假设x是所有y=t的对应的嵌入向量表示f的第e维组成的向量。n'=n-nd,nd是文档中y=t对应的f的数目。
本发明实施例中,在给定话题隐变量z-dm、y、知识概念的嵌入向量表示和网络节点的嵌入向量表示的情况下,知识概念的话题zdm=t的条件概率可以写成:
其中,z-dm表示除了文档d中的知识概念m之外的话题隐变量。
本发明实施例中,对于文档d,话题分布参数θd更新如下:
对于话题t,假设n是所有z=t的知识概念的数目,x是所有z=t的知识概念对应的嵌入表示组成的向量,则对于嵌入表示的每一维,参数和更新如下:
对于话题t,假设n是所有y=t的网络节点的数目,x是所有的网络节点y=t对应的嵌入向量表示组成的向量,则对于嵌入向量表示的每一维,参数和更新如下:
现有技术在嵌入表示模型和话题模型结合的高斯LDA模型中,并没有对嵌入表示进行更新。在本发明实施例中,提出对网络节点和知识概念的嵌入向量表示也进行更新,这样可以更好地利用弱监督学习纠正非监督学习得到的嵌入表示的不足。
将目标函数定义为给定隐变量z和y的情况下的嵌入表示的对数似然,如下:
其中表示所有文档中话题为t的知识概念数目。
为了最大化嵌入向量表示的对数似然,本发明实施例直接从上述目标函数得到closed-form的嵌入表示。但是由于每次抽样的话题是具有随机性的,这样得到的嵌入表示容易受到话题的随机性影响,变动太大。因此本发明实施例提出采用梯度下降的方法对嵌入表示进行更新。
知识概念的嵌入表示的梯度为:
网络节点的嵌入表示的梯度为:
在本发明实施例的社交网络中数据处理的方法,可以根据上述D个弱监督信息,学习模型的话题隐变量和模型参数。模型的学习过程分为3个阶段:初始化、burn-in和抽样阶段。
在初始化阶段,可以随机确定所述Mi个第一话题隐变量的初始值和所述第二话题隐变量的初始值。这里,第二话题隐变量的数量与网络节点的数量相同,即该第二话题隐变量与网络节点一一对应。
具体的,可以对话题隐变量y和z进行初始化,每个话题隐变量被uniform随机分配到一个话题。例如,可以初始化zdm=t和yd=t。应注意,对于包含网络节点di的文档,其话题隐变量z也具有Mi个,并且与上述Mi个知识概念一一对应,其话题隐变量y具有一个,即为该网络节点di对应的话题隐变量。这里,为了简洁,省略了话题因变量z的下标。
在burn-in阶段,采用collapsed吉布斯采样的方法进行推理。在每一轮迭代中,都固定其他变量的值,计算当前考察的变量在给定其他变量的情况下的条件概率分布,然后从分布中进行抽样。
在模型的学习过程中,设置burn-in的迭代次数为tb,即burn-in阶段进行tb次的迭代。
本发明实施例中,可以根据所述Mi个第一话题隐变量的初始值、所述第i个弱监督信息和所述Mi个知识概念的话题的条件概率,对所述Mi个第一话题隐变量进行tb次抽样更新。根据所述第二话题隐变量的初始值、所述第i个弱监督信息和所述网络节点di的话题的条件概率,对所述第二话题隐变量进行tb次抽样更新。
其中,所述Mi个知识概念的话题的条件概率中的每个知识概念的话题的条件概率表示所述每个知识概念的第一话题隐变量在给定除所述每个知识概念的第一话题隐变量之外的其他话题隐变量、所述第二话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点di的嵌入式向量的情况下的条件概率。所述网络节点di的话题的条件概率表示所述网络节点di的第二话题隐变量在给定除所述网络节点di的第二话题隐变量之外的其他话题隐变量、所述Mi个第一话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点di的嵌入式向量的情况下的条件概率。
具体的,在第一次迭代时,在初始化后,对模型中的每个知识概念的话题隐变量z,根据上述公式(2)对z进行抽样生成,对模型中的每一个网络节点的话题隐变量,根据上述公式(1)对y进行抽样生成。这里,公式(1)和(2)中的其他变量的值是根据上述D个弱监督信息确定的。
这样,在第一次迭代后,能够对话题隐变量y和z进行抽样更新。这时,为了消除话题隐变量初始值对模型的影响,不对模型参数或嵌入向量表示进行更新。
在第二次进行迭代时,话题隐变量y的初始值为第一次迭代更新之后话题隐变量y的值,话题隐变量z初始值为第一次迭代更新之后话题隐变量z的值。应注意,在burn-in阶段的tb次迭代中。每一次迭代的话题隐变量y的初始值均为上一次迭代更新之后话题隐变量y的值,话题隐变量z初始值均为上一次迭代更新之后话题隐变量z的值。
在更新后的Mi个第一话题隐变量和更新后的第二话题收敛之后,分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj r、λj r、μjm k、λjm k进行抽样更新。
具体的,经过tb次迭代,模型的话题隐变量y和z基本进入稳定状态之后,也就是在模型的话题隐变量y和z基本收敛之后,模型的学习阶段进入了抽样阶段。在抽样阶段,可以分别对话题隐变量y和z、模型参数进行抽样更新。
在模型的学习过程中,设置抽样阶段的最大迭代次数为tm,即抽样阶段最多进行tm次迭代。还可以设置模型参数更新周期为tp。
这样,在抽样阶段,分别对话题隐变量y和z、模型参数进行抽样更新具体可以为根据所述更新后的Mi个第一话题隐变量、所述第i个弱监督信息和所述所述Mi个知识概念的话题的条件概率,对所述更新后的Mi个第一话题隐变量进行tp次抽样更新;根据所述更新后的第二话题隐变量、所述第i个弱监督信息和所述网络节点di的话题的条件概率,对所述更新后的第二话题隐变量进行tp次抽样更新;在对所述更新后的Mi个第一话题隐变量和所述更新后的第二话题隐变量分别进行tp次抽样更新之后,分别对θ、μj r、λj r、μjm k、λjm k进行更新。
这里,可以在对所述更新后的Mi个第一话题隐变量进行tp次抽样更新、对所述更新后的第二话题隐变量进行tp次抽样更新之后,分别对θ、μj r、λj r、μjm k、λjm k进行一次更新。
具体的,在抽样阶段的第一次迭代中,在对每个网络节点的话题隐变量和知识概念的话题隐变量进行tp次抽样更新之后,根据上述公式(3)、(5)、(7)、(4)和(6)获取更新的模型参数θ、λk、λr、μk和μr。这里,话题隐变量y和z的更新方法与上述burn-in阶段相同。
可选的,本发明实施例中,所述分别对θ、μj r、λj r、μjm k、λjm k进行更新包括:分别对所述参数θ、μj r、λj r、μjm k、λjm k进行N次抽样更新,其中,N次更新中的每次更新均执行对所述更新后的Mi个第一话题隐变量进行tp次抽样更新,对所述更新后的Mi个第一话题隐变量进行tp次抽样更新和分别对θ、μj r、λj r、μjm k、λjm k进行更新,得到N次更新后的θ、μj r、λj r、μjm k、λjm k。
对N次更新后的θ累加求平均值,将θ累加求得的平均值作为更新后的所述异构贝叶斯模型的θ参数;
对N次更新后的μj r累加求平均值,将μj r累加求得的平均值作为更新后的所述异构贝叶斯模型的μj r参数;
对N次更新后的λj r累加求平均值,将λj r累加求得的平均值作为更新后的所述异构贝叶斯模型的λj r参数;
对N次更新后的μjm k累加求平均值,将μjm k累加求得的平均值作为更新后的所述异构贝叶斯模型的μjm k参数;
对N次更新后的λjm k累加求平均值,将λjm k累加求得的平均值作为更新后的所述异构贝叶斯模型的λjm k参数。
具体的,可以对多个周期tp中计算获得的模型参数进行累加,将抽样阶段所有读取的模型参数的平均值作为最终的模型参数。
这时,可以设置抽样阶段的话题隐变量的迭代次数为tl。因此,在对话题隐变量进行tp次抽样更新、对模型参数θ、λk、λr、μk和μr进行一次更新之后,可以继续按照上述方式对话题隐变量和模型参数θ、λk、λr、μk和μr进行更新。可以理解,这时总共对话题隐变量进行了tl次抽样更新,对模型参数θ、λk、λr、μk和μr进行了(tl/tp)次更新。将(tl/tp)次更新之后的(tl/tp)个θ、λk、λr、μk和μr分别进行累加并求取平均值,分别将获得的θ、λk、λr、μk和μr的平均值作为θ、λk、λr、μk和μr。
可选的,本发明实施例中,分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj r、λj r、μjm k、λjm k进行抽样更新之后,还可以对网络节点和知识概念的嵌入向量表示进行更新。
具体的,对网络节点和知识概念的嵌入向量表示进行更新,可以包括:根据所述网络节点di的嵌入向量表示和所述Mi个知识概念的嵌入向量表示,确定在给定所述Mi个第一隐变量和所述第二隐变量的情况下的初始对数似然;根据所述初始对数似然,确定更新后的所述网络节点di的嵌入向量表示;根据所述初始对数似然,分别确定更新后的所述Mi个知识概念的嵌入向量表示。
具体的,在对话题隐变量的迭代次数为tl之后,可以对每个网络节点和知识概念的嵌入向量表示进行更新。这时,可以设置嵌入向量表示的迭代次数为te次,每个网络节点学习初始学习率为lrr,每个知识概念初始学习率为lrk。
在嵌入向量表示的第一次迭代中,首先需要确定当前的模型的初始对数似然。具体的,该初始对数似然可以为上述L。
然后,根据所述初始对数似然确定所述网络节点di的嵌入向量表示的梯度;根据所述网络节点di的嵌入向量表示的梯度、所述网络节点学习率和所述网络节点di的嵌入向量表示,确定所述网络节点di的更新后的嵌入向量表示,其中,所述网络节点学习率表示所述所述网络节点di的嵌入式向量的梯度下降的学习率。
这里,还可以根据所述初始对数似然确定所述Mi个知识概念的嵌入向量表示的梯度;根据所述Mi个知识概念的知识概念的嵌入表示的梯度、所述Mi个知识概念的知识概念学习率和所述Mi个知识概念的嵌入向量表示,分别确定所述Mi个知识概念的更新后的嵌入向量表示,其中,所述Mi个知识概念中的每个知识概念的知识概念学习率表示所述每个知识概念的嵌入式向量的梯度下降的学习率。
具体的,对每一个网络节点的嵌入向量表示fr,可以根据公式(8)计算每个网络节点的梯度g1。这时,可以根据fr+lrr×g1确定网络节点的更新后的嵌入向量表示。
对每一个知识概念的嵌入向量表示fk,可以根据公式(9)计算每个知识概念的梯度g2。这时,可以根据fk+lrk×g2确定知识概念的更新后的嵌入向量表示。
可选的,本发明实施例中,还可以根据所述网络节点di的更新后的嵌入向量表示和所述Mi个知识概念的更新后的嵌入向量表示,确定在给定所述Mi个第一隐变量和所述第二隐变量的情况下的的更新对数似然。
如果所述更新对数似然大于或等于所述初始对数似然,则将所述网络节点di的嵌入向量表示替换为所述网络节点di的更新后的嵌入向量表示,将所述Mi个知识概念的嵌入向量表示替换为所述Mi个知识概念的更新后的嵌入向量表示。
如果所述更新对数似然小于所述初始对数似然,则将所述网络节点学习率更新为所述网络节点学习率与第一衰减指数的乘积,将所述Mi个知识概念的知识概念学习率分别更新为所述Mi个知识概念的知识概念学习率与第二衰减指数的乘积,保留所述网络节点di的嵌入向量表示不变,并且保留所述Mi个知识概念的嵌入向量表示不变,其中,所述第一衰减指数表示所述网络节点学习率的衰减程度,所述第二衰减指数表示所述Mi个知识概念学习率中的每个知识概念学习率的衰减程度。
这里,第一衰减指数与第二衰减指数可以相同,也可以不同,本发明对此不作限定。
这里,保留所述网络节点di的嵌入向量表示不变,即不将所述网络节点di的嵌入向量表示替换为所述网络节点di的更新后的嵌入向量表示。保留所述Mi个知识概念的嵌入向量表示不变,即不将所述Mi个知识概念的嵌入向量表示替换为所述Mi个知识概念的更新后的嵌入向量表示。
具体的,本发明实施例中,由于梯度下降的学习率lrr和lrk比较难设置,本发明实施例使用了一个动态调整梯度下降学习率的技巧。每次进行梯度下降之前,先计算当前模型的对数似然,然后尝试进行梯度下降,再次计算迭代之后的模型的对数似然。
可以理解,如果对数似然上升,说明当前的学习率合适,本发明实施例采用梯度下降之后的嵌入表示。如果对数似然下降,说明当前的学习率过大,这时,将每个网络节点和指示概念的学习率乘以一个衰减指数,并放弃当前迭代对嵌入表示的更新。
这样,完成了抽样阶段的第一次迭代。因为本发明实施例设置的最大迭代次数为tm,因此抽样阶段的迭代过程进行tm次将获得模型的话题隐变量z和y,模型参数θ、λk、λr、μk、μr,和更新之后的每个网络节点和知识概念的嵌入向量表示。
S130,根据所述异构贝叶斯模型,确定第一网络节点与第一知识概念的有效联系。
这里,所述第一网络节点为所述D个弱监督信息中的所有网络节点之中的一个,即所述第一网络节点属于所述D个弱监督信息,所述第一知识概念为所述D个弱监督信息中的所有知识概念之中的一个,即所述第一知识概念属于所述D个弱监督信息。
具体的,该第一网络节点可以为给定的一个网络节点d,该第一知识概念可以为给定的一个知识概念w,第一网络节点和第一知识概念两者在上述得到的异构贝叶斯模型(即本发明实施例中生成的社交知识图谱)中成为邻居的概率为下式:
上式中,省略了其他给定的模型变量。这里,将d和w在社交知识图谱中成为邻居的概率定义为yd通过zw的话题生成后,再分别生成得到两者嵌入向量表示的概率。这里,对zw进行枚举求和,就能得到两者在社交知识图谱中匹配的概率。
本发明实施例中,给定的网络节点a和给定的知识概念1的成为邻居的概率即为该网络节点a和知识概念1的条件概率。当该条件概率的值比较大时,表示该知识概念1为该网络节点a的核心知识概念。反之,当该条件概率的值比较小时,表示该知识概念为该网络节点a的边缘知识概念。因此,本发明实施例可以方便地区分与社交网络中每个网络节点相关的核心知识概念和边缘知识概念。
本发明实施例的社交网络中数据处理的方法,通过确定一系列弱监督信息,该弱监督信息表示网络节点和知识概念的交互信息,并根据该弱监督信息,生成异构贝叶斯模型,该异构贝叶斯模型表示社交网络和知识图谱之间的连接模型,然后根据该异构贝叶斯模型,能够确定给定的网络节点和给定的知识概念之间的有效联系。
本发明实施例生成的异构贝叶斯模型具有准确性和普适性。将本发明实施例的社交网络中数据处理的方法与其他基线算法进行多次对比实验,均得到了有效地验证。下面是对试验中基线算法的简单介绍。
a.AM-base是AMiner系统之前的研究兴趣抽取方法。该方法采用基于括词干化,过滤词表,词性标注(POS tagging),词语边界检测等自然语言处理技术的微软结构化查询语言(Structured Query Language,SQL)服务器(Server)关键词抽取应用程序编程接口(Application Programming Interface,API)。通过该API,可以根据上下文依赖关系从文本中抽取关键词之后,该方法依据关键词的频度对关键词进行排序。
b.CountKG方法直接把弱监督信息中的N-gram与知识图谱中的词表进行匹配,抽出所有匹配成功的N-gram作为关键词,按照词频进行排序。
c.GenVector是本发明实施例提出来的数据处理的方法。GenVector包括异构贝叶斯模型,网络节点和知识概念嵌入表示的学习,以及弱监督信息的无监督生成方法。
d.GenVector-E是在本发明实施例的数据处理的方法的基础上去掉了嵌入表示更新的部分的算法。
e.GenVector-M是在本发明实施例的数据处理的方法的基础上去掉异构贝叶斯模型,直接从弱监督信息中随机生成。
f.GenVector-R是在本发明实施例的数据处理的方法的基础上去掉异构贝叶斯模型,直接根据下式:
对给出的分数对知识概念进行排序。
g.作者-话题模型(Author-Topic model)。
h.张量神经网络(Neural tensor network,NTN),该算法使用学习得到的网络节点和知识概念的嵌入表示作为NTN的输入,使用弱监督信息作为训练数据。
下面两个实验描述及其结果是在所进行的几个实验中选取的最具代表性的实验。
第一个实验为个人主页的匹配实验。
该实验通过研究者的个人主页来确定某一个知识概念是否是该研究者的主要研究兴趣,即使用AMiner的主页抽取算法从互联网抓取一部分研究者的主页,接着通过与维基百科的知识概念集合进行匹配,得到研究者的研究兴趣,例如该实验的结果为一个包含1874个研究者的数据集,并用这些知识概念作为正确答案来比较不同的社交网络中数据处理的方法的准确率。
对于每一种社交网络中数据处理的方法,选取每一个研究者排名前五的知识概念,然后计算这五个知识概念的准确率。实验结果如下表1所示:
表1
方法 | 准确率 | 方法 | 准确率 |
GenVector | 77.9402% | AM-base | 73.8189% |
GenVector-E | 77.8548% | CountKB | 54.4823% |
GenVector-M | 65.5608% | Author-topic | 74.4397% |
GenVector-R | 72.8495% | NTN | 65.8911% |
从表1中可以看出,本发明实施例的社交网络中的数据处理的方法的准确率显著地高于基线方法。
具体的,GenVector的准确率相对于AM-base提升了5.58%,说明本发明实施例的社交网络中的数据处理的方法可以较好地更新取代AMiner原有的算法。GenVector的准确率相对于GenVector-E取得提升,说明对于嵌入表示的更新可以得到更好的结果。GenVector的准确率相对于GenVector-M提升了18.88%,GenVector的准确率相对于GenVector-R提升了6.98%,说明异构贝叶斯嵌入模型在算法中发挥了重要作用。GenVector的准确率相对于CountKB提升了43.05%,说明简单的通过知识库匹配统计不能工作,还需要进一步对语义进行理解。GenVector的准确率相对于Author-topic提升了4.70%,说明引入嵌入表示可以增强模型的表达能力。GenVector的准确率相对于NTN提升了18.28%,说明仅仅使用嵌入表示作为分类器的输入不能得到很好的结果。
第二个实验为LinkedIn个人页面的匹配实验。
该实验通过研究者在LinkedIn上的个人页面来确定一个知识概念是否是该研究者的主要研究兴趣,即使用异构网络匹配算法COSNET将AMiner社交网络和LinkedIn网络进行连接,选取连接概率最大的节点,然后将AMiner上的研究者对应到LinkedIn的账号上。接着从LinkedIn上抓取该研究者的个人页面,并从中抽取一栏,作为研究兴趣的标准答案。将COSNET的概率阈值设置得较高,以保证异构网络连接的可靠性,然后选取所有一栏不为空的研究者。经过上述步骤可得到一个包含222个研究者的数据集。
对于每一种社交网络中数据处理的方法,选取每一个研究者排名前五的知识概念,以LinkedIn个人主页上的一栏为正确答案,计算这五个知识概念的准确率。实验结果如下表2所示:
表2
方法 | 准确率 | 方法 | 准确率 |
GenVector | 26.8468% | AM-base | 24.5195% |
GenVector-E | 26.5765% | CountKB | 25.4954% |
GenVector-M | 24.6695% | Author-topic | 26.4864% |
GenVector-R | 26.3063% | NTN | 24.3243% |
从表2中可以看出,本发明实施例的社交网络中的数据处理的方法的准确率显著地高于基线方法。
具体的,GenVector的准确率相对于GenVector-E,GenVector-M,GenVector-R都有提升,且击败了AM-base,Author-topic,NTN等从不同角度进行建模的方法。
相较于之前的社交网络中数据处理的方法,本发明实施例具有速度快,准确率高的特点。本发明实施例对社交网络中数据处理的方法进行了优化,使计算的速度提升了60倍,单次迭代时间从原来的3小时加快到3分钟。
本发明实施例的社交网络中数据处理的方法,通过确定一系列弱监督信息,该弱监督信息表示网络节点和知识概念的交互信息,并根据该弱监督信息,生成异构贝叶斯模型,该异构贝叶斯模型表示社交网络和知识图谱之间的连接模型,然后根据该异构贝叶斯模型,能够确定给定的网络节点和给定的知识概念之间的有效联系。
图4为本发明实施例的社交网络中数据处理的装置300的示意性框图。该装置300包括:
确定单元310,用于确定D个弱监督信息,所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点di和与所述网络节点di相关的Mi个知识概念,其中,所述网络节点di表示为嵌入向量表示,所述Mi个知识概念分别表示为嵌入向量表示,D和Mi分别为大于1的正整数,i为取值范围为1至D的正整数。
生成单元320,用于根据所述D个弱监督信息,生成异构贝叶斯模型,所述异构贝叶斯模型包括T个话题和D个文档,所述T个话题中的第j个话题包括参数μj r、λj r、μjm k、λjm k,所述D个文档中的第i个文档包括所述网络节点di和所述Mi个知识概念,所述第i个文档还包括与所述Mi个知识概念一一对应的Mi个第一话题隐变量、与所述网络节点di一一对应的第二话题隐变量和与所述网络节点di一一对应的参数θ。
其中,μj r表示所述第j个话题对应的所述网络节点di的高斯分布的均值,λj r表示所述第j个话题对应的所述网络节点di的高斯分布的精度,μjm k表示所述第j个话题对应的所述Mi个知识概念中的第m个知识概念的高斯分布的均值,λjm k表示所述第j个话题对应的所述Mi个知识概念中的m个知识概念的高斯分布的精度,θ表示所述网络节点di的话题多项分布,T为大于1的正整数,j为取值范围为1至T的正整数,m为取值范围为1至Mi的正整数。
所述确定单元310还用于根据所述异构贝叶斯模型,确定第一网络节点与第一知识概念的有效联系。
这里,所述第一网络节点为所述D个弱监督信息中的所有网络节点之中的一个,即所述第一网络节点属于所述D个弱监督信息,所述第一知识概念为所述D个弱监督信息中的所有知识概念之中的一个,即所述第一知识概念属于所述D个弱监督信息。
本发明实施例的社交网络中数据处理的方法,通过确定一系列弱监督信息,该弱监督信息表示网络节点和知识概念的交互信息,并根据该弱监督信息,生成异构贝叶斯模型,该异构贝叶斯模型表示社交网络和知识图谱之间的连接模型,然后根据该异构贝叶斯模型,能够确定给定的网络节点和给定的知识概念之间的有效联系。
可选的,本发明实施例中,第一网络节点与第一知识概念成为邻居的概率可以通过下式计算:
其中,表示该第一网络节点的嵌入向量表示,表示该第一知识概念的嵌入向量表示。
本发明实施例中,给定的网络节点a和给定的知识概念1的成为邻居的概率即为该网络节点a和知识概念1的条件概率。当该条件概率的值比较大时,表示该知识概念1为该网络节点a的核心知识概念。反之,当该条件概率的值比较小时,表示该知识概念为该网络节点a的边缘知识概念。因此,本发明实施例可以方便地区分与社交网络中每个网络节点相关的核心知识概念和边缘知识概念。
可选的,本发明实施例中,生成单元320具体用于:
随机确定所述Mi个第一话题隐变量的初始值和所述第二话题隐变量的初始值。
根据所述第二话题隐变量的初始值、所述第i个弱监督信息和所述网络节点di的话题的条件概率,对所述第二话题隐变量进行tb次抽样更新,其中,所述网络节点di的话题的条件概率表示所述网络节点di的第二话题隐变量在给定除所述网络节点di的第二话题隐变量之外的其他话题隐变量、所述第二话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点di的嵌入式向量的情况下的条件概率。
对于文档d,在给定文档-d的第二话题隐变量y-d、第一话题隐变量z、网络节点的嵌入式表示和知识概念的嵌入式表示的情况下,网络节点的话题yd=t的条件概率可以写成:
其中,文档-d表示除文档d之外的其他文档,y-d表示文档-d的第二话题隐变量,表示文档d中话题为t的知识概念的数目。函数G'(·)定义为:
其中,n是所有y=t对应的f的数目。假设x是所有y=t的对应的嵌入向量表示f的第e维组成的向量。n'=n-nd,nd是文档中y=t对应的f的数目。
根据所述Mi个第一话题隐变量的初始值、所述第i个弱监督信息和所述Mi个知识概念的话题的条件概率,对所述Mi个第一话题隐变量进行tb次抽样更新,其中,所述Mi个知识概念的话题的条件概率中的每个知识概念的话题的条件概率表示所述每个知识概念的第一话题隐变量在给定除所述每个知识概念的第一话题隐变量之外的其他话题隐变量、所述Mi个第一话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点di的嵌入式向量的情况下的条件概率。
本发明实施例中,在给定话题隐变量z-dm、y、网络节点的嵌入式表示和知识概念的嵌入式表示的情况下,文档d中的知识概念m的话题zdm=t的条件概率可以写成:
其中,z-dm表示除了文档d中的知识概念m之外的第一话题隐变量。
在对所述Mi个第一话题隐变量和所述第二话题隐变量分别进行tb次抽样更新之后,分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj r、λj r、μjm k、λjm k进行抽样更新,以生成所述异构贝叶斯模型。
可选的,本发明实施例中,所述在所述生成单元320在对所述Mi个第一话题隐变量和所述第二话题隐变量分别进行tb次抽样更新之后,分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj r、λj r、μjm k、λjm k进行更新,包括:
根据所述更新后的Mi个第一话题隐变量、所述第i个弱监督信息和所述所述Mi个知识概念的话题的条件概率,对所述更新后的Mi个第一话题隐变量进行tp次抽样更新。
根据所述更新后的第二话题隐变量、所述第i个弱监督信息和所述网络节点di的话题的条件概率,对所述更新后的第二话题隐变量进行tp次抽样更新。
这里,所述网络节点di的话题的条件概率和所述Mi个知识概念的话题的条件概率分别为上述公式(1)和公式(2)。
在对所述更新后的Mi个第一话题隐变量和所述更新后的第二话题隐变量分别进行tp次抽样更新之后,分别对θ、μj r、λj r、μjm k、λjm k进行更新。
本发明实施例中,对于文档d,话题分布参数θd更新如下:
对于话题t,假设n是所有z=t的知识概念的数目,x是所有z=t的知识概念对应的嵌入表示组成的向量,则对于嵌入表示的每一维,参数和更新如下:
对于话题t,假设n是所有y=t的网络节点的数目,x是所有的网络节点y=t对应的嵌入向量表示组成的向量,则对于嵌入向量表示的每一维,参数和更新如下:
可选的,本发明实施例中,所述生成单元320具体用于:分别对所述参数θ、μj r、λj r、μjm k、λjm k进行N次抽样更新,其中,所述N次更新中的每次更新均执行对所述更新后的Mi个第一话题隐变量进行tp次抽样更新,对所述更新后的Mi个第一话题隐变量进行tp次抽样更新和分别对θ、μj r、λj r、μjm k、λjm k进行更新,得到N次更新后的θ、μj r、λj r、μjm k、λjm k,
对所述N次更新后的θ累加求平均值,将θ累加求得的平均值作为更新后的所述异构贝叶斯模型的θ参数;
对所述N次更新后的μj r累加求平均值,将μj r累加求得的平均值作为更新后的所述异构贝叶斯模型的μj r参数;
对所述N次更新后的λj r累加求平均值,将λj r累加求得的平均值作为更新后的所述异构贝叶斯模型的λj r参数;
对所述N次更新后的μjm k累加求平均值,将μjm k累加求得的平均值作为更新后的所述异构贝叶斯模型的μjm k参数;
对所述N次更新后的λjm k累加求平均值,将λjm k累加求得的平均值作为更新后的所述异构贝叶斯模型的λjm k参数。
可选的,本发明实施例中,在分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj r、λj r、μjm k、λjm k进行抽样更新分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj r、λj r、μjm k、λjm k进行抽样更新之后,所述生成单元320还用于:
根据所述网络节点di的嵌入向量表示和所述Mi个知识概念的嵌入向量表示,确定在给定所述Mi个第一隐变量和所述第二隐变量的情况下的初始对数似然。
给定第一话题隐变量和第二话题隐变量情况下的嵌入表示的对数似然的计算公式,如下:
其中表示所有文档中话题为t的知识概念数目。
这里,将没有更新的网络节点di的嵌入向量表示和没有更新的Mi个知识概念的嵌入向量表示的对数似然称为初始对数似然。
根据所述初始对数似然,确定所述网络节点di的更新后的嵌入向量表示;
根据所述初始对数似然,分别确定所述Mi个知识概念的更新后的嵌入向量表示。
可选的,本发明实施例中,所述生成单元320根据所述初始对数似然,确定所述网络节点di的更新后的嵌入向量表示,包括:
根据所述初始对数似然确定所述网络节点di的嵌入向量表示的梯度;
具体的,网络节点的嵌入表示的梯度为:
根据所述网络节点di的嵌入向量表示的梯度、网络节点学习率和所述网络节点di的嵌入向量表示,确定所述更新后的所述网络节点di的嵌入向量表示,其中,所述网络节点学习率表示所述所述网络节点di的嵌入式向量的梯度下降的学习率。
可选的,本发明实施例中,所述生成单元根据所述初始对数似然,分别确定所述Mi个知识概念的更新后的嵌入向量表示,包括:
根据所述初始对数似然确定所述Mi个知识概念的嵌入向量表示的梯度;
知识概念的嵌入表示的梯度为:
根据所述Mi个知识概念的知识概念的嵌入表示的梯度、Mi个知识概念的知识概念学习率和所述Mi个知识概念的嵌入向量表示,分别确定所述更新后的所述Mi个知识概念的嵌入向量表示,其中,所述Mi个知识概念中的每个知识概念的知识概念学习率表示所述每个知识概念的嵌入式向量的梯度下降的学习率。
可选的,本发明实施例中,所述生成单元320具体还用于:
根据所述网络节点di的更新后的嵌入向量表示和所述Mi个知识概念的更新后的嵌入向量表示,确定在给定所述Mi个第一隐变量和所述第二隐变量的情况下的的更新对数似然。
这里,将网络节点di的更新之后的嵌入向量表示和Mi个知识概念的更新之后嵌入向量表示的对数似然称为更新对数似然。
若所述更新对数似然大于或等于所述初始对数似然,则将所述网络节点di的嵌入向量表示替换为所述网络节点di的更新后的嵌入向量表示,将所述Mi个知识概念的嵌入向量表示替换为所述Mi个知识概念的更新后的嵌入向量表示;
若所述更新对数似然小于所述初始对数似然,则将所述网络节点学习率更新为所述网络节点学习率与第一衰减指数的乘积,将所述Mi个知识概念的知识概念学习率分别更新为所述Mi个知识概念的知识概念学习率与第二衰减指数的乘积,并且保留所述网络节点di的嵌入向量表示不变,保留所述Mi个知识概念的嵌入向量表示不变,其中,所述第一衰减指数表示所述网络节点学习率的衰减程度,所述第二衰减指数表示所述Mi个知识概念学习率中的每个知识概念学习率的衰减程度。
这里,第一衰减指数与第二衰减指数可以相同,也可以不同,本发明对此不作限定。
可选的,本发明实施例中,所述确定单元310具体用于:
确定D个初始弱监督信息,所述D个初始弱监督信息中的第i个初始弱监督息包括所述网络节点di和与所述网络节点di相关的所有知识概念;
根据所述所有知识概念中每个知识概念的分值和无监督生成率r,确定所述Mi个知识概念,其中,所述Mi个知识概念中的每一个知识概念的分值大于所述所有知识概念中除所述Mi个知识概念之外的每一个知识概念的分值,所述每个知识概念的分值表示所述每个知识概念处于所述所有知识概念的中心位置的程度,所述无监督生成率r为确定的知识概念的数量Mi与所述所有知识概念的数量的预设比值,r的取值范围为0至1。
可选的,本发明实施例中,知识概念的分值可以表示为:
其中,cos(·)表示余弦相似度,表示知识概念,表示另一知识概念,n是出现在所有知识概念Dd中的次数。
可选的,本发明实施例中,所述装置还包括:
转换单元,用于根据知识概念集合、语料的长度和所述语料的最大的N-gram长度,对所述语料进行转换,所述知识概念集合包括所述D个弱监督信息中的所有知识概念;
第一获取单元,用于将转换后的所述语料输入至第一skipgram模型,获取所述知识概念集合中每个知识概念的嵌入向量表示。
可选的,本发明实施例中,所述确定单元310还用于:
确定所述社交网络中的每个网络节点的加权概率,其中,所述每个网络节点的加权概率表示所述每个网络节点访问下一个网络节点的概率,所述社交网络中所有网络节点包括所述D个弱监督信息中的所有网络节点;
根据所述每个网络节点的加权概率,确定所述每个网络节点的至少一个随机游走序列;
具体的,网络节点的加权概率可以表示为:
所述装置还包括第二获取单元,用于将所述每个网络节点的至少一个随机游走序列输入至第二skipgram模型,获取所述每个网络节点的嵌入向量表示。
本发明实施例中,该第一skipgram模型和该第二skipgram模型可以相同,也可以不同,本发明对此不作限定。
应注意,本发明实施例中,确定单元310和生成单元320可以由处理器实现。如图5所示,装置400可以包括处理器410、存储器420和总线系统430。其中,存储器420可以用于存储处理器410执行的代码等。
装置400中的各个组件通过总线系统430耦合在一起,其中总线系统430除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图中将各种总线都标为总线系统430。
在实现过程中,上述方法的各步骤可以通过处理器410中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器420,处理器410读取存储器420中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
应注意,本发明上述方法实施例可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本发明实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
图4所示的装置300或图5所示的装置400能够实现前述图2和图3所示的方法实施例对应的各个过程,具体的,该装置300或装置400可以参见上述图2和图3中的描述,为避免重复,这里不再赘述。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例中描述的各方法步骤和单元,能够以电子硬件、计算机软件或者二者的结合来实现。为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内。
Claims (22)
1.一种社交网络中数据处理的方法,其特征在于,包括:
确定D个弱监督信息,所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点di和与所述网络节点di相关的Mi个知识概念,其中,所述网络节点di表示为嵌入式向量,所述Mi个知识概念分别表示为嵌入式向量,D和Mi分别为大于1的正整数,i为取值范围为1至D的正整数;
根据所述D个弱监督信息,生成异构贝叶斯模型,所述异构贝叶斯模型包括T个话题和D个文档,所述T个话题中的第j个话题包括参数μj、λj、μjm、λjm,所述D个文档中的第i个文档包括所述网络节点di和所述Mi个知识概念,所述第i个文档还包括与所述Mi个知识概念一一对应的Mi个第一话题隐变量、与所述网络节点di一一对应的第二话题隐变量和与所述网络节点di一一对应的参数θ,其中,μj表示所述第j个话题对应的所述网络节点di的高斯分布的均值,λj表示所述第j个话题对应的所述网络节点di的高斯分布的精度,μjm表示所述第j个话题对应的所述Mi个知识概念中的第m个知识概念的高斯分布的均值,λjm表示所述第j个话题对应的所述Mi个知识概念中的m个知识概念的高斯分布的精度,θ表示所述网络节点di的话题多项分布,T为大于1的正整数,j为取值范围为1至T的正整数,m为取值范围为1至Mi的正整数;
根据所述异构贝叶斯模型,确定第一网络节点和第一知识概念的有效联系,其中,所述第一网络节点为所述D个弱监督信息中的所有网络节点之一,所述第一知识概念为所述D个弱监督信息中的所有知识概念之一。
2.根据权利要求1所述的方法,其特征在于,所述根据所述D个弱监督信息,生成异构贝叶斯模型,包括:
随机确定所述Mi个第一话题隐变量的初始值和所述第二话题隐变量的初始值;
根据所述Mi个第一话题隐变量的初始值、所述第i个弱监督信息和所述Mi个知识概念的话题的条件概率,对所述Mi个第一话题隐变量进行tb次抽样更新,其中,所述Mi个知识概念的话题的条件概率中的每个知识概念的话题的条件概率表示所述每个知识概念的第一话题隐变量在给定除所述每个知识概念的第一话题隐变量之外的其他话题隐变量、所述第二话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点di的嵌入式向量的情况下的条件概率;
根据所述第二话题隐变量的初始值、所述第i个弱监督信息和所述网络节点di的话题的条件概率,对所述第二话题隐变量进行tb次抽样更新,其中,所述网络节点di的话题的条件概率表示所述网络节点di的第二话题隐变量在给定除所述网络节点di的第二话题隐变量之外的其他话题隐变量、所述Mi个第一话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点di的嵌入式向量的情况下的条件概率;
在对所述Mi个第一话题隐变量和所述第二话题隐变量分别进行tb次抽样更新之后,分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj、λj、μjm、λjm进行更新,以生成所述异构贝叶斯模型。
3.根据权利要求2所述的方法,其特征在于,所述在对所述Mi个第一话题隐变量和所述第二话题隐变量分别进行tb次抽样更新之后,分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj、λj、μjm、λjm进行更新,包括:
根据所述更新后的Mi个第一话题隐变量、所述第i个弱监督信息和所述所述Mi个知识概念的话题的条件概率,对所述更新后的Mi个第一话题隐变量进行tp次抽样更新;
根据所述更新后的第二话题隐变量、所述第i个弱监督信息和所述网络节点di的话题的条件概率,对所述更新后的第二话题隐变量进行tp次抽样更新;
在对所述更新后的Mi个第一话题隐变量和所述更新后的第二话题隐变量分别进行tp次抽样更新之后,分别对θ、μj、λj、μjm、λjm进行更新。
4.根据权利要求3所述的方法,其特征在于,所述分别对θ、μj、λj、μjm、λjm进行更新包括:分别对所述参数θ、μj、λj、μjm、λjm进行N次更新,其中,所述N次更新中的每次更新均执行对所述更新后的Mi个第一话题隐变量进行tp次抽样更新,对所述更新后的Mi个第一话题隐变量进行tp次抽样更新和分别对θ、μj、λj、μjm、λjm进行更新,得到N次更新后的θ、μj、λj、μjm、λjm,
对所述N次更新后的θ累加求平均值,将θ累加求得的平均值作为更新后的所述异构贝叶斯模型的θ参数;
对所述N次更新后的μj累加求平均值,将μj累加求得的平均值作为更新后的所述异构贝叶斯模型的μj参数;
对所述N次更新后的λj累加求平均值,将λj累加求得的平均值作为更新后的所述异构贝叶斯模型的λj参数;
对所述N次更新后的μjm累加求平均值,将μjm累加求得的平均值作为更新后的所述异构贝叶斯模型的μjm参数;
对所述N次更新后的λjm累加求平均值,将λjm累加求得的平均值作为更新后的所述异构贝叶斯模型的λjm参数。
5.根据权利要求2-4中任一项所述的方法,其特征在于,所述分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj、λj、μjm、λjm进行更新之后,还包括:
根据所述网络节点di的嵌入式向量和所述Mi个知识概念的嵌入式向量,确定在给定所述Mi个第一隐变量和所述第二隐变量的情况下的初始对数似然;
根据所述初始对数似然,确定所述网络节点di的更新后的嵌入式向量;
根据所述初始对数似然,分别确定所述Mi个知识概念的更新后的嵌入式向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述初始对数似然,确定所述网络节点di的更新后的嵌入式向量,包括:
根据所述初始对数似然确定所述网络节点di的嵌入式向量的梯度;
根据所述网络节点di的嵌入式向量的梯度、网络节点学习率和所述网络节点di的嵌入式向量,确定所述所述网络节点di的更新后的嵌入式向量,其中,所述网络节点学习率表示所述所述网络节点di的嵌入式向量的梯度下降的学习率。
7.根据权利要求5所述的方法,其特征在于,所述根据所述初始对数似然,分别确定所述Mi个知识概念的更新后的嵌入式向量,包括:
根据所述初始对数似然分别确定所述Mi个知识概念的嵌入式向量的梯度;
根据所述Mi个知识概念的知识概念的嵌入表示的梯度、所述Mi个知识概念的知识概念学习率和所述Mi个知识概念的嵌入式向量,分别确定所述所述Mi个知识概念的更新后的嵌入式向量,其中,所述Mi个知识概念中的每个知识概念的知识概念学习率表示所述每个知识概念的嵌入式向量的梯度下降的学习率。
8.根据权利要求5至7中任一项所述的方法,其特征在于,所述方法还包括:
根据所述网络节点di的更新后的嵌入式向量和所述Mi个知识概念的更新后的嵌入式向量,确定在给定所述Mi个第一隐变量和所述第二隐变量的情况下的的更新对数似然;
若所述更新对数似然大于或等于所述初始对数似然,则将所述网络节点di的嵌入式向量替换为所述网络节点di的更新后的嵌入式向量,将所述Mi个知识概念的嵌入式向量替换为所述Mi个知识概念的更新后的嵌入式向量;
若所述更新对数似然小于所述初始对数似然,则将所述网络节点学习率更新为所述网络节点学习率与第一衰减指数的乘积,将所述Mi个知识概念的知识概念学习率分别更新为所述Mi个知识概念的知识概念学习率与第二衰减指数的乘积,并且保留所述网络节点di的嵌入式向量不变,保留所述Mi个知识概念的嵌入式向量不变,其中,所述第一衰减指数表示所述网络节点学习率的衰减程度,所述第二衰减指数表示所述Mi个知识概念学习率中的每个知识概念学习率的衰减程度。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述确定D个弱监督信息,包括:
确定D个初始弱监督信息,所述D个初始弱监督信息中的第i个初始弱监督信息包括所述网络节点di和与所述网络节点di相关的所有知识概念;
根据所述所有知识概念中每个知识概念的分值和无监督生成率r,确定所述Mi个知识概念,其中,所述Mi个知识概念中的每一个知识概念的分值大于所述所有知识概念中除所述Mi个知识概念之外的每一个知识概念的分值,所述每个知识概念的分值表示所述每个知识概念处于所述所有知识概念的中心位置的程度,所述无监督生成率r为确定的知识概念的数量Mi与所述所有知识概念的数量的预设比值,r的取值范围为0至1。
10.根据权利要求1-9中任一项所述的方法,其特征在于,在所述确定D个弱监督信息之前,所述方法还包括:
根据知识概念集合、语料的长度和所述语料的最大N-gram长度,对所述语料进行转换,所述知识概念集合包括所述D个弱监督信息中的所有知识概念;
将转换后的所述语料输入至skipgram模型,获取所述知识概念集合中每个知识概念的嵌入式向量。
11.根据权利要求1-9中任一项所述的方法,其特征在于,在所述确定D个弱监督信息之前,所述方法还包括:
确定所述社交网络中的每个网络节点的加权概率,其中,所述每个网络节点的加权概率表示所述每个网络节点访问下一个网络节点的概率,所述社交网络中所有网络节点包括所述D个弱监督信息中的所有网络节点;
根据所述每个网络节点的加权概率,确定所述每个网络节点的至少一个随机游走序列;
将所述每个网络节点的至少一个随机游走序列输入至skipgram模型,获取所述每个网络节点的嵌入式向量。
12.一种社交网络中数据处理的装置,其特征在于,包括:
确定单元,用于确定D个弱监督信息,所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点di和与所述网络节点di相关的Mi个知识概念,其中,所述网络节点di表示为嵌入式向量,所述Mi个知识概念分别表示为嵌入式向量,D和Mi分别为大于1的正整数,i为取值范围为1至D的正整数;
生成单元,用于根据所述D个弱监督信息,生成异构贝叶斯模型,所述异构贝叶斯模型包括T个话题和D个文档,所述T个话题中的第j个话题包括参数μj、λj、μjm、λjm,所述D个文档中的第i个文档包括所述网络节点di和所述Mi个知识概念,所述第i个文档还包括与所述Mi个知识概念一一对应的Mi个第一话题隐变量、与所述网络节点di一一对应的第二话题隐变量和与所述网络节点di一一对应的参数θ,其中,μj表示所述第j个话题对应的所述网络节点di的高斯分布的均值,λj表示所述第j个话题对应的所述网络节点di的高斯分布的精度,μjm表示所述第j个话题对应的所述Mi个知识概念中的第m个知识概念的高斯分布的均值,λjm表示所述第j个话题对应的所述Mi个知识概念中的m个知识概念的高斯分布的精度,θ表示所述网络节点di的话题多项分布,T为大于1的正整数,j为取值范围为1至T的正整数,m为取值范围为1至Mi的正整数;
所述确定单元还用于根据所述异构贝叶斯模型,确定第一网络节点与第一知识概念之间的有效联系,其中,所述第一网络节点为所述D个弱监督信息中的所有网络节点之一,所述第一知识概念为所述D个弱监督信息中的所有知识概念之一。
13.根据权利要求12所述的装置,其特征在于,生成单元具体用于:
随机确定所述Mi个第一话题隐变量的初始值和所述第二话题隐变量的初始值;
根据所述Mi个第一话题隐变量的初始值、所述第i个弱监督信息和所述Mi个知识概念的话题的条件概率,对所述Mi个第一话题隐变量进行tb次抽样更新,其中,所述Mi个知识概念的话题的条件概率中的每个知识概念的话题的条件概率表示所述每个知识概念的第一话题隐变量在给定除所述每个知识概念的第一话题隐变量之外的其他话题隐变量、所述第二话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点di的嵌入式向量的情况下的条件概率;
根据所述第二话题隐变量的初始值、所述第i个弱监督信息和所述网络节点di的话题的条件概率,对所述第二话题隐变量进行tb次抽样更新,其中,所述网络节点di的话题的条件概率表示所述网络节点di的第二话题隐变量在给定除所述网络节点di的第二话题隐变量之外的其他话题隐变量、所述Mi个第一话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点di的嵌入式向量的情况下的条件概率;
在对所述Mi个第一话题隐变量和所述第二话题隐变量分别进行tb次抽样更新之后,分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj、λj、μjm、λjm进行更新,以生成所述异构贝叶斯模型。
14.根据权利要求13所述的装置,其特征在于,所述在所述生成单元对所述Mi个第一话题隐变量和所述第二话题隐变量分别进行tb次抽样更新之后,分别对所述更新后的Mi个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μj、λj、μjm、λjm进行更新,包括:
根据所述更新后的Mi个第一话题隐变量、所述第i个弱监督信息和所述所述Mi个知识概念的话题的条件概率,对所述更新后的Mi个第一话题隐变量进行tp次抽样更新;
根据所述更新后的第二话题隐变量、所述第i个弱监督信息和所述网络节点di的话题的条件概率,对所述更新后的第二话题隐变量进行tp次抽样更新;
在对所述更新后的Mi个第一话题隐变量和所述更新后的第二话题隐变量分别进行tp次抽样更新之后,分别对θ、μj、λj、μjm、λjm进行更新。
15.根据权利要求13所述的装置,其特征在于,所述生成单元具体用于:分别对所述参数θ、μj、λj、μjm、λjm进行N次抽样更新,其中,所述N次更新中的每次更新均执行对所述更新后的Mi个第一话题隐变量进行tp次抽样更新,对所述更新后的Mi个第一话题隐变量进行tp次抽样更新和分别对θ、μj、λj、μjm、λjm进行更新,得到N次更新后的θ、μj、λj、μjm、λjm,
对所述N次更新后的θ累加求平均值,将θ累加求得的平均值作为更新后的所述异构贝叶斯模型的θ参数;
对所述N次更新后的μj累加求平均值,将μj累加求得的平均值作为更新后的所述异构贝叶斯模型的μj r参数;
对所述N次更新后的λj累加求平均值,将λj累加求得的平均值作为更新后的所述异构贝叶斯模型的λj参数;
对所述N次更新后的μjm累加求平均值,将μjm累加求得的平均值作为更新后的所述异构贝叶斯模型的μjm参数;
对所述N次更新后的λjm累加求平均值,将λjm累加求得的平均值作为更新后的所述异构贝叶斯模型的λjm参数。
16.根据权利要求13-15中任一项所述的装置,其特征在于,所述生成单元还用于:
根据所述网络节点di的嵌入式向量和所述Mi个知识概念的嵌入式向量,确定在给定所述Mi个第一隐变量和所述第二隐变量的情况下的初始对数似然;
根据所述初始对数似然,确定所述网络节点di的更新后的嵌入式向量;
根据所述初始对数似然,分别确定所述Mi个知识概念的更新后的嵌入式向量。
17.根据权利要求16所述的装置,其特征在于,所述生成单元根据所述初始对数似然,确定所述网络节点di的更新后的嵌入式向量,包括:
根据所述初始对数似然确定所述网络节点di的嵌入式向量的梯度;
根据所述网络节点di的嵌入式向量的梯度、所述网络节点学习率和所述网络节点di的嵌入式向量,确定所述所述网络节点di的更新后的嵌入式向量,其中,所述网络节点学习率表示所述所述网络节点di的嵌入式向量的梯度下降的学习率。
18.根据权利要求16所述的装置,其特征在于,所述生成单元根据所述初始对数似然,分别确定所述Mi个知识概念的更新后的嵌入式向量,包括:
根据所述初始对数似然分别确定所述Mi个知识概念的嵌入式向量的梯度;
根据所述Mi个知识概念的知识概念的嵌入表示的梯度、所述Mi个知识概念的知识概念学习率和所述Mi个知识概念的嵌入式向量,分别确定所述所述Mi个知识概念的更新后的嵌入式向量,其中,所述Mi个知识概念中的每个知识概念的知识概念学习率表示所述每个知识概念的嵌入式向量的梯度下降的学习率。
19.根据权利要求16至18中任一项所述的装置,其特征在于,所述生成单元还用于:
根据所述所述网络节点di的更新后的嵌入式向量和所述Mi个知识概念的更新后的嵌入式向量,确定在给定所述Mi个第一隐变量和所述第二隐变量的情况下的的更新对数似然;
若所述更新对数似然大于或等于所述初始对数似然,则将所述网络节点di的嵌入式向量替换为所述网络节点di的更新后的嵌入式向量,将所述Mi个知识概念的嵌入式向量替换为所述Mi个知识概念的更新后的嵌入式向量;
若所述更新对数似然小于所述初始对数似然,则将所述网络节点学习率更新为所述网络节点学习率与第一衰减指数的乘积,将所述Mi个知识概念的知识概念学习率分别更新为所述Mi个知识概念的知识概念学习率与第二衰减指数的乘积,并且保留所述网络节点di的嵌入式向量不变,保留所述Mi个知识概念的嵌入式向量不变,其中,所述第一衰减指数表示所述网络节点学习率的衰减程度,所述第二衰减指数表示所述Mi个知识概念学习率中的每个知识概念学习率的衰减程度。
20.根据权利要求12-19中任一项所述的装置,其特征在于,所述确定单元具体用于:
确定D个初始弱监督信息,所述D个初始弱监督信息中的第i个初始弱监督信息包括所述网络节点di和与所述网络节点di相关的所有知识概念;
根据所述所有知识概念中每个知识概念的分值和无监督生成率r,确定所述Mi个知识概念,其中,所述Mi个知识概念中的每一个知识概念的分值大于所述所有知识概念中除所述Mi个知识概念之外的每一个知识概念的分值,所述每个知识概念的分值表示所述每个知识概念处于所述所有知识概念的中心位置的程度,所述无监督生成率r为确定的知识概念的数量Mi与所述所有知识概念的数量的预设比值,r的取值范围为0至1。
21.根据权利要求12-20任一项所述的装置,其特征在于,所述装置还包括:
转换单元,用于根据知识概念集合、语料的长度和所述语料的最大N-gram长度,对所述语料进行转换,所述知识概念集合包括所述D个弱监督信息中的所有知识概念;
第一获取单元,用于将转换后的所述语料输入至skipgram模型,获取所述知识概念集合中每个知识概念的嵌入式向量。
22.根据权利要求12-20任一项所述的装置,其特征在于,所述确定单元还用于:
确定所述社交网络中的每个网络节点的加权概率,其中,所述每个网络节点的加权概率表示所述每个网络节点访问下一个网络节点的概率,所述社交网络中所有网络节点包括所述D个弱监督信息中的所有网络节点;根据所述每个网络节点的加权概率,确定所述每个网络节点的至少一个随机游走序列;
所述装置还包括第二获取单元,用于将所述每个网络节点的至少一个随机游走序列输入至skipgram模型,获取所述每个网络节点的嵌入式向量。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610311864.4A CN107369098B (zh) | 2016-05-11 | 2016-05-11 | 社交网络中数据的处理方法和装置 |
PCT/CN2017/075931 WO2017193685A1 (zh) | 2016-05-11 | 2017-03-08 | 社交网络中数据的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610311864.4A CN107369098B (zh) | 2016-05-11 | 2016-05-11 | 社交网络中数据的处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107369098A true CN107369098A (zh) | 2017-11-21 |
CN107369098B CN107369098B (zh) | 2021-10-26 |
Family
ID=60266019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610311864.4A Active CN107369098B (zh) | 2016-05-11 | 2016-05-11 | 社交网络中数据的处理方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107369098B (zh) |
WO (1) | WO2017193685A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508390A (zh) * | 2018-12-28 | 2019-03-22 | 北京金山安全软件有限公司 | 基于知识图谱的输入预测方法、装置和电子设备 |
CN109523373A (zh) * | 2018-11-13 | 2019-03-26 | 深圳前海微众银行股份有限公司 | 远程核身方法、设备及计算机可读存储介质 |
CN110019730A (zh) * | 2017-12-25 | 2019-07-16 | 上海智臻智能网络科技股份有限公司 | 自动交互系统及智能终端 |
CN114255056A (zh) * | 2020-09-19 | 2022-03-29 | 华为技术有限公司 | 广告显示方法及电子设备 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110727794A (zh) * | 2018-06-28 | 2020-01-24 | 上海传漾广告有限公司 | 一种网络语义收集分析及内容概括分析系统及方法 |
CN109492111B (zh) * | 2018-09-19 | 2023-05-30 | 平安科技(深圳)有限公司 | 最短路径查询方法、系统、计算机设备和存储介质 |
CN112580676B (zh) * | 2019-09-29 | 2024-08-20 | 北京京东振世信息技术有限公司 | 聚类方法、聚类装置、计算机可读介质及电子设备 |
CN111640033A (zh) * | 2020-04-11 | 2020-09-08 | 中国人民解放军战略支援部队信息工程大学 | 一种网络水军的检测方法及装置 |
CN111611530B (zh) * | 2020-05-20 | 2023-11-17 | 杭州中奥科技有限公司 | 案件与人员关系分析方法、装置及电子设备 |
CN113255918B (zh) * | 2021-04-13 | 2023-04-25 | 国家计算机网络与信息安全管理中心 | 强化聚合知识指导的生成常识推理方法 |
CN113792123B (zh) * | 2021-11-17 | 2022-02-15 | 广州极天信息技术股份有限公司 | 一种基于数据驱动的领域知识图谱构建方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110289035A1 (en) * | 2008-10-15 | 2011-11-24 | Alexander Stojadinovic | Clinical Decision Model |
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
CN103581270A (zh) * | 2012-08-08 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 用户推荐方法和系统 |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7433853B2 (en) * | 2004-07-12 | 2008-10-07 | Cardiac Pacemakers, Inc. | Expert system for patient medical information analysis |
CN103207860B (zh) * | 2012-01-11 | 2017-08-25 | 北大方正集团有限公司 | 舆情事件的实体关系抽取方法和装置 |
CN103268607B (zh) * | 2013-05-15 | 2016-10-12 | 电子科技大学 | 一种弱监督条件下的共同对象检测方法 |
CN104463249B (zh) * | 2014-12-09 | 2018-02-02 | 西北工业大学 | 一种基于弱监督学习框架的遥感图像机场检测方法 |
-
2016
- 2016-05-11 CN CN201610311864.4A patent/CN107369098B/zh active Active
-
2017
- 2017-03-08 WO PCT/CN2017/075931 patent/WO2017193685A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110289035A1 (en) * | 2008-10-15 | 2011-11-24 | Alexander Stojadinovic | Clinical Decision Model |
CN103581270A (zh) * | 2012-08-08 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 用户推荐方法和系统 |
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
Non-Patent Citations (2)
Title |
---|
QI GU,ET: "Modeling Opinion Dynamics in a Social Network", 《2013 IEEE/WIC/ACM INTERNATIONAL JOINT CONFERENCES ON WEB INTELLIGENCE (WI) AND INTELLIGENT AGENT TECHNOLOGIES (IAT)》 * |
ZHILIN YANG: "Multi-modal Bayesian embeddings for learning social knowledge graphs", 《HTTPS://ARXIV.ORG/ABS/1508.00715V2》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019730A (zh) * | 2017-12-25 | 2019-07-16 | 上海智臻智能网络科技股份有限公司 | 自动交互系统及智能终端 |
CN109523373A (zh) * | 2018-11-13 | 2019-03-26 | 深圳前海微众银行股份有限公司 | 远程核身方法、设备及计算机可读存储介质 |
CN109508390A (zh) * | 2018-12-28 | 2019-03-22 | 北京金山安全软件有限公司 | 基于知识图谱的输入预测方法、装置和电子设备 |
CN109508390B (zh) * | 2018-12-28 | 2021-12-14 | 北京金山安全软件有限公司 | 基于知识图谱的输入预测方法、装置和电子设备 |
CN114255056A (zh) * | 2020-09-19 | 2022-03-29 | 华为技术有限公司 | 广告显示方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107369098B (zh) | 2021-10-26 |
WO2017193685A1 (zh) | 2017-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107369098B (zh) | 社交网络中数据的处理方法和装置 | |
Dhingra et al. | Embedding text in hyperbolic spaces | |
Wu et al. | Learning to extract coherent summary via deep reinforcement learning | |
Zheng et al. | A deep and autoregressive approach for topic modeling of multimodal data | |
Gao et al. | Application of improved distributed naive Bayesian algorithms in text classification | |
Duarte et al. | A review of semi-supervised learning for text classification | |
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
CN108229582A (zh) | 一种面向医学领域的多任务命名实体识别对抗训练方法 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
Wu et al. | Chinese text classification based on character-level CNN and SVM | |
CN113380360B (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN113988012B (zh) | 融合社交上下文与多粒度关系的无监督社交媒体摘要方法 | |
CN118093860A (zh) | 一种基于文本嵌入向量聚类的多层次科研主题挖掘方法 | |
CN110299194A (zh) | 基于综合特征表示与改进宽深度模型的相似病例推荐方法 | |
CN113761192A (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
CN109977194B (zh) | 基于无监督学习的文本相似度计算方法、系统、设备及介质 | |
Fang et al. | Semantic sequential query expansion for biomedical article search | |
CN117057349A (zh) | 新闻文本关键词抽取方法、装置、计算机设备和存储介质 | |
CN111581960A (zh) | 一种获取医学文本语义相似度的方法 | |
Xu et al. | Text clustering based on pre-trained models and autoencoders | |
CN111339783B (zh) | 一种基于rntm的话题挖掘方法与装置 | |
Vasilev | Inferring gender of Reddit users | |
He et al. | Distant supervised relation extraction via long short term memory networks with sentence embedding | |
Ibrahiem et al. | Convolutional Neural Network Multi-Emotion Classifiers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |