CN106909643A

CN106909643A - 基于知识图谱的社交媒体大数据主题发现方法

Info

Publication number: CN106909643A
Application number: CN201710089527.XA
Authority: CN
Inventors: 黄震华; 倪娟; 程久军
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-02-20
Filing date: 2017-02-20
Publication date: 2017-06-30
Anticipated expiration: 2037-02-20
Also published as: CN106909643B

Abstract

本发明涉及一种基于知识图谱的社交媒体大数据主题发现方法，通过知识图谱概率化处理、社交媒体大数据语义相似度计算、主题的模糊密度聚类以及弱信息量主题过滤4个步骤来实现社交媒体大数据的主题发现。知识图谱概率化处理步骤完成知识图谱中三元组事实的置信度评估及其为真概率值的生成，社交媒体大数据语义相似度计算步骤实现每对文档的语义映射图构造以及基于近似图匹配策略评估文档间的语义相似度，主题的模糊密度聚类步骤获取社交媒体大数据的不同主题并自动确定主题的数量，而弱信息量主题过滤步骤删除语义强度不足的主题并将最优的主题列表返回给用户。与现有技术相比，本发明具有扩展性程度高、自适应能力强以及准确性高等优点，能够有效应用于社会公共安全、民众医疗健康、互联网深度信息服务和电子商务等领域。

Description

基于知识图谱的社交媒体大数据主题发现方法

技术领域

本发明涉及一种主题发现方法，尤其是涉及一种基于知识图谱的社交媒体大数据主题发现方法。

背景技术

近年来，随着云计算、移动通信和社交网络等技术的迅猛发展，社交媒体平台中所包含的大数据，即社交媒体大数据，越发显现4“V”(Volume、Velocity、Variety、Veracity)特性。随着日积月累，社交媒体大数据，蕴含着丰富的社会信息，其中包含着大量重要社会事件线索信息的网络映射，而这些网络映射信息通常看似杂乱无章的。深度分析和挖掘社交媒体大数据，快速精准地发现其中所隐含的深层次主题，进而在现有被发现主题的基础上，有效预测社会事件未来发展的态势，是促进国家社会治安稳定和知识经济可持续发展的重要手段。

社交媒体环境下的主题建模与发现方法，国内外有很多成熟的研究和应用。LHong等人分别采用了LDA模型与“作者-主题”模型对Twitter数据进行主题建模，以此来预测流行的Twitter话题并对推文(tweet)进行主题分类。KW Lim等人提出TN(Twitter网络)主题模型，以一种完全非参贝叶斯的方式来联合模拟文本和社交网络。TN主题模型采用PDP(泊松-狄利克雷过程)进行文本建模，而使用高斯过程的随机函数来实现社交网络建模。MJPaul等人基于ATAM(Ailment Topic Aspect Model)和LDA主题模型设计了一个主题建模框架来发现Twitter上的健康主题。TH Nguyen等人提出了一种面向社交媒体的“主题-评论”特征来实现股票价格的预测，并提出新颖的主题模型TSLDA(Topic Sentiment LatentDirichlet Allocation)来高效融合主题和评论。W Zhao等人利用LDA模型检测纽约时报中代表性主题，但由于推文的短文本特性使得LDA模型不能很好地发现Twitter中有代表性的主题。为此，作者提出了一种基于推文的LDA模型(Twitter-LDA)，然后使用文本挖掘技术对比Twitter和纽约时报的主题，并为进一步信息检索和数据挖掘的研究提供参考。

然而我们发现，社交媒体大数据有着许多自身的特点，包括时效性强、内容简短、碎片化程度高以及关联性强等。这些特点，使得现有技术存在如下两方面的缺陷，主要表现在：(1)现有技术大都基于PLSI(Probabilistic Latent Semantic Indexing)、LDA(LatentDirichlet Allocation)等主题模型(概率图模型)来实现主题发现。由于社交媒体大数据具有内容简短、碎片化程度高等特点，使得这些方法在捕获数据语义信息、自动确定主题数量以及过滤弱信息量主题等方面存在明显的缺陷，从而严重影响所发现主题的质量。(2)现有技术大都只注重结果的准确程度，然而社交媒体大数据的强时效性需要现有方法在准确率和时间代价之间取得均衡，并且具有较高的可扩展性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种高效、准确的社交媒体大数据主题发现方法，具有扩展性程度高、自适应能力强以及准确性高等优点。

本发明技术方案为：

一种基于知识图谱的社交媒体大数据主题发现方法，其特征在于，包括如下步骤：

步骤1、从输入端获取用户现有知识图谱KG＝{<e_i,r,e_j>}，其中e_i，e_j为知识图谱KG中的任意两个实体，r为实体e_i到e_j的关系，对于KG中的每一个三元组事实<e_i,r,e_j>，本发明识别出<e_i,r,e_j>的m个数据源DS₁,DS₂,…,DS_m，进而，对于每个数据源DS_x(1≤x≤m)，评估该数据源的可信度，最终融合这m个数据源的可信度来获取三元组事实<e_i,r,e_j>的置信值。当KG中的每一个三元组事实均处理完毕之后，本发明得到带置信值的中间知识图谱iKG＝{<e_i,r,e_j,cs>}，其中cs为三元组事实<e_i,r,e_j>的置信值。

接着，本发明对iKG中的置信值进行等价变换，并产生概率化知识图谱pKG＝{<e_i,r,e_j,pv>}，其中pv＝P(<e_i,r,e_j>为真|cs)，为条件概率，表示在置信值为cs的条件下，三元组事实<e_i,r,e_j>为真的概率，用于分别输入步骤2、步骤4。

步骤2、本发明针对社交媒体大数据中的每对文档d₁和d₂，分别抽取这两个文档的实体，进而基于步骤1中生成的概率化知识图谱pKG，将它们所包含的实体映射到pKG上，并融合pKG中实体间的关系及其概率值，从而构造出语义映射图G(V,E,W)，其中V＝V₁∪V₂∪V’，V₁和V₂分别为d₁和d₂这两个文档的实体集合，V’为pKG中V₁、V₂间关系链接需要访问的实体集合，E为pKG中V₁、V₂和V’实体间的关系集合，W为从四元组事实<e_i,r,e_j,pv>到语义强度域ST的映射函数，其中ST为非负实数域的一个真子集，即对于任意<e_i,r,e_j,pv>∈pKG，W(<e_i,r,e_j,pv>)＝st∈ST。

基于构造出来的语义映射图G(V,E,W)，本发明使用近似图匹配策略来获取d₁和d₂这两个文档的语义相似度。本发明首先对G(V,E,W)进行剪枝处理，即对于G(V,E,W)中不相交的两部分实体集合(对应d₁和d₂这两个文档中的实体)，只保留它们实体间的最小语义强度路径，并删除其它所有的路径，从而得到剪枝后的语义映射图G’(V’,E’,W’)，其中V’＝V，W’＝W，而E’为语义映射图G剪枝后所保留下来的关系。然后，本发明采用图编辑距离技术在语义映射图G’(V’,E’,W’)中进行近似的语义匹配，并计算出d₁和d₂这两个文档的近似语义相似度。

步骤3、当社交媒体大数据中每对文档的语义相似度计算完毕之后，本发明基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise，基于密度的聚类)算法，并重新构造DBSCAN算法中的距离度量函数DIS以及模糊化处理两个输入参数：即领域半径ε和领域内最少文档量miD，来实施文档主题的模糊聚类，并最终得到k个不同的主题T₁,T₂,…,T_k。

步骤4、本发明基于步骤1中产生的概率化知识图谱pKG，对步骤3产生的k个主题T₁,T₂,…,T_k进行语义强度评估，获取每个主题所包含的语义信息量，然后，对这些主题按照信息量的强弱进行降序排序形成主题列表。在此基础上，本发明构建编码长度函数cl(θ)，其中θ为主题列表的分割点，进而利用最小描述长度(MDL：Minimum Description Length)准则，通过最小化cl(θ)来获取θ的最佳取值，并将主题列表中分割点θ之后的主题执行删除操作，从而获得并向用户返回最优的θ个主题T’₁,T’₂,…,T’_θ。

本发明具有以下优点：

1、本发明充分考虑社交媒体大数据多模态并存的特点，从而具有较高的可用性。

2、本发明基于知识图谱，并利用知识图谱丰富的数据语义信息以及强大的语义推理能力，来实现社交媒体大数据深层次主题的发现，能够显著提高主题发现的准确度。

3、本发明对弱信息量主题进行有效过滤，能够解决主题发现过程中主题噪声干扰问题。

与现有技术相比，本发明具有扩展性程度高、自适应能力强以及准确性高等优点，能够有效应用于社会公共安全、民众医疗健康、互联网深度信息服务和电子商务等领域。

附图说明

图1本发明的工作流程图。

具体实施方式

工作流程如图1所示。

在步骤1中，本发明对于现有知识图谱KG中的每一个三元组事实<e_i,r,e_j>，识别出该三元组的m个数据源DS₁,DS₂,…,DS_m之后，需要对每个数据源DS_x(1≤x≤m)的可信度进行评估。由于DS_x包含大量的数据，而且数据的分布情况未知，因此我们很难精确评估其可信度，本发明采取近似评估策略，实施方式如下：对于数据源DS_x，首先抽取数量为w的三元组事实，组成集合TF_x＝{<e,r,e’>}，而w取值通过如下方式确定，记DS_x中三元组事实的个数为ψ：

其中min为取最小值函数。然后，本发明以TF_x集合为数据样本，训练并构造数据源DS_x中三元组事实置信值的回归预测模型。在此基础上，本发明利用Bootstrap自举重采样策略来近似计算并获取数据源DS_x的数据分布及其置信区间，继而使用蒙特卡罗(MonteCarlo)仿真技术，基于近似的数据分布进行随机抽取多个不同的三元组，并利用训练获得的的回归预测模型求取它们的置信值，最后对这些置信值计算平均值，作为数据源DS_x的近似可信度cs(DS_x)。

在三元组事实<e_i,r,e_j>的m个数据源DS₁,DS₂,…,DS_m可信度获取的基础上，本发明通过加权的方式来求得三元组事实<e_i,r,e_j>的最终置信值：

其中cs(<e_i,r,e_j>|DS_x)为三元组事实<e_i,r,e_j>在数据源DS_x中的置信值。

当KG中的每一个三元组事实均处理完毕之后，本发明得到带置信值的中间知识图谱iKG＝{<e_i,r,e_j,cs>}，其中cs为三元组事实<e_i,r,e_j>的置信值。本发明在中间知识图谱iKG的基础上，产生概率化知识图谱pKG＝{<e_i,r,e_j,pv>}，其中pv＝P(<e_i,r,e_j>为真|cs)，为条件概率，即pv等于在置信值为cs的条件下，三元组事实<e_i,r,e_j>为真的概率。本发明通过构造P(<e_i,r,e_j>为真|cs)的学习模型M来获得<e_i,r,e_j>所对应的pv值，学习模型M表示为：

其中e为自然对数的底数，而λ₁和λ₂是学习模型M的两个参数，采用LM(Levenberg-Marquardt)算法或牛顿法进行训练来获取最终最优参数值。

在步骤2中，对于社交媒体大数据中的任意两个文档d₁和d₂，本发明构造其对应的语义映射图G(V,E,W)方法如下：首先利用Stanford CoreNLP工具分别抽取这两个文档的实体，抽取后的实体集合分别记为S(d₁)和S(d₂)，然后，对于S(d₁)中的每个实体e，在所述概率化知识图谱pKG中识别并定位出e，从而得到S(d₁)在pKG上的实体集合V₁，同样对于S(d₂)中的每个实体e’，在pKG中识别并定位出e’，从而得到S(d₂)在pKG上的实体集合V₂。接着，在pKG中，获取V₁中各实体与V₂中各实体之间链接所需要访问的实体集合V’。

在此基础上，本发明计算出语义映射图G的三个组成参数V,E和W：1)V为G的顶点集合，V＝V₁∪V₂∪V’；2)E为G的边集合，3)W为从G中每个三元组事实<e_i,r,e_j>到语义强度域ST的映射函数，其中ST为非负实数域的一个真子集，即对于任意<e_i,r,e_j>∈G，W(<e_i,r,e_j>)＝st∈ST，st取值计算过程为：首先在pKG中获取<e_i,r,e_j>的置信值pv，然后求得：

st＝pv×{IC(e_i)+IC(r)+PMI(r,e_j)}，

其中IC(e_i)＝-log₂P(e_i)和IC(r)＝-log₂P(r)分别是e_i和r的信息量，P(e_i)为e_i在概率化知识图谱pKG所有实体中出现的概率，而P(r)为r在概率化知识图谱pKG所有关系中出现的概率；PMI(r,e_j)为r和e_j间的点互信息，即：

P(r,e_j)为概率化知识图谱pKG中四元组事实<*,r,e_j,*>出现的概率，*为通配符。

在语义映射图G(V,E,W)构造完毕之后，本发明使用近似的图语义匹配策略，来计算d₁和d₂这两个文档之间的语义相似度，具体实施方式如下：本发明首先对G(V,E,W)进行剪枝处理，即对于G(V,E,W)中不相交的两部分实体集合(对应d₁和d₂这两个文档中的实体)，只保留它们实体间的最小语义强度路径，并删除其它所有的路径，从而得到剪枝后的语义映射图G’(V’,E’,W’)，其中V’＝V，W’＝W，而E’为语义映射图G剪枝后所保留下来的关系。然后，本发明基于图编辑距离技术来进行近似的语义匹配，即在G’(V’,E’,W’)中，计算出最优的图编辑距离变换过程，该过程等价于获取具有最小语义强度代价的如下变换：通过对文档d₁中的实体进行插入、删除、修改操作变换成文档d₂中的实体。在该变换过程中，本发明首先构造编辑距离矩阵H来存储d₁中各实体与d₂中各实体之间的最短语义强度，并对编辑距离矩阵H进行标准化处理，然后基于匈牙利(Hungarian)算法来获取近似最优的图编辑距离变换。

在步骤3中，当社交媒体大数据中每对文档的语义相似度计算完毕之后，本发明基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise，基于密度的聚类)算法，并重新构造DBSCAN算法中的距离度量函数DIS以及模糊化处理两个输入参数：即领域半径ε和领域内最少文档量miD，来实施文档主题的模糊聚类，并最终得到k个不同的主题T₁,T₂,…,T_k。

在发明中，两个文档d₁和d₂的距离DIS(d₁,d₂)定义为：

其中e为自然对数的底数，sim(d₁,d₂)为文档d₁和d₂间的语义相似度。

领域半径参数ε模糊化处理的具体实施过程为：本发明首先使用数值区间[ε₁,ε₂]来代替ε，其中在此基础上构建两文档d₁和d₂关于数值区间[ε₁,ε₂]的隶属度函数LD(d₁,d₂,[ε₁,ε₂])：

领域内最少文档量参数miD模糊化处理的具体实施过程为：本发明首先使用数值区间[α₁,α₂]来代替miD，其中e为自然对数的底数，在此基础上构建领域内文档数量n关于数值区间[α₁,α₂]的隶属度函数LD(n,[α₁,α₂])：

在步骤4中，针对步骤3中获得的k个主题T₁,T₂,…,T_k，本发明首先基于步骤1产生的概率化知识图谱pKG，计算每个主题T_i(1≤i≤k)的语义强度st(T_i)：

其中d_j为主题T_i所包含的每个文档，st(d_j)为它的语义强度，计算方式如下：

其中e_z为文档d_j所包含的每个实体，IC(e_z)＝-log₂P(e_z)为e_z的信息量，P(e_z)为e_z在pKG所有实体中出现的概率。

然后，对这k个主题T₁,T₂,…,T_k按照语义强度的强弱进行降序排序，并形成主题列表TL＝<T’₁,T’₂,…,T’_k>。接着，本发明基于主题列表TL构造编码长度函数cl(θ)，其中θ为主题列表的分割点，构建过程如下：(1)将主题列表TL分割成两个子列表TL₁＝<T’₁,T’₂,…,T’_θ>和TL₂＝<T’_θ+1,T’_θ+2,…,T’_k>；(2)对于子列表TL₁，本发明首先计算TL₁中θ个主题的语义强度平均值Ψ(TL₁)：

然后，对于TL₁中的每个主题T’_x(1≤x≤θ)，本发明计算Ψ(TL₁)与T’_x语义强度间的差值，即I_x＝Ψ(TL₁)-st(T’_x)；(3)同样，对于子列表TL₂，本发明首先计算TL₂中k-θ个主题的语义强度平均值Ψ(TL₂)：

然后，对于TL₂中的每个主题T’_y(θ+1≤y≤k)，本发明计算T’_y语义强度与Ψ(TL₂)间的差值，即I_y＝st(T’_y)-Ψ(TL₂)；(4)基于(2)和(3)，编码长度函数cl(θ)表示为：

当构造完毕编码长度函数cl(θ)之后，本发明利用最小描述长度(MDL：MinimumDescription Length)准则，通过最小化cl(θ)来获取θ的最佳取值，并将主题列表中分割点θ之后的主题执行删除操作，从而获得并向用户返回最优的θ个主题T’₁,T’₂,…,T’_θ。

Claims

1.一种基于知识图谱的社交媒体大数据主题发现方法，其特征在于，包括如下步骤：

步骤1、从输入端获取用户现有知识图谱KG＝{<e_i,r,e_j>}，其中e_i，e_j为知识图谱KG中的任意两个实体，r为实体e_i到e_j的关系，对于KG中的每一个三元组事实<e_i,r,e_j>，识别出<e_i,r,e_j>的m个数据源DS₁,DS₂,…,DS_m，进而，对于每个数据源DS_x(1≤x≤m)，评估该数据源的可信度，最终融合这m个数据源的可信度来获取三元组事实<e_i,r,e_j>的置信值；当KG中的每一个三元组事实均处理完毕之后，得到带置信值的中间知识图谱iKG＝{<e_i,r,e_j,cs>}，其中cs为三元组事实<e_i,r,e_j>的置信值；接着，对iKG中的置信值进行等价变换，并产生概率化知识图谱pKG＝{<e_i,r,e_j,pv>}，其中pv＝P(<e_i,r,e_j>为真|cs)，为条件概率，表示在置信值为cs的条件下，三元组事实<e_i,r,e_j>为真的概率，用于分别输入步骤2、步骤4；

步骤2、针对社交媒体大数据中的每对文档d₁和d₂，分别抽取这两个文档的实体，进而基于步骤1中生成的概率化知识图谱pKG，将它们所包含的实体映射到pKG上，并融合pKG中实体间的关系及其概率值，从而构造出语义映射图G(V,E,W)，其中V＝V₁∪V₂∪V’，V₁和V₂分别为d₁和d₂这两个文档的实体集合，V’为pKG中V₁、V₂间关系链接需要访问的实体集合，E为pKG中V₁、V₂和V’实体间的关系集合，W为从四元组事实<e_i,r,e_j,pv>到语义强度域ST的映射函数，其中ST为非负实数域的一个真子集，即对于任意<e_i,r,e_j,pv>∈pKG，W(<e_i,r,e_j,pv>)＝st∈ST；基于构造出来的语义映射图G(V,E,W)，使用近似图匹配策略来获取d₁和d₂这两个文档的语义相似度；

步骤3、当社交媒体大数据中每对文档的语义相似度计算完毕之后，基于DBSCAN(Density-BasedSpatial Clustering of Applications with Noise，基于密度的聚类)算法，并重新构造DBSCAN算法中的距离度量函数DIS以及模糊化处理两个输入参数：即领域半径ε和领域内最少文档量miD，来实施文档主题的模糊聚类，并最终得到k个不同的主题T₁,T₂,…,T_k；

步骤4、本发明基于步骤1中产生的概率化知识图谱pKG，对步骤3产生的k个主题T₁,T₂,…,T_k进行语义强度评估，获取每个主题所包含的语义信息量，然后，对这些主题按照信息量的强弱进行降序排序形成主题列表；在此基础上，构建编码长度函数cl(θ)，其中θ为主题列表的分割点，进而利用最小描述长度(MDL：Minimum Description Length)准则，通过最小化cl(θ)来获取θ的最佳取值，并将主题列表中分割点θ之后的主题执行删除操作，从而获得并向用户返回最优的θ个主题T’₁,T’₂,…,T’_θ。

2.如权利要求1所述的基于知识图谱的社交媒体大数据主题发现方法，其特征在于，步骤2中，所述使用近似图匹配策略来获取d₁和d₂这两个文档的语义相似度，具体为：

首先对G(V,E,W)进行剪枝处理，即对于G(V,E,W)中不相交的两部分实体集合(对应d₁和d₂这两个文档中的实体)，只保留它们实体间的最小语义强度路径，并删除其它所有的路径，从而得到剪枝后的语义映射图G’(V’,E’,W’)，其中V’＝V，W’＝W，而E’为语义映射图G剪枝后所保留下来的关系；然后，采用图编辑距离技术在语义映射图G’(V’,E’,W’)中进行近似的语义匹配，并计算出d₁和d₂这两个文档的近似语义相似度。