CN109508385B - 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 - Google Patents
一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 Download PDFInfo
- Publication number
- CN109508385B CN109508385B CN201811310690.5A CN201811310690A CN109508385B CN 109508385 B CN109508385 B CN 109508385B CN 201811310690 A CN201811310690 A CN 201811310690A CN 109508385 B CN109508385 B CN 109508385B
- Authority
- CN
- China
- Prior art keywords
- bayesian network
- entity
- character
- nodes
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
人物实体之间的关系抽取和依赖关系分析,可为舆情传播、推荐系统、精准营销领域提供有力支持。现实中许多人物实体之间并不具有直接关系,而往往通过其他实体间接地关联成网状关系,现有人物关系抽取方法只能判定少量的预定义人物关系类型,不能实现网状人物关系的定量分析。本发明引入公开的人物实体知识库,利用自组织映射方法,将高维和稀疏的网页新闻数据处理为完备的训练数据,构建用以描述网页新闻数据中所涉及各类实体之间依赖关系的贝叶斯网,关注基于贝叶斯网的人物实体关联建模与分析,同时利用历史网页中的知识和新网页中的信息,进行人物关系的定量分析推断,充分利用信息资源,有效提高了人物关系分析的准确性和效率。
Description
技术领域
本发明公开了一种网页新闻数据中的人物关系分析方法,涉及从网页新闻数据进行贝叶斯网的结构学习和参数学习,以及支持人物关系分析的概率推理,属于知识发现领域。
背景技术
从文本信息中抽取出满足人们特定需求的有用知识,以产生经济效益和社会效益,是信息抽取技术的重要目标和任务。基于文本信息的关系抽取(Relation Extraction)是信息抽取的重要课题,其任务是从文本信息中识别并获取实体之间的关系。文本信息可以有多种来源,如在线社区、博客、微博、网页新闻。近年来,各种传统新闻媒体将重心转移到互联网平台上,通过网页载体来发布新闻。网页新闻具有表达规范、时效性强、题材广泛、数据量大等特点,为关系抽取提供了一类可用的数据源。从网页新闻数据中可抽取出各种实体之间的关系,如时间、地点、人物;其中,人物之间的关系(Person Relation)抽取和依赖关系分析,可为舆情传播、推荐系统、精准营销领域提供有力支持,例如,公安机关可以发现可疑团伙或治安风险,舆情监管部门可以发现热点事件中的意见领袖和传播路径,政府部门可以得到政策直接或间接影响到的人群。
传统的人物关系抽取需要事先定义人物关系类型,而人工定义的类型难免存在不准确、类型不完全等问题。公知的人物关系抽取方法基本上都是对预定义的人物关系类型进行判定或查询,例如,刘永坚等(<专利201710026230.9>,2017)从人物关系抽取结果来构建知识库,当用户查询特定人物时,基于知识库中预定义的人物关系类型返回相关的人物。罗森林等(<专利201610866186.8>,2016)通过训练语料而构造三元组特征空间,对用户查询的三元组进行判定,利用置信度最大化原则判定所属的人物关系类别。张勇(<专利201610920348.1>,2016),以分词处理结果中的词向量为输入、预定义的人物关系类别为输出,训练神经网络并提供给用户使用。
现实中的人物关系往往表现为多对多的关系网,适合用图模型来描述。同时,人物之间的关系具有不确定性,这种不确定性来源于人们对客观世界的观察及建模能力的有限性,也来源于人物关系固有的未知、不清晰等特点。概率图模型是能表达不确定性的图模型,作为一种支持概率推理的重要概率图模型,贝叶斯网(Bayesian Network,BN)是以随机变量为节点的有向无环图(DirectedAcyclic Graph,DAG),每个节点有一张条件概率表(Conditional Probability Table,CPT)、定量描述变量间相互影响的程度,贝叶斯网能很好地表达现实中人物实体之间存在的依赖关系及其不确定性,本发明基于贝叶斯网来描述并分析网页新闻数据中蕴含的人物关系。
基于贝叶斯网的网页新闻数据中人物关系分析,既可表示历史网页新闻数据中蕴含的人物关系,也可基于历史数据中的人物关系来分析推断新网页中的人物关系。公知的利用贝叶斯网对互联网文本信息进行分析的方法,对新数据中包含的信息进行分析处理,未涉及基于历史数据中蕴含的知识对新数据的分析。例如,佘玉轩等(<计算机工程>,2018)提出基于贝叶斯网的无监督新闻故事线挖掘算法,将新闻故事线视为日期、时间、机构、人物、地点、主题和关键词的联合概率分布,具有较好的故事线挖掘能力,但仅考虑了新闻中直接给出的信息,未涉及间接关系的挖掘;冯军军等(<计算机与数字工程>,2017)以文档频数作为文本特征,通过构建朴素贝叶斯网模型来实现微博话题的追踪,具有分类简单、效率高等优点,但依赖于微博内容中给出的直接信息。
现实中许多人物实体之间并不具有直接关系,而往往通过其他实体间接地关联起来,这些实体可以是人物、机构、物品、事件等,例如,人们因为共同参加一个会议或拥有共同的朋友,进而认识并形成间接的人物关系。本发明将历史网页新闻数据作为训练数据来构建贝叶斯网,包括贝叶斯网的结构学习和参数学习,从而描述历史网页新闻数据中所涉及各类实体之间的依赖关系,节点代表这些实体,边描述实体之间的依赖关系,各节点的条件概率参数定量地描述人物之间相互依赖的程度。进一步使用贝叶斯网的推理方法,一方面,对于任意给定的人物实体或人物实体集,可容易地发现历史网页中人物实体之间存在的间接关系;另一方面,若新网页中的人物实体与历史网页中的人物实体来自相同论域,则将新网页中的人物实体作为推理的证据,将贝叶斯网中所涉及历史网页中的人物实体作为推理的目标,可得到给定新网页中人物实体时,历史网页中其他人物实体节点不同取值的概率分布,作为给定新网页中人物实体与历史网页中人物实体之间关联关系的不确定性,即同时利用历史网页中蕴含的知识和新网页中的信息来实现网页新闻数据中人物关系的分析。
发明内容
本发明的目的:为解决公知的人物关系分析方法只能对少量的预定义人物关系类型进行判定、缺乏通用性和语义准确性等问题,本发明基于网页新闻数据、引入互联网上公开的人物实体知识库,构建用以描述网页新闻数据中所涉及各类实体之间依赖关系的贝叶斯网,关注基于贝叶斯网的人物实体关联建模与分析。
为解决公知技术只能分析新网页中给出的直接信息、而无法利用历史网页中所蕴含知识的问题,本发明基于贝叶斯网的推理方法,同时利用历史网页中的知识和新网页中的信息,进行人物关系的分析推断。
本发明的执行过程分为4个步骤。
(1)预处理:对网页新闻中的本文数据进行处理,统计实体实例数,作为贝叶斯网结构学习和参数学习的特征数据。
(2)贝叶斯网结构学习:利用预处理得到的数据,学习贝叶斯网的有向无环图结构。
(3)贝叶斯网参数学习:利用预处理得到的数据和学习得到的有向无环图结构,学习贝叶斯网的条件概率参数,以表格形式输出。
(4)基于贝叶斯网概率推理的人物关系分析:同时利用历史网页中的知识和新网页中的信息进行人物关系分析,以新网页中的信息作为证据,使用贝叶斯网的概率推理方法,分析贝叶斯网中与新网页中人物实体相关的人物实体。
具体步骤如下:
1:预处理
1.1:对人物实体知识图谱进行自组织映射
从互联网获取或根据领域知识给定知识图谱,记为KG,KG包含人物实体节点和非人物实体节点;对于KG中的所有节点,以其邻接节点为特征进行自组织映射(SelfOrganization Map,SOM),使原本具有高维特征的节点降维至二维平面并记录坐标;具体过程如下:
1.1.1:构建特征向量
1.1.2:设计SOM网络的结构
SOM网络的输入是任意个高维的特征向量Xa,输出是n2个输出神经元向量Wj,其中n大于等于10以及j=0,1,…,n2-1;n取值越大,SOM处理结果越精确但效率越低,根据KG中人物实体数量、以既保证精度也保证效率为原则设置n的取值,输出神经元向量Wj的维度与输入特征向量Xa的维度相等;每个输出神经元向量Wj都可视为聚类结果中的一个类,所有输入的高维特征向量Xa在SOM结束后都将归入某个输出神经元向量Wj代表的类中;同时,每个输出神经元向量Wj都具有一个二维坐标(Wj,x,Wj,y),其中Wj,x=0,1,…,n-1且Wj,y=0,1,…,n-1;每个分配到Wj的特征向量Xa都将继承Wj的二维坐标(Wj,x,Wj,y);
1.1.3:初始化SOM网络的参数
迭代计数器t的初始值为1,最大迭代次数T大于等于10,期望误差率ε,其中0<ε<1,第一次迭代时的学习率为b1,其中0<b1<1,每个输出神经元向量Wj的初始值初始化为零向量,初始邻域大小为Nj,其中Nj>0;邻域的形状是以Nj为半径的圆,邻域内的输出神经元向量Wj会受到输入的特征向量Xa影响而改变取值;随着邻域的缩小,输出神经元向量Wj的取值逐渐收敛于一个稳定值,使得Wj与划分到Wj的所有特征向量Xa的欧式距离之和达到一个局部极小值,说明已完成输入特征向量的自组织映射;
1.1.4:SOM按如下步骤进行:
(1)迭代计数器t加1;
(2)对第j个,其中j=0,1,…,n2-1,输出神经元向量Wj,使用式(1-1)计算Xa与Wj的欧式距离dj,Xa,i代表Xa的第i个分量,Wj,i代表Wj的第i个分量;
(3)比较所有距离dj,其中j=0,1,...,n2-1,特征向量中具有最小欧式距离的神经元为最佳神经元,记为C;
(4)按式(1-2)更新学习率bt;
bt=b1×(1-t/T) (1-2)
(5)按式(1-3)更新最佳神经元C及其邻域内神经元的邻域大小;Nc,t代表第t次迭代时最佳神经元C邻域内、包括C在内的输出神经元向量的邻域大小,floor是向下取整函数;
Nc,t=floor[Nc,1×(1-t/T)] (1-3)
(6)按式(1-4)更新最佳神经元C及其邻域内神经元的向量值;Wc,t代表第t次迭代时最佳神经元C邻域、包括C在内的输出神经元向量;
Wc,t=Wc,t-1+bt×(t-1)×(Xa-Wc,t-1) (1-4)
(7)按式(1-5)计算第t次迭代时整个SOM网络的误差率Et;若Et收敛于期望误差率或达到最大迭代次数,则进入步骤1.1.5,否则重新执行步骤1.1.4;
1.1.5:计算节点间的相似性
高维特征向量Xa通过步骤1.1.4进行自组织映射处理后,都将归入某个输出神经元向量Wj所代表的类中,并继承Wj的二维坐标(Wj,x,Wj,y);知识图谱KG中任意2个用二维坐标描述的节点之间的欧式距离越小,则这2个节点特征值越相似,使用式(1-6)度量相似性
similarity(O1,O2)=exp{-[euc(O1,O2)]} (1-6)
其中,对于需要计算相似性的2个节点O1和O2,euc函数计算这2个节点在输出二维平面上的欧式距离,exp代表指数函数;当2个节点坐标相同时,相似性等于1;当2个节点之间的距离趋向无穷大时,相似性趋近0;
1.2:接收初始人物关系查询集合并补充节点
用户给出的初始查询的形式是一个人物实体集合Qp;从知识图谱KG中找到Qp集合中所有节点的邻接节点,将这些邻接节点加入Qp,从而形成包含了人物实体节点和非人物实体节点的扩展集合Qa,作为后续步骤中贝叶斯网的节点集;
1.3:网页新闻数据中的实体实例数统计
1.4:对实例数统计量进行归一化处理并映射到区间[1,L]后取整
对于包含了人物实体节点和非人物实体节点的扩展集合Qa,每一个短句s都对应Qa中所有元素实例数的统计量,根据式(1-7),该统计量的取值有无穷多个,为了方便构建贝叶斯网,根据网页新闻数据中不同名词实体数及频繁程度,设置每个实体节点的L种状态,并将Qa中所有元素的实例数统计量首先进行归一化处理,先将其乘以L映射到[1,L]区间,然后四舍五入取整再加1,最终得到1、2、…、L,即每个名词实体节点的L种状态,刻画某个名词实体在某个句子中出现的频繁程度,数字越大则频繁程度越高;
2:贝叶斯网结构学习
步骤1将网页新闻数据中的文本数据转换为用于构建贝叶斯网的训练数据,以供本步骤中贝叶斯网结构学习使用;
2.1:贝叶斯网结构评分
本发明基于评分搜索(Scoring&Search)方法进行贝叶斯网的结构学习;基于训练数据、使用式(2-1)计算某个候选网络结构Gc的评分,反映Gc与观测数据之间的吻合程度
其中,o代表贝叶斯网中节点的数量,pi是节点Vi取值组合的数目,qi是节点Vi父节点Ui取值组合的数目;由于贝叶斯网中每个节点有L种状态,所以pi=qi=L;Nijk表示训练数据中Vi为第j个状态、Ui为第k个状态时的实例数,可从训练数据中通过统计计数得到,且Gc的分数score(Gc)是Gc对人物依赖关系表达能力的量化评估,分数越高,代表该结构越符合观测数据中蕴含的人物依赖关系;
2.2:搜索最优贝叶斯网结构
采用贪婪爬山法进行最优网络结构搜索,优点在于适合大规模数据、不对网络结构做限制,不会因算法本身的限制而影响搜索结果的准确性;初始时,一个无边的图结构代表人物节点之间没有任何依赖关系,该结构同时是初始最优结构;从这个无边的图结构开始,在每一步通过单次的边添加即添加人物依赖关系、边删除即删除人物依赖关系、边反转即反转人物依赖关系,操作生成一组当前候选最优结构,按式(2-1)计算各候选网络结构的评分,并找到其中评分最高者作为新的最优网络结构;重复执行这一过程,直到评分不再提高,最终得到一个可以描述网页新闻数据中人物依赖关系的网络结构Gb;
3:贝叶斯网参数学习
3.1:使用条件概率表记录贝叶斯网各节点的条件概率分布
基于步骤1提供的训练数据和步骤2得到的贝叶斯网结构Gb进行贝叶斯网参数学习;由于在步骤1中进行了自组织映射处理、并给出了节点相似性计算函数,因此所使用的网页新闻数据可视为完备数据,且节点的实例数并不存在先验概率;本发明通过统计训练数据中的实例数来计算各节点的条件概率表,作为参数学习的结果;对于父节点集为U的变量V,将U中实体集在网页新闻句子中的频繁程度对V中实体频繁程度的影响度作为条件概率P(V=v|U=u),定量地给出贝叶斯网中V和U之间的依赖关系,计算方法如式(3-1)
其中,Nvu表示变量V取值为v、U取值为u时的实例数,Nu表示U取值为u时的实例数,两者均可从训练数据中计数得到;然后,将P(V=v|U=u)结果填入对应位置,得到贝叶斯网的条件概率表;步骤2得到的贝叶斯网结构中,每一个节点都将生成一个条件概率表;
4:基于贝叶斯网概率推理的网页新闻数据中人物关系分析
4.1:从新网页获取贝叶斯网推理的证据
步骤4的输入是一个未处理过的新网页Nn,用户查询中包含Nn中的任意人物实体或人物实体集,使用步骤1.3和1.4所述的方法进行处理,抽取出Nn中的人物实体集合;新网页与历史网页中的人物实体来自相同论域,作为贝叶斯网推理的证据Qe;
4.2:基于贝叶斯网进行概率推理并输出相关人物实体节点的状态和概率
贝叶斯网的概率推理基于贝叶斯公式实现,对于事件A和事件B,贝叶斯公式如式(4-1)
在本发明中,步骤1.2得到贝叶斯网的节点集Qa,描述历史新闻网页中人物实体;步骤4.1得到贝叶斯网推理的证据Qe,描述新网页中给定的人物实体;Qa中Qe的补集Qf为贝叶斯网推理的目标,即与Qe中人物实体相关的人物实体集;对此,式(4-1)可具体表示为式(4-2)
利用步骤2得到的贝叶斯网结构,通过条件独立性简化式(4-2)的概率计算,利用3.1中得到的贝叶斯网中各节点的条件概率表,可得到联合概率分布P(Qe,Qf),表示给定人物实体Qe时贝叶斯网中其他人物实体的状态及概率分布;针对Qf中的每个人物实体e,得到Ye={<1,p1>,<2,p2>,…,<L,pL>},将其表示为Ye={<v,pv>|v=1,2,…,L},即与Qe中人物实体相关的人物实体的状态及概率分布;
为了对Qf中的每一个人物实体进行相关性的排序,综合判断人物实体之间的相关性,使用式(4-3)求出Qf中每一个人物实体的综合评价值;该值越大,则相应人物实体与新网页中人物实体的相关性就越强;按该值对Qf中的人物实体进行非降序排序输出,可为舆情传播、推荐系统、精准营销等领域的关联分析提供有力支持
与现有技术相比本发明具有的优点及积极效果
(1)本发明使用贝叶斯网作为网页新闻数据中所涉及实体之间依赖关系建模和推理的基本框架,有效地描述了网页新闻数据中实体之间的任意形式的相关性及其不确定性;可有效地描述人物实体之间通过其他人物、机构、物品、事件等实体产生的间接相关性,以定性和定量的方式更加客观、完备、深层次地对人物关系进行建模。
(2)本发明引入互联网上公开的人物实体知识图谱,确定人物关系分析的论域,保证了人物关系分析中人物实体本身的客观性和完备性,也保证了语义层面的有效性;使用自组织映射方法对网页新闻中的名词实体进行预处理,从实际应用的角度,保证了从高维和稀疏的网页新闻数据得到的训练数据的完备性,同时也提供了一种将高维数据映射到二维空间的统一的、便于计算的数据预处理机制。
(3)本发明对于任意给定的人物实体,可容易地利用贝叶斯网的概率推理方法来发现历史网页中人物实体之间存在的间接关系,并且可将新网页中的人物实体作为推理的证据,将历史网页中的人物实体作为推理的目标来实现网页新闻数据中人物关系的分析。
(4)本发明有效利用贝叶斯网的概率推理机制进行网页新闻数据中人物关系的分析,无需根据具体查询任务来重构模型或即席构建计算表达式,保证了人物关系分析的高效性。
附图说明
图1:本发明的技术路线图
图2:贪婪爬山法搜索到的前9个最优结构
图3:表2中包含28个节点的贝叶斯网结构
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例:“某新闻网站”中的网页新闻数据的人物关系分析。
1:预处理
按照步骤1.1,从互联网获取公开的知识图谱KG,KG中共有109332个实体,包含人物实体和非人物实体。对于KG的所有实体,以其邻接实体为特征进行自组织映射,输出50乘以50个神经元向量Wj,其中j=0,1,…,502-1。每个输出神经元向量Wj都可视为聚类结果中的一个类,所有实体在自组织映射结束后都将归入某个输出神经元向量Wj代表的类中。同时,每个输出神经元向量Wj都具有二维坐标(Wj,x,Wj,y)(Wj,x=0,1,…,49,Wj,y=0,1,…,49),每个分配到Wj的实体都将继承Wj的二维坐标(Wj,x,Wj,y)。部分知识图谱实体的名称、序号和二维坐标如表1所示。
表1.经过自组织映射后知识图谱实体的名称、序号、二维坐标
实体名称 | 实体序号 | x坐标 | y坐标 |
头发 | 1 | 47 | 1 |
隔天 | 2 | 3 | 31 |
习惯 | 3 | 49 | 2 |
…… | …… | …… | …… |
熏鱼 | 109330 | 19 | 9 |
湖泊 | 109331 | 24 | 22 |
城前 | 109332 | 28 | 27 |
按照步骤1.2,若用户拟分析“导演一”和“演员一”这两个人物之间的关系,查询集合Qp={导演一,演员一}。从KG中找到Qp中各节点的邻接节点,将这些邻接节点加入Qp形成包含了人物实体节点和非人物实体节点的扩展集合Qa,作为贝叶斯网的变量集。Qa包含28个元素,以方便后续表示,从0开始编号,如表2所示,考虑表示的方便,用x和y分别表示坐标中的两个维度的取值。
表2.扩展集合Qa的编号、节点、坐标
根据步骤1.3,从“某新闻网站”2017年网页新闻数据中任意选择10000个句子。以句子s“一部由编剧一编剧、导演三执导、演员十三主演的电影《电影一》在中国掀起一场全民热议”为例,该句子中可以提取出“编剧一”、“导演三”、“演员十三”、“电影”、“电影一”、“中国”、“全民”共7个实体。利用自然语言处理技术,对集合Qa中每个元素Qa,e进行统计计数,得到实例数如表3中/>列所示。根据步骤1.4对s中所有实体按式(1-7)处理得到的/>进行归一化处理并映射到区间[1,5]后取整,结果如表3中“归一化”、“映射到[1,5]”和“取整加1”等列所示。在表3“取整”列中的数据构成s中的一条贝叶斯网训练数据,采用相同的方法处理其他9999个句子,得到训练数据集。
2:贝叶斯网结构学习
按照步骤2.1,基于预处理得到的数据集,使用式(2-1)对一个候选结构进行评分,以表2中的前10个节点为代表,对贝叶斯网结构进行评分,表4给出了3条训练数据中的相关节点、序号和取值。
表4.训练数据片段
第一个候选结构Gc1={“8_地名一”→“5_微博”},从训练数据中可以统计到N623=1,N624=1,N625=1,其余Nijk=0,N62=3,则
第二个候选结构Gc2={“9_娱乐圈”→“5_微博”},从训练数据中可以统计到N623=1,N625=1,其余Nijk=0,N62=3,则
根据评分可知,候选结构Gc2分数高于候选结构Gc1的分数,Gc2优于Gc1。
按照步骤2.2,采用贪婪爬山法搜索表2中28个节点的最优网络结构。以表2中28个节点的无边结构开始,在每一步通过单次的边添加即添加人物依赖关系、边删除即删除人物依赖关系、边反转即反转人物依赖关系,操作生成当前一组候选结构。分别计算各候选结构的评分,并找到其中评分最高者作为新的最优结构,搜索过程中的前9个最优结构如图2所示,其中节点的标签由节点序号、下划线、节点名称构成。重复执行这一过程,直到评分不再提高,最终得到一个可以描述网页新闻数据中人物依赖关系的贝叶斯网结构,如图3所示。可以看出,少部分人物之间具有直接相关性,如“3_演员一”→“22_演员七”,大部分人物之间通过其他实体产生间接的相关性,如“15_演员三”→“12_影坛”→“20_演员六”,这说明本发明能对实际中广泛存在的人物之间的间接关系进行有效建模。
3:贝叶斯网参数学习
按照步骤3.1,利用图3所示的贝叶斯网结构和预处理输出的训练数据进行贝叶斯网参数学习,得到各节点的条件概率表,条件概率表的行标题是子节点的不同状态,列标题是父节点的不同状态,在行、列标题中,括弧外是节点序号、括弧内是状态序号,表中数值是对应的条件概率分布值,按式(3-1)计算。
图2中“20_演员六”的条件概率表如表5所示,说明该人物实体“20_演员六”在网页新闻数据中的频繁程度依赖于实体“12_影坛”的频繁程度。
表5.节点“20_演员六”的条件概率表P(20|12)
P(20|12) | 12(0) | 12(1) | 12(2) | 12(3) | 12(4) |
20(0) | 0.98 | 0.06 | 0.00 | 0.00 | 0.00 |
20(1) | 0.02 | 0.93 | 0.36 | 0.00 | 0.00 |
20(2) | 0.00 | 0.00 | 0.63 | 0.49 | 0.00 |
20(3) | 0.00 | 0.00 | 0.02 | 0.51 | 0.50 |
20(4) | 0.00 | 0.00 | 0.00 | 0.00 | 0.50 |
4:基于贝叶斯网概率推理的网页新闻数据中人物关系分析
本发明构建的贝叶斯网可以较准确地表达历史网页新闻数据蕴含的知识。并可用于分析新网页中的人物关系。
按照步骤4.1,对于一篇不存在于本发明训练数据集中的新网页Nn“专访导演导演二:在捉襟见肘的资金和时间成本中,让《电影二》拍得更难一点”。使用步骤1.3和1.4所述的方法进行处理,从Nn中的信息得到贝叶斯网推理的证据集Qe,如表6所示。
表6.从Nn中给出的直接信息得到贝叶斯网推理的证据集Qe
编号 | 1 | 2 | 4 | 5 | 6 | 8 | 9 | 11 |
节点 | 导演 | 导演二 | 明星 | 微博 | 地名二 | 地名一 | 娱乐圈 | 广告 |
状态 | 4 | 1 | 4 | 1 | 4 | 1 | 1 | 1 |
按照步骤4.2,由贝叶斯网的变量集Qa和证据集Qe,求出非证据集Qf,如表7所示。
表7.非证据集Qf
按照式(4-2)得到P(Qe|Qf),表示在给定证据集Qe的前提下非证据集Qf中每个节点的状态及概率分布的集合。对于Qf中的人物实体集合Qf,p,使用式(4-3)求出综合评价值,并对人物实体进行非降序排序,如表8所示。
表8.Qf,p中人物实体的状态及概率
实体序号 | 实体 | 状态1 | 状态2 | 状态3 | 状态4 | 状态5 | 综合评价值 | 排序序号 |
13 | 演员二 | 0.03 | 0.929 | 0.041 | 0 | 0 | 1.011 | 1 |
0 | 导演一 | 0 | 1 | 0 | 0 | 0 | 1 | 2 |
23 | 演员八 | 0.109 | 0.886 | 0.005 | 0 | 0 | 0.896 | 3 |
18 | 演员四 | 0.367 | 0.593 | 0.037 | 0.003 | 0 | 0.676 | 4 |
15 | 演员三 | 0.374 | 0.591 | 0.033 | 0.002 | 0 | 0.663 | 5 |
19 | 演员五 | 0.396 | 0.559 | 0.045 | 0 | 0 | 0.649 | 6 |
24 | 演员九 | 0.396 | 0.559 | 0.045 | 0 | 0 | 0.649 | 7 |
25 | 演员十 | 0.396 | 0.559 | 0.045 | 0 | 0 | 0.649 | 8 |
26 | 演员十一 | 0.396 | 0.559 | 0.045 | 0 | 0 | 0.649 | 9 |
27 | 演员十二 | 0.396 | 0.559 | 0.045 | 0 | 0 | 0.649 | 10 |
20 | 演员六 | 0.432 | 0.547 | 0.019 | 0.001 | 0 | 0.588 | 11 |
21 | 主持人一 | 0.597 | 0.397 | 0.007 | 0 | 0 | 0.411 | 12 |
3 | 演员一 | 0.972 | 0.027 | 0 | 0 | 0 | 0.027 | 13 |
22 | 演员七 | 1 | 0 | 0 | 0 | 0 | 0 | 14 |
Qf,p中人物实体包含在历史网页中、而在新网页中未直接给出,但是与新网页中人物实体存在相关性;人物实体的综合评价值越大,则其与新网页中人物实体的依赖关系越强,相比其他人物实体更值得关注和分析。
表8中“综合评价值”为步骤4的输出,以排名前2的人物实体“导演一”和“演员二”为例,他们与新网页中人物实体“导演二”存在相关性,而且这种相关性在新网页中并未直接描述。利用百度搜索查询“导演二演员二”可找到描述导演二赞赏演员二主演的电影《电影三》的新闻;利用百度搜索查询“导演二导演一”可找到导演一签约并投资导演二等新人导演的新闻,说明上述人物关系分析方法的有效性与可用性。
Claims (2)
1.一种基于贝叶斯网的网页新闻数据中的人物关系分析方法,该方法的特征在于包括如下步骤:
1:预处理
1.1:对人物实体知识图谱进行自组织映射
从互联网获取或根据领域知识给定知识图谱,记为KG,KG包含人物实体节点和非人物实体节点,对于KG中的所有节点,以其邻接节点为特征进行自组织映射(SelfOrganization Map,SOM),使原本具有高维特征的节点降维至二维平面并记录坐标,具体过程如下:
1.1.1:构建特征向量
1.1.2:设计SOM网络的结构
SOM网络的输入是任意个高维的特征向量Xa,输出是n2个输出神经元向量Wj,其中n大于等于10以及j=0,1,...,n2-1;n取值越大,SOM处理结果越精确但效率越低,根据KG中人物实体数量、以既保证精度也保证效率为原则设置n的取值;输出神经元向量Wj的维度与输入特征向量Xa的维度相等,每个输出神经元向量Wj都可视为聚类结果中的一个类,所有输入的高维特征向量Xa在SOM结束后都将归入某个输出神经元向量Wj代表的类中;同时,每个输出神经元向量Wj都具有一个二维坐标(Wj,x,Wj,y),其中Wj,x=0,1,...,n-1且Wj,y=0,1,...,n-1;每个分配到Wj的特征向量Xa都将继承Wj的二维坐标(Wj,x,Wj,y);
1.1.3:初始化SOM网络的参数
迭代计数器t的初始值为1,最大迭代次数T大于等于10,期望误差率ε,其中0<ε<1,第一次迭代时的学习率为b1,其中0<b1<1,每个输出神经元向量Wj的初始值初始化为零向量,初始邻域大小为Nj,其中Nj>0,邻域的形状是以Nj为半径的圆,邻域内的输出神经元向量Wj会受到输入的特征向量Xa影响而改变取值;随着邻域的缩小,输出神经元向量Wj的取值逐渐收敛于一个稳定值,使得Wj与划分到Wj的所有特征向量Xa的欧式距离之和达到一个局部极小值,说明已完成输入特征向量的自组织映射;
1.1.4:SOM按如下步骤进行:
(1)迭代计数器t加1;
(2)对第j个,其中j=0,1,...,n2-1,输出神经元向量Wj,使用式(1-1)计算Xa与Wj的欧式距离dj,Xa,i代表Xa的第i个分量,Wj,i代表Wj的第i个分量;
(3)比较所有距离dj,其中j=0,1,...,n2-1,特征向量中具有最小欧式距离的神经元为最佳神经元,记为C;
(4)按式(1-2)更新学习率bt;
bt=b1×(1-t/T) (1-2)
(5)按式(1-3)更新最佳神经元C及其邻域内神经元的邻域大小,Nc,t代表第t次迭代时最佳神经元C邻域内、包括C在内的输出神经元向量的邻域大小,floor是向下取整函数;
Nc,t=floor[Nc,1×(1-t/T)] (1-3)
(6)按式(1-4)更新最佳神经元C及其邻域内神经元的向量值,Wc,t代表第t次迭代时最佳神经元C邻域、包括C在内的输出神经元向量;
Wc,t=Wc,t-1+bt×(t-1)×(Xa-Wc,t-1) (1-4)
(7)按式(1-5)计算第t次迭代时整个SOM网络的误差率Et,若Et收敛于期望误差率或达到最大迭代次数,则进入步骤1.1.5,否则重新执行步骤1.1.4;
1.1.5:计算节点间的相似性
高维特征向量Xa通过步骤1.1.4进行自组织映射处理后,都将归入某个输出神经元向量Wj所代表的类中,并继承Wj的二维坐标(Wj,x,Wj,y);知识图谱KG中任意2个用二维坐标描述的节点之间的欧式距离越小,则这2个节点特征值越相似,使用式(1-6)度量相似性;
similarity(O1,O2)=exp{-[euc(O1,O2)]} (1-6)
其中,对于需要计算相似性的2个节点O1和O2,euc函数计算这2个节点在输出二维平面上的欧式距离,exp代表指数函数;当2个节点坐标相同时,相似性等于1;当2个节点之间的距离趋向无穷大时,相似性趋近0;
1.2:接收初始人物关系查询集合并补充节点
用户给出的初始查询的形式是一个人物实体集合Qp,从知识图谱KG中找到Qp集合中所有节点的邻接节点,将这些邻接节点加入Qp,从而形成包含了人物实体节点和非人物实体节点的扩展集合Qa,作为后续步骤中贝叶斯网的节点集;
1.3:网页新闻数据中的实体实例数统计
1.4:对实例数统计量进行归一化处理并映射到区间[1,L]后取整
对于包含了人物实体节点和非人物实体节点的扩展集合Qa,每一个短句s都对应Qa中所有元素实例数的统计量;根据式(1-7),该统计量的取值有无穷多个,为了方便构建贝叶斯网,根据网页新闻数据中不同名词实体数及频繁程度,设置每个实体节点的L种状态,并将Qa中所有元素的实例数统计量首先进行归一化处理,先将其映射到[1,L]区间,然后四舍五入取整后再加1,最终得到1、2、...、L,即每个名词实体节点的L种状态,刻画某个名词实体在某个句子中出现的频繁程度,数字越大则频繁程度越高;
2:贝叶斯网结构学习
步骤1将网页新闻数据中的文本数据转换为用于构建贝叶斯网的训练数据,以供本步骤中贝叶斯网结构学习使用;
2.1:贝叶斯网结构评分
基于评分搜索(Scoring&Search)方法进行贝叶斯网的结构学习,基于训练数据、使用式(2-1)计算某个候选网络结构Gc的评分,反映Gc与观测数据之间的吻合程度;
其中,o代表贝叶斯网中节点的数量,pi是节点Vi取值组合的数目,qi是节点Vi父节点Ui取值组合的数目;由于贝叶斯网中每个节点有L种状态,所以pi=qi=L;Nijk表示训练数据中Vi为第j个状态、Ui为第k个状态时的实例数,可从训练数据中通过统计计数得到,且Gc的分数score(Gc)是Gc对人物依赖关系表达能力的量化评估,分数越高,代表该结构越符合观测数据中蕴含的人物依赖关系;
2.2:搜索最优贝叶斯网结构
采用贪婪爬山法进行最优网络结构搜索,优点在于适合大规模数据、不对网络结构做限制,不会因算法本身的限制而影响搜索结果的准确性;初始时,一个无边的图结构代表人物节点之间没有任何依赖关系,该结构同时是初始最优结构;从这个无边的图结构开始,在每一步通过单次的边添加即添加人物依赖关系、边删除即删除人物依赖关系、边反转即反转人物依赖关系操作生成一组当前候选最优结构,按式2-1计算各候选网络结构的评分,并找到其中评分最高者作为新的最优网络结构;重复执行这一过程,直到评分不再提高,最终得到一个可以描述网页新闻数据中人物依赖关系的网络结构Gb;
3:贝叶斯网参数学习
3.1:使用条件概率表记录贝叶斯网各节点的条件概率分布
基于步骤1提供的训练数据和步骤2得到的贝叶斯网结构Gb进行贝叶斯网参数学习,且节点的实例数并不存在先验概率,通过统计训练数据中的实例数来计算各节点的条件概率表,作为参数学习的结果;对于父节点集为U的变量V,将U中实体集在网页新闻句子中的频繁程度对V中实体频繁程度的影响度作为条件概率P(V=v|U=u),定量地给出贝叶斯网中V和U之间的依赖关系,计算方法如式(3-1);
其中,Nvu表示变量V取值为v、U取值为u时的实例数,Nu表示U取值为u时的实例数,两者均可从训练数据中计数得到;然后,将P(V=v|U=u)结果填入对应位置,得到贝叶斯网的条件概率表;步骤2得到的贝叶斯网结构中,每一个节点都将生成一个条件概率表;
4:基于贝叶斯网概率推理的网页新闻数据中人物关系分析
4.1:从新网页获取贝叶斯网推理的证据
步骤4的输入是一个未处理过的新网页Nn,用户查询中包含Nn中的任意人物实体或人物实体集,使用步骤1.3和1.4所述的方法进行处理,抽取出Nn中的人物实体集合;新网页与历史网页中的人物实体来自相同论域,作为贝叶斯网推理的证据Qe;
4.2:基于贝叶斯网进行概率推理并输出相关人物实体节点的状态和概率
贝叶斯网的概率推理基于贝叶斯公式实现,对于事件A和事件B,贝叶斯公式如式(4-1);
步骤1.2得到贝叶斯网的节点集Qa,描述历史新闻网页中人物实体;步骤4.1得到贝叶斯网推理的证据Qe,描述新网页中给定的人物实体;Qa中Qe的补集Qf为贝叶斯网推理的目标,即与Qe中人物实体相关的人物实体集;对此,式(4-1)可具体表示为式(4-2);
利用步骤2得到的贝叶斯网结构,通过条件独立性简化式(4-2)的概率计算,利用3.1中得到的贝叶斯网中各节点的条件概率表,可得到联合概率分布P(Qe,Qf),表示给定人物实体Qe时贝叶斯网中其他人物实体的状态及概率分布;针对Qf中的每个人物实体e,得到Ye={<1,p1>,<2,p2>,...,<L,pL>},将其表示为Ye={<v,pv>|v=1,2,...,L},即与Qe中人物实体相关的人物实体的状态及概率分布;
为了对Qf中的每一个人物实体进行相关性的排序,综合判断人物实体之间的相关性,使用式(4-3)求出Qf中每一个人物实体的综合评价值;该值越大,则相应人物实体与新网页中人物实体的相关性就越强;按该值对Qf中的人物实体进行非降序排序输出,可为舆情传播、推荐系统、精准营销领域的关联分析提供有力支持
2.根据权利要求1所述的基于贝叶斯网的网页新闻数据中的人物关系分析方法,其特征在于:搜索对象为“某新闻网站”中的网页新闻,设计相应的SOM网络结构时,设置n的取值为50,即输出50乘以50共2500个神经元向量Wj,其中j=0,1,...,502-1;设置每个实体节点的5种状态,即对实例数统计量进行归一化处理并映射到区间[1,5]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811310690.5A CN109508385B (zh) | 2018-11-06 | 2018-11-06 | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811310690.5A CN109508385B (zh) | 2018-11-06 | 2018-11-06 | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109508385A CN109508385A (zh) | 2019-03-22 |
CN109508385B true CN109508385B (zh) | 2023-05-19 |
Family
ID=65747645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811310690.5A Active CN109508385B (zh) | 2018-11-06 | 2018-11-06 | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508385B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241289B (zh) * | 2020-01-17 | 2022-05-03 | 北京工业大学 | 一种基于图理论和som网络的文本聚类方法 |
CN113515920B (zh) * | 2020-04-09 | 2024-06-21 | 北京庖丁科技有限公司 | 从表格中提取公式的方法、电子设备和计算机可读介质 |
CN113360675B (zh) * | 2021-06-25 | 2024-02-13 | 中关村智慧城市产业技术创新战略联盟 | 一种基于互联网开放世界的知识图谱特定关系补全方法 |
CN113254675B (zh) * | 2021-07-16 | 2021-11-16 | 国网电子商务有限公司 | 基于自适应少样本关系抽取的知识图谱构建方法 |
CN114579768A (zh) * | 2022-05-06 | 2022-06-03 | 深圳市信润富联数字科技有限公司 | 一种实现设备智能运维知识库的维修方法 |
CN116259384B (zh) * | 2023-05-16 | 2023-07-28 | 安徽中医药大学 | 一种基于医疗健康网状信息处理系统 |
CN117939506B (zh) * | 2024-03-25 | 2024-06-18 | 云南大学 | 一种基于近似依赖规则的无线通信网络异常检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760900A (zh) * | 2016-04-08 | 2016-07-13 | 西安电子科技大学 | 基于近邻传播聚类和稀疏多核学习的高光谱图像分类方法 |
CN106663124A (zh) * | 2014-08-11 | 2017-05-10 | 微软技术许可有限责任公司 | 生成和使用知识增强型模型 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2599010B1 (en) * | 2010-07-28 | 2020-06-10 | HerbMiners Informatics Limited | Artificial intelligence and methods for relating herbal ingredients with illnesses in traditional chinese medicine |
CN102024056A (zh) * | 2010-12-15 | 2011-04-20 | 中国科学院自动化研究所 | 利用计算机的基于多媒体分析的新闻人物检索方法 |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US9542528B2 (en) * | 2012-03-30 | 2017-01-10 | The Florida State University Research Foundation, Inc. | Automated extraction of bio-entity relationships from literature |
CN105760439B (zh) * | 2016-02-02 | 2018-12-07 | 西安交通大学 | 一种基于特定行为共现网络的人物共现关系图谱构建方法 |
CN107392236B (zh) * | 2017-07-07 | 2019-07-16 | 长沙学院 | 一种基于多域信息的物理对象关联聚类方法 |
CN108461151B (zh) * | 2017-12-15 | 2021-06-15 | 北京大学深圳研究生院 | 一种知识图谱的逻辑增强方法及装置 |
CN108182295B (zh) * | 2018-02-09 | 2021-09-10 | 重庆电信系统集成有限公司 | 一种企业知识图谱属性抽取方法及系统 |
-
2018
- 2018-11-06 CN CN201811310690.5A patent/CN109508385B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663124A (zh) * | 2014-08-11 | 2017-05-10 | 微软技术许可有限责任公司 | 生成和使用知识增强型模型 |
CN105760900A (zh) * | 2016-04-08 | 2016-07-13 | 西安电子科技大学 | 基于近邻传播聚类和稀疏多核学习的高光谱图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109508385A (zh) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508385B (zh) | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 | |
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
Yu et al. | Attention-based convolutional approach for misinformation identification from massive and noisy microblog posts | |
Zhang et al. | Event detection and popularity prediction in microblogging | |
Nie et al. | Data-driven answer selection in community QA systems | |
Xu et al. | Improving user recommendation by extracting social topics and interest topics of users in uni-directional social networks | |
Huang et al. | Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow | |
Xu et al. | Effective community division based on improved spectral clustering | |
Xiong et al. | Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs | |
Liu et al. | A Comparative Analysis of Classic and Deep Learning Models for Inferring Gender and Age of Twitter Users [A Comparative Analysis of Classic and Deep Learning Models for Inferring Gender and Age of Twitter Users] | |
CN111241425A (zh) | 一种基于层次注意力机制的poi推荐方法 | |
Chatterjee et al. | A review of judgment analysis algorithms for crowdsourced opinions | |
Bai et al. | Rumor detection based on a source-replies conversation tree convolutional neural net | |
Rani et al. | GeoClust: Feature engineering based framework for location-sensitive disaster event detection using AHP-TOPSIS | |
Saikia et al. | Modelling social context for fake news detection: a graph neural network based approach | |
Sarwar et al. | Exploiting ontology recommendation using text categorization approach | |
Salam et al. | Optimizing extreme learning machine using GWO algorithm for sentiment analysis | |
Baboo et al. | Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers | |
CN113535949A (zh) | 基于图片和句子的多模态联合事件检测方法 | |
Mahalakshmi et al. | Twitter sentiment analysis using conditional generative adversarial network | |
CN113486649B (zh) | 文本评论的生成方法以及电子设备 | |
Suresh | An innovative and efficient method for Twitter sentiment analysis | |
Feng et al. | Forest-based deep recommender | |
Chaki et al. | Pattern mining approaches used in social media data | |
Putra et al. | Analyzing sentiments on official online lending platform in Indonesia with a Combination of Naive Bayes and Lexicon Based Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |