CN109508385B - 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 - Google Patents

一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 Download PDF

Info

Publication number
CN109508385B
CN109508385B CN201811310690.5A CN201811310690A CN109508385B CN 109508385 B CN109508385 B CN 109508385B CN 201811310690 A CN201811310690 A CN 201811310690A CN 109508385 B CN109508385 B CN 109508385B
Authority
CN
China
Prior art keywords
bayesian network
entity
character
nodes
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811310690.5A
Other languages
English (en)
Other versions
CN109508385A (zh
Inventor
岳昆
李磊
李维华
王笑一
郭建斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201811310690.5A priority Critical patent/CN109508385B/zh
Publication of CN109508385A publication Critical patent/CN109508385A/zh
Application granted granted Critical
Publication of CN109508385B publication Critical patent/CN109508385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

人物实体之间的关系抽取和依赖关系分析,可为舆情传播、推荐系统、精准营销领域提供有力支持。现实中许多人物实体之间并不具有直接关系,而往往通过其他实体间接地关联成网状关系,现有人物关系抽取方法只能判定少量的预定义人物关系类型,不能实现网状人物关系的定量分析。本发明引入公开的人物实体知识库,利用自组织映射方法,将高维和稀疏的网页新闻数据处理为完备的训练数据,构建用以描述网页新闻数据中所涉及各类实体之间依赖关系的贝叶斯网,关注基于贝叶斯网的人物实体关联建模与分析,同时利用历史网页中的知识和新网页中的信息,进行人物关系的定量分析推断,充分利用信息资源,有效提高了人物关系分析的准确性和效率。

Description

一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
技术领域
本发明公开了一种网页新闻数据中的人物关系分析方法,涉及从网页新闻数据进行贝叶斯网的结构学习和参数学习,以及支持人物关系分析的概率推理,属于知识发现领域。
背景技术
从文本信息中抽取出满足人们特定需求的有用知识,以产生经济效益和社会效益,是信息抽取技术的重要目标和任务。基于文本信息的关系抽取(Relation Extraction)是信息抽取的重要课题,其任务是从文本信息中识别并获取实体之间的关系。文本信息可以有多种来源,如在线社区、博客、微博、网页新闻。近年来,各种传统新闻媒体将重心转移到互联网平台上,通过网页载体来发布新闻。网页新闻具有表达规范、时效性强、题材广泛、数据量大等特点,为关系抽取提供了一类可用的数据源。从网页新闻数据中可抽取出各种实体之间的关系,如时间、地点、人物;其中,人物之间的关系(Person Relation)抽取和依赖关系分析,可为舆情传播、推荐系统、精准营销领域提供有力支持,例如,公安机关可以发现可疑团伙或治安风险,舆情监管部门可以发现热点事件中的意见领袖和传播路径,政府部门可以得到政策直接或间接影响到的人群。
传统的人物关系抽取需要事先定义人物关系类型,而人工定义的类型难免存在不准确、类型不完全等问题。公知的人物关系抽取方法基本上都是对预定义的人物关系类型进行判定或查询,例如,刘永坚等(<专利201710026230.9>,2017)从人物关系抽取结果来构建知识库,当用户查询特定人物时,基于知识库中预定义的人物关系类型返回相关的人物。罗森林等(<专利201610866186.8>,2016)通过训练语料而构造三元组特征空间,对用户查询的三元组进行判定,利用置信度最大化原则判定所属的人物关系类别。张勇(<专利201610920348.1>,2016),以分词处理结果中的词向量为输入、预定义的人物关系类别为输出,训练神经网络并提供给用户使用。
现实中的人物关系往往表现为多对多的关系网,适合用图模型来描述。同时,人物之间的关系具有不确定性,这种不确定性来源于人们对客观世界的观察及建模能力的有限性,也来源于人物关系固有的未知、不清晰等特点。概率图模型是能表达不确定性的图模型,作为一种支持概率推理的重要概率图模型,贝叶斯网(Bayesian Network,BN)是以随机变量为节点的有向无环图(DirectedAcyclic Graph,DAG),每个节点有一张条件概率表(Conditional Probability Table,CPT)、定量描述变量间相互影响的程度,贝叶斯网能很好地表达现实中人物实体之间存在的依赖关系及其不确定性,本发明基于贝叶斯网来描述并分析网页新闻数据中蕴含的人物关系。
基于贝叶斯网的网页新闻数据中人物关系分析,既可表示历史网页新闻数据中蕴含的人物关系,也可基于历史数据中的人物关系来分析推断新网页中的人物关系。公知的利用贝叶斯网对互联网文本信息进行分析的方法,对新数据中包含的信息进行分析处理,未涉及基于历史数据中蕴含的知识对新数据的分析。例如,佘玉轩等(<计算机工程>,2018)提出基于贝叶斯网的无监督新闻故事线挖掘算法,将新闻故事线视为日期、时间、机构、人物、地点、主题和关键词的联合概率分布,具有较好的故事线挖掘能力,但仅考虑了新闻中直接给出的信息,未涉及间接关系的挖掘;冯军军等(<计算机与数字工程>,2017)以文档频数作为文本特征,通过构建朴素贝叶斯网模型来实现微博话题的追踪,具有分类简单、效率高等优点,但依赖于微博内容中给出的直接信息。
现实中许多人物实体之间并不具有直接关系,而往往通过其他实体间接地关联起来,这些实体可以是人物、机构、物品、事件等,例如,人们因为共同参加一个会议或拥有共同的朋友,进而认识并形成间接的人物关系。本发明将历史网页新闻数据作为训练数据来构建贝叶斯网,包括贝叶斯网的结构学习和参数学习,从而描述历史网页新闻数据中所涉及各类实体之间的依赖关系,节点代表这些实体,边描述实体之间的依赖关系,各节点的条件概率参数定量地描述人物之间相互依赖的程度。进一步使用贝叶斯网的推理方法,一方面,对于任意给定的人物实体或人物实体集,可容易地发现历史网页中人物实体之间存在的间接关系;另一方面,若新网页中的人物实体与历史网页中的人物实体来自相同论域,则将新网页中的人物实体作为推理的证据,将贝叶斯网中所涉及历史网页中的人物实体作为推理的目标,可得到给定新网页中人物实体时,历史网页中其他人物实体节点不同取值的概率分布,作为给定新网页中人物实体与历史网页中人物实体之间关联关系的不确定性,即同时利用历史网页中蕴含的知识和新网页中的信息来实现网页新闻数据中人物关系的分析。
发明内容
本发明的目的:为解决公知的人物关系分析方法只能对少量的预定义人物关系类型进行判定、缺乏通用性和语义准确性等问题,本发明基于网页新闻数据、引入互联网上公开的人物实体知识库,构建用以描述网页新闻数据中所涉及各类实体之间依赖关系的贝叶斯网,关注基于贝叶斯网的人物实体关联建模与分析。
为解决公知技术只能分析新网页中给出的直接信息、而无法利用历史网页中所蕴含知识的问题,本发明基于贝叶斯网的推理方法,同时利用历史网页中的知识和新网页中的信息,进行人物关系的分析推断。
本发明的执行过程分为4个步骤。
(1)预处理:对网页新闻中的本文数据进行处理,统计实体实例数,作为贝叶斯网结构学习和参数学习的特征数据。
(2)贝叶斯网结构学习:利用预处理得到的数据,学习贝叶斯网的有向无环图结构。
(3)贝叶斯网参数学习:利用预处理得到的数据和学习得到的有向无环图结构,学习贝叶斯网的条件概率参数,以表格形式输出。
(4)基于贝叶斯网概率推理的人物关系分析:同时利用历史网页中的知识和新网页中的信息进行人物关系分析,以新网页中的信息作为证据,使用贝叶斯网的概率推理方法,分析贝叶斯网中与新网页中人物实体相关的人物实体。
具体步骤如下:
1:预处理
1.1:对人物实体知识图谱进行自组织映射
从互联网获取或根据领域知识给定知识图谱,记为KG,KG包含人物实体节点和非人物实体节点;对于KG中的所有节点,以其邻接节点为特征进行自组织映射(SelfOrganization Map,SOM),使原本具有高维特征的节点降维至二维平面并记录坐标;具体过程如下:
1.1.1:构建特征向量
对KG中的节点a,以其邻接节点作为其特征,构成特征向量Xa,Xa的维度
Figure GDA0004141371940000041
为KG中节点的数量;
1.1.2:设计SOM网络的结构
SOM网络的输入是任意个高维的特征向量Xa,输出是n2个输出神经元向量Wj,其中n大于等于10以及j=0,1,…,n2-1;n取值越大,SOM处理结果越精确但效率越低,根据KG中人物实体数量、以既保证精度也保证效率为原则设置n的取值,输出神经元向量Wj的维度与输入特征向量Xa的维度相等;每个输出神经元向量Wj都可视为聚类结果中的一个类,所有输入的高维特征向量Xa在SOM结束后都将归入某个输出神经元向量Wj代表的类中;同时,每个输出神经元向量Wj都具有一个二维坐标(Wj,x,Wj,y),其中Wj,x=0,1,…,n-1且Wj,y=0,1,…,n-1;每个分配到Wj的特征向量Xa都将继承Wj的二维坐标(Wj,x,Wj,y);
1.1.3:初始化SOM网络的参数
迭代计数器t的初始值为1,最大迭代次数T大于等于10,期望误差率ε,其中0<ε<1,第一次迭代时的学习率为b1,其中0<b1<1,每个输出神经元向量Wj的初始值初始化为零向量,初始邻域大小为Nj,其中Nj>0;邻域的形状是以Nj为半径的圆,邻域内的输出神经元向量Wj会受到输入的特征向量Xa影响而改变取值;随着邻域的缩小,输出神经元向量Wj的取值逐渐收敛于一个稳定值,使得Wj与划分到Wj的所有特征向量Xa的欧式距离之和达到一个局部极小值,说明已完成输入特征向量的自组织映射;
1.1.4:SOM按如下步骤进行:
(1)迭代计数器t加1;
(2)对第j个,其中j=0,1,…,n2-1,输出神经元向量Wj,使用式(1-1)计算Xa与Wj的欧式距离dj,Xa,i代表Xa的第i个分量,Wj,i代表Wj的第i个分量;
Figure GDA0004141371940000042
(3)比较所有距离dj,其中j=0,1,...,n2-1,特征向量中具有最小欧式距离的神经元为最佳神经元,记为C;
(4)按式(1-2)更新学习率bt
bt=b1×(1-t/T) (1-2)
(5)按式(1-3)更新最佳神经元C及其邻域内神经元的邻域大小;Nc,t代表第t次迭代时最佳神经元C邻域内、包括C在内的输出神经元向量的邻域大小,floor是向下取整函数;
Nc,t=floor[Nc,1×(1-t/T)] (1-3)
(6)按式(1-4)更新最佳神经元C及其邻域内神经元的向量值;Wc,t代表第t次迭代时最佳神经元C邻域、包括C在内的输出神经元向量;
Wc,t=Wc,t-1+bt×(t-1)×(Xa-Wc,t-1) (1-4)
(7)按式(1-5)计算第t次迭代时整个SOM网络的误差率Et;若Et收敛于期望误差率或达到最大迭代次数,则进入步骤1.1.5,否则重新执行步骤1.1.4;
Figure GDA0004141371940000051
1.1.5:计算节点间的相似性
高维特征向量Xa通过步骤1.1.4进行自组织映射处理后,都将归入某个输出神经元向量Wj所代表的类中,并继承Wj的二维坐标(Wj,x,Wj,y);知识图谱KG中任意2个用二维坐标描述的节点之间的欧式距离越小,则这2个节点特征值越相似,使用式(1-6)度量相似性
similarity(O1,O2)=exp{-[euc(O1,O2)]} (1-6)
其中,对于需要计算相似性的2个节点O1和O2,euc函数计算这2个节点在输出二维平面上的欧式距离,exp代表指数函数;当2个节点坐标相同时,相似性等于1;当2个节点之间的距离趋向无穷大时,相似性趋近0;
1.2:接收初始人物关系查询集合并补充节点
用户给出的初始查询的形式是一个人物实体集合Qp;从知识图谱KG中找到Qp集合中所有节点的邻接节点,将这些邻接节点加入Qp,从而形成包含了人物实体节点和非人物实体节点的扩展集合Qa,作为后续步骤中贝叶斯网的节点集;
1.3:网页新闻数据中的实体实例数统计
以网页新闻数据中不包含标点的短句作为最小处理单位s,利用自然语言处理技术对集合Qa中每个元素Qa,e进行统计计算,得到实例数
Figure GDA0004141371940000061
基于步骤1.1完成的自组织映射处理,按式(1-7)计算/>
Figure GDA0004141371940000062
Figure GDA0004141371940000063
其中,hi代表s中抽取出的第i个名词实体,这样的名词实体共H个,每个hi的实例数
Figure GDA0004141371940000064
可直接统计计数得到;
1.4:对实例数统计量进行归一化处理并映射到区间[1,L]后取整
对于包含了人物实体节点和非人物实体节点的扩展集合Qa,每一个短句s都对应Qa中所有元素实例数的统计量,根据式(1-7),该统计量的取值有无穷多个,为了方便构建贝叶斯网,根据网页新闻数据中不同名词实体数及频繁程度,设置每个实体节点的L种状态,并将Qa中所有元素的实例数统计量首先进行归一化处理,先将其乘以L映射到[1,L]区间,然后四舍五入取整再加1,最终得到1、2、…、L,即每个名词实体节点的L种状态,刻画某个名词实体在某个句子中出现的频繁程度,数字越大则频繁程度越高;
2:贝叶斯网结构学习
步骤1将网页新闻数据中的文本数据转换为用于构建贝叶斯网的训练数据,以供本步骤中贝叶斯网结构学习使用;
2.1:贝叶斯网结构评分
本发明基于评分搜索(Scoring&Search)方法进行贝叶斯网的结构学习;基于训练数据、使用式(2-1)计算某个候选网络结构Gc的评分,反映Gc与观测数据之间的吻合程度
Figure GDA0004141371940000065
其中,o代表贝叶斯网中节点的数量,pi是节点Vi取值组合的数目,qi是节点Vi父节点Ui取值组合的数目;由于贝叶斯网中每个节点有L种状态,所以pi=qi=L;Nijk表示训练数据中Vi为第j个状态、Ui为第k个状态时的实例数,可从训练数据中通过统计计数得到,且
Figure GDA0004141371940000066
Gc的分数score(Gc)是Gc对人物依赖关系表达能力的量化评估,分数越高,代表该结构越符合观测数据中蕴含的人物依赖关系;
2.2:搜索最优贝叶斯网结构
采用贪婪爬山法进行最优网络结构搜索,优点在于适合大规模数据、不对网络结构做限制,不会因算法本身的限制而影响搜索结果的准确性;初始时,一个无边的图结构代表人物节点之间没有任何依赖关系,该结构同时是初始最优结构;从这个无边的图结构开始,在每一步通过单次的边添加即添加人物依赖关系、边删除即删除人物依赖关系、边反转即反转人物依赖关系,操作生成一组当前候选最优结构,按式(2-1)计算各候选网络结构的评分,并找到其中评分最高者作为新的最优网络结构;重复执行这一过程,直到评分不再提高,最终得到一个可以描述网页新闻数据中人物依赖关系的网络结构Gb
3:贝叶斯网参数学习
3.1:使用条件概率表记录贝叶斯网各节点的条件概率分布
基于步骤1提供的训练数据和步骤2得到的贝叶斯网结构Gb进行贝叶斯网参数学习;由于在步骤1中进行了自组织映射处理、并给出了节点相似性计算函数,因此所使用的网页新闻数据可视为完备数据,且节点的实例数并不存在先验概率;本发明通过统计训练数据中的实例数来计算各节点的条件概率表,作为参数学习的结果;对于父节点集为U的变量V,将U中实体集在网页新闻句子中的频繁程度对V中实体频繁程度的影响度作为条件概率P(V=v|U=u),定量地给出贝叶斯网中V和U之间的依赖关系,计算方法如式(3-1)
Figure GDA0004141371940000071
其中,Nvu表示变量V取值为v、U取值为u时的实例数,Nu表示U取值为u时的实例数,两者均可从训练数据中计数得到;然后,将P(V=v|U=u)结果填入对应位置,得到贝叶斯网的条件概率表;步骤2得到的贝叶斯网结构中,每一个节点都将生成一个条件概率表;
4:基于贝叶斯网概率推理的网页新闻数据中人物关系分析
4.1:从新网页获取贝叶斯网推理的证据
步骤4的输入是一个未处理过的新网页Nn,用户查询中包含Nn中的任意人物实体或人物实体集,使用步骤1.3和1.4所述的方法进行处理,抽取出Nn中的人物实体集合;新网页与历史网页中的人物实体来自相同论域,作为贝叶斯网推理的证据Qe
4.2:基于贝叶斯网进行概率推理并输出相关人物实体节点的状态和概率
贝叶斯网的概率推理基于贝叶斯公式实现,对于事件A和事件B,贝叶斯公式如式(4-1)
Figure GDA0004141371940000081
在本发明中,步骤1.2得到贝叶斯网的节点集Qa,描述历史新闻网页中人物实体;步骤4.1得到贝叶斯网推理的证据Qe,描述新网页中给定的人物实体;Qa中Qe的补集Qf为贝叶斯网推理的目标,即与Qe中人物实体相关的人物实体集;对此,式(4-1)可具体表示为式(4-2)
Figure GDA0004141371940000082
利用步骤2得到的贝叶斯网结构,通过条件独立性简化式(4-2)的概率计算,利用3.1中得到的贝叶斯网中各节点的条件概率表,可得到联合概率分布P(Qe,Qf),表示给定人物实体Qe时贝叶斯网中其他人物实体的状态及概率分布;针对Qf中的每个人物实体e,得到Ye={<1,p1>,<2,p2>,…,<L,pL>},将其表示为Ye={<v,pv>|v=1,2,…,L},即与Qe中人物实体相关的人物实体的状态及概率分布;
为了对Qf中的每一个人物实体进行相关性的排序,综合判断人物实体之间的相关性,使用式(4-3)求出Qf中每一个人物实体的综合评价值;该值越大,则相应人物实体与新网页中人物实体的相关性就越强;按该值对Qf中的人物实体进行非降序排序输出,可为舆情传播、推荐系统、精准营销等领域的关联分析提供有力支持
Figure GDA0004141371940000083
与现有技术相比本发明具有的优点及积极效果
(1)本发明使用贝叶斯网作为网页新闻数据中所涉及实体之间依赖关系建模和推理的基本框架,有效地描述了网页新闻数据中实体之间的任意形式的相关性及其不确定性;可有效地描述人物实体之间通过其他人物、机构、物品、事件等实体产生的间接相关性,以定性和定量的方式更加客观、完备、深层次地对人物关系进行建模。
(2)本发明引入互联网上公开的人物实体知识图谱,确定人物关系分析的论域,保证了人物关系分析中人物实体本身的客观性和完备性,也保证了语义层面的有效性;使用自组织映射方法对网页新闻中的名词实体进行预处理,从实际应用的角度,保证了从高维和稀疏的网页新闻数据得到的训练数据的完备性,同时也提供了一种将高维数据映射到二维空间的统一的、便于计算的数据预处理机制。
(3)本发明对于任意给定的人物实体,可容易地利用贝叶斯网的概率推理方法来发现历史网页中人物实体之间存在的间接关系,并且可将新网页中的人物实体作为推理的证据,将历史网页中的人物实体作为推理的目标来实现网页新闻数据中人物关系的分析。
(4)本发明有效利用贝叶斯网的概率推理机制进行网页新闻数据中人物关系的分析,无需根据具体查询任务来重构模型或即席构建计算表达式,保证了人物关系分析的高效性。
附图说明
图1:本发明的技术路线图
图2:贪婪爬山法搜索到的前9个最优结构
图3:表2中包含28个节点的贝叶斯网结构
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例:“某新闻网站”中的网页新闻数据的人物关系分析。
1:预处理
按照步骤1.1,从互联网获取公开的知识图谱KG,KG中共有109332个实体,包含人物实体和非人物实体。对于KG的所有实体,以其邻接实体为特征进行自组织映射,输出50乘以50个神经元向量Wj,其中j=0,1,…,502-1。每个输出神经元向量Wj都可视为聚类结果中的一个类,所有实体在自组织映射结束后都将归入某个输出神经元向量Wj代表的类中。同时,每个输出神经元向量Wj都具有二维坐标(Wj,x,Wj,y)(Wj,x=0,1,…,49,Wj,y=0,1,…,49),每个分配到Wj的实体都将继承Wj的二维坐标(Wj,x,Wj,y)。部分知识图谱实体的名称、序号和二维坐标如表1所示。
表1.经过自组织映射后知识图谱实体的名称、序号、二维坐标
实体名称 实体序号 x坐标 y坐标
头发 1 47 1
隔天 2 3 31
习惯 3 49 2
…… …… …… ……
熏鱼 109330 19 9
湖泊 109331 24 22
城前 109332 28 27
按照步骤1.2,若用户拟分析“导演一”和“演员一”这两个人物之间的关系,查询集合Qp={导演一,演员一}。从KG中找到Qp中各节点的邻接节点,将这些邻接节点加入Qp形成包含了人物实体节点和非人物实体节点的扩展集合Qa,作为贝叶斯网的变量集。Qa包含28个元素,以方便后续表示,从0开始编号,如表2所示,考虑表示的方便,用x和y分别表示坐标中的两个维度的取值。
表2.扩展集合Qa的编号、节点、坐标
Figure GDA0004141371940000101
根据步骤1.3,从“某新闻网站”2017年网页新闻数据中任意选择10000个句子。以句子s“一部由编剧一编剧、导演三执导、演员十三主演的电影《电影一》在中国掀起一场全民热议”为例,该句子中可以提取出“编剧一”、“导演三”、“演员十三”、“电影”、“电影一”、“中国”、“全民”共7个实体。利用自然语言处理技术,对集合Qa中每个元素Qa,e进行统计计数,得到实例数
Figure GDA0004141371940000111
如表3中/>
Figure GDA0004141371940000112
列所示。根据步骤1.4对s中所有实体按式(1-7)处理得到的/>
Figure GDA0004141371940000113
进行归一化处理并映射到区间[1,5]后取整,结果如表3中“归一化”、“映射到[1,5]”和“取整加1”等列所示。在表3“取整”列中的数据构成s中的一条贝叶斯网训练数据,采用相同的方法处理其他9999个句子,得到训练数据集。
表3.s中所有实体的
Figure GDA0004141371940000114
及归一化、映射、取整/>
Figure GDA0004141371940000115
2:贝叶斯网结构学习
按照步骤2.1,基于预处理得到的数据集,使用式(2-1)对一个候选结构进行评分,以表2中的前10个节点为代表,对贝叶斯网结构进行评分,表4给出了3条训练数据中的相关节点、序号和取值。
表4.训练数据片段
Figure GDA0004141371940000121
第一个候选结构Gc1={“8_地名一”→“5_微博”},从训练数据中可以统计到N623=1,N624=1,N625=1,其余Nijk=0,N62=3,则
Figure GDA0004141371940000122
第二个候选结构Gc2={“9_娱乐圈”→“5_微博”},从训练数据中可以统计到N623=1,N625=1,其余Nijk=0,N62=3,则
Figure GDA0004141371940000123
根据评分可知,候选结构Gc2分数高于候选结构Gc1的分数,Gc2优于Gc1
按照步骤2.2,采用贪婪爬山法搜索表2中28个节点的最优网络结构。以表2中28个节点的无边结构开始,在每一步通过单次的边添加即添加人物依赖关系、边删除即删除人物依赖关系、边反转即反转人物依赖关系,操作生成当前一组候选结构。分别计算各候选结构的评分,并找到其中评分最高者作为新的最优结构,搜索过程中的前9个最优结构如图2所示,其中节点的标签由节点序号、下划线、节点名称构成。重复执行这一过程,直到评分不再提高,最终得到一个可以描述网页新闻数据中人物依赖关系的贝叶斯网结构,如图3所示。可以看出,少部分人物之间具有直接相关性,如“3_演员一”→“22_演员七”,大部分人物之间通过其他实体产生间接的相关性,如“15_演员三”→“12_影坛”→“20_演员六”,这说明本发明能对实际中广泛存在的人物之间的间接关系进行有效建模。
3:贝叶斯网参数学习
按照步骤3.1,利用图3所示的贝叶斯网结构和预处理输出的训练数据进行贝叶斯网参数学习,得到各节点的条件概率表,条件概率表的行标题是子节点的不同状态,列标题是父节点的不同状态,在行、列标题中,括弧外是节点序号、括弧内是状态序号,表中数值是对应的条件概率分布值,按式(3-1)计算。
图2中“20_演员六”的条件概率表如表5所示,说明该人物实体“20_演员六”在网页新闻数据中的频繁程度依赖于实体“12_影坛”的频繁程度。
表5.节点“20_演员六”的条件概率表P(20|12)
P(20|12) 12(0) 12(1) 12(2) 12(3) 12(4)
20(0) 0.98 0.06 0.00 0.00 0.00
20(1) 0.02 0.93 0.36 0.00 0.00
20(2) 0.00 0.00 0.63 0.49 0.00
20(3) 0.00 0.00 0.02 0.51 0.50
20(4) 0.00 0.00 0.00 0.00 0.50
4:基于贝叶斯网概率推理的网页新闻数据中人物关系分析
本发明构建的贝叶斯网可以较准确地表达历史网页新闻数据蕴含的知识。并可用于分析新网页中的人物关系。
按照步骤4.1,对于一篇不存在于本发明训练数据集中的新网页Nn“专访导演导演二:在捉襟见肘的资金和时间成本中,让《电影二》拍得更难一点”。使用步骤1.3和1.4所述的方法进行处理,从Nn中的信息得到贝叶斯网推理的证据集Qe,如表6所示。
表6.从Nn中给出的直接信息得到贝叶斯网推理的证据集Qe
编号 1 2 4 5 6 8 9 11
节点 导演 导演二 明星 微博 地名二 地名一 娱乐圈 广告
状态 4 1 4 1 4 1 1 1
按照步骤4.2,由贝叶斯网的变量集Qa和证据集Qe,求出非证据集Qf,如表7所示。
表7.非证据集Qf
Figure GDA0004141371940000141
按照式(4-2)得到P(Qe|Qf),表示在给定证据集Qe的前提下非证据集Qf中每个节点的状态及概率分布的集合。对于Qf中的人物实体集合Qf,p,使用式(4-3)求出综合评价值,并对人物实体进行非降序排序,如表8所示。
表8.Qf,p中人物实体的状态及概率
实体序号 实体 状态1 状态2 状态3 状态4 状态5 综合评价值 排序序号
13 演员二 0.03 0.929 0.041 0 0 1.011 1
0 导演一 0 1 0 0 0 1 2
23 演员八 0.109 0.886 0.005 0 0 0.896 3
18 演员四 0.367 0.593 0.037 0.003 0 0.676 4
15 演员三 0.374 0.591 0.033 0.002 0 0.663 5
19 演员五 0.396 0.559 0.045 0 0 0.649 6
24 演员九 0.396 0.559 0.045 0 0 0.649 7
25 演员十 0.396 0.559 0.045 0 0 0.649 8
26 演员十一 0.396 0.559 0.045 0 0 0.649 9
27 演员十二 0.396 0.559 0.045 0 0 0.649 10
20 演员六 0.432 0.547 0.019 0.001 0 0.588 11
21 主持人一 0.597 0.397 0.007 0 0 0.411 12
3 演员一 0.972 0.027 0 0 0 0.027 13
22 演员七 1 0 0 0 0 0 14
Qf,p中人物实体包含在历史网页中、而在新网页中未直接给出,但是与新网页中人物实体存在相关性;人物实体的综合评价值越大,则其与新网页中人物实体的依赖关系越强,相比其他人物实体更值得关注和分析。
表8中“综合评价值”为步骤4的输出,以排名前2的人物实体“导演一”和“演员二”为例,他们与新网页中人物实体“导演二”存在相关性,而且这种相关性在新网页中并未直接描述。利用百度搜索查询“导演二演员二”可找到描述导演二赞赏演员二主演的电影《电影三》的新闻;利用百度搜索查询“导演二导演一”可找到导演一签约并投资导演二等新人导演的新闻,说明上述人物关系分析方法的有效性与可用性。

Claims (2)

1.一种基于贝叶斯网的网页新闻数据中的人物关系分析方法,该方法的特征在于包括如下步骤:
1:预处理
1.1:对人物实体知识图谱进行自组织映射
从互联网获取或根据领域知识给定知识图谱,记为KG,KG包含人物实体节点和非人物实体节点,对于KG中的所有节点,以其邻接节点为特征进行自组织映射(SelfOrganization Map,SOM),使原本具有高维特征的节点降维至二维平面并记录坐标,具体过程如下:
1.1.1:构建特征向量
对KG中的节点a,以其邻接节点作为其特征,构成特征向量Xa,Xa的维度
Figure FDA0004100454560000011
为KG中节点的数量;
1.1.2:设计SOM网络的结构
SOM网络的输入是任意个高维的特征向量Xa,输出是n2个输出神经元向量Wj,其中n大于等于10以及j=0,1,...,n2-1;n取值越大,SOM处理结果越精确但效率越低,根据KG中人物实体数量、以既保证精度也保证效率为原则设置n的取值;输出神经元向量Wj的维度与输入特征向量Xa的维度相等,每个输出神经元向量Wj都可视为聚类结果中的一个类,所有输入的高维特征向量Xa在SOM结束后都将归入某个输出神经元向量Wj代表的类中;同时,每个输出神经元向量Wj都具有一个二维坐标(Wj,x,Wj,y),其中Wj,x=0,1,...,n-1且Wj,y=0,1,...,n-1;每个分配到Wj的特征向量Xa都将继承Wj的二维坐标(Wj,x,Wj,y);
1.1.3:初始化SOM网络的参数
迭代计数器t的初始值为1,最大迭代次数T大于等于10,期望误差率ε,其中0<ε<1,第一次迭代时的学习率为b1,其中0<b1<1,每个输出神经元向量Wj的初始值初始化为零向量,初始邻域大小为Nj,其中Nj>0,邻域的形状是以Nj为半径的圆,邻域内的输出神经元向量Wj会受到输入的特征向量Xa影响而改变取值;随着邻域的缩小,输出神经元向量Wj的取值逐渐收敛于一个稳定值,使得Wj与划分到Wj的所有特征向量Xa的欧式距离之和达到一个局部极小值,说明已完成输入特征向量的自组织映射;
1.1.4:SOM按如下步骤进行:
(1)迭代计数器t加1;
(2)对第j个,其中j=0,1,...,n2-1,输出神经元向量Wj,使用式(1-1)计算Xa与Wj的欧式距离dj,Xa,i代表Xa的第i个分量,Wj,i代表Wj的第i个分量;
Figure FDA0004100454560000021
(3)比较所有距离dj,其中j=0,1,...,n2-1,特征向量中具有最小欧式距离的神经元为最佳神经元,记为C;
(4)按式(1-2)更新学习率bt
bt=b1×(1-t/T) (1-2)
(5)按式(1-3)更新最佳神经元C及其邻域内神经元的邻域大小,Nc,t代表第t次迭代时最佳神经元C邻域内、包括C在内的输出神经元向量的邻域大小,floor是向下取整函数;
Nc,t=floor[Nc,1×(1-t/T)] (1-3)
(6)按式(1-4)更新最佳神经元C及其邻域内神经元的向量值,Wc,t代表第t次迭代时最佳神经元C邻域、包括C在内的输出神经元向量;
Wc,t=Wc,t-1+bt×(t-1)×(Xa-Wc,t-1) (1-4)
(7)按式(1-5)计算第t次迭代时整个SOM网络的误差率Et,若Et收敛于期望误差率或达到最大迭代次数,则进入步骤1.1.5,否则重新执行步骤1.1.4;
Figure FDA0004100454560000022
1.1.5:计算节点间的相似性
高维特征向量Xa通过步骤1.1.4进行自组织映射处理后,都将归入某个输出神经元向量Wj所代表的类中,并继承Wj的二维坐标(Wj,x,Wj,y);知识图谱KG中任意2个用二维坐标描述的节点之间的欧式距离越小,则这2个节点特征值越相似,使用式(1-6)度量相似性;
similarity(O1,O2)=exp{-[euc(O1,O2)]} (1-6)
其中,对于需要计算相似性的2个节点O1和O2,euc函数计算这2个节点在输出二维平面上的欧式距离,exp代表指数函数;当2个节点坐标相同时,相似性等于1;当2个节点之间的距离趋向无穷大时,相似性趋近0;
1.2:接收初始人物关系查询集合并补充节点
用户给出的初始查询的形式是一个人物实体集合Qp,从知识图谱KG中找到Qp集合中所有节点的邻接节点,将这些邻接节点加入Qp,从而形成包含了人物实体节点和非人物实体节点的扩展集合Qa,作为后续步骤中贝叶斯网的节点集;
1.3:网页新闻数据中的实体实例数统计
以网页新闻数据中不包含标点的短句作为最小处理单位s,利用自然语言处理技术对集合Qa中每个元素Qa,e进行统计计算,得到实例数
Figure FDA0004100454560000031
基于步骤1.1完成的自组织映射处理,按式(1-7)计算/>
Figure FDA0004100454560000032
Figure FDA0004100454560000033
其中,hi代表s中抽取出的第i个名词实体,这样的名词实体共H个,每个hi的实例数
Figure FDA0004100454560000034
可直接统计计数得到;
1.4:对实例数统计量进行归一化处理并映射到区间[1,L]后取整
对于包含了人物实体节点和非人物实体节点的扩展集合Qa,每一个短句s都对应Qa中所有元素实例数的统计量;根据式(1-7),该统计量的取值有无穷多个,为了方便构建贝叶斯网,根据网页新闻数据中不同名词实体数及频繁程度,设置每个实体节点的L种状态,并将Qa中所有元素的实例数统计量首先进行归一化处理,先将其映射到[1,L]区间,然后四舍五入取整后再加1,最终得到1、2、...、L,即每个名词实体节点的L种状态,刻画某个名词实体在某个句子中出现的频繁程度,数字越大则频繁程度越高;
2:贝叶斯网结构学习
步骤1将网页新闻数据中的文本数据转换为用于构建贝叶斯网的训练数据,以供本步骤中贝叶斯网结构学习使用;
2.1:贝叶斯网结构评分
基于评分搜索(Scoring&Search)方法进行贝叶斯网的结构学习,基于训练数据、使用式(2-1)计算某个候选网络结构G的评分,反映Gc与观测数据之间的吻合程度;
Figure FDA0004100454560000041
其中,o代表贝叶斯网中节点的数量,pi是节点Vi取值组合的数目,qi是节点Vi父节点Ui取值组合的数目;由于贝叶斯网中每个节点有L种状态,所以pi=qi=L;Nijk表示训练数据中Vi为第j个状态、Ui为第k个状态时的实例数,可从训练数据中通过统计计数得到,且
Figure FDA0004100454560000042
Gc的分数score(Gc)是Gc对人物依赖关系表达能力的量化评估,分数越高,代表该结构越符合观测数据中蕴含的人物依赖关系;
2.2:搜索最优贝叶斯网结构
采用贪婪爬山法进行最优网络结构搜索,优点在于适合大规模数据、不对网络结构做限制,不会因算法本身的限制而影响搜索结果的准确性;初始时,一个无边的图结构代表人物节点之间没有任何依赖关系,该结构同时是初始最优结构;从这个无边的图结构开始,在每一步通过单次的边添加即添加人物依赖关系、边删除即删除人物依赖关系、边反转即反转人物依赖关系操作生成一组当前候选最优结构,按式2-1计算各候选网络结构的评分,并找到其中评分最高者作为新的最优网络结构;重复执行这一过程,直到评分不再提高,最终得到一个可以描述网页新闻数据中人物依赖关系的网络结构Gb
3:贝叶斯网参数学习
3.1:使用条件概率表记录贝叶斯网各节点的条件概率分布
基于步骤1提供的训练数据和步骤2得到的贝叶斯网结构Gb进行贝叶斯网参数学习,且节点的实例数并不存在先验概率,通过统计训练数据中的实例数来计算各节点的条件概率表,作为参数学习的结果;对于父节点集为U的变量V,将U中实体集在网页新闻句子中的频繁程度对V中实体频繁程度的影响度作为条件概率P(V=v|U=u),定量地给出贝叶斯网中V和U之间的依赖关系,计算方法如式(3-1);
Figure FDA0004100454560000043
其中,Nvu表示变量V取值为v、U取值为u时的实例数,Nu表示U取值为u时的实例数,两者均可从训练数据中计数得到;然后,将P(V=v|U=u)结果填入对应位置,得到贝叶斯网的条件概率表;步骤2得到的贝叶斯网结构中,每一个节点都将生成一个条件概率表;
4:基于贝叶斯网概率推理的网页新闻数据中人物关系分析
4.1:从新网页获取贝叶斯网推理的证据
步骤4的输入是一个未处理过的新网页Nn,用户查询中包含Nn中的任意人物实体或人物实体集,使用步骤1.3和1.4所述的方法进行处理,抽取出Nn中的人物实体集合;新网页与历史网页中的人物实体来自相同论域,作为贝叶斯网推理的证据Qe
4.2:基于贝叶斯网进行概率推理并输出相关人物实体节点的状态和概率
贝叶斯网的概率推理基于贝叶斯公式实现,对于事件A和事件B,贝叶斯公式如式(4-1);
Figure FDA0004100454560000051
步骤1.2得到贝叶斯网的节点集Qa,描述历史新闻网页中人物实体;步骤4.1得到贝叶斯网推理的证据Qe,描述新网页中给定的人物实体;Qa中Qe的补集Qf为贝叶斯网推理的目标,即与Qe中人物实体相关的人物实体集;对此,式(4-1)可具体表示为式(4-2);
Figure FDA0004100454560000052
利用步骤2得到的贝叶斯网结构,通过条件独立性简化式(4-2)的概率计算,利用3.1中得到的贝叶斯网中各节点的条件概率表,可得到联合概率分布P(Qe,Qf),表示给定人物实体Qe时贝叶斯网中其他人物实体的状态及概率分布;针对Qf中的每个人物实体e,得到Ye={<1,p1>,<2,p2>,...,<L,pL>},将其表示为Ye={<v,pv>|v=1,2,...,L},即与Qe中人物实体相关的人物实体的状态及概率分布;
为了对Qf中的每一个人物实体进行相关性的排序,综合判断人物实体之间的相关性,使用式(4-3)求出Qf中每一个人物实体的综合评价值;该值越大,则相应人物实体与新网页中人物实体的相关性就越强;按该值对Qf中的人物实体进行非降序排序输出,可为舆情传播、推荐系统、精准营销领域的关联分析提供有力支持
Figure FDA0004100454560000053
2.根据权利要求1所述的基于贝叶斯网的网页新闻数据中的人物关系分析方法,其特征在于:搜索对象为“某新闻网站”中的网页新闻,设计相应的SOM网络结构时,设置n的取值为50,即输出50乘以50共2500个神经元向量Wj,其中j=0,1,...,502-1;设置每个实体节点的5种状态,即对实例数统计量进行归一化处理并映射到区间[1,5]。
CN201811310690.5A 2018-11-06 2018-11-06 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 Active CN109508385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811310690.5A CN109508385B (zh) 2018-11-06 2018-11-06 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811310690.5A CN109508385B (zh) 2018-11-06 2018-11-06 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法

Publications (2)

Publication Number Publication Date
CN109508385A CN109508385A (zh) 2019-03-22
CN109508385B true CN109508385B (zh) 2023-05-19

Family

ID=65747645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811310690.5A Active CN109508385B (zh) 2018-11-06 2018-11-06 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法

Country Status (1)

Country Link
CN (1) CN109508385B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241289B (zh) * 2020-01-17 2022-05-03 北京工业大学 一种基于图理论和som网络的文本聚类方法
CN113515920B (zh) * 2020-04-09 2024-06-21 北京庖丁科技有限公司 从表格中提取公式的方法、电子设备和计算机可读介质
CN113360675B (zh) * 2021-06-25 2024-02-13 中关村智慧城市产业技术创新战略联盟 一种基于互联网开放世界的知识图谱特定关系补全方法
CN113254675B (zh) * 2021-07-16 2021-11-16 国网电子商务有限公司 基于自适应少样本关系抽取的知识图谱构建方法
CN114579768A (zh) * 2022-05-06 2022-06-03 深圳市信润富联数字科技有限公司 一种实现设备智能运维知识库的维修方法
CN116259384B (zh) * 2023-05-16 2023-07-28 安徽中医药大学 一种基于医疗健康网状信息处理系统
CN117939506B (zh) * 2024-03-25 2024-06-18 云南大学 一种基于近似依赖规则的无线通信网络异常检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760900A (zh) * 2016-04-08 2016-07-13 西安电子科技大学 基于近邻传播聚类和稀疏多核学习的高光谱图像分类方法
CN106663124A (zh) * 2014-08-11 2017-05-10 微软技术许可有限责任公司 生成和使用知识增强型模型

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2599010B1 (en) * 2010-07-28 2020-06-10 HerbMiners Informatics Limited Artificial intelligence and methods for relating herbal ingredients with illnesses in traditional chinese medicine
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US9542528B2 (en) * 2012-03-30 2017-01-10 The Florida State University Research Foundation, Inc. Automated extraction of bio-entity relationships from literature
CN105760439B (zh) * 2016-02-02 2018-12-07 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN107392236B (zh) * 2017-07-07 2019-07-16 长沙学院 一种基于多域信息的物理对象关联聚类方法
CN108461151B (zh) * 2017-12-15 2021-06-15 北京大学深圳研究生院 一种知识图谱的逻辑增强方法及装置
CN108182295B (zh) * 2018-02-09 2021-09-10 重庆电信系统集成有限公司 一种企业知识图谱属性抽取方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663124A (zh) * 2014-08-11 2017-05-10 微软技术许可有限责任公司 生成和使用知识增强型模型
CN105760900A (zh) * 2016-04-08 2016-07-13 西安电子科技大学 基于近邻传播聚类和稀疏多核学习的高光谱图像分类方法

Also Published As

Publication number Publication date
CN109508385A (zh) 2019-03-22

Similar Documents

Publication Publication Date Title
CN109508385B (zh) 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
CN111737495B (zh) 基于领域自分类的中高端人才智能推荐系统及其方法
Yu et al. Attention-based convolutional approach for misinformation identification from massive and noisy microblog posts
Zhang et al. Event detection and popularity prediction in microblogging
Nie et al. Data-driven answer selection in community QA systems
Xu et al. Improving user recommendation by extracting social topics and interest topics of users in uni-directional social networks
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
Xu et al. Effective community division based on improved spectral clustering
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
Liu et al. A Comparative Analysis of Classic and Deep Learning Models for Inferring Gender and Age of Twitter Users [A Comparative Analysis of Classic and Deep Learning Models for Inferring Gender and Age of Twitter Users]
CN111241425A (zh) 一种基于层次注意力机制的poi推荐方法
Chatterjee et al. A review of judgment analysis algorithms for crowdsourced opinions
Bai et al. Rumor detection based on a source-replies conversation tree convolutional neural net
Rani et al. GeoClust: Feature engineering based framework for location-sensitive disaster event detection using AHP-TOPSIS
Saikia et al. Modelling social context for fake news detection: a graph neural network based approach
Sarwar et al. Exploiting ontology recommendation using text categorization approach
Salam et al. Optimizing extreme learning machine using GWO algorithm for sentiment analysis
Baboo et al. Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers
CN113535949A (zh) 基于图片和句子的多模态联合事件检测方法
Mahalakshmi et al. Twitter sentiment analysis using conditional generative adversarial network
CN113486649B (zh) 文本评论的生成方法以及电子设备
Suresh An innovative and efficient method for Twitter sentiment analysis
Feng et al. Forest-based deep recommender
Chaki et al. Pattern mining approaches used in social media data
Putra et al. Analyzing sentiments on official online lending platform in Indonesia with a Combination of Naive Bayes and Lexicon Based Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant