CN109508385B

CN109508385B - 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法

Info

Publication number: CN109508385B
Application number: CN201811310690.5A
Authority: CN
Inventors: 岳昆; 李磊; 李维华; 王笑一; 郭建斌
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2023-05-19
Anticipated expiration: 2038-11-06
Also published as: CN109508385A

Abstract

人物实体之间的关系抽取和依赖关系分析，可为舆情传播、推荐系统、精准营销领域提供有力支持。现实中许多人物实体之间并不具有直接关系，而往往通过其他实体间接地关联成网状关系，现有人物关系抽取方法只能判定少量的预定义人物关系类型，不能实现网状人物关系的定量分析。本发明引入公开的人物实体知识库，利用自组织映射方法，将高维和稀疏的网页新闻数据处理为完备的训练数据，构建用以描述网页新闻数据中所涉及各类实体之间依赖关系的贝叶斯网，关注基于贝叶斯网的人物实体关联建模与分析，同时利用历史网页中的知识和新网页中的信息，进行人物关系的定量分析推断，充分利用信息资源，有效提高了人物关系分析的准确性和效率。

Description

一种基于贝叶斯网的网页新闻数据中的人物关系分析方法

技术领域

本发明公开了一种网页新闻数据中的人物关系分析方法，涉及从网页新闻数据进行贝叶斯网的结构学习和参数学习，以及支持人物关系分析的概率推理，属于知识发现领域。

背景技术

从文本信息中抽取出满足人们特定需求的有用知识，以产生经济效益和社会效益，是信息抽取技术的重要目标和任务。基于文本信息的关系抽取(Relation Extraction)是信息抽取的重要课题，其任务是从文本信息中识别并获取实体之间的关系。文本信息可以有多种来源，如在线社区、博客、微博、网页新闻。近年来，各种传统新闻媒体将重心转移到互联网平台上，通过网页载体来发布新闻。网页新闻具有表达规范、时效性强、题材广泛、数据量大等特点，为关系抽取提供了一类可用的数据源。从网页新闻数据中可抽取出各种实体之间的关系，如时间、地点、人物；其中，人物之间的关系(Person Relation)抽取和依赖关系分析，可为舆情传播、推荐系统、精准营销领域提供有力支持，例如，公安机关可以发现可疑团伙或治安风险，舆情监管部门可以发现热点事件中的意见领袖和传播路径，政府部门可以得到政策直接或间接影响到的人群。

传统的人物关系抽取需要事先定义人物关系类型，而人工定义的类型难免存在不准确、类型不完全等问题。公知的人物关系抽取方法基本上都是对预定义的人物关系类型进行判定或查询，例如，刘永坚等(<专利201710026230.9>，2017)从人物关系抽取结果来构建知识库，当用户查询特定人物时，基于知识库中预定义的人物关系类型返回相关的人物。罗森林等(<专利201610866186.8>，2016)通过训练语料而构造三元组特征空间，对用户查询的三元组进行判定，利用置信度最大化原则判定所属的人物关系类别。张勇(<专利201610920348.1>，2016)，以分词处理结果中的词向量为输入、预定义的人物关系类别为输出，训练神经网络并提供给用户使用。

现实中的人物关系往往表现为多对多的关系网，适合用图模型来描述。同时，人物之间的关系具有不确定性，这种不确定性来源于人们对客观世界的观察及建模能力的有限性，也来源于人物关系固有的未知、不清晰等特点。概率图模型是能表达不确定性的图模型，作为一种支持概率推理的重要概率图模型，贝叶斯网(Bayesian Network,BN)是以随机变量为节点的有向无环图(DirectedAcyclic Graph,DAG)，每个节点有一张条件概率表(Conditional Probability Table,CPT)、定量描述变量间相互影响的程度，贝叶斯网能很好地表达现实中人物实体之间存在的依赖关系及其不确定性，本发明基于贝叶斯网来描述并分析网页新闻数据中蕴含的人物关系。

基于贝叶斯网的网页新闻数据中人物关系分析，既可表示历史网页新闻数据中蕴含的人物关系，也可基于历史数据中的人物关系来分析推断新网页中的人物关系。公知的利用贝叶斯网对互联网文本信息进行分析的方法，对新数据中包含的信息进行分析处理，未涉及基于历史数据中蕴含的知识对新数据的分析。例如，佘玉轩等(<计算机工程>，2018)提出基于贝叶斯网的无监督新闻故事线挖掘算法，将新闻故事线视为日期、时间、机构、人物、地点、主题和关键词的联合概率分布，具有较好的故事线挖掘能力，但仅考虑了新闻中直接给出的信息，未涉及间接关系的挖掘；冯军军等(<计算机与数字工程>，2017)以文档频数作为文本特征，通过构建朴素贝叶斯网模型来实现微博话题的追踪，具有分类简单、效率高等优点，但依赖于微博内容中给出的直接信息。

现实中许多人物实体之间并不具有直接关系，而往往通过其他实体间接地关联起来，这些实体可以是人物、机构、物品、事件等，例如，人们因为共同参加一个会议或拥有共同的朋友，进而认识并形成间接的人物关系。本发明将历史网页新闻数据作为训练数据来构建贝叶斯网，包括贝叶斯网的结构学习和参数学习，从而描述历史网页新闻数据中所涉及各类实体之间的依赖关系，节点代表这些实体，边描述实体之间的依赖关系，各节点的条件概率参数定量地描述人物之间相互依赖的程度。进一步使用贝叶斯网的推理方法，一方面，对于任意给定的人物实体或人物实体集，可容易地发现历史网页中人物实体之间存在的间接关系；另一方面，若新网页中的人物实体与历史网页中的人物实体来自相同论域，则将新网页中的人物实体作为推理的证据，将贝叶斯网中所涉及历史网页中的人物实体作为推理的目标，可得到给定新网页中人物实体时，历史网页中其他人物实体节点不同取值的概率分布，作为给定新网页中人物实体与历史网页中人物实体之间关联关系的不确定性，即同时利用历史网页中蕴含的知识和新网页中的信息来实现网页新闻数据中人物关系的分析。

发明内容

本发明的目的：为解决公知的人物关系分析方法只能对少量的预定义人物关系类型进行判定、缺乏通用性和语义准确性等问题，本发明基于网页新闻数据、引入互联网上公开的人物实体知识库，构建用以描述网页新闻数据中所涉及各类实体之间依赖关系的贝叶斯网，关注基于贝叶斯网的人物实体关联建模与分析。

为解决公知技术只能分析新网页中给出的直接信息、而无法利用历史网页中所蕴含知识的问题，本发明基于贝叶斯网的推理方法，同时利用历史网页中的知识和新网页中的信息，进行人物关系的分析推断。

本发明的执行过程分为4个步骤。

(1)预处理：对网页新闻中的本文数据进行处理，统计实体实例数，作为贝叶斯网结构学习和参数学习的特征数据。

(2)贝叶斯网结构学习：利用预处理得到的数据，学习贝叶斯网的有向无环图结构。

(3)贝叶斯网参数学习：利用预处理得到的数据和学习得到的有向无环图结构，学习贝叶斯网的条件概率参数，以表格形式输出。

(4)基于贝叶斯网概率推理的人物关系分析：同时利用历史网页中的知识和新网页中的信息进行人物关系分析，以新网页中的信息作为证据，使用贝叶斯网的概率推理方法，分析贝叶斯网中与新网页中人物实体相关的人物实体。

具体步骤如下：

1：预处理

1.1：对人物实体知识图谱进行自组织映射

从互联网获取或根据领域知识给定知识图谱，记为KG，KG包含人物实体节点和非人物实体节点；对于KG中的所有节点，以其邻接节点为特征进行自组织映射(SelfOrganization Map,SOM)，使原本具有高维特征的节点降维至二维平面并记录坐标；具体过程如下：

1.1.1：构建特征向量

对KG中的节点a，以其邻接节点作为其特征，构成特征向量X_a，X_a的维度

为KG中节点的数量；

1.1.2：设计SOM网络的结构

SOM网络的输入是任意个高维的特征向量X_a，输出是n²个输出神经元向量W_j，其中n大于等于10以及j＝0,1,…,n²-1；n取值越大，SOM处理结果越精确但效率越低，根据KG中人物实体数量、以既保证精度也保证效率为原则设置n的取值，输出神经元向量W_j的维度与输入特征向量X_a的维度相等；每个输出神经元向量W_j都可视为聚类结果中的一个类，所有输入的高维特征向量X_a在SOM结束后都将归入某个输出神经元向量W_j代表的类中；同时，每个输出神经元向量W_j都具有一个二维坐标(W_j,x,W_j,y)，其中W_j,x＝0,1,…,n-1且W_j,y＝0,1,…,n-1；每个分配到W_j的特征向量X_a都将继承W_j的二维坐标(W_j,x,W_j,y)；

1.1.3：初始化SOM网络的参数

迭代计数器t的初始值为1，最大迭代次数T大于等于10，期望误差率ε，其中0<ε<1，第一次迭代时的学习率为b₁，其中0<b₁<1，每个输出神经元向量W_j的初始值初始化为零向量，初始邻域大小为N_j，其中N_j>0；邻域的形状是以N_j为半径的圆，邻域内的输出神经元向量W_j会受到输入的特征向量X_a影响而改变取值；随着邻域的缩小，输出神经元向量W_j的取值逐渐收敛于一个稳定值，使得W_j与划分到W_j的所有特征向量X_a的欧式距离之和达到一个局部极小值，说明已完成输入特征向量的自组织映射；

1.1.4：SOM按如下步骤进行：

(1)迭代计数器t加1；

(2)对第j个，其中j＝0,1,…,n²-1，输出神经元向量W_j，使用式(1-1)计算X_a与W_j的欧式距离d_j，X_a,i代表X_a的第i个分量，W_j,i代表W_j的第i个分量；

(3)比较所有距离d_j，其中j＝0，1，...，n²-1，特征向量中具有最小欧式距离的神经元为最佳神经元，记为C；

(4)按式(1-2)更新学习率b_t；

b_t＝b₁×(1-t/T) (1-2)

(5)按式(1-3)更新最佳神经元C及其邻域内神经元的邻域大小；N_c，t代表第t次迭代时最佳神经元C邻域内、包括C在内的输出神经元向量的邻域大小，floor是向下取整函数；

N_c，t＝floor[N_c，1×(1-t/T)] (1-3)

(6)按式(1-4)更新最佳神经元C及其邻域内神经元的向量值；W_c，t代表第t次迭代时最佳神经元C邻域、包括C在内的输出神经元向量；

W_c，t＝W_c，t-1+b_t×(t-1)×(X_a-W_c，t-1) (1-4)

(7)按式(1-5)计算第t次迭代时整个SOM网络的误差率E_t；若E_t收敛于期望误差率或达到最大迭代次数，则进入步骤1.1.5，否则重新执行步骤1.1.4；

1.1.5：计算节点间的相似性

高维特征向量X_a通过步骤1.1.4进行自组织映射处理后，都将归入某个输出神经元向量W_j所代表的类中，并继承W_j的二维坐标(W_j，x，W_j，y)；知识图谱KG中任意2个用二维坐标描述的节点之间的欧式距离越小，则这2个节点特征值越相似，使用式(1-6)度量相似性

similarity(O₁，O₂)＝exp{-[euc(O₁，O₂)]} (1-6)

其中，对于需要计算相似性的2个节点O₁和O₂，euc函数计算这2个节点在输出二维平面上的欧式距离，exp代表指数函数；当2个节点坐标相同时，相似性等于1；当2个节点之间的距离趋向无穷大时，相似性趋近0；

1.2：接收初始人物关系查询集合并补充节点

用户给出的初始查询的形式是一个人物实体集合Q_p；从知识图谱KG中找到Q_p集合中所有节点的邻接节点，将这些邻接节点加入Q_p，从而形成包含了人物实体节点和非人物实体节点的扩展集合Q_a，作为后续步骤中贝叶斯网的节点集；

1.3：网页新闻数据中的实体实例数统计

以网页新闻数据中不包含标点的短句作为最小处理单位s，利用自然语言处理技术对集合Q_a中每个元素Q_a,e进行统计计算，得到实例数

基于步骤1.1完成的自组织映射处理，按式(1-7)计算/>

其中，h_i代表s中抽取出的第i个名词实体，这样的名词实体共H个，每个h_i的实例数

可直接统计计数得到；

1.4：对实例数统计量进行归一化处理并映射到区间[1,L]后取整

对于包含了人物实体节点和非人物实体节点的扩展集合Q_a，每一个短句s都对应Q_a中所有元素实例数的统计量，根据式(1-7)，该统计量的取值有无穷多个，为了方便构建贝叶斯网，根据网页新闻数据中不同名词实体数及频繁程度，设置每个实体节点的L种状态，并将Q_a中所有元素的实例数统计量首先进行归一化处理，先将其乘以L映射到[1,L]区间，然后四舍五入取整再加1，最终得到1、2、…、L，即每个名词实体节点的L种状态，刻画某个名词实体在某个句子中出现的频繁程度，数字越大则频繁程度越高；

2：贝叶斯网结构学习

步骤1将网页新闻数据中的文本数据转换为用于构建贝叶斯网的训练数据，以供本步骤中贝叶斯网结构学习使用；

2.1：贝叶斯网结构评分

本发明基于评分搜索(Scoring&Search)方法进行贝叶斯网的结构学习；基于训练数据、使用式(2-1)计算某个候选网络结构G_c的评分，反映G_c与观测数据之间的吻合程度

其中，o代表贝叶斯网中节点的数量，p_i是节点V_i取值组合的数目，q_i是节点V_i父节点U_i取值组合的数目；由于贝叶斯网中每个节点有L种状态，所以p_i＝q_i＝L；N_ijk表示训练数据中V_i为第j个状态、U_i为第k个状态时的实例数，可从训练数据中通过统计计数得到，且

G_c的分数score(G_c)是G_c对人物依赖关系表达能力的量化评估，分数越高，代表该结构越符合观测数据中蕴含的人物依赖关系；

2.2：搜索最优贝叶斯网结构

采用贪婪爬山法进行最优网络结构搜索，优点在于适合大规模数据、不对网络结构做限制，不会因算法本身的限制而影响搜索结果的准确性；初始时，一个无边的图结构代表人物节点之间没有任何依赖关系，该结构同时是初始最优结构；从这个无边的图结构开始，在每一步通过单次的边添加即添加人物依赖关系、边删除即删除人物依赖关系、边反转即反转人物依赖关系，操作生成一组当前候选最优结构，按式(2-1)计算各候选网络结构的评分，并找到其中评分最高者作为新的最优网络结构；重复执行这一过程，直到评分不再提高，最终得到一个可以描述网页新闻数据中人物依赖关系的网络结构G_b；

3：贝叶斯网参数学习

3.1：使用条件概率表记录贝叶斯网各节点的条件概率分布

基于步骤1提供的训练数据和步骤2得到的贝叶斯网结构G_b进行贝叶斯网参数学习；由于在步骤1中进行了自组织映射处理、并给出了节点相似性计算函数，因此所使用的网页新闻数据可视为完备数据，且节点的实例数并不存在先验概率；本发明通过统计训练数据中的实例数来计算各节点的条件概率表，作为参数学习的结果；对于父节点集为U的变量V，将U中实体集在网页新闻句子中的频繁程度对V中实体频繁程度的影响度作为条件概率P(V＝v|U＝u)，定量地给出贝叶斯网中V和U之间的依赖关系，计算方法如式(3-1)

其中，N_vu表示变量V取值为v、U取值为u时的实例数，N_u表示U取值为u时的实例数，两者均可从训练数据中计数得到；然后，将P(V＝v|U＝u)结果填入对应位置，得到贝叶斯网的条件概率表；步骤2得到的贝叶斯网结构中，每一个节点都将生成一个条件概率表；

4：基于贝叶斯网概率推理的网页新闻数据中人物关系分析

4.1：从新网页获取贝叶斯网推理的证据

步骤4的输入是一个未处理过的新网页N_n，用户查询中包含N_n中的任意人物实体或人物实体集，使用步骤1.3和1.4所述的方法进行处理，抽取出N_n中的人物实体集合；新网页与历史网页中的人物实体来自相同论域，作为贝叶斯网推理的证据Q_e；

4.2：基于贝叶斯网进行概率推理并输出相关人物实体节点的状态和概率

贝叶斯网的概率推理基于贝叶斯公式实现，对于事件A和事件B，贝叶斯公式如式(4-1)

在本发明中，步骤1.2得到贝叶斯网的节点集Q_a，描述历史新闻网页中人物实体；步骤4.1得到贝叶斯网推理的证据Q_e，描述新网页中给定的人物实体；Q_a中Q_e的补集Q_f为贝叶斯网推理的目标，即与Q_e中人物实体相关的人物实体集；对此，式(4-1)可具体表示为式(4-2)

利用步骤2得到的贝叶斯网结构，通过条件独立性简化式(4-2)的概率计算，利用3.1中得到的贝叶斯网中各节点的条件概率表，可得到联合概率分布P(Q_e,Q_f)，表示给定人物实体Q_e时贝叶斯网中其他人物实体的状态及概率分布；针对Q_f中的每个人物实体e，得到Y_e＝{<1,p₁>,<2,p₂>,…,<L,p_L>}，将其表示为Y_e＝{<v,p_v>|v＝1,2,…,L}，即与Q_e中人物实体相关的人物实体的状态及概率分布；

为了对Q_f中的每一个人物实体进行相关性的排序，综合判断人物实体之间的相关性，使用式(4-3)求出Q_f中每一个人物实体的综合评价值；该值越大，则相应人物实体与新网页中人物实体的相关性就越强；按该值对Q_f中的人物实体进行非降序排序输出，可为舆情传播、推荐系统、精准营销等领域的关联分析提供有力支持

与现有技术相比本发明具有的优点及积极效果

(1)本发明使用贝叶斯网作为网页新闻数据中所涉及实体之间依赖关系建模和推理的基本框架，有效地描述了网页新闻数据中实体之间的任意形式的相关性及其不确定性；可有效地描述人物实体之间通过其他人物、机构、物品、事件等实体产生的间接相关性，以定性和定量的方式更加客观、完备、深层次地对人物关系进行建模。

(2)本发明引入互联网上公开的人物实体知识图谱，确定人物关系分析的论域，保证了人物关系分析中人物实体本身的客观性和完备性，也保证了语义层面的有效性；使用自组织映射方法对网页新闻中的名词实体进行预处理，从实际应用的角度，保证了从高维和稀疏的网页新闻数据得到的训练数据的完备性，同时也提供了一种将高维数据映射到二维空间的统一的、便于计算的数据预处理机制。

(3)本发明对于任意给定的人物实体，可容易地利用贝叶斯网的概率推理方法来发现历史网页中人物实体之间存在的间接关系，并且可将新网页中的人物实体作为推理的证据，将历史网页中的人物实体作为推理的目标来实现网页新闻数据中人物关系的分析。

(4)本发明有效利用贝叶斯网的概率推理机制进行网页新闻数据中人物关系的分析，无需根据具体查询任务来重构模型或即席构建计算表达式，保证了人物关系分析的高效性。

附图说明

图1：本发明的技术路线图

图2：贪婪爬山法搜索到的前9个最优结构

图3：表2中包含28个节点的贝叶斯网结构

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例：“某新闻网站”中的网页新闻数据的人物关系分析。

1：预处理

按照步骤1.1，从互联网获取公开的知识图谱KG，KG中共有109332个实体，包含人物实体和非人物实体。对于KG的所有实体，以其邻接实体为特征进行自组织映射，输出50乘以50个神经元向量W_j，其中j＝0,1,…,50²-1。每个输出神经元向量W_j都可视为聚类结果中的一个类，所有实体在自组织映射结束后都将归入某个输出神经元向量W_j代表的类中。同时，每个输出神经元向量W_j都具有二维坐标(W_j,x,W_j,y)(W_j,x＝0,1,…,49，W_j,y＝0,1,…,49)，每个分配到W_j的实体都将继承W_j的二维坐标(W_j,x,W_j,y)。部分知识图谱实体的名称、序号和二维坐标如表1所示。

表1.经过自组织映射后知识图谱实体的名称、序号、二维坐标

实体名称	实体序号	x坐标	y坐标
				头发	1	47	1
隔天	2	3	31
				习惯	3	49	2
……	……	……	……
				熏鱼	109330	19	9
湖泊	109331	24	22
				城前	109332	28	27

按照步骤1.2，若用户拟分析“导演一”和“演员一”这两个人物之间的关系，查询集合Q_p＝{导演一,演员一}。从KG中找到Q_p中各节点的邻接节点，将这些邻接节点加入Q_p形成包含了人物实体节点和非人物实体节点的扩展集合Q_a，作为贝叶斯网的变量集。Q_a包含28个元素，以方便后续表示，从0开始编号，如表2所示，考虑表示的方便，用x和y分别表示坐标中的两个维度的取值。

表2.扩展集合Q_a的编号、节点、坐标

根据步骤1.3，从“某新闻网站”2017年网页新闻数据中任意选择10000个句子。以句子s“一部由编剧一编剧、导演三执导、演员十三主演的电影《电影一》在中国掀起一场全民热议”为例，该句子中可以提取出“编剧一”、“导演三”、“演员十三”、“电影”、“电影一”、“中国”、“全民”共7个实体。利用自然语言处理技术，对集合Q_a中每个元素Q_a,e进行统计计数，得到实例数

如表3中/>

列所示。根据步骤1.4对s中所有实体按式(1-7)处理得到的/>

进行归一化处理并映射到区间[1,5]后取整，结果如表3中“归一化”、“映射到[1,5]”和“取整加1”等列所示。在表3“取整”列中的数据构成s中的一条贝叶斯网训练数据，采用相同的方法处理其他9999个句子，得到训练数据集。

表3.s中所有实体的

及归一化、映射、取整/>

2：贝叶斯网结构学习

按照步骤2.1，基于预处理得到的数据集，使用式(2-1)对一个候选结构进行评分，以表2中的前10个节点为代表，对贝叶斯网结构进行评分，表4给出了3条训练数据中的相关节点、序号和取值。

表4.训练数据片段

第一个候选结构G_c1＝{“8_地名一”→“5_微博”}，从训练数据中可以统计到N₆₂₃＝1，N₆₂₄＝1，N₆₂₅＝1，其余N_ijk＝0，N₆₂＝3，则

第二个候选结构G_c2＝{“9_娱乐圈”→“5_微博”}，从训练数据中可以统计到N₆₂₃＝1，N₆₂₅＝1，其余N_ijk＝0，N₆₂＝3，则

根据评分可知，候选结构G_c2分数高于候选结构G_c1的分数，G_c2优于G_c1。

按照步骤2.2，采用贪婪爬山法搜索表2中28个节点的最优网络结构。以表2中28个节点的无边结构开始，在每一步通过单次的边添加即添加人物依赖关系、边删除即删除人物依赖关系、边反转即反转人物依赖关系，操作生成当前一组候选结构。分别计算各候选结构的评分，并找到其中评分最高者作为新的最优结构，搜索过程中的前9个最优结构如图2所示，其中节点的标签由节点序号、下划线、节点名称构成。重复执行这一过程，直到评分不再提高，最终得到一个可以描述网页新闻数据中人物依赖关系的贝叶斯网结构，如图3所示。可以看出，少部分人物之间具有直接相关性，如“3_演员一”→“22_演员七”，大部分人物之间通过其他实体产生间接的相关性，如“15_演员三”→“12_影坛”→“20_演员六”，这说明本发明能对实际中广泛存在的人物之间的间接关系进行有效建模。

3：贝叶斯网参数学习

按照步骤3.1，利用图3所示的贝叶斯网结构和预处理输出的训练数据进行贝叶斯网参数学习，得到各节点的条件概率表，条件概率表的行标题是子节点的不同状态，列标题是父节点的不同状态，在行、列标题中，括弧外是节点序号、括弧内是状态序号，表中数值是对应的条件概率分布值，按式(3-1)计算。

图2中“20_演员六”的条件概率表如表5所示，说明该人物实体“20_演员六”在网页新闻数据中的频繁程度依赖于实体“12_影坛”的频繁程度。

表5.节点“20_演员六”的条件概率表P(20|12)

P(20\|12)	12(0)	12(1)	12(2)	12(3)	12(4)
						20(0)	0.98	0.06	0.00	0.00	0.00
20(1)	0.02	0.93	0.36	0.00	0.00
						20(2)	0.00	0.00	0.63	0.49	0.00
20(3)	0.00	0.00	0.02	0.51	0.50
						20(4)	0.00	0.00	0.00	0.00	0.50

4：基于贝叶斯网概率推理的网页新闻数据中人物关系分析

本发明构建的贝叶斯网可以较准确地表达历史网页新闻数据蕴含的知识。并可用于分析新网页中的人物关系。

按照步骤4.1，对于一篇不存在于本发明训练数据集中的新网页N_n“专访导演导演二：在捉襟见肘的资金和时间成本中，让《电影二》拍得更难一点”。使用步骤1.3和1.4所述的方法进行处理，从N_n中的信息得到贝叶斯网推理的证据集Q_e，如表6所示。

表6.从N_n中给出的直接信息得到贝叶斯网推理的证据集Q_e

编号	1	2	4	5	6	8	9	11
									节点	导演	导演二	明星	微博	地名二	地名一	娱乐圈	广告
状态	4	1	4	1	4	1	1	1

按照步骤4.2，由贝叶斯网的变量集Q_a和证据集Q_e，求出非证据集Q_f，如表7所示。

表7.非证据集Q_f

按照式(4-2)得到P(Q_e|Q_f)，表示在给定证据集Q_e的前提下非证据集Q_f中每个节点的状态及概率分布的集合。对于Q_f中的人物实体集合Q_f,p，使用式(4-3)求出综合评价值，并对人物实体进行非降序排序，如表8所示。

表8.Q_f,p中人物实体的状态及概率

实体序号	实体	状态1	状态2	状态3	状态4	状态5	综合评价值	排序序号
									13	演员二	0.03	0.929	0.041	0	0	1.011	1
0	导演一	0	1	0	0	0	1	2
									23	演员八	0.109	0.886	0.005	0	0	0.896	3
18	演员四	0.367	0.593	0.037	0.003	0	0.676	4
									15	演员三	0.374	0.591	0.033	0.002	0	0.663	5
19	演员五	0.396	0.559	0.045	0	0	0.649	6
									24	演员九	0.396	0.559	0.045	0	0	0.649	7
25	演员十	0.396	0.559	0.045	0	0	0.649	8
									26	演员十一	0.396	0.559	0.045	0	0	0.649	9
27	演员十二	0.396	0.559	0.045	0	0	0.649	10
									20	演员六	0.432	0.547	0.019	0.001	0	0.588	11
21	主持人一	0.597	0.397	0.007	0	0	0.411	12
									3	演员一	0.972	0.027	0	0	0	0.027	13
22	演员七	1	0	0	0	0	0	14

Q_f,p中人物实体包含在历史网页中、而在新网页中未直接给出，但是与新网页中人物实体存在相关性；人物实体的综合评价值越大，则其与新网页中人物实体的依赖关系越强，相比其他人物实体更值得关注和分析。

表8中“综合评价值”为步骤4的输出，以排名前2的人物实体“导演一”和“演员二”为例，他们与新网页中人物实体“导演二”存在相关性，而且这种相关性在新网页中并未直接描述。利用百度搜索查询“导演二演员二”可找到描述导演二赞赏演员二主演的电影《电影三》的新闻；利用百度搜索查询“导演二导演一”可找到导演一签约并投资导演二等新人导演的新闻，说明上述人物关系分析方法的有效性与可用性。

Claims

1.一种基于贝叶斯网的网页新闻数据中的人物关系分析方法，该方法的特征在于包括如下步骤：

1：预处理

1.1：对人物实体知识图谱进行自组织映射

从互联网获取或根据领域知识给定知识图谱，记为KG，KG包含人物实体节点和非人物实体节点，对于KG中的所有节点，以其邻接节点为特征进行自组织映射(SelfOrganization Map，SOM)，使原本具有高维特征的节点降维至二维平面并记录坐标，具体过程如下：

1.1.1：构建特征向量

为KG中节点的数量；

1.1.2：设计SOM网络的结构

SOM网络的输入是任意个高维的特征向量X_a，输出是n²个输出神经元向量W_j，其中n大于等于10以及j＝0，1，...，n²-1；n取值越大，SOM处理结果越精确但效率越低，根据KG中人物实体数量、以既保证精度也保证效率为原则设置n的取值；输出神经元向量W_j的维度与输入特征向量X_a的维度相等，每个输出神经元向量W_j都可视为聚类结果中的一个类，所有输入的高维特征向量X_a在SOM结束后都将归入某个输出神经元向量W_j代表的类中；同时，每个输出神经元向量W_j都具有一个二维坐标(W_j，x，W_j，y)，其中W_j，x＝0，1，...，n-1且W_j，y＝0，1，...，n-1；每个分配到W_j的特征向量X_a都将继承W_j的二维坐标(W_j，x，W_j，y)；

1.1.3：初始化SOM网络的参数

迭代计数器t的初始值为1，最大迭代次数T大于等于10，期望误差率ε，其中0＜ε＜1，第一次迭代时的学习率为b₁，其中0＜b₁＜1，每个输出神经元向量W_j的初始值初始化为零向量，初始邻域大小为N_j，其中N_j＞0，邻域的形状是以N_j为半径的圆，邻域内的输出神经元向量W_j会受到输入的特征向量X_a影响而改变取值；随着邻域的缩小，输出神经元向量W_j的取值逐渐收敛于一个稳定值，使得W_j与划分到W_j的所有特征向量X_a的欧式距离之和达到一个局部极小值，说明已完成输入特征向量的自组织映射；

1.1.4：SOM按如下步骤进行：

(1)迭代计数器t加1；

(2)对第j个，其中j＝0，1，...，n²-1，输出神经元向量W_j，使用式(1-1)计算X_a与W_j的欧式距离d_j，X_a，i代表X_a的第i个分量，W_j，i代表W_j的第i个分量；

(4)按式(1-2)更新学习率b_t；

b_t＝b₁×(1-t/T) (1-2)

(5)按式(1-3)更新最佳神经元C及其邻域内神经元的邻域大小，N_c，t代表第t次迭代时最佳神经元C邻域内、包括C在内的输出神经元向量的邻域大小，floor是向下取整函数；

N_c，t＝floor[N_c，1×(1-t/T)] (1-3)

(6)按式(1-4)更新最佳神经元C及其邻域内神经元的向量值，W_c，t代表第t次迭代时最佳神经元C邻域、包括C在内的输出神经元向量；

W_c，t＝W_c，t-1+b_t×(t-1)×(X_a-W_c，t-1) (1-4)

(7)按式(1-5)计算第t次迭代时整个SOM网络的误差率E_t，若E_t收敛于期望误差率或达到最大迭代次数，则进入步骤1.1.5，否则重新执行步骤1.1.4；

1.1.5：计算节点间的相似性

高维特征向量X_a通过步骤1.1.4进行自组织映射处理后，都将归入某个输出神经元向量W_j所代表的类中，并继承W_j的二维坐标(W_j，x，W_j，y)；知识图谱KG中任意2个用二维坐标描述的节点之间的欧式距离越小，则这2个节点特征值越相似，使用式(1-6)度量相似性；

similarity(O₁，O₂)＝exp{-[euc(O₁，O₂)]} (1-6)

1.2：接收初始人物关系查询集合并补充节点

用户给出的初始查询的形式是一个人物实体集合Q_p，从知识图谱KG中找到Q_p集合中所有节点的邻接节点，将这些邻接节点加入Q_p，从而形成包含了人物实体节点和非人物实体节点的扩展集合Q_a，作为后续步骤中贝叶斯网的节点集；

1.3：网页新闻数据中的实体实例数统计

以网页新闻数据中不包含标点的短句作为最小处理单位s，利用自然语言处理技术对集合Q_a中每个元素Q_a，e进行统计计算，得到实例数

基于步骤1.1完成的自组织映射处理，按式(1-7)计算/>

可直接统计计数得到；

1.4：对实例数统计量进行归一化处理并映射到区间[1，L]后取整

对于包含了人物实体节点和非人物实体节点的扩展集合Q_a，每一个短句s都对应Q_a中所有元素实例数的统计量；根据式(1-7)，该统计量的取值有无穷多个，为了方便构建贝叶斯网，根据网页新闻数据中不同名词实体数及频繁程度，设置每个实体节点的L种状态，并将Q_a中所有元素的实例数统计量首先进行归一化处理，先将其映射到[1，L]区间，然后四舍五入取整后再加1，最终得到1、2、...、L，即每个名词实体节点的L种状态，刻画某个名词实体在某个句子中出现的频繁程度，数字越大则频繁程度越高；

2：贝叶斯网结构学习

2.1：贝叶斯网结构评分

基于评分搜索(Scoring&Search)方法进行贝叶斯网的结构学习，基于训练数据、使用式(2-1)计算某个候选网络结构G_ｃ的评分，反映G_c与观测数据之间的吻合程度；

2.2：搜索最优贝叶斯网结构

采用贪婪爬山法进行最优网络结构搜索，优点在于适合大规模数据、不对网络结构做限制，不会因算法本身的限制而影响搜索结果的准确性；初始时，一个无边的图结构代表人物节点之间没有任何依赖关系，该结构同时是初始最优结构；从这个无边的图结构开始，在每一步通过单次的边添加即添加人物依赖关系、边删除即删除人物依赖关系、边反转即反转人物依赖关系操作生成一组当前候选最优结构，按式2-1计算各候选网络结构的评分，并找到其中评分最高者作为新的最优网络结构；重复执行这一过程，直到评分不再提高，最终得到一个可以描述网页新闻数据中人物依赖关系的网络结构G_b；

3：贝叶斯网参数学习

3.1：使用条件概率表记录贝叶斯网各节点的条件概率分布

基于步骤1提供的训练数据和步骤2得到的贝叶斯网结构G_b进行贝叶斯网参数学习，且节点的实例数并不存在先验概率，通过统计训练数据中的实例数来计算各节点的条件概率表，作为参数学习的结果；对于父节点集为U的变量V，将U中实体集在网页新闻句子中的频繁程度对V中实体频繁程度的影响度作为条件概率P(V＝v|U＝u)，定量地给出贝叶斯网中V和U之间的依赖关系，计算方法如式(3-1)；

4：基于贝叶斯网概率推理的网页新闻数据中人物关系分析

4.1：从新网页获取贝叶斯网推理的证据

贝叶斯网的概率推理基于贝叶斯公式实现，对于事件A和事件B，贝叶斯公式如式(4-1)；

步骤1.2得到贝叶斯网的节点集Q_a，描述历史新闻网页中人物实体；步骤4.1得到贝叶斯网推理的证据Q_e，描述新网页中给定的人物实体；Q_a中Q_e的补集Q_f为贝叶斯网推理的目标，即与Q_e中人物实体相关的人物实体集；对此，式(4-1)可具体表示为式(4-2)；

利用步骤2得到的贝叶斯网结构，通过条件独立性简化式(4-2)的概率计算，利用3.1中得到的贝叶斯网中各节点的条件概率表，可得到联合概率分布P(Q_e，Q_f)，表示给定人物实体Q_e时贝叶斯网中其他人物实体的状态及概率分布；针对Q_f中的每个人物实体e，得到Y_e＝{<1，p₁>，<2，p₂>，...，<L，p_L>}，将其表示为Y_e＝{<v，p_v>|v＝1，2，...，L}，即与Q_e中人物实体相关的人物实体的状态及概率分布；

为了对Q_f中的每一个人物实体进行相关性的排序，综合判断人物实体之间的相关性，使用式(4-3)求出Q_f中每一个人物实体的综合评价值；该值越大，则相应人物实体与新网页中人物实体的相关性就越强；按该值对Q_f中的人物实体进行非降序排序输出，可为舆情传播、推荐系统、精准营销领域的关联分析提供有力支持

2.根据权利要求1所述的基于贝叶斯网的网页新闻数据中的人物关系分析方法，其特征在于：搜索对象为“某新闻网站”中的网页新闻，设计相应的SOM网络结构时，设置n的取值为50，即输出50乘以50共2500个神经元向量W_j，其中j＝0，1，...，50²-1；设置每个实体节点的5种状态，即对实例数统计量进行归一化处理并映射到区间[1，5]。