CN109508385A

CN109508385A - 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法

Info

Publication number: CN109508385A
Application number: CN201811310690.5A
Authority: CN
Inventors: 岳昆; 李磊; 李维华; 王笑; 王笑一; 郭建斌
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-03-22
Anticipated expiration: 2038-11-06
Also published as: CN109508385B

Abstract

人物实体之间的关系抽取和依赖关系分析，可为舆情传播、推荐系统、精准营销等领域提供有力支持。现实中许多人物实体之间并不具有直接关系，而往往通过其他实体间接地关联成网状关系，现有人物关系抽取方法只能判定少量的预定义人物关系类型，不能实现网状人物关系的定量分析。本发明引入公开的人物实体知识库，利用自组织映射方法，将高维和稀疏的网页新闻数据处理为完备的训练数据，构建用以描述网页新闻数据中所涉及各类实体之间依赖关系的贝叶斯网（BN），关注基于BN的人物实体关联建模与分析，同时利用历史网页中的知识和新网页中的信息，进行人物关系的定量分析推断，充分利用信息资源，有效提高了人物关系分析的准确性和效率。

Description

一种基于贝叶斯网的网页新闻数据中的人物关系分析方法

技术领域

本发明公开了一种网页新闻数据中的人物关系分析方法，涉及从网页新闻数据进行贝叶斯网的结构学习和参数学习，以及支持人物关系分析的概率推理，属于知识发现领域。

背景技术

从文本信息中抽取出满足人们特定需求的有用知识，以产生经济效益和社会效益，是信息抽取技术的重要目标和任务。基于文本信息的关系抽取（Relation Extraction）是信息抽取的重要课题，其任务是从文本信息中识别并获取实体之间的关系。文本信息可以有多种来源，如在线社区、博客、微博、网页新闻等。近年来，各种传统新闻媒体将重心转移到互联网平台上，通过网页载体来发布新闻。网页新闻具有表达规范、时效性强、题材广泛、数据量大等特点，为关系抽取提供了一类可用的数据源。从网页新闻数据中可抽取出各种实体之间的关系，如时间、地点、人物等；其中，人物之间的关系（Person Relation）抽取和依赖关系分析，可为舆情传播、推荐系统、精准营销等领域提供有力支持，例如，公安机关可以发现可疑团伙或治安风险，舆情监管部门可以发现热点事件中的意见领袖和传播路径，政府部门可以得到政策直接或间接影响到的人群。

传统的人物关系抽取需要事先定义人物关系类型，而人工定义的类型难免存在不准确、类型不完全等问题。公知的人物关系抽取方法基本上都是对预定义的人物关系类型进行判定或查询，例如，刘永坚等（<专利201710026230.9>，2017）从人物关系抽取结果来构建知识库，当用户查询特定人物时，基于知识库中预定义的人物关系类型返回相关的人物。罗森林等（<专利201610866186.8>，2016）通过训练语料而构造三元组特征空间，对用户查询的三元组进行判定，利用置信度最大化原则判定所属的人物关系类别。张勇（<专利201610920348.1>，2016），以分词处理结果中的词向量为输入、预定义的人物关系类别为输出，训练神经网络并提供给用户使用。

现实中的人物关系往往表现为多对多的关系网，适合用图模型来描述。同时，人物之间的关系具有不确定性，这种不确定性来源于人们对客观世界的观察及建模能力的有限性，也可能来源于人物关系固有的未知、不清晰等特点。概率图模型是能表达不确定性的图模型，作为一种支持概率推理的重要概率图模型，贝叶斯网（Bayesian Network, BN）是以随机变量为节点的有向无环图（Directed Acyclic Graph, DAG），每个节点有一张条件概率表（Conditional Probability Table, CPT）、定量描述变量间相互影响的程度，BN能很好地表达现实中人物实体之间存在的依赖关系及其不确定性，本发明基于BN来描述并分析网页新闻数据中蕴含的人物关系。

基于BN的网页新闻数据中人物关系分析，既可表示历史网页新闻数据中蕴含的人物关系，也可基于历史数据中的人物关系来分析推断新网页中的人物关系。公知的利用BN对互联网文本信息进行分析的方法，对新数据中包含的信息进行分析处理，未涉及基于历史数据中蕴含的知识对新数据的分析。例如，佘玉轩等（<计算机工程>，2018）提出基于BN的无监督新闻故事线挖掘算法，将新闻故事线视为日期、时间、机构、人物、地点、主题和关键词的联合概率分布，具有较好的故事线挖掘能力，但仅考虑了新闻中直接给出的信息，未涉及间接关系的挖掘；冯军军等（<计算机与数字工程>，2017）以文档频数作为文本特征，通过构建朴素贝叶斯网模型来实现微博话题的追踪，具有分类简单、效率高等优点，但依赖于微博内容中给出的直接信息。

现实中许多人物实体之间并不具有直接关系，而往往通过其他实体间接地关联起来，这些实体可能是人物、机构、物品、事件等，例如，人们可能因为共同参加一个会议或拥有共同的朋友，进而认识并形成间接的人物关系。本发明将历史网页新闻数据作为训练数据来构建BN，包括BN的结构学习和参数学习，从而描述历史网页新闻数据中所涉及各类实体之间的依赖关系，节点代表这些实体，边描述实体之间的依赖关系，各节点的条件概率参数定量地描述人物之间相互依赖的程度。进一步使用BN的推理方法，一方面，对于任意给定的人物实体或人物实体集，可容易地发现历史网页中人物实体之间存在的间接关系；另一方面，若新网页中的人物实体与历史网页中的人物实体来自相同论域，则将新网页中的人物实体作为推理的证据，将BN中所涉及历史网页中的人物实体作为推理的目标，可得到给定新网页中人物实体时，历史网页中其他人物实体节点不同取值的概率分布，作为给定新网页中人物实体与历史网页中人物实体之间关联关系的不确定性，即同时利用历史网页中蕴含的知识和新网页中的信息来实现网页新闻数据中人物关系的分析。

发明内容

本发明的目的：为解决公知的人物关系分析方法只能对少量的预定义人物关系类型进行判定、缺乏通用性和语义准确性等问题，本发明基于网页新闻数据、引入互联网上公开的人物实体知识库，构建用以描述网页新闻数据中所涉及各类实体之间依赖关系的BN，关注基于BN的人物实体关联建模与分析。

为解决公知技术只能分析新网页中给出的直接信息、而无法利用历史网页中所蕴含知识的问题，本发明基于BN的推理方法，同时利用历史网页中的知识和新网页中的信息，进行人物关系的分析推断。

本发明的执行过程分为4个步骤。

(1)预处理：对网页新闻中的本文数据进行处理，统计实体实例数，作为BN结构学习和参数学习的特征数据。

(2)BN结构学习：利用预处理得到的数据，学习BN的有向无环图结构。

(3)BN参数学习：利用预处理得到的数据和学习得到的有向无环图结构，学习BN的条件概率参数，以表格形式输出。

(4)基于BN概率推理的人物关系分析：同时利用历史网页中的知识和新网页中的信息进行人物关系分析，以新网页中的信息作为证据，使用BN的概率推理方法，分析BN中与新网页中人物实体相关的人物实体。

具体步骤如下：

1：预处理

1.1：对人物实体知识图谱进行自组织映射。

从互联网获取或根据领域知识给定知识图谱，记为G _k，G _k包含人物实体节点和非人物实体节点。对于G _k中的所有节点，以其邻接节点为特征进行自组织映射（SelfOrganization Map, SOM），使原本具有高维特征的节点降维至二维平面并记录坐标。具体过程如下：

1.1.1：构建特征向量。

对G _k中的节点a，以其邻接节点作为其特征，构成特征向量X _a，X _a的维度为G _k中节点的数量。

：设计SOM网络的结构。

SOM网络的输入是任意个高维的特征向量X _a，输出是n ²（n³10）个输出神经元向量W _j(j=0, 1, …, n ²-1)，n取值越大，SOM处理结果越精确但效率越低，根据G _k中人物实体数量、以既保证精度也保证效率为原则设置n的取值，输出神经元向量维度与知识图谱节点维度相等。每个输出神经元向量W _j都可视为聚类结果中的一个类，所有输入的高维特征向量X _a在SOM结束后都将归入某个输出神经元向量W _j代表的类中。同时，每个输出神经元向量W _j都具有一个二维坐标(W _j,x, W _j,y) (W _j,xÎ{0, 1, …, n-1}, W _j,yÎ{0, 1, …, n-1})，每个分配到W _j的特征向量X _a都将继承W _j的二维坐标(W _j,x, W _j,y)。

：初始化SOM网络的参数。

迭代计数器t的初始值为1，最大迭代次数T (T³10)，期望误差率e(0<e<1)，第一次迭代时的学习率为b ₁(0<b ₁<1)，每个输出神经元向量W _j的初始值初始化为零向量，初始邻域大小为N _j (N _j>0)。邻域的形状是以N _j为半径的圆，邻域内的输出神经元向量W _j会受到输入的特征向量X _a影响而改变取值；随着邻域的缩小，输出神经元向量W _j的取值逐渐收敛于一个稳定值，使得W _j与划分到W _j的所有特征向量X _a的欧式距离之和达到一个局部极小值，说明已完成输入特征向量的自组织映射。

：SOM按如下步骤进行：

(1)迭代计数器t加1。

(2)对第j个（j=0, 1, …, n ²-1）输出神经神经元向量W _j，使用式1-1计算X _a与W _j的欧式距离d _j，X _a,i代表X _a的第i个分量，W _ji代表W _j的第i个分量。

(3)比较所有距离d _j(j=0, 1, …, n ²-1)，特征向量中具有最小欧式距离的神经元为最佳神经元，记为C。

(4) 按式1-2更新学习率b _t。

按式1-3更新最佳神经元C及其邻域内神经元的邻域大小。N _c,t代表第t次迭代时最佳神经元C邻域内、包括C在内的输出神经元向量的邻域大小，floor是向下取整函数。

(5)按式1-4更新最佳神经元C及其邻域内神经元的向量值。W _c,_t代表第t次迭代时最佳神经元C邻域、包括C在内的输出神经元向量。

(6)按式1-5计算第t次迭代时整个SOM网络的误差率E _t。若E _t收敛于期望误差率或达到最大迭代次数，则进入步骤1.1.5，否则重新执行步骤1.1.4。

：计算节点间的相似性。

高维特征向量X _a通过步骤1.1.4进行自组织映射处理后，都将归入某个输出神经元向量W _j所代表的类中，并继承W _j的二维坐标(W _j,x, W _j,y)。知识图谱G _k中任意2个用二维坐标描述的节点之间的欧式距离越小，则这2个节点特征值越相似，使用式1-6度量相似性

其中，对于需要计算相似性的2个节点O ₁和O ₂，euc函数计算这2个节点在输出二维平面上的欧式距离，exp代表指数函数；当2个节点坐标相同时，相似性等于1；当2个节点之间的距离趋向无穷大时，相似性趋近0。

：接收初始人物关系查询集合并补充节点。

用户给出的初始查询的形式是一个人物实体集合Q _p。从知识图谱G _k中找到Q _p集合中所有节点的邻接节点，将这些邻接节点加入Q _p，从而形成包含了人物实体节点和非人物实体节点的扩展集合Q _a，作为后续步骤中BN的节点集。

：网页新闻数据中的实体实例数统计。

以网页新闻数据中不包含标点的短句作为最小处理单位s，利用自然语言处理技术对集合Q _a中每个元素Q _a,e进行统计计算，得到实例数。基于步骤1.1完成的自组织映射处理，按式1-7计算

其中，h _i代表s中抽取出的第i个名词实体，这样的名词实体共H个，每个h _i的实例数可直接统计计数得到。

：对实例数统计量进行归一化处理并映射到区间[1, L]后取整。

对于包含了人物实体节点和非人物实体节点的扩展集合Q _a，每一个短句s都对应Q _a中所有元素实例数的统计量，根据式1-7，该统计量的取值可能有无穷多个，为了方便构建BN，根据网页新闻数据中不同名词实体数及频繁程度，设置每个实体节点的L种可能状态，并将Q _a中所有元素的实例数统计量首先进行归一化处理，先将其乘以L映射到[1, L]区间，然后四舍五入取整再加1，最终得到1、2、…、L，即每个名词实体节点的L种可能状态，刻画某个名词实体在某个句子中出现的频繁程度，数字越大则频繁程度越高。

：贝叶斯网结构学习。

步骤1将网页新闻数据中的文本数据转换为用于构建BN的训练数据，以供本步骤中BN结构学习使用。

：贝叶斯网结构评分。

本发明基于评分搜索（Scoring & Search）方法进行BN的结构学习。基于训练数据、使用式2-1计算某个候选网络结构G _c的评分，反映G _c与观测数据之间的吻合程度

其中，o代表BN中节点的数量，p _i是节点V _i取值组合的数目，q _i是节点V _i父节点U _i取值组合的数目。由于BN中每个节点有L种状态，所以p _i=q _i=L。表示训练数据中V _i为第j个状态、U _i为第k个状态时的实例数，可从训练数据中通过统计计数得到，且。G _c的分数score(G _c)是该候选结构对人物依赖关系表达能力的量化评估，分数越高，代表该结构越符合观测数据中蕴含的人物依赖关系。

：搜索最优贝叶斯网结构。

采用贪婪爬山法进行最优网络结构搜索，优点在于计算开销较小、适合大规模数据、不对网络结构做限制，不会因算法本身的限制而影响搜索结果的准确性。初始时，一个无边的图结构代表人物节点之间没有任何依赖关系，该结构同时是初始最优结构；从这个无边的图结构开始，在每一步通过单次的边添加（即添加人物依赖关系）、边删除（即删除人物依赖关系）、边反转（即反转人物依赖关系）操作生成一组当前候选最优结构，按式2-1计算各候选网络结构的评分，并找到其中评分最高者作为新的最优网络结构。重复执行这一过程，直到评分不再提高，最终得到一个可以描述网页新闻数据中人物依赖关系的网络结构G _b。

：贝叶斯网参数学习。

：使用条件概率表记录贝叶斯网各节点的条件概率分布。

基于步骤1提供的训练数据和步骤2得到的BN结构G _b进行BN参数学习。由于在步骤1中进行了自组织映射处理、并给出了节点相似性计算函数，因此所使用的网页新闻数据可视为完备数据，且节点的实例数并不存在先验概率。本发明通过统计训练数据中的实例数来计算各节点的CPT，作为参数学习的结果。对于父节点集为U的变量V，将U中实体集在网页新闻句子中的频繁程度对V中实体频繁程度的影响度作为条件概率P(V=v|U=u)，定量地给出BN中V和U之间的依赖关系，计算方法如式3-1

其中，N _vu表示变量V取值为v、U取值为u时的实例数，N _u表示U取值为u时的实例数，两者均可从训练数据中计数得到。然后，将P(V=v|U=u)结果填入对应位置，得到BN的CPT。步骤2得到的BN结构中，每一个节点都将生成一个CPT。

：基于贝叶斯网概率推理的网页新闻数据中人物关系分析。

：从新网页获取贝叶斯网推理的证据。

步骤4的输入是一个未处理过的新网页N _n，用户查询中包含N _n中的任意人物实体或人物实体集（使用步骤1.3和1.4所述的方法进行处理，抽取出N _n中的人物实体集合；新网页与历史网页中的人物实体来自相同论域），作为BN推理的证据Q _e。

：基于贝叶斯网进行概率推理并输出相关人物实体节点的状态和概率。

BN的概率推理基于贝叶斯公式实现，对于事件A和事件B，贝叶斯公式如式4-1

在本发明中，步骤1.2得到BN的节点集Q _a，描述历史新闻网页中人物实体；步骤4.1得到BN推理的证据Q _e，描述新网页中给定的人物实体；Q _a中Q _e的补集Q _f为BN推理的目标，即可能与Q _e中人物实体相关的人物实体集。对此，式4-1可具体表示为式4-2

利用步骤2得到的BN结构，通过条件独立性简化式4-2的概率计算，利用3.1中得到的BN中各节点的CPT，可得到联合概率分布P(Q _e, Q _f)，表示给定人物实体Q _e时BN中其他人物实体的状态及概率分布。针对每个人物实体eÎQ _f，得到Y _e={<1, p ₁>, <2, p ₂>, …, <L, p _L>，一般地，将其表示为Y _e ={<v, p _v>|v=1, 2, …, L}，即与Q _e中人物实体相关的人物实体的可能状态及概率分布。

为了对Q _f中的每一个人物实体进行相关性的排序，综合判断人物实体之间的相关性，使用式4-3求出Q _f中每一个人物实体的综合评价值；该值越大，则相应人物实体与新网页中人物实体的相关性就越强；按该值对Q _f中的人物实体进行非降序排序输出，可为舆情传播、推荐系统、精准营销等领域的关联分析提供有力支持

与现有技术相比本发明具有的优点及积极效果

(1) 本发明使用贝叶斯网作为网页新闻数据中所涉及实体之间依赖关系建模和推理的基本框架，有效地描述了网页新闻数据中实体之间的任意形式的相关性及其不确定性；可有效地描述人物实体之间通过其他人物、机构、物品、事件等实体产生的间接相关性，以定性和定量的方式更加客观、完备、深层次地对人物关系进行建模。

(2) 本发明引入互联网上公开的人物实体知识图谱，确定人物关系分析的论域，保证了人物关系分析中人物实体本身的客观性和完备性，也保证了语义层面的有效性；使用自组织映射方法对网页新闻中的名词实体进行预处理，从实际应用的角度，保证了从高维和稀疏的网页新闻数据得到的训练数据的完备性，同时也提供了一种将高维数据映射到二维空间的统一的、便于计算的数据预处理机制。

(3) 本发明对于任意给定的人物实体，可容易地利用贝叶斯网的概率推理方法来发现历史网页中人物实体之间存在的间接关系，并且可将新网页中的人物实体作为推理的证据，将历史网页中的人物实体作为推理的目标来实现网页新闻数据中人物关系的分析。

(4) 本发明有效利用贝叶斯网的概率推理机制进行网页新闻数据中人物关系的分析，无需根据具体查询任务来重构模型或即席构建计算表达式，保证了人物关系分析的高效性。

附图说明

图1：本发明的技术路线图

图2：贪婪爬山法搜索到的前9个最优结构

图3：表2中28个节点的贝叶斯网结构

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例：“今日头条”网页新闻数据的人物关系分析。

：预处理

按照步骤1.1，从http://openkg.cn/dataset/rdf获取公开的知识图谱G _k，G _k中共有109332个实体，包含人物实体和非人物实体。对于G _k的所有实体，以其邻接实体为特征进行自组织映射，输出50´50个神经元向量W _j(j=0, 1, …, 50²-1)。每个输出神经元向量W _j都可视为聚类结果中的一个类，所有实体在自组织映射结束后都将归入某个输出神经元向量W _j代表的类中。同时，每个输出神经元向量W _j都具有二维坐标(W _j,x, W _j,y) (W _j,xÎ{0, 1, …,49}，W _j,yÎ{0, 1, …, 49})，每个分配到W _j的实体都将继承W _j的二维坐标(W _j,x, W _j,y)。部分知识图谱实体的名称、序号和二维坐标如表1所示。

表1. 经过自组织映射后知识图谱实体的名称、序号、二维坐标

按照步骤1.2，若用户拟分析“宁某”和“徐某”这两个人物之间的关系，查询集合Q _p={宁某, 徐某}。从G _k中找到Q _p中各节点的邻接节点，将这些邻接节点加入Q _p形成包含了人物实体节点和非人物实体节点的扩展集合Q _a，作为BN的变量集。Q _a包含28个元素，以方便后续表示，从0开始编号，如表2所示，考虑表示的方便，用x和y分别表示坐标中的两个维度的取值。

表2. 扩展集合Q _a的编号、节点、坐标

根据步骤1.3，从“今日头条”2017年网页新闻数据中任意选择10000个句子。以句子s“一部由刘某某编剧、冯某某执导、范某某主演的电影《手机》在中国掀起一场全民热议”为例，该句子中可以提取出“刘某某”、“冯某某”、“范某某”、“电影”、“手机”、“中国”、“全民”共7个实体。利用自然语言处理技术，对集合Q _a中每个元素Q _a,e进行统计计数，得到实例数，如表3中“ ”列所示。根据步骤1.4对s中所有实体按式1-7处理得到的进行归一化处理并映射到区间[1, 5]后取整，结果如表3中“归一化”、“映射到[1, 5]”和“取整加1”等列所示。在表3“取整”列中的数据构成s中的一条BN训练数据，采用相同的方法处理其他9999个句子，得到训练数据集。

表3. s中所有实体的及归一化、映射、取整

2：贝叶斯网结构学习

按照步骤2.1，基于预处理得到的数据集，使用式2-1对一个候选结构进行评分，以表2中的前10个节点为代表，对BN结构进行评分，表4给出了3条训练数据中的相关节点、序号和取值。

表4. 训练数据片段

第一个候选结构G _c1={“8_内地”→“5_微博”}，从训练数据中可以统计到N ₆₂₃=1，N ₆₂₄=1，N ₆₂₅=1，其余N _ijk=0，N ₆₂=3，则

第二个候选结构G _c2={“9_娱乐圈”→“5_微博”}，从训练数据中可以统计到N ₆₂₃=1，N ₆₂₅=1，其余N _ijk=0，N ₆₂=3，则

根据评分可知，候选结构G _c2分数高于候选结构G _c1的分数，G _c2优于G _c1。

按照步骤2.2，采用贪婪爬山法搜索表2中28个节点的最优网络结构。以表2中28个节点的无边结构开始，在每一步通过单次的边添加（即添加人物依赖关系）、边删除（即删除人物依赖关系）、边反转（即反转人物依赖关系）操作生成当前一组候选结构。分别计算各候选结构的评分，并找到其中评分最高者作为新的最优结构，搜索过程中的前9个最优结构如图2所示，其中节点的标签由节点序号、下划线、节点名称构成。重复执行这一过程，直到评分不再提高，最终得到一个可以描述网页新闻数据中人物依赖关系的BN结构，如图3所示。可以看出，少部分人物之间具有直接相关性，如“3_徐某”→“22_张某某”，大部分人物之间通过其他实体产生间接的相关性，如“15_包某某”→“12_影坛”→“20_陈某某”，这说明本发明能对实际中广泛存在的人物之间的间接关系进行有效建模。

：贝叶斯网参数学习

按照步骤3.1，利用图3所示的BN结构和预处理输出的训练数据进行BN参数学习，得到各节点的条件概率表（CPT），CPT的行标题是子节点的不同状态，列标题是父节点的不同状态，在行、列标题中，括弧外是节点序号、括弧内是状态序号，表中数值是对应的条件概率分布值，按式3-1计算。

图2中“20_陈某某”的CPT如表5所示，说明该人物实体“20_陈某某”在网页新闻数据中的频繁程度依赖于实体“12_影坛”的频繁程度。

表5. 节点“20_陈某某”的条件概率表P(20|12)

4：基于贝叶斯网概率推理的网页新闻数据中人物关系分析

本发明构建的BN可以较准确地表达历史网页新闻数据蕴含的知识。并可用于分析新网页中的人物关系。

按照步骤4.1，对于一篇不存在于本发明训练数据集中的新网页N _n“专访导演路某：在捉襟见肘的资金和时间成本中，让《绣春刀II》拍得更难一点”（http://finance.sina.com.cn/roll/2017-07-17/doc-ifyiamif3201934.shtml）。使用步骤1.3和1.4所述的方法进行处理，从N _n中的信息得到BN推理的证据集Q _e，如表6所示。

表6. 从N _n中给出的直接信息得到BN推理的证据集Q _e

按照步骤4.2，由BN的变量集Q _a和证据集Q _e，求出非证据集Q _f，如表7所示。

表7. 非证据集Q _f

按照式4-2得到P(Q _e|Q _f)，表示在给定证据集Q _e的前提下非证据集Q _f中每个节点的状态及概率分布的集合。对于Q _f中的人物实体集合Q _f,p，使用式4-3求出综合评价值，并对人物实体进行非降序排序，如表8所示。

Q _f,p中人物实体包含在历史网页中、而在新网页中未直接给出，但是与新网页中人物实体存在相关性；人物实体的综合评价值越大，则其与新网页中人物实体的依赖关系越强，相比其他人物实体更值得关注和分析。

表8中“综合评价值”为步骤4的输出，以排名前2的人物实体“宁某”和“黄某某”为例，他们与新网页中人物实体“路某”存在相关性，而且这种相关性在新网页中并未直接描述。利用百度搜索查询“路某黄某某”可找到描述路某赞赏黄某某主演的电影《无问西东》的新闻（http://ent.sina.com.cn/m/c/2018-01-10/doc- ifyqkarr8188087.shtml）；利用百度搜索查询“路某宁某”可找到宁某签约并投资路某等新人导演的新闻（http://www.1905.com/news/20160905/1077415.shtmlfr= home_jrtt_tpq_tp01#p1），说明上述人物关系分析方法的有效性与可用性。

Claims

1.一种基于贝叶斯网的网页新闻数据中的人物关系分析方法，该方法的特征在于包括如下步骤：

1：预处理

1.1：对人物实体知识图谱进行自组织映射

从互联网获取或根据领域知识给定知识图谱，记为G _k，G _k包含人物实体节点和非人物实体节点，对于G _k中的所有节点，以其邻接节点为特征进行自组织映射（Self OrganizationMap, SOM），使原本具有高维特征的节点降维至二维平面并记录坐标，具体过程如下：

1.1.1：构建特征向量

对G _k中的节点a，以其邻接节点作为其特征，构成特征向量X _a，X _a的维度为G _k中节点的数量；

1.1.2：设计SOM网络的结构

SOM网络的输入是任意个高维的特征向量X _a，输出是n ²（n³10）个输出神经元向量W _j(j=0, 1, …, n ²-1)，n取值越大，SOM处理结果越精确但效率越低，根据G _k中人物实体数量、以既保证精度也保证效率为原则设置n的取值；输出神经元向量维度与知识图谱节点维度相等，每个输出神经元向量W _j都可视为聚类结果中的一个类，所有输入的高维特征向量X _a在SOM结束后都将归入某个输出神经元向量W _j代表的类中；同时，每个输出神经元向量W _j都具有一个二维坐标(W _j,x, W _j,y) (W _j,xÎ{0, 1, …, n-1}, W _j,yÎ{0, 1, …, n-1})，每个分配到W _j的特征向量X _a都将继承W _j的二维坐标(W _j,x, W _j,y)；

1.1.3：初始化SOM网络的参数

迭代计数器t的初始值为1，最大迭代次数T (T³10)，期望误差率e (0<e<1)，第一次迭代时的学习率为b ₁(0<b ₁<1)，每个输出神经元向量W _j的初始值初始化为零向量，初始邻域大小为N _j (N _j>0)，邻域的形状是以N _j为半径的圆，邻域内的输出神经元向量W _j会受到输入的特征向量X _a影响而改变取值；随着邻域的缩小，输出神经元向量W _j的取值逐渐收敛于一个稳定值，使得W _j与划分到W _j的所有特征向量X _a的欧式距离之和达到一个局部极小值，说明已完成输入特征向量的自组织映射；

1.1.4：SOM按如下步骤进行：

迭代计数器t加1；

对第j个（j=0, 1, …, n ²-1）输出神经神经元向量W _j，使用式1-1计算X _a与W _j的欧式距离d _j，X _a,i代表X _a的第i个分量，W _ji代表W _j的第i个分量

比较所有距离d _j(j=0, 1, …, n ²-1)，特征向量中具有最小欧式距离的神经元为最佳神经元，记为C；

按式1-2更新学习率b _t

按式1-3更新最佳神经元C及其邻域内神经元的邻域大小，N _c,t代表第t次迭代时最佳神经元C邻域内、包括C在内的输出神经元向量的邻域大小，floor是向下取整函数

按式1-4更新最佳神经元C及其邻域内神经元的向量值，W _c,_t代表第t次迭代时最佳神经元C邻域、包括C在内的输出神经元向量

按式1-5计算第t次迭代时整个SOM网络的误差率E _t，若E _t收敛于期望误差率或达到最大迭代次数，则进入步骤1.1.5，否则重新执行步骤1.1.4

1.1.5：计算节点间的相似性

高维特征向量X _a通过步骤1.1.4进行自组织映射处理后，都将归入某个输出神经元向量W _j所代表的类中，并继承W _j的二维坐标(W _j,x, W _j,y)；知识图谱G _k中任意2个用二维坐标描述的节点之间的欧式距离越小，则这2个节点特征值越相似，使用式1-6度量相似性

其中，对于需要计算相似性的2个节点O ₁和O ₂，euc函数计算这2个节点在输出二维平面上的欧式距离，exp代表指数函数；当2个节点坐标相同时，相似性等于1；当2个节点之间的距离趋向无穷大时，相似性趋近0；

1.2：接收初始人物关系查询集合并补充节点

用户给出的初始查询的形式是一个人物实体集合Q _p，从知识图谱G _k中找到Q _p集合中所有节点的邻接节点，将这些邻接节点加入Q _p，从而形成包含了人物实体节点和非人物实体节点的扩展集合Q _a，作为后续步骤中BN的节点集；

1.3：网页新闻数据中的实体实例数统计

以网页新闻数据中不包含标点的短句作为最小处理单位s，利用自然语言处理技术对集合Q _a中每个元素Q _a,e进行统计计算，得到实例数，基于步骤1.1完成的自组织映射处理，按式1-7计算

其中，h _i代表s中抽取出的第i个名词实体，这样的名词实体共H个，每个h _i的实例数可直接统计计数得到；

1.4：对实例数统计量进行归一化处理并映射到区间[1, L]后取整

对于包含了人物实体节点和非人物实体节点的扩展集合Q _a，每一个短句s都对应Q _a中所有元素实例数的统计量；根据式1-7，该统计量的取值可能有无穷多个，为了方便构建BN，根据网页新闻数据中不同名词实体数及频繁程度，设置每个实体节点的L种可能状态，并将Q _a中所有元素的实例数统计量首先进行归一化处理，先将其映射到[1, L]区间，然后四舍五入取整后再加1，最终得到1、2、…、L，即每个名词实体节点的L种可能状态，刻画某个名词实体在某个句子中出现的频繁程度，数字越大则频繁程度越高；

2：贝叶斯网结构学习

步骤1将网页新闻数据中的文本数据转换为用于构建BN的训练数据，以供本步骤中BN结构学习使用；

2.1：贝叶斯网结构评分

本发明基于评分搜索（Scoring & Search）方法进行BN的结构学习，基于训练数据、使用式2-1计算某个候选网络结构G _c的评分，反映G _c与观测数据之间的吻合程度

其中，o代表BN中节点的数量，p _i是节点V _i取值组合的数目，q _i是节点V _i父节点U _i取值组合的数目；由于BN中每个节点有L种状态，所以表示训练数据中V _i为第j个状态、U _i为第k个状态时的实例数，可从训练数据中通过统计计数得到，且；G _c的分数score(G _c)是该候选结构对人物依赖关系表达能力的量化评估，分数越高，代表该结构越符合观测数据中蕴含的人物依赖关系；

2.2：搜索最优贝叶斯网结构

采用贪婪爬山法进行最优网络结构搜索，优点在于计算开销较小、适合大规模数据、不对网络结构做限制，不会因算法本身的限制而影响搜索结果的准确性；初始时，一个无边的图结构代表人物节点之间没有任何依赖关系，该结构同时是初始最优结构；从这个无边的图结构开始，在每一步通过单次的边添加（即添加人物依赖关系）、边删除（即删除人物依赖关系）、边反转（即反转人物依赖关系）操作生成一组当前候选最优结构，按式2-1计算各候选网络结构的评分，并找到其中评分最高者作为新的最优网络结构；重复执行这一过程，直到评分不再提高，最终得到一个可以描述网页新闻数据中人物依赖关系的网络结构G _b；

3：贝叶斯网参数学习

3.1：使用条件概率表记录贝叶斯网各节点的条件概率分布

基于步骤1提供的训练数据和步骤2得到的BN结构G _b进行BN参数学习，由于在步骤1中进行了自组织映射处理、并给出了节点相似性计算函数，因此所使用的网页新闻数据可视为完备数据，且节点的实例数并不存在先验概率，本发明通过统计训练数据中的实例数来计算各节点的CPT，作为参数学习的结果；对于父节点集为U的变量V，将U中实体集在网页新闻句子中的频繁程度对V中实体频繁程度的影响度作为条件概率P(V=v|U=u)，定量地给出BN中V和U之间的依赖关系，计算方法如式3-1

其中，N _vu表示变量V取值为v、U取值为u时的实例数，N _u表示U取值为u时的实例数，两者均可从训练数据中计数得到；然后，将P(V=v|U=u)结果填入对应位置，得到BN的CPT；步骤2得到的BN结构中，每一个节点都将生成一个CPT；

4：基于贝叶斯网概率推理的网页新闻数据中人物关系分析

4.1：从新网页获取贝叶斯网推理的证据

步骤4的输入是一个未处理过的新网页N _n，用户查询中包含N _n中的任意人物实体或人物实体集（使用步骤1.3和1.4所述的方法进行处理，抽取出N _n中的人物实体集合；新网页与历史网页中的人物实体来自相同论域），作为BN推理的证据Q _e；

4.2：基于贝叶斯网进行概率推理并输出相关人物实体节点的状态和概率

在本发明中，步骤1.2得到BN的节点集Q _a，描述历史新闻网页中人物实体；步骤4.1得到BN推理的证据Q _e，描述新网页中给定的人物实体；Q _a中Q _e的补集Q _f为BN推理的目标，即可能与Q _e中人物实体相关的人物实体集；对此，式4-1可具体表示为式4-2；

利用步骤2得到的BN结构，通过条件独立性简化式4-2的概率计算，利用3.1中得到的BN中各节点的CPT，可得到联合概率分布P(Q _e, Q _f)，表示给定人物实体Q _e时BN中其他人物实体的状态及概率分布；针对每个人物实体，得到Y _e={<1, p ₁>, <2, p ₂>, …, <L, p _L>一般地，将其表示为Y _e ={<v, p _v>|v=1, 2, …, L}，即与Q _e中人物实体相关的人物实体的可能状态及概率分布；

。

2.根据权利要求1所述的基于贝叶斯网的网页新闻数据中的人物关系分析方法，其特征在于：搜索对象为“今日头条”网页新闻，设计相应的SOM网络结构时，设置n的取值为50，即输出50´50个神经元向量W _j (j=0, 1, …, 50²-1)；设置每个实体节点的5种可能状态，即对实例数统计量进行归一化处理并映射到区间[1, 5]。