CN105760439B

CN105760439B - 一种基于特定行为共现网络的人物共现关系图谱构建方法

Info

Publication number: CN105760439B
Application number: CN201610073885.7A
Authority: CN
Inventors: 魏笔凡; 闫彩霞; 郑庆华; 刘均; 陈艳平; 郑元浩; 郝亚洲
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2016-02-02
Filing date: 2016-02-02
Publication date: 2018-12-07
Anticipated expiration: 2036-02-02
Also published as: CN105760439A

Abstract

本发明公开了一种基于特定行为共现网络的人物共现关系图谱构建方法。首先构建标准训练数据集和触发词表，用字符串匹配的方法，对所有待测试句子进行过滤得到候选特定行为句的集合；然后抽取标准训练数据集中所有句子的全词特征向量，用于训练SVM分类器识别特定行为，用训练好的SVM分类器对候选特定行为句进行分类，识别出特定行为句；最后构建出包含命名实体及其共现关系的特定行为共现网，在特定行为共现网的基础上构建人物共现关系图谱。本发明能在大量真实网络舆情数据上有效识别特定行为句，并在此基础上构建出特定行为共现网和人物共现关系图谱，为舆情分析提供新的可视化分析方法。

Description

一种基于特定行为共现网络的人物共现关系图谱构建方法

【技术领域】

本发明属于计算机应用领域，具体涉及一种基于特定行为共现网络的人物共现关系图谱构建方法。

【技术背景】

移动互联网和社交媒体的广泛使用，随之而来的是网民规模的迅速增长和网络数据的急速增加。网民在网络媒体上参与热点话题讨论的过程中，会对社会热点表达自己的观点，从而形成网络舆情。由于舆情信息的传播具有开放性和隐蔽性的特点，使其容易被利用，成为影响民众情感和判断、威胁社会公共安全的因素。网络舆情中最引人关注的是现实中发生的，民众热切关注和议论并蕴含有“破坏”、“危害”、“损失”等涉及公共安全或涉及司法公正的行为，这些特定行为通常会关系广大民众的切身利益，影响社会的安定和谐。因此，及时地发现这些行为并辨别其真伪至关重要。

在网络信息更新迅速，数据量十分庞大的今天，仅仅靠传统的人工搜索和识别难以对网上的海量信息进行及时和充分的收集和处理，更无法从庞大的舆情数据中准确发现所关注的特定行为。

目前，这一领域中很少有关于特定行为识别的相关研究和应用，类似的研究主要采用信息抽取中的事件抽取方法。如，专利1：一种中文事件的抽取方法及系统[申请号：201210182651.8]。该方法包括：将待抽取事件的文本依次进行分句、分词、实体识别、句法和依存关系分析；根据词的内部结构，将符合抽取条件的词标记为候选触发词；根据概率、词性和词内部结构将符合过滤条件的触发词过滤掉；利用最大熵识别模型抽取触发词，并获取每个触发词的可信度；依据每个触发词的可信度，将触发词分成一致性处理训练数据集合和一致性处理测试集合，利用最大熵分类器从一致性处理测试集合中抽取触发词；利用最大熵分类模型对触发词进行分类，得到事件集合。再如专利2：事件触发词的扩展方法及系统[申请号：201210321193.1]。其中实施公开了一种中文事件触发词的扩展方法及系统，该方法利用已知触发词形态结构，结合义原相似度来扩展未知触发词，这样待抽取事件的触发词就包括已知触发词以及扩展的未知触发词，这样在抽取事件实例时，不仅可以抽取已知触发词对应的事件实例，还可以抽取扩展的未知触发词对应的事件实例。进一步的，在抽取事件时，能够识别出更多的事件实例，提高事件抽取系统的召回率。

但是，上述专利1和专利2在进行事件抽取的过程中都将事件的触发词作为事件抽取的标准，仅仅通过识别触发词和扩展触发词来决定触发词所在文本的事件类型，识别不够准确。

【发明内容】

本发明的目的是提供一种基于特定行为共现网络的人物共现关系图谱构建方法，通过构建特定行为共现网和特定行为共现网中的人物共现关系图谱，能够从海量舆情数据中迅速找到特定行为信息，方便查询和分析。

为达到以上目的，本发明是采取如下技术方案予以实现的：

包括如下步骤：

(1)候选特定行为句识别：首先对网络新闻文档集进行标注，构建包含特定行为正例和负例的标准训练数据集；其次是根据标准训练数据集构建包含所有特定行为对应的触发词的触发词表；最后根据触发词表，用字符串匹配的方法对所有待测试句子进行过滤，删除不含特定行为触发词的句子，得到候选特定行为句的集合；

(2)用分类器识别特定行为句：首先是抽取标准训练数据集中所有句子的全词特征向量；其次是用全词特征向量来训练SVM分类器；最后用训练好的SVM分类器对候选特定行为句进行分类，得到其中的特定行为句；

(3)构建人物共现关系图谱：首先是对特定行为句进行命名实体识别，抽取出所有特定行为句中的命名实体；其次，出现在同一个特定行为句中的命名实体之间有共现关系，构建出包含关键命名实体及其共现关系的特定行为共现网；最后，根据特定行为共现网构建人物共现关系图谱。

进一步地，命名实体包括人名、地名和组织名，根据特定行为共现网构建人物共现关系图谱的具体步骤是：将特定行为共现网中的地名和组织名作为与其相连的人名的属性信息，只显示出特定行为共现网中存储有属性信息的人名节点及人名节点之间的共现关系，构建人物共现关系图谱。

进一步地，所述步骤(1)具体包括：

101：构建包含特定行为正例和负例的标准训练数据集；对于给定的网络新闻文档集，采用人工标注的方法，标注出所有新闻文档中的特定行为句作为正例，对于正例还要标注出行为触发词及行为类型，除特定行为句之外的所有非特定行为句作为负例，对于负例只标注其行为类型，得到标准训练数据集；

102：构建触发词表；在标准训练数据集标注完成之后，要统计出标准训练数据集中标注出的所有特定行为句对应的触发词和触发词对应的特定行为类型，构建触发词表，该触发词表包含所有特定行为类型对应的触发词；

103：识别候选特定行为句；根据102构建出的触发词表，采用字符串匹配的方法，对所有的待测试句子进行检测，删除不含特定行为触发词的句子，得到候选特定行为句的集合。

进一步地，所述步骤(2)具体包括：

201：抽取标准训练数据集中所有句子的全词向量；假设词典中有n个词，就初始化一个元素均为空值的n维字符串数组；从前到后扫描句子，将句子中出现的字符串与词典中的词进行匹配；若匹配到在词典中出现的词，且该词是词典中的第i个词，就将n维字符串数组中的第i个元素改为SVM分类器所能识别的字符串；如此循环进行，直到将句子中出现的所有字符串都与词典匹配之后，就得到该句子对应的全词向量；

202：构造全词特征向量；根据以上标准训练数据集的人工标注结果，得到标准训练数据集中每个句子的特定行为类型，将句子的全词向量与其特定行为类型相结合，得到句子对应的全词特征向量；抽取标准训练数据集中所有句子的全词特征向量，得到全部的全词特征向量集合；

203：训练SVM分类器识别特定行为；随机选取一部分全词特征向量作为SVM分类器的输入，用来训练SVM分类器识别特定行为，其余的全词特征向量用于测试训练好的SVM分类器的准确率、召回率和F值；

204：识别特定行为句；抽取所有候选特定行为句对应的全词特征向量作为训练好的SVM分类器的输入，用训练好的SVM分类器对所有候选特定行为句进行分类，实现对特定行为句的识别。

进一步地，步骤203中随机选取70～90％的全词特征向量作为SVM分类器的输入。

进一步地，所述步骤(3)具体包括：

301：筛选出特定行为句的集合；对所有句子进行行为类型识别之后，得到了每个句子对应的行为类型，采用字符串匹配的方法，删除非特定行为句，只保留其中的特定行为句；

302：分词；采用分词器对所有的特定行为句进行分词；

303：命名实体识别；命名实体包括人名、地名和组织名，分词器会在分词后自动对每个词进行词性标注，采用字符串匹配的方法将标为人名、地名和组织名的这三类词性的词筛选出来，得到命名实体的集合，集合内的命名实体构成特定行为共现网中所有节点；

304：将命名实体之间的共现关系作为特定行为共现网中边的构成方式；在同一个特定行为句中出现的命名实体两两之间有共现关系，在共现网中给出连线，构成特定行为共现网中边的集合；直接删除含有少于两个命名实体的句子；

305：选择两种策略来最终确定特定行为共现网中节点和边的集合；假设共抽取出N个实体：①构建一个N×N的矩阵，来统计各个命名实体之间两两共现的次数，对共现次数进行排序，网络的构建只选择其中共现次数最多的部分实体对；②统计各个节点的度，排序后选择度数最大的部分节点及其邻居节点，将这些节点及其共现关系表示在特定行为共现网中；

306：构建特定行为共现网；按照305的两种策略确定了节点和边之后，根据度大小给节点赋权值，根据共现次数给边赋权值；将如上节点和边以及节点的权值和边的权值作为输入，使用网络构建工具读取输入文档并构建出特定行为共现网，由此得到所关注的某些人物、人物所在的地理位置信息以及与人物相关联的组织机构信息；

307：构建人物共现关系图谱；首先定义一个人名类，该类包含与人名相关联的属性信息，只保留特定行为共现网中的人名节点以及人名节点之间的共现关系，每个人名节点都存储各自的属性信息，从而构建出特定行为共现网中的人物共现关系图谱。

进一步地，步骤307中的属性信息包括地理位置信息、组织机构信息和节点权值。

与现有技术相比，本发明有益的技术效果如下：

本发明中的特定行为是事件的子集，将触发词仅仅用于初步的过滤，含有触发词的句子仅仅作为候选特定行为句；通过用训练好的SVM分类器对候选特定行为句进行分类，确定候选特定行为句是否为真正的特定行为句，保证了识别的正确性，提高了识别的准确率。本发明通过准确识别网络舆情数据中的攻击、受伤、死亡、拘捕、示威、控告、宣判有罪、引渡等特定行为，抽取行为句中相关的命名实体来构建特定行为共现网和特定行为共现网中的人物共现关系图谱。将非结构化网络舆情数据转化为结构化的信息，方便舆情分析人员及时进行相关查询和分析，为舆情事件中的特定行为提供新的可视化分析方法。本发明具有以下具体优点：

①提出一种基于行为识别的人物共现关系图谱构建方法。②通过用SVM分类器对行为句分类来识别特定行为句，将行为识别问题巧妙转化为句子分类问题。③采用全词特征向量来训练分类器，充分利用句子信息，并避免传统分词导致的边界错误问题。④该方法能在大量真实网络舆情数据上有效识别特定行为句，在此基础上构建出特定行为共现网和人物共现关系图谱，提供一种新的可视化舆情分析方法。本发明采用事件抽取的方法，从自然语言处理中进行信息抽取；解决从海量舆情数据中迅速找到特定行为信息的难题，帮助人们及时准确的获取舆情信息。

【附图说明】

图1是本发明的总体流程图。

图2是本发明中全词特征向量抽取过程流程图；

图3是本发明中的特定行为共现网；

图4是本发明中的人物共现关系图谱。

【具体实施方式】

首先要确定所关注的特定行为类型，定义本发明中的特定行为：现实中发生的，民众热切关注和议论并蕴含有“破坏”、“危害”、“损失”等涉及公共安全或涉及司法公正的行为，本发明关注的特定行为包含攻击、受伤、死亡、拘捕、示威、控告、宣判有罪、引渡等。

触发词：触发一个行为发生的词语。

全词向量：由句子中出现的所有词构成的向量。

基于特定行为共现网络的人物共现关系图谱构建方法的分析过程如图1所示。本发明从事件抽取角度出发，探索特定行为识别的完整流程，从而实现从海量舆情数据中及时准确的识别出这些特定行为，并在此基础上通过抽取行为句中相关的人物、地点和组织等命名实体来构建特定行为共现网和特定行为共现网中的人物共现关系图谱，用于舆情分析和监控。该方法的具体实施方案可以分成三步：候选特定行为句识别、用分类器识别特定行为句、构建人物共现关系图谱。具体如下所述：

1、候选特定行为句识别：

候选特定行为句识别的目的是去除噪音，过滤掉大量的无用数据，在很大程度上提高系统的效率。行为由触发词和描述行为结构的元素组成，表示一个动作的发生或状态的变化。行为触发词可以直接引起行为的发生，是决定行为类型的重要特征，不含特定行为触发词的句子一般不含特定行为，可以根据句子中触发词的有无进行过滤，得到候选特定行为句的集合。

候选特定行为句识别包括如下三个步骤：

101：构建人工标注的标准训练数据集。首先是根据所关注的特定行为的定义(现实中发生的，民众热切关注和议论并蕴含有“破坏”、“危害”、“损失”等涉及公共安全或涉及司法公正的行为)，对于给定的网络新闻文档集，采用人工标注的方法，构建包含特定行为正例和负例的标准训练数据集；具体就是标注出所有新闻文档中的特定行为句作为正例，对于正例还要标注出行为触发词及行为类型，除特定行为句之外的所有句子作为负例，即非特定行为句，对于负例只标注其行为类型。

102：构建触发词表。在第一步的标准训练数据集标注完成之后，统计出标准训练数据集中标注出的所有特定行为句对应的触发词和触发词对应的特定行为类型，由此构建触发词表，该触发词表包含所有特定行为类型所对应的触发词。

103：识别候选特定行为句。根据前面构建出的触发词表，采用字符串匹配的方法，对所有待测试句子进行检测，过滤掉不含特定行为触发词的句子，得到候选特定行为句的集合。

2、用分类器识别特定行为句：

为了检验包含触发词的候选特定行为句是否为真正的特定行为句，需要选择合适的分类器对句子进行分类，筛选出真正的特定行为句。

本发明采用支持向量机(SVM)分类器来识别特定行为句。其过程包括如下四个步骤：

201：抽取标准训练数据集中所有句子的全词向量，具体抽取过程如图2所示。假设词典中有n个词，就初始化一个元素均为空值的n维字符串数组；从前到后扫描句子，将句子中出现的字符串与词典中的词进行匹配；若匹配到在词典中出现的词，且该词是词典中的第i个词，就将向量下标为i(或者如图2中所示的k)的元素改为字符串i+":1"(或k+":1")，i+":1"是SVM分类器所能识别的固定形式，比如，如果句子中的一个字符串匹配到词典中的第100个词，就把n维字符串数组中的第100个元素改为“100:1”这个字符串，也就是说，n维字符串数组的n个元素是否为空就分别代表词典中的n个词在句子中是否出现，n维字符串数组的第i个元素为i+“:1”(不为空)就说明词典的第i个词在句子中出现，第i个元素为空就说明词典的第i个词在句子中不出现；如此循环进行多次，直到将句子中出现的所有字符串都与词典匹配之后，将字符串数组中的所有字符串元素按照下标从小到大的顺序依次连接，且元素间以空格为间隔，就得到该句子对应的全词向量，从而表征句子中的所有词。

202：构造全词特征向量。根据以上标准训练数据集的人工标注结果，可以得到标准训练数据集中每个句子的特定行为类型，将句子的全词向量与其特定行为类型相结合，即特定行为类型+空格+全词向量，就得到句子对应的全词特征向量。构造标准训练数据集中所有句子的全词特征向量，就得到全部的全词特征向量集合。

203：训练SVM(支持向量机)分类器识别特定行为。随机选取70％～90％，优选80％的全词特征向量作为SVM分类器的输入，用来训练SVM分类器识别特定行为，其余的全词特征向量用于测试训练好的SVM分类器的准确率、召回率和F值。

204：识别特定行为句。抽取所有候选特定行为句对应的全词特征向量作为训练好的SVM分类器的输入，用训练好的SVM分类器对所有候选特定行为句进行分类，实现对特定行为句的识别。

3、构建人物共现关系图谱：

共词分析是指对在同一篇文献或同一个文本段中出现的一组词，两两统计它们共同出现的次数，并对这些词进行相关的分析，从而挖掘出其中的隐含的有用信息，反映这些词所属的主题或领域的发展动态。本发明要构建和分析的特定行为共现网和人物共现关系图谱就是共词分析的一种实例，该网络的构建要建立在以上特定行为识别的基础上。

构建人物共现关系图谱包括如下七个步骤：

301：筛选出特定行为句的集合。对所有句子进行行为类型识别之后，得到了每个句子对应的行为类型。采用字符串匹配的方法，删除非特定行为句，即行为类型标签为-1的句子，只保留其中的特定行为句。

302：分词。采用分词器对所有的特定行为句进行分词。

303：命名实体识别。本发明所要识别的命名实体包括人名、地名和组织名，分词器会在分词后自动对每个词进行词性标注，其中，nr表示人名，ns表示地名，nt表示组织名。采用字符串匹配的方法将标为这三类词性的词筛选出来，就得到了所需要的命名实体的集合，它们就构成特定行为共现网中所有节点。

304：将命名实体之间的共现关系作为特定行为共现网中边的构成方式。定义在同一个特定行为句中出现的所有命名实体两两之间有共现关系，在共现网中给出连线，这就构成了特定行为共现网中边的集合。对于含有少于两个命名实体的句子，不可能构成共现关系，直接将这些句子删掉。

305：选择两种策略来最终确定特定行为共现网中节点和边的集合。假设共抽取出N个实体：①构建一个N×N的矩阵，来统计各个命名实体之间两两共现的次数，对共现次数进行排序，网络的构建只选择其中共现次数最多的部分实体对；②统计各个节点的度，即统计与实体共现的其他邻居实体的个数，排序后选择度数最大的部分节点及它们的邻居节点，将这些节点及其共现关系表示在特定行为共现网中；

306：构建特定行为共现网，如图3所示。按照上面的两种策略确定了节点和边之后，可以根据度大小给节点赋权值，根据共现次数给边赋权值；将如上节点和边以及节点的权值和边的权值作为输入，使用网络构建工具读取输入文档并构建出特定行为共现网，由此就可以直观的显示出所关注的某些人物、人物所在的地理位置信息以及与人物相关联的组织机构信息。

307：构建人物共现关系图谱，如图4所示。首先定义一个人名类，该类包含与人名相关联的属性信息，如地理位置信息、组织机构信息和节点权值。将特定行为共现网中的地名和组织名作为与其相连的人名的属性信息，只保留特定行为共现网中的人名节点及人名节点之间的共现关系，每个人名节点都存储各自的地理位置、组织机构和节点权值等属性信息，从而构建出特定行为共现网中的人物共现关系图谱。另外，根据社会网络中的度中心性原理，一个节点的节点度越大就意味着这个节点的度中心性越高，该节点在网络中就越重要，利用节点的权值，可以过滤出人物共现关系图谱中的关键人物和关键人物之间的共现关系，提高网络中信息的可信度。

本发明中的特定行为是事件的子集，本发明中将触发词仅仅用于初步的过滤，含有触发词的句子仅仅作为候选特定行为句。为了确定候选特定行为句是否为真正的特定行为句，还要用训练好的SVM分类器对候选特定行为句进行分类，保证了识别的正确性，提高了识别的准确率。本发明在正确识别特定行为句的基础上，构建包含人名、地名、组织名等命名实体及其共现关系的特定行为共现网，进而构建出人物共现关系图谱，这样就更加直观清晰地表示出识别结果中的有用信息，便于进行相关的分析。

Claims

1.一种基于特定行为共现网络的人物共现关系图谱构建方法，其特征在于，包括如下步骤：

(3)构建人物共现关系图谱：首先是对特定行为句进行命名实体识别，抽取出所有特定行为句中的命名实体；其次，出现在同一个特定行为句中的命名实体之间有共现关系，构建出包含关键命名实体及其共现关系的特定行为共现网；最后，根据特定行为共现网构建人物共现关系图谱；

所述步骤(2)具体包括：

2.根据权利要求1所述的基于特定行为共现网络的人物共现关系图谱构建方法，其特征在于，命名实体包括人名、地名和组织名，根据特定行为共现网构建人物共现关系图谱的具体步骤是：将特定行为共现网中的地名和组织名作为与其相连的人名的属性信息，只显示出特定行为共现网中存储有属性信息的人名节点及人名节点之间的共现关系，构建人物共现关系图谱。

3.根据权利要求1所述的基于特定行为共现网络的人物共现关系图谱构建方法，其特征在于，所述步骤(1)具体包括：

4.根据权利要求1所述的基于特定行为共现网络的人物共现关系图谱构建方法，其特征在于，步骤203中随机选取70～90％的全词特征向量作为SVM分类器的输入。

5.根据权利要求1所述的基于特定行为共现网络的人物共现关系图谱构建方法，其特征在于，所述步骤(3)具体包括：

302：分词；采用分词器对所有的特定行为句进行分词；

6.根据权利要求5所述的基于特定行为共现网络的人物共现关系图谱构建方法，其特征在于，步骤307中的属性信息包括地理位置信息、组织机构信息和节点权值。