CN105760439B - 一种基于特定行为共现网络的人物共现关系图谱构建方法 - Google Patents

一种基于特定行为共现网络的人物共现关系图谱构建方法 Download PDF

Info

Publication number
CN105760439B
CN105760439B CN201610073885.7A CN201610073885A CN105760439B CN 105760439 B CN105760439 B CN 105760439B CN 201610073885 A CN201610073885 A CN 201610073885A CN 105760439 B CN105760439 B CN 105760439B
Authority
CN
China
Prior art keywords
specific behavior
sentence
name
occurrence
personage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610073885.7A
Other languages
English (en)
Other versions
CN105760439A (zh
Inventor
魏笔凡
闫彩霞
郑庆华
刘均
陈艳平
郑元浩
郝亚洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201610073885.7A priority Critical patent/CN105760439B/zh
Publication of CN105760439A publication Critical patent/CN105760439A/zh
Application granted granted Critical
Publication of CN105760439B publication Critical patent/CN105760439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

本发明公开了一种基于特定行为共现网络的人物共现关系图谱构建方法。首先构建标准训练数据集和触发词表,用字符串匹配的方法,对所有待测试句子进行过滤得到候选特定行为句的集合;然后抽取标准训练数据集中所有句子的全词特征向量,用于训练SVM分类器识别特定行为,用训练好的SVM分类器对候选特定行为句进行分类,识别出特定行为句;最后构建出包含命名实体及其共现关系的特定行为共现网,在特定行为共现网的基础上构建人物共现关系图谱。本发明能在大量真实网络舆情数据上有效识别特定行为句,并在此基础上构建出特定行为共现网和人物共现关系图谱,为舆情分析提供新的可视化分析方法。

Description

一种基于特定行为共现网络的人物共现关系图谱构建方法
【技术领域】
本发明属于计算机应用领域,具体涉及一种基于特定行为共现网络的人物共现关系图谱构建方法。
【技术背景】
移动互联网和社交媒体的广泛使用,随之而来的是网民规模的迅速增长和网络数据的急速增加。网民在网络媒体上参与热点话题讨论的过程中,会对社会热点表达自己的观点,从而形成网络舆情。由于舆情信息的传播具有开放性和隐蔽性的特点,使其容易被利用,成为影响民众情感和判断、威胁社会公共安全的因素。网络舆情中最引人关注的是现实中发生的,民众热切关注和议论并蕴含有“破坏”、“危害”、“损失”等涉及公共安全或涉及司法公正的行为,这些特定行为通常会关系广大民众的切身利益,影响社会的安定和谐。因此,及时地发现这些行为并辨别其真伪至关重要。
在网络信息更新迅速,数据量十分庞大的今天,仅仅靠传统的人工搜索和识别难以对网上的海量信息进行及时和充分的收集和处理,更无法从庞大的舆情数据中准确发现所关注的特定行为。
目前,这一领域中很少有关于特定行为识别的相关研究和应用,类似的研究主要采用信息抽取中的事件抽取方法。如,专利1:一种中文事件的抽取方法及系统[申请号:201210182651.8]。该方法包括:将待抽取事件的文本依次进行分句、分词、实体识别、句法和依存关系分析;根据词的内部结构,将符合抽取条件的词标记为候选触发词;根据概率、词性和词内部结构将符合过滤条件的触发词过滤掉;利用最大熵识别模型抽取触发词,并获取每个触发词的可信度;依据每个触发词的可信度,将触发词分成一致性处理训练数据集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词;利用最大熵分类模型对触发词进行分类,得到事件集合。再如专利2:事件触发词的扩展方法及系统[申请号:201210321193.1]。其中实施公开了一种中文事件触发词的扩展方法及系统,该方法利用已知触发词形态结构,结合义原相似度来扩展未知触发词,这样待抽取事件的触发词就包括已知触发词以及扩展的未知触发词,这样在抽取事件实例时,不仅可以抽取已知触发词对应的事件实例,还可以抽取扩展的未知触发词对应的事件实例。进一步的,在抽取事件时,能够识别出更多的事件实例,提高事件抽取系统的召回率。
但是,上述专利1和专利2在进行事件抽取的过程中都将事件的触发词作为事件抽取的标准,仅仅通过识别触发词和扩展触发词来决定触发词所在文本的事件类型,识别不够准确。
【发明内容】
本发明的目的是提供一种基于特定行为共现网络的人物共现关系图谱构建方法,通过构建特定行为共现网和特定行为共现网中的人物共现关系图谱,能够从海量舆情数据中迅速找到特定行为信息,方便查询和分析。
为达到以上目的,本发明是采取如下技术方案予以实现的:
包括如下步骤:
(1)候选特定行为句识别:首先对网络新闻文档集进行标注,构建包含特定行为正例和负例的标准训练数据集;其次是根据标准训练数据集构建包含所有特定行为对应的触发词的触发词表;最后根据触发词表,用字符串匹配的方法对所有待测试句子进行过滤,删除不含特定行为触发词的句子,得到候选特定行为句的集合;
(2)用分类器识别特定行为句:首先是抽取标准训练数据集中所有句子的全词特征向量;其次是用全词特征向量来训练SVM分类器;最后用训练好的SVM分类器对候选特定行为句进行分类,得到其中的特定行为句;
(3)构建人物共现关系图谱:首先是对特定行为句进行命名实体识别,抽取出所有特定行为句中的命名实体;其次,出现在同一个特定行为句中的命名实体之间有共现关系,构建出包含关键命名实体及其共现关系的特定行为共现网;最后,根据特定行为共现网构建人物共现关系图谱。
进一步地,命名实体包括人名、地名和组织名,根据特定行为共现网构建人物共现关系图谱的具体步骤是:将特定行为共现网中的地名和组织名作为与其相连的人名的属性信息,只显示出特定行为共现网中存储有属性信息的人名节点及人名节点之间的共现关系,构建人物共现关系图谱。
进一步地,所述步骤(1)具体包括:
101:构建包含特定行为正例和负例的标准训练数据集;对于给定的网络新闻文档集,采用人工标注的方法,标注出所有新闻文档中的特定行为句作为正例,对于正例还要标注出行为触发词及行为类型,除特定行为句之外的所有非特定行为句作为负例,对于负例只标注其行为类型,得到标准训练数据集;
102:构建触发词表;在标准训练数据集标注完成之后,要统计出标准训练数据集中标注出的所有特定行为句对应的触发词和触发词对应的特定行为类型,构建触发词表,该触发词表包含所有特定行为类型对应的触发词;
103:识别候选特定行为句;根据102构建出的触发词表,采用字符串匹配的方法,对所有的待测试句子进行检测,删除不含特定行为触发词的句子,得到候选特定行为句的集合。
进一步地,所述步骤(2)具体包括:
201:抽取标准训练数据集中所有句子的全词向量;假设词典中有n个词,就初始化一个元素均为空值的n维字符串数组;从前到后扫描句子,将句子中出现的字符串与词典中的词进行匹配;若匹配到在词典中出现的词,且该词是词典中的第i个词,就将n维字符串数组中的第i个元素改为SVM分类器所能识别的字符串;如此循环进行,直到将句子中出现的所有字符串都与词典匹配之后,就得到该句子对应的全词向量;
202:构造全词特征向量;根据以上标准训练数据集的人工标注结果,得到标准训练数据集中每个句子的特定行为类型,将句子的全词向量与其特定行为类型相结合,得到句子对应的全词特征向量;抽取标准训练数据集中所有句子的全词特征向量,得到全部的全词特征向量集合;
203:训练SVM分类器识别特定行为;随机选取一部分全词特征向量作为SVM分类器的输入,用来训练SVM分类器识别特定行为,其余的全词特征向量用于测试训练好的SVM分类器的准确率、召回率和F值;
204:识别特定行为句;抽取所有候选特定行为句对应的全词特征向量作为训练好的SVM分类器的输入,用训练好的SVM分类器对所有候选特定行为句进行分类,实现对特定行为句的识别。
进一步地,步骤203中随机选取70~90%的全词特征向量作为SVM分类器的输入。
进一步地,所述步骤(3)具体包括:
301:筛选出特定行为句的集合;对所有句子进行行为类型识别之后,得到了每个句子对应的行为类型,采用字符串匹配的方法,删除非特定行为句,只保留其中的特定行为句;
302:分词;采用分词器对所有的特定行为句进行分词;
303:命名实体识别;命名实体包括人名、地名和组织名,分词器会在分词后自动对每个词进行词性标注,采用字符串匹配的方法将标为人名、地名和组织名的这三类词性的词筛选出来,得到命名实体的集合,集合内的命名实体构成特定行为共现网中所有节点;
304:将命名实体之间的共现关系作为特定行为共现网中边的构成方式;在同一个特定行为句中出现的命名实体两两之间有共现关系,在共现网中给出连线,构成特定行为共现网中边的集合;直接删除含有少于两个命名实体的句子;
305:选择两种策略来最终确定特定行为共现网中节点和边的集合;假设共抽取出N个实体:①构建一个N×N的矩阵,来统计各个命名实体之间两两共现的次数,对共现次数进行排序,网络的构建只选择其中共现次数最多的部分实体对;②统计各个节点的度,排序后选择度数最大的部分节点及其邻居节点,将这些节点及其共现关系表示在特定行为共现网中;
306:构建特定行为共现网;按照305的两种策略确定了节点和边之后,根据度大小给节点赋权值,根据共现次数给边赋权值;将如上节点和边以及节点的权值和边的权值作为输入,使用网络构建工具读取输入文档并构建出特定行为共现网,由此得到所关注的某些人物、人物所在的地理位置信息以及与人物相关联的组织机构信息;
307:构建人物共现关系图谱;首先定义一个人名类,该类包含与人名相关联的属性信息,只保留特定行为共现网中的人名节点以及人名节点之间的共现关系,每个人名节点都存储各自的属性信息,从而构建出特定行为共现网中的人物共现关系图谱。
进一步地,步骤307中的属性信息包括地理位置信息、组织机构信息和节点权值。
与现有技术相比,本发明有益的技术效果如下:
本发明中的特定行为是事件的子集,将触发词仅仅用于初步的过滤,含有触发词的句子仅仅作为候选特定行为句;通过用训练好的SVM分类器对候选特定行为句进行分类,确定候选特定行为句是否为真正的特定行为句,保证了识别的正确性,提高了识别的准确率。本发明通过准确识别网络舆情数据中的攻击、受伤、死亡、拘捕、示威、控告、宣判有罪、引渡等特定行为,抽取行为句中相关的命名实体来构建特定行为共现网和特定行为共现网中的人物共现关系图谱。将非结构化网络舆情数据转化为结构化的信息,方便舆情分析人员及时进行相关查询和分析,为舆情事件中的特定行为提供新的可视化分析方法。本发明具有以下具体优点:
①提出一种基于行为识别的人物共现关系图谱构建方法。②通过用SVM分类器对行为句分类来识别特定行为句,将行为识别问题巧妙转化为句子分类问题。③采用全词特征向量来训练分类器,充分利用句子信息,并避免传统分词导致的边界错误问题。④该方法能在大量真实网络舆情数据上有效识别特定行为句,在此基础上构建出特定行为共现网和人物共现关系图谱,提供一种新的可视化舆情分析方法。本发明采用事件抽取的方法,从自然语言处理中进行信息抽取;解决从海量舆情数据中迅速找到特定行为信息的难题,帮助人们及时准确的获取舆情信息。
【附图说明】
图1是本发明的总体流程图。
图2是本发明中全词特征向量抽取过程流程图;
图3是本发明中的特定行为共现网;
图4是本发明中的人物共现关系图谱。
【具体实施方式】
首先要确定所关注的特定行为类型,定义本发明中的特定行为:现实中发生的,民众热切关注和议论并蕴含有“破坏”、“危害”、“损失”等涉及公共安全或涉及司法公正的行为,本发明关注的特定行为包含攻击、受伤、死亡、拘捕、示威、控告、宣判有罪、引渡等。
触发词:触发一个行为发生的词语。
全词向量:由句子中出现的所有词构成的向量。
基于特定行为共现网络的人物共现关系图谱构建方法的分析过程如图1所示。本发明从事件抽取角度出发,探索特定行为识别的完整流程,从而实现从海量舆情数据中及时准确的识别出这些特定行为,并在此基础上通过抽取行为句中相关的人物、地点和组织等命名实体来构建特定行为共现网和特定行为共现网中的人物共现关系图谱,用于舆情分析和监控。该方法的具体实施方案可以分成三步:候选特定行为句识别、用分类器识别特定行为句、构建人物共现关系图谱。具体如下所述:
1、候选特定行为句识别:
候选特定行为句识别的目的是去除噪音,过滤掉大量的无用数据,在很大程度上提高系统的效率。行为由触发词和描述行为结构的元素组成,表示一个动作的发生或状态的变化。行为触发词可以直接引起行为的发生,是决定行为类型的重要特征,不含特定行为触发词的句子一般不含特定行为,可以根据句子中触发词的有无进行过滤,得到候选特定行为句的集合。
候选特定行为句识别包括如下三个步骤:
101:构建人工标注的标准训练数据集。首先是根据所关注的特定行为的定义(现实中发生的,民众热切关注和议论并蕴含有“破坏”、“危害”、“损失”等涉及公共安全或涉及司法公正的行为),对于给定的网络新闻文档集,采用人工标注的方法,构建包含特定行为正例和负例的标准训练数据集;具体就是标注出所有新闻文档中的特定行为句作为正例,对于正例还要标注出行为触发词及行为类型,除特定行为句之外的所有句子作为负例,即非特定行为句,对于负例只标注其行为类型。
102:构建触发词表。在第一步的标准训练数据集标注完成之后,统计出标准训练数据集中标注出的所有特定行为句对应的触发词和触发词对应的特定行为类型,由此构建触发词表,该触发词表包含所有特定行为类型所对应的触发词。
103:识别候选特定行为句。根据前面构建出的触发词表,采用字符串匹配的方法,对所有待测试句子进行检测,过滤掉不含特定行为触发词的句子,得到候选特定行为句的集合。
2、用分类器识别特定行为句:
为了检验包含触发词的候选特定行为句是否为真正的特定行为句,需要选择合适的分类器对句子进行分类,筛选出真正的特定行为句。
本发明采用支持向量机(SVM)分类器来识别特定行为句。其过程包括如下四个步骤:
201:抽取标准训练数据集中所有句子的全词向量,具体抽取过程如图2所示。假设词典中有n个词,就初始化一个元素均为空值的n维字符串数组;从前到后扫描句子,将句子中出现的字符串与词典中的词进行匹配;若匹配到在词典中出现的词,且该词是词典中的第i个词,就将向量下标为i(或者如图2中所示的k)的元素改为字符串i+":1"(或k+":1"),i+":1"是SVM分类器所能识别的固定形式,比如,如果句子中的一个字符串匹配到词典中的第100个词,就把n维字符串数组中的第100个元素改为“100:1”这个字符串,也就是说,n维字符串数组的n个元素是否为空就分别代表词典中的n个词在句子中是否出现,n维字符串数组的第i个元素为i+“:1”(不为空)就说明词典的第i个词在句子中出现,第i个元素为空就说明词典的第i个词在句子中不出现;如此循环进行多次,直到将句子中出现的所有字符串都与词典匹配之后,将字符串数组中的所有字符串元素按照下标从小到大的顺序依次连接,且元素间以空格为间隔,就得到该句子对应的全词向量,从而表征句子中的所有词。
202:构造全词特征向量。根据以上标准训练数据集的人工标注结果,可以得到标准训练数据集中每个句子的特定行为类型,将句子的全词向量与其特定行为类型相结合,即特定行为类型+空格+全词向量,就得到句子对应的全词特征向量。构造标准训练数据集中所有句子的全词特征向量,就得到全部的全词特征向量集合。
203:训练SVM(支持向量机)分类器识别特定行为。随机选取70%~90%,优选80%的全词特征向量作为SVM分类器的输入,用来训练SVM分类器识别特定行为,其余的全词特征向量用于测试训练好的SVM分类器的准确率、召回率和F值。
204:识别特定行为句。抽取所有候选特定行为句对应的全词特征向量作为训练好的SVM分类器的输入,用训练好的SVM分类器对所有候选特定行为句进行分类,实现对特定行为句的识别。
3、构建人物共现关系图谱:
共词分析是指对在同一篇文献或同一个文本段中出现的一组词,两两统计它们共同出现的次数,并对这些词进行相关的分析,从而挖掘出其中的隐含的有用信息,反映这些词所属的主题或领域的发展动态。本发明要构建和分析的特定行为共现网和人物共现关系图谱就是共词分析的一种实例,该网络的构建要建立在以上特定行为识别的基础上。
构建人物共现关系图谱包括如下七个步骤:
301:筛选出特定行为句的集合。对所有句子进行行为类型识别之后,得到了每个句子对应的行为类型。采用字符串匹配的方法,删除非特定行为句,即行为类型标签为-1的句子,只保留其中的特定行为句。
302:分词。采用分词器对所有的特定行为句进行分词。
303:命名实体识别。本发明所要识别的命名实体包括人名、地名和组织名,分词器会在分词后自动对每个词进行词性标注,其中,nr表示人名,ns表示地名,nt表示组织名。采用字符串匹配的方法将标为这三类词性的词筛选出来,就得到了所需要的命名实体的集合,它们就构成特定行为共现网中所有节点。
304:将命名实体之间的共现关系作为特定行为共现网中边的构成方式。定义在同一个特定行为句中出现的所有命名实体两两之间有共现关系,在共现网中给出连线,这就构成了特定行为共现网中边的集合。对于含有少于两个命名实体的句子,不可能构成共现关系,直接将这些句子删掉。
305:选择两种策略来最终确定特定行为共现网中节点和边的集合。假设共抽取出N个实体:①构建一个N×N的矩阵,来统计各个命名实体之间两两共现的次数,对共现次数进行排序,网络的构建只选择其中共现次数最多的部分实体对;②统计各个节点的度,即统计与实体共现的其他邻居实体的个数,排序后选择度数最大的部分节点及它们的邻居节点,将这些节点及其共现关系表示在特定行为共现网中;
306:构建特定行为共现网,如图3所示。按照上面的两种策略确定了节点和边之后,可以根据度大小给节点赋权值,根据共现次数给边赋权值;将如上节点和边以及节点的权值和边的权值作为输入,使用网络构建工具读取输入文档并构建出特定行为共现网,由此就可以直观的显示出所关注的某些人物、人物所在的地理位置信息以及与人物相关联的组织机构信息。
307:构建人物共现关系图谱,如图4所示。首先定义一个人名类,该类包含与人名相关联的属性信息,如地理位置信息、组织机构信息和节点权值。将特定行为共现网中的地名和组织名作为与其相连的人名的属性信息,只保留特定行为共现网中的人名节点及人名节点之间的共现关系,每个人名节点都存储各自的地理位置、组织机构和节点权值等属性信息,从而构建出特定行为共现网中的人物共现关系图谱。另外,根据社会网络中的度中心性原理,一个节点的节点度越大就意味着这个节点的度中心性越高,该节点在网络中就越重要,利用节点的权值,可以过滤出人物共现关系图谱中的关键人物和关键人物之间的共现关系,提高网络中信息的可信度。
本发明中的特定行为是事件的子集,本发明中将触发词仅仅用于初步的过滤,含有触发词的句子仅仅作为候选特定行为句。为了确定候选特定行为句是否为真正的特定行为句,还要用训练好的SVM分类器对候选特定行为句进行分类,保证了识别的正确性,提高了识别的准确率。本发明在正确识别特定行为句的基础上,构建包含人名、地名、组织名等命名实体及其共现关系的特定行为共现网,进而构建出人物共现关系图谱,这样就更加直观清晰地表示出识别结果中的有用信息,便于进行相关的分析。

Claims (6)

1.一种基于特定行为共现网络的人物共现关系图谱构建方法,其特征在于,包括如下步骤:
(1)候选特定行为句识别:首先对网络新闻文档集进行标注,构建包含特定行为正例和负例的标准训练数据集;其次是根据标准训练数据集构建包含所有特定行为对应的触发词的触发词表;最后根据触发词表,用字符串匹配的方法对所有待测试句子进行过滤,删除不含特定行为触发词的句子,得到候选特定行为句的集合;
(2)用分类器识别特定行为句:首先是抽取标准训练数据集中所有句子的全词特征向量;其次是用全词特征向量来训练SVM分类器;最后用训练好的SVM分类器对候选特定行为句进行分类,得到其中的特定行为句;
(3)构建人物共现关系图谱:首先是对特定行为句进行命名实体识别,抽取出所有特定行为句中的命名实体;其次,出现在同一个特定行为句中的命名实体之间有共现关系,构建出包含关键命名实体及其共现关系的特定行为共现网;最后,根据特定行为共现网构建人物共现关系图谱;
所述步骤(2)具体包括:
201:抽取标准训练数据集中所有句子的全词向量;假设词典中有n个词,就初始化一个元素均为空值的n维字符串数组;从前到后扫描句子,将句子中出现的字符串与词典中的词进行匹配;若匹配到在词典中出现的词,且该词是词典中的第i个词,就将n维字符串数组中的第i个元素改为SVM分类器所能识别的字符串;如此循环进行,直到将句子中出现的所有字符串都与词典匹配之后,就得到该句子对应的全词向量;
202:构造全词特征向量;根据以上标准训练数据集的人工标注结果,得到标准训练数据集中每个句子的特定行为类型,将句子的全词向量与其特定行为类型相结合,得到句子对应的全词特征向量;抽取标准训练数据集中所有句子的全词特征向量,得到全部的全词特征向量集合;
203:训练SVM分类器识别特定行为;随机选取一部分全词特征向量作为SVM分类器的输入,用来训练SVM分类器识别特定行为,其余的全词特征向量用于测试训练好的SVM分类器的准确率、召回率和F值;
204:识别特定行为句;抽取所有候选特定行为句对应的全词特征向量作为训练好的SVM分类器的输入,用训练好的SVM分类器对所有候选特定行为句进行分类,实现对特定行为句的识别。
2.根据权利要求1所述的基于特定行为共现网络的人物共现关系图谱构建方法,其特征在于,命名实体包括人名、地名和组织名,根据特定行为共现网构建人物共现关系图谱的具体步骤是:将特定行为共现网中的地名和组织名作为与其相连的人名的属性信息,只显示出特定行为共现网中存储有属性信息的人名节点及人名节点之间的共现关系,构建人物共现关系图谱。
3.根据权利要求1所述的基于特定行为共现网络的人物共现关系图谱构建方法,其特征在于,所述步骤(1)具体包括:
101:构建包含特定行为正例和负例的标准训练数据集;对于给定的网络新闻文档集,采用人工标注的方法,标注出所有新闻文档中的特定行为句作为正例,对于正例还要标注出行为触发词及行为类型,除特定行为句之外的所有非特定行为句作为负例,对于负例只标注其行为类型,得到标准训练数据集;
102:构建触发词表;在标准训练数据集标注完成之后,要统计出标准训练数据集中标注出的所有特定行为句对应的触发词和触发词对应的特定行为类型,构建触发词表,该触发词表包含所有特定行为类型对应的触发词;
103:识别候选特定行为句;根据102构建出的触发词表,采用字符串匹配的方法,对所有的待测试句子进行检测,删除不含特定行为触发词的句子,得到候选特定行为句的集合。
4.根据权利要求1所述的基于特定行为共现网络的人物共现关系图谱构建方法,其特征在于,步骤203中随机选取70~90%的全词特征向量作为SVM分类器的输入。
5.根据权利要求1所述的基于特定行为共现网络的人物共现关系图谱构建方法,其特征在于,所述步骤(3)具体包括:
301:筛选出特定行为句的集合;对所有句子进行行为类型识别之后,得到了每个句子对应的行为类型,采用字符串匹配的方法,删除非特定行为句,只保留其中的特定行为句;
302:分词;采用分词器对所有的特定行为句进行分词;
303:命名实体识别;命名实体包括人名、地名和组织名,分词器会在分词后自动对每个词进行词性标注,采用字符串匹配的方法将标为人名、地名和组织名的这三类词性的词筛选出来,得到命名实体的集合,集合内的命名实体构成特定行为共现网中所有节点;
304:将命名实体之间的共现关系作为特定行为共现网中边的构成方式;在同一个特定行为句中出现的命名实体两两之间有共现关系,在共现网中给出连线,构成特定行为共现网中边的集合;直接删除含有少于两个命名实体的句子;
305:选择两种策略来最终确定特定行为共现网中节点和边的集合;假设共抽取出N个实体:①构建一个N×N的矩阵,来统计各个命名实体之间两两共现的次数,对共现次数进行排序,网络的构建只选择其中共现次数最多的部分实体对;②统计各个节点的度,排序后选择度数最大的部分节点及其邻居节点,将这些节点及其共现关系表示在特定行为共现网中;
306:构建特定行为共现网;按照305的两种策略确定了节点和边之后,根据度大小给节点赋权值,根据共现次数给边赋权值;将如上节点和边以及节点的权值和边的权值作为输入,使用网络构建工具读取输入文档并构建出特定行为共现网,由此得到所关注的某些人物、人物所在的地理位置信息以及与人物相关联的组织机构信息;
307:构建人物共现关系图谱;首先定义一个人名类,该类包含与人名相关联的属性信息,只保留特定行为共现网中的人名节点以及人名节点之间的共现关系,每个人名节点都存储各自的属性信息,从而构建出特定行为共现网中的人物共现关系图谱。
6.根据权利要求5所述的基于特定行为共现网络的人物共现关系图谱构建方法,其特征在于,步骤307中的属性信息包括地理位置信息、组织机构信息和节点权值。
CN201610073885.7A 2016-02-02 2016-02-02 一种基于特定行为共现网络的人物共现关系图谱构建方法 Active CN105760439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610073885.7A CN105760439B (zh) 2016-02-02 2016-02-02 一种基于特定行为共现网络的人物共现关系图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610073885.7A CN105760439B (zh) 2016-02-02 2016-02-02 一种基于特定行为共现网络的人物共现关系图谱构建方法

Publications (2)

Publication Number Publication Date
CN105760439A CN105760439A (zh) 2016-07-13
CN105760439B true CN105760439B (zh) 2018-12-07

Family

ID=56329621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610073885.7A Active CN105760439B (zh) 2016-02-02 2016-02-02 一种基于特定行为共现网络的人物共现关系图谱构建方法

Country Status (1)

Country Link
CN (1) CN105760439B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040068A1 (zh) * 2016-09-02 2018-03-08 浙江核新同花顺网络信息股份有限公司 基于知识图谱的语意分析系统及方法
CN107301167A (zh) * 2017-05-25 2017-10-27 中国科学院信息工程研究所 一种功性能描述信息识别方法及装置
CN107633044B (zh) * 2017-09-14 2021-08-06 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN107704878B (zh) * 2017-10-09 2021-06-22 南京大学 一种基于深度学习的高光谱数据库半自动化建立方法
CN109086316B (zh) * 2018-06-27 2021-09-14 南京邮电大学 面向工业物联网资源的知识图谱自主构建系统
CN109508385B (zh) * 2018-11-06 2023-05-19 云南大学 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
CN110162793A (zh) * 2019-05-27 2019-08-23 北京奇艺世纪科技有限公司 一种命名实体的识别方法及相关设备
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN111191620B (zh) * 2020-01-03 2022-03-22 西安电子科技大学 一种人-物交互检测数据集的构建方法
CN111581358B (zh) * 2020-04-08 2023-08-18 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN113763014A (zh) * 2021-01-05 2021-12-07 北京沃东天骏信息技术有限公司 物品共现关系确定方法和装置及判定模型获得方法和装置
CN112988953B (zh) * 2021-04-26 2021-09-03 成都索贝数码科技股份有限公司 自适应广播电视新闻关键词标准化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
CN103235772A (zh) * 2013-03-08 2013-08-07 北京理工大学 一种文本集人物关系自动提取方法
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
CN103235772A (zh) * 2013-03-08 2013-08-07 北京理工大学 一种文本集人物关系自动提取方法
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法

Also Published As

Publication number Publication date
CN105760439A (zh) 2016-07-13

Similar Documents

Publication Publication Date Title
CN105760439B (zh) 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
Xu et al. Uncovering collusive spammers in Chinese review websites
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN110457696A (zh) 一种面向档案数据的人才与政策智能匹配系统和方法
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN105824959A (zh) 舆情监控方法及系统
CN103838835B (zh) 一种网络敏感视频检测方法
CN107169063B (zh) 一种基于社交信息的用户属性预测方法与系统
CN102890702A (zh) 一种面向网络论坛的意见领袖挖掘方法
CN103136358B (zh) 一种自动抽取论坛数据的方法
CN109960763A (zh) 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN109872162A (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN110162626A (zh) 一种基于双向lstm的舆情情感热度熵的计算方法
CN109299469A (zh) 一种在长文本中识别复杂住址的方法
CN111159763B (zh) 一种涉法人员群体画像分析系统及方法
CN104834739B (zh) 互联网信息存储系统
CN110046264A (zh) 一种面向手机文档的自动分类方法
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN110222250A (zh) 一种面向微博的突发事件触发词识别方法
CN109165040A (zh) 一种基于随机森林模型的代码抄袭嫌疑检测的方法
CN108062366A (zh) 公共文化信息推荐系统
CN109918648A (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN110532480A (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant