CN106708796A

CN106708796A - 一种基于文本的关键人名的提取方法及系统

Info

Publication number: CN106708796A
Application number: CN201510416419.XA
Authority: CN
Inventors: 曹娟; 张勇东; 张俊强; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2015-07-15
Filing date: 2015-07-15
Publication date: 2017-05-24

Abstract

本发明公开了一种基于文本的关键人名的提取方法及系统，该方法包括：步骤1，对目标文本执行一分词操作，提取出其中词性为人名的目标词语；步骤2，统计每个目标词语在该目标文本中的出现频率，根据该出现频率设置该目标词语的权重；步骤3，根据一歧义人名先验概率辞典所记载的该目标词语作为人名的出现概率，调整该目标词语的权重；步骤4，选取权重大的目标词语作为关键人名。通过本发明的上述方法，可实现与特定事件相关的人物提取，还可实现对文本中的关键人名提取，以及重要传播用户、事件发展节点用户、公众指向用户、信息源头用户的提取，且能够提高人物提取的准确性和有效性。

Description

一种基于文本的关键人名的提取方法及系统

技术领域

本发明属于信息抽取技术领域，特别是涉及一种基于文本的关键人名的提取方法及系统。

背景技术

随着WEB2.0技术的快速发展，普通用户已经成为互联网上内容的主要生产者，UGC(User Generated Content)具有反应及时，传播快的特点，作为UGC的典型代表，微博平台凭借进入门槛低、数据量大、分享自由及时，形式多元化等优势，已成为重要的事件来源和网络舆论场所，每天生成大量的微博消息。基于微博平台进行事件分析的相关条件已经具备，而人物作为事件的重要主体，其提取的准确和全面与否在很大程度上影响了事件分析的准确性和全面性，本发明基于微博平台，提出一种事件关键人物的提取技术，相关背景技术如下：

人民搜索网络股份公司的易卉芹发明了一种微博用户挖掘方法及装置(201310321021.9)，该方法通过按照预设规则从微博网页爬取用户数据，将未挖掘的用户或下级用户作为未处理用户进行挖掘。一方面降低了挖掘结果对种子用户选取的依赖性，另一方面可提高用户覆盖面。

湖南识微科技有限公司的李景泽发明了一种挖掘目标微博用户的方法(201510047759.x)，通过利用微博用户构建社交网络，以种子用户、密友、好友和普通朋友形成种子用户社交圈并进行挖掘，其发明速度快、挖掘目标微博用户的社交圈效率高，可满足实时分析的需求。

经过调研，现有技术主要集中在针对微博用户及社交圈的抓取，不能有效考虑用户及人物在事件中的角色和作用，故不能实现本发明的提取事件中关键人物的目标。

发明内容

本发明解决的技术问题在于，准确的提取文本中的关键人名，降低歧义对人名提取的干扰。

更进一步的，本发明用于获取由微博组成事件中的关键人物，包括重要传播用户、事件发展节点用户、公众指向用户、事件的源头用户。

为了解决上述问题，本发明公开了一种基于文本的关键人名的提取方法，该方法包括：

步骤1，对目标文本执行一分词操作，提取出其中词性为人名的目标词语；

步骤2，统计每个目标词语在该目标文本中的出现频率，根据该出现频率设置该目标词语的权重；

步骤3，根据一歧义人名先验概率辞典所记载的该目标词语作为人名的出现概率，调整该目标词语的权重；

步骤4，选取权重大的目标词语作为关键人名。

该步骤1之前还包括：

对多个采样文本分别执行分词操作，对每个分词进行词性标注，提取出其中词性存在歧义的歧义词语；

统计该歧义词语在该多个采样文本中的总出现次数以及被最终标注为人名的次数；

根据该被标注为人名的次数以及该总出现次数，设定该歧义词语的该出现概率；

利用该歧义词语以及该出现概率生成该歧义人名先验概率辞典。

该出现概率为该被标注为人名的次数除以该总出现次数。

该步骤4进一步包括：

对该权重进行由大到小的排序，选取超过一阈值且排名在前K个的权重所对应的目标词语作为该关键人名，K为正整数。

该目标文本或该采样文本为微博消息。

该目标文本包括多个微博消息w_i，该步骤1之前或该步骤4之后还包括：

统计微博消息w_i的转发量For(w_i)和评论量Com(w_i)，统计发出该微博消息w_i的用户u_i的订阅者数量Fan(u_i)，该微博消息的传播热度hot(w_i)为：

将发出较高传播热度的微博消息的用户作为重要传播用户。

该目标文本包括多个微博消息，该步骤1之前或该步骤4之后还包括：

统计每个微博消息w_i的转发量For(w_i)和评论量Com(w_i)，计算每个微博消息w_i的热度Hot’(w_i)，Hot’(w_i)＝For(w_i)+Com(w_i)；

对该多个微博消息w_i进行聚类：

将发出每个类中热度最高的微博消息的用户作为该类中的事件发展节点用户。

提取该多个微博消息w_i中@功能所指向的用户，统计每个用户被@的次数，将最高次数所对应的用户作为公众指向用户。

提取每个微博消息w_i的时间戳，统计每个微博消息w_i的转发量For(w_i)和评论量Com(w_i)，将多个相同的微博消息中时间戳最早且转发量For(w_i)和评论量Com(w_i)均达到预设阈值的微博消息的发出用户作为事件的源头用户。

为解决上述问题，本发明还公开了一种基于文本的关键人名的提取系统，包括：

分词单元，用于对目标文本执行一分词操作，提取出其中词性为人名的目标词语；

权重统计单元，用于统计每个目标词语在该目标文本中的出现频率，根据该出现频率设置该目标词语的权重；

权重调整单元，用于根据一歧义人名先验概率辞典所记载的该目标词语作为人名的出现概率，调整该目标词语的权重；

关键人名选取单元，选取权重大的目标词语作为关键人名。

通过本发明的上述方法，可实现与特定事件相关的人物提取，特别是实现了文本中的关键人名提取，以及重要传播用户、事件发展节点用户、公众指向用户、信息源头用户的提取，且能够提高人物提取的准确性和有效性。

附图说明

图1为本发明的一种基于文本的关键人名的提取方法的流程图。

图2为本发明的一种基于文本的关键人名的提取方法的流程图。

具体实施方式

以下结合实施例，具体介绍本发明的技术方案。

在微博平台中，对于一个事件将出现大量的微博消息，本发明用于从这些微博消息中提取该事件中出现的关键人物的人名。当然，本发明也可针对其他文本，实现从中提取关键人物的人名的技术目的。

通常来说，一个事件中频繁出现的人名很有可能就是事件的主人公。将每个人名在整个事件所涉及的微博中出现的次数作为其权重，一个人名出现次数越多，他是事件主人公的可能性越大。

图1、图2为本发明的一种基于文本的关键人名的提取方法的流程图。该方法包括：

步骤1，对目标文本执行一分词操作，提取出其中词性为人名的目标词语。

将多条微博消息作为该目标文本，执行本发明所述方法，该多条微博消息可以是针对同一事件。

在文本分析领域，目前已经具有成熟的分词工具，该分词工具可在分词的同时对词性进行标注，本发明利用该分词工具对该微博消息进行分词和词性标注，提取出其中词性为人名的词语作为目标词语。

步骤2，统计每个目标词语在该目标文本中的出现频率，根据该出现频率设置该目标词语的权重。

步骤3，根据一歧义人名先验概率辞典所记载的该目标词语作为人名的出现概率，调整该目标词语的权重。

设置该步骤3的意义在于，词性标注常遇到的一个问题是歧义词的处理，比如“博文”一词，既可以作为一个人名出现，也可以作为名词表达微博的文字的意思。尽管分词工具本身提供根据上下文判断歧义词词性的功能，但在实际使用中发现，对于微博消息这样格式松散的短文本，单纯依赖分词工具进行歧义词的处理不能满足需求。因此，在步骤1之前，需预先利用分词工具对大规模的采样文本进行分词和词性标注处理，生成该歧义人名先验概率辞典。该采样文本可为大量的微博语料。则在步骤3中，可根据歧义人名先验概率辞典对该目标词语进行调整，以降低歧义对人名提取的干扰。

当然，如果目标词语记载在该歧义人名先验概率辞典中，可据以执行步骤3，如果目标词语未记载在该歧义人名先验概率辞典中，可跳过步骤3直接执行步骤4。

步骤4，选取权重大的目标词语作为关键人名。

该步骤1之前还包括如下步骤以生成该歧义人名先验概率辞典：

步骤101，对多个采样文本分别执行分词操作，对每个分词进行词性标注，提取出其中词性存在歧义的歧义词语。

在词性标注时，分词工具将直接给出当前分词的所有词性，仍以“博文”为例，当分词工具将“博文”既标注出人名的词性，又标注出名词的属性时，则“博文”将被视为歧义词语。

步骤102，统计该歧义词语在该多个采样文本中的总出现次数以及被最终标注为人名的次数。

该多个采样文本被预先进行了词性复核，则所有的歧义词语在其所在的文本中都被复核为某一特定的词性，以符合该采用文本的语境。则“博文”可能在采样文本A中被判定为人名，在采样文本B中被判定为名词。此时，统计该歧义词语在该多个采样文本中的总出现次数以及被最终标注为人名的次数。

步骤103，根据该被标注为人名的次数以及该总出现次数，设定该歧义词语的该出现概率。

具体来说，该出现概率为该被标注为人名的次数除以该总出现次数。

步骤104，利用该歧义词语以及该出现概率生成该歧义人名先验概率辞典。

该歧义人名先验概率辞典中包括多条数据，每条数据包括一歧义词语以及与之对应的出现概率。该出现概率决定了该歧义词语有多大概率来代表一人名。则在步骤3中，根据该出现概率调整该目标词语的权重，可进一步提高识别为人名的准确率，提高本发明的基于文本的关键人名的提取方法的有效程度。

在步骤4中，本发明对该权重进行由大到小的排序，选取超过一阈值且排名在前K个的权重所对应的目标词语作为该关键人名，K为正整数。

既，被选择为关键人名的目标词语，其权重既要高于一阈值，达到一硬性标准，又必须在所有目标词语的权重排序中，排名靠前，则经过上述方法获得的关键人名，其作为人名且作用事件中的关键人物的准确性能够得到保证。

除上述技术方案之外，本发明还用于对关键微博用户进行提取。根据微博平台的特点，将关键微博用户分为三类：重要传播用户、事件发展节点用户、公众指向用户，下面分别介绍对三类用户的获取技术。

1.重要传播用户

微博作为社交媒体，不仅有信息的分享，还有转发、评论等社交行为。本发明把一条微博消息的转发量和评论量求和作为该微博消息的热度。在一事件中，热度比较大的微博消息自然对事件的传播起了重要作用。但是微博消息的热度比较容易受到微博作者本身的名人效应的影响。当一个微博用户拥有大量粉丝，则他的微博很容易引起大量转发和评论，则可能掩盖该微博消息自身的传播效应。本发明使用如下公式作为微博消息的传播热度，获取传播热度较高微博消息对应的作者作为重要传播用户，从而减少名人效应，更注重由微博内容带来的传播效应。

具体来说，该步骤1之前或该步骤4之后还包括：

步骤20，统计微博消息w_i的转发量For(w_i)和评论量Com(w_i)，统计发出该微博消息w_i的用户u_i的订阅者数量Fan(u_i)，该微博消息的传播热度hot(w_i)为：

将发出较高传播热度的微博消息的用户作为重要传播用户。

2.事件发展节点用户

很多事件发展是多阶段的，随着参与用户的不断增多，很多新的信息被提供和发现，用户对事件的观点、情感都有可能发生新的变化，从不同的事件发展阶段中获取每个阶段的重要用户或者意见领袖，对分析事件的发展和变化有重要意义。本发明用于提取在事件发展的每个阶段，推动事件发展的事件发展节点用户。

具体来说，该步骤1之前或该步骤4之后还包括：

步骤30，统计每个微博消息w_i的转发量For(w_i)和评论量Com(w_i)，计算每个微博消息w_i的热度Hot’(w_i)，Hot’(w_i)＝For(w_i)+Com(w_i)；

对该多个微博消息w_i进行聚类：

本发明的该聚类算法采用的是Single-pass聚类算法，按照一定的顺序读取待处理的每篇目标文本(微博消息)进行聚类。该算法适合对具有时间顺序的多个微博文本进行聚类，即，按照时间先后顺序对事件涉及的微博消息进行聚类，并将每个类看作事件发展的一个阶段或一个观点，在每个类中选取热度最高的微博对应的用户作为当前事件发展节点的用户代表，即事件发展节点用户。

3.公众指向用户

微博用户在分享信息时使用@功能通知某个特定的微博用户，表达告知或与其互动的意愿。公众指向用户指的是该被集中@的特定的微博用户。

在一个事件涉及微博中，如果一个用户频繁被多数人@，则可以认为该用户与当前事件有一定关系，本发明通过文本处理，提取被@频率高的用户，作为公众指向用户。

具体来说，在该步骤1之前或该步骤4之后还包括：

步骤40，提取该多个微博消息w_i中@功能所指向的用户，统计每个用户被@的次数，将最高次数所对应的用户作为公众指向用户。

除以上用户外，还有一类用户在事件发展过程中扮演了重要的角色，那就是信息源头用户。信息源头用户是指最早在微博平台发布事件相关信息，并有效地引起其他用户关注的用户。

为了提取该信息源头用户，具体来说，该步骤1之前或该步骤4之后还包括：

步骤50，提取每个微博消息w_i的时间戳，统计每个微博消息w_i的转发量For(w_i)和评论量Com(w_i)，将多个相同的微博消息中时间戳最早且转发量For(w_i)和评论量Com(w_i)均达到预设阈值的微博消息的发出用户作为事件的源头用户。

可见，本发明基于微博消息发布的时间戳，可以方便的找到发布时间较早的微博消息，同时本发明基于设置微博转发量和评论量阈值，过滤掉其微博内容转发量/评论量过少，未能引起其他用户关注的用户，将最后得到微博用户作为事件的信息源头用户。

本发明的上述方案可执行于服务器中，服务器基于输入的目标文本以及采样文本，执行上述的所有步骤。

上述步骤20、30、40、50各自独立，可以任意的先后顺序执行，或者，仅执行其中的一个或多个步骤。

Claims

1.一种基于文本的关键人名的提取方法，其特征在于，包括：

步骤4，选取权重大的目标词语作为关键人名。

2.如权利要求1所述的方法，其特征在于，该步骤1之前还包括：

3.如权利要求2所述的方法，其特征在于，该出现概率为该被标注为人名的次数除以该总出现次数。

4.如权利要求1所述的方法，其特征在于，该步骤4进一步包括：

5.如权利要求2所述的方法，其特征在于，该目标文本或该采样文本为微博消息。

6.如权利要求1所述的方法，其特征在于，该目标文本包括多个微博消息w_i，该步骤1之前或该步骤4之后还包括：

h o t (w_{i}) = \frac{F o r (w_{i}) + C o m (w_{i})}{F a n (u_{i})};

将发出较高传播热度的微博消息的用户作为重要传播用户。

7.如权利要求1所述的方法，其特征在于，该目标文本包括多个微博消息，该步骤1之前或该步骤4之后还包括：

对该多个微博消息w_i进行聚类：

8.如权利要求1所述的方法，其特征在于，该目标文本包括多个微博消息w_i，该步骤1之前或该步骤4之后还包括：

9.如权利要求1所述的方法，其特征在于，该目标文本包括多个微博消息w_i，该步骤1之前或该步骤4之后还包括：

10.一种基于文本的关键人名的提取系统，其特征在于，包括：

关键人名选取单元，选取权重大的目标词语作为关键人名。