CN106886567A

CN106886567A - 基于语义扩展的微博突发事件检测方法及装置

Info

Publication number: CN106886567A
Application number: CN201710022500.9A
Authority: CN
Inventors: 胡春明; 吴博; 彭浩; 张日崇; 李建欣
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-01-12
Filing date: 2017-01-12
Publication date: 2017-06-23
Anticipated expiration: 2037-01-12
Also published as: CN106886567B

Abstract

本发明提供一种基于语义扩展的微博突发事件检测方法及装置，本发明提供的基于语义扩展的微博突发事件检测方法包括：获取与待检测的微博突发事件对应的第一关键词；根据第一关键词和第一关键词关联的词向量文件，得到微博突发事件；其中，第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的，词向量文件包括第一关键词与其它训练词语之间的语义相似度。本发明的基于语义扩展的微博突发事件检测方法及装置，通过考虑文本的语义信息来扩展事件的关键词，并通过扩展后的关键词进行微博突发事件的检测，可以准确的检测微博突发事件，避免了将同一事件分成两个微博事件，并可以进行在线检测。

Description

基于语义扩展的微博突发事件检测方法及装置

技术领域

本发明涉及微博技术，尤其涉及一种基于语义扩展的微博突发事件检测方法及装置。

背景技术

微博的社会化特性及其可以被迅速、及时的传播，吸引了大量对信息实时性有高需求的网民。微博使得世界上的每一个人都能够成为信息源，并使之在全球传播，这就使得微博本身所承载的信息量大大增加。微博已经集合了海量的新闻、事件和信息，并且每天都在更新，每天都在流传，对现实的社会产生巨大的影响。尤其是在突发事件的信息传播上，微博更是超越了传统媒体，成为了信息快速传播的渠道。微博上的信息不仅发布及时，而且也是现实社会生活的缩影，挖掘微博上的信息有利于从不同角度分析现实世界的情况。因此，从海量的微博数据检测事件具有十分重要的意义。

现有技术中的微博事件检测的方法可以分为两类，一类是针对特定事件的微博事件检测方法，一类是通用的微博事件检测方法。对于对特定事件的微博事件检测方法，通常需要对事件具有一定的先验知识，比如针对地震的微博事件检测，需要首先通过地震相关的关键词找出相关微博，然后对这部分微博进行分析，但是对于突发事件很难具有先验的信息，因此，该种微博事件检测方法具有很强的局限性。对于通用的微博事件检测方法不需要事件的先验知识，主要包括基于突发特征检测、主题模型、聚类或者图的方法，但是这些方法普遍需要离线检测，不能处理流式数据。

发明内容

本发明提供一种基于语义扩展的微博突发事件检测方法及装置，以解决上述技术问题。

本发明提供一种基于语义扩展的微博突发事件检测方法，包括：

获取与待检测的微博突发事件对应的第一关键词；

根据所述第一关键词和所述第一关键词关联的词向量文件，得到微博突发事件；

其中，所述第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的，所述词向量文件包括所述第一关键词与其它训练词语之间的语义相似度。

如上所述的方法，所述根据所述第一关键词和所述第一关键词关联的词向量文件，得到微博突发事件，包括：

根据所述词向量文件获取与所述第一关键词语义相似度满足第一阈值的第二关键词；

根据所述第一关键词和所述第二关键词，获取包含所述第一关键词和/或所述第二关键词的多个微博；

根据所述多个微博，得到所述微博突发事件。

如上所述的方法，在所述根据所述第一关键词和所述第一关键词关联的词向量文件，得到微博突发事件之前，还包括：

获取多个文本，并对各所述文本进行文本分词，得到所述训练词语；

采用word2vec方法对所述训练词语进行训练，得到所述词向量文件。

如上所述的方法，在所述采用word2vec方法对所述训练词语进行训练，得到所述词向量文件之后，还包括：

每隔预设周期更新所述词向量文件，得到更新后的词向量文件；

相应地，所述根据所述第一关键词和所述第一关键词关联的词向量文件，得到微博突发事件，包括：

根据所述更新后的词向量文件获取与所述第一关键词语义相似度满足第一阈值的第二关键词；

根据所述多个微博，得到所述微博突发事件。

如上所述的方法，所述每隔预设周期更新所述词向量文件，包括：

每隔所述预设周期重新获取多个文本，并对各重新获取的文本进行文本分词，得到更新后的训练词语；

采用word2vec方法对所述更新后的训练词语进行训练，得到所述更新后的词向量文件。

如上所述的方法，所述根据所述多个微博，得到所述微博突发事件，包括：

获取所述多个微博被检测出来的检测时间；

获取所述多个微博的相关度，将相关度位于前N名的N个微博作为所述微博突发事件的相关微博，并获取所述相关微博的摘要；

获取各所述相关微博的属性，所述属性包括：微博中出现的地点以及参与者，并获取出现次数最多的目标地点和出现次数最多的目标参与者；

根据所述相关微博的语义表达，采用语义扩展的Embedding细胞词库和支持向量机SVM方法，获取所述微博突发事件的分类；

采用基于所述SVM的情感分类方法，获取所述微博突发事件的情感；

根据所述检测时间、相关微博、摘要、目标地点、目标参与者、微博突发事件的分类以及微博突发事件的情感，得到所述微博突发事件。

如上所述的方法，所述获取所述相关微博的摘要，包括：

采用NLPIR分词系统获取对所述相关微博的第一描述；

查询所述相关微博中是否含有主体标签，所述第一描述中是否含有所述主体标签；

若所述相关微博和所述第一描述中均含有主体标签，则将第一描述作为所述摘要；

若所述相关微博中包含主体标签，第一描述中不包括主体标签，则将所述主体标签作为所述摘要；

若所述相关微博中不包含主体标签，则获取相关微博中包含最多关键词的语句，将所述语句作为所述摘要；其中，所述关键词是指所述第一关键词和/或所述第二关键词。

本发明还提供一种基于语义扩展的微博突发事件检测装置，包括：

第一关键词获取模块，所述第一关键词获取模块用于获取与待检测的微博突发事件对应的第一关键词；

微博突发事件检测模块，所述微博突发事件检测模块用于根据所述第一关键词和所述第一关键词关联的词向量文件，得到微博突发事件；

如上所述的装置，所述微博突发事件检测模块包括：

第二关键词获取单元，所述第二关键词获取单元用于根据所述词向量文件获取与所述第一关键词语义相似度满足第一阈值的第二关键词；

微博获取单元，所述微博获取单元用于根据所述第一关键词和所述第二关键词，获取包含所述第一关键词和/或所述第二关键词的多个微博；

微博突发事件获取单元，所述微博突发事件获取单元用于根据所述多个微博，得到所述微博突发事件。

如上所述的装置，所述装置还包括：

训练词语获取模块，所述训练词语获取模块用于获取多个文本，并对各所述文本进行文本分词，得到所述训练词语；

词向量文件获取模块，所述词向量文件获取模块用于采用word2vec方法对所述训练词语进行训练，得到所述词向量文件。

本发明提供一种基于语义扩展的微博突发事件检测方法及装置，本发明提供的基于语义扩展的微博突发事件检测方法包括：获取与待检测的微博事件对应的第一关键词；根据第一关键词和第一关键词关联的词向量文件，得到微博事件；其中，第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的，词向量文件包括第一关键词与其它训练词语之间的语义相似度。本发明的基于语义扩展的微博突发事件检测方法及装置，通过考虑文本的语义信息来扩展事件的关键词，并通过扩展后的关键词进行微博突发事件的检测，可以准确的检测到微博突发事件，避免将同一事件分成两个微博事件，并可以进行在线检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于语义扩展的微博突发事件检测方法的流程图一；

图2为本发明提供的基于语义扩展的微博突发事件检测方法的流程图二；

图3为本发明提供的基于语义扩展的微博突发事件检测装置实施例一的结构示意图；

图4为本发明提供的基于语义扩展的微博突发事件检测装置实施例二的结构示意图；

图5为本发明提供的基于语义扩展的微博突发事件检测装置实施例三的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的基于语义扩展的微博突发事件检测方法的流程图一，应用于基于语义扩展的微博突发事件检测装置，该装置可以通过硬件和/或软件实现，如图1所示，本实施例的方法可以包括：

S101、获取与待检测的微博突发事件对应的第一关键词；

具体地，突发事件是指突然发生的或刚刚发生的事件。在具体的实现过程中，首先提取需要检测的微博突发事件第一关键词，比如需要检测有关“女排获得里约奥运会冠军”的突发事件，提取第一关键词：“女排”、“冠军”，然后检测用户通过检测用户输入界面输入提取的第一关键词，基于语义扩展的微博突发事件检测装置获取第一关键词。

S102、根据第一关键词和第一关键词关联的词向量文件，得到微博突发事件；

具体地，第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的，词向量文件包括第一关键词与其它训练词语之间的语义相似度，也就是说第一关键词也为训练词语。

步骤“根据第一关键词和第一关键词关联的词向量文件，得到微博突发事件”具体为：

根据词向量文件获取与第一关键词语义相似度满足第一阈值的第二关键词；

根据第一关键词和第二关键词，获取包含第一关键词和/或第二关键词的多个微博；

根据多个微博，得到微博突发事件。

具体地，基于语义扩展的微博突发事件检测装置获取词向量文件，然后根据第一关键词和词向量文件，基于语义扩展的微博突发事件检测装置获取与第一关键词语义相似度满足第一阈值的第二关键词；比如同样针对有关“女排获得里约奥运会冠军”的突发事件，第一关键词为“女排”、“冠军”，基于语义扩展的微博突发事件检测装置分别查询词向量文件中与第一关键词“冠军”和“女排”语义相似度满足第一阈值词语，该些词语即为第二关键词，举例来说，词向量文件中词语“冠军”与词语“夺冠”的语义相似度为0.9，词语“冠军”与“苹果”的语义相似度为0.1，词语“女排”与词语“排球”的语义相似度为0.8，词语“女排”与词语“中国”的语义相似度为0.6，若第一阈值取值为0.6，则词语“夺冠”、“中国”和“排球”便为第二关键词。此处并没有一一列举与第一关键词“冠军”及“女排”的语义相似度大于等于第一阈值0.6的词语，只要满足与词语“冠军”及词语“女排”的语义相似度大于等于第一阈值0.6的词语都为第二关键词。其中，第一阈值可以随着第一关键词的不同进行变更以适应微博突发事件检测的实际需要。

根据词向量文件获取第二关键词，对第一关键词进行了扩展，将与第一关键词的语义相似度满足一定阈值的词一同作为检测微博突发事件的关键词进行微博突发事件的检测，可以将相关微博突发事件都检测出来，避免突发事件没有被检测到的情况及描述相同内容的微博被分为两个微博事件。若将描述相同内容的微博事件被分为两个微博事件，在终端用户检索微博并查看时，微博系统会展现很多重复的微博，影响了终端用户的使用体验。

在获取到第一关键词和第二关键词后，便可根据第一关键词和第二关键词，获取包含第一关键词和/或第二关键词的多个微博。

接着根据包含第一关键词和/或第二关键词的多个微博多个微博，得到微博突发事件，其中，微博事件的定义如下：

事件E:<t,loc,par,desc,posts,type,emotion>

其中，t是事件的时间戳，表示事件被检测出来的时间；loc是事件发生的地点；par是一个集合，表示事件参与者集合；desc是事件的摘要；posts是事件的相关微博的集合；type是事件的分类；emotion是事件的情感偏向。

“根据包含第一关键词和/或第二关键词的多个微博多个微博，得到微博突发事件”具体为：

获取多个微博被检测出来的检测时间；

获取多个微博的相关度，将相关度位于前N名的N个微博作为微博突发事件的相关微博，并获取相关微博的摘要；

获取各相关微博的属性，属性包括：微博中出现的地点以及参与者，并获取出现次数最多的目标地点和出现次数最多的目标参与者；

根据相关微博的语义表达，采用语义扩展的Embedding细胞词库和支持向量机SVM方法，获取微博突发事件的分类；

采用基于SVM的情感分类方法，获取微博突发事件的情感；

根据检测时间、相关微博、摘要、目标地点、目标参与者、微博突发事件的分类以及微博突发事件的情感，得到微博突发事件。

其中，N优选为15，获取多个微博的相关度的方法、语义扩展的Embedding细胞词库和支持向量机SVM方法、基于SVM的情感分类方法，均为现有技术中的方法，本发明不再赘述。

其中，获取相关微博的摘要，包括：

采用NLPIR分词系统获取对相关微博的第一描述；查询相关微博中是否含有主体标签，第一描述中是否含有主体标签；

若相关微博和第一描述中均含有主体标签，则将第一描述作为摘要；若相关微博中包含主体标签，第一描述中不包括主体标签，则将主体标签作为摘要；若相关微博中不包含主体标签，则获取相关微博中包含最多关键词的语句，将包含最多关键词的语句作为相关微博的摘要；其中，关键词是指第一关键词和/或第二关键词。

具体地，本领域技术人员应当明白，若相关微博中没有主体标签，那么第一描述中也就没有主体标签，若相关微博中具有主体标签，第一描述中可能包含主体标签，也可能不包含主体标签。

其中，每个相关微博对应一个摘要，各相关微博的摘要组成了事件的摘要。

本实施例的基于语义扩展的微博突发事件检测方法，包括：获取与待检测的微博突发事件对应的第一关键词；根据第一关键词和第一关键词关联的词向量文件，得到微博突发事件；其中，第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的，词向量文件包括第一关键词与其它训练词语之间的语义相似度。本实施例的基于语义扩展的微博突发事件检测方法，通过考虑文本的语义信息来扩展事件的关键词，并通过扩展后的关键词进行微博突发事件的检测，可以准确的检测微博突发事件，避免了将同一事件分成两个微博事件，提升了终端用户的使用体验；此外，本实施例的基于语义扩展的微博突发事件检测方法还可以进行在线检测。

下面对上一实施例中的第一关键词关联的词向量文件的获取方法进行详细的说明。图2为本发明提供的基于语义扩展的微博突发事件检测方法的流程图二，参见图2，本实施例中的方法包括：

S201、获取多个文本，并对各文本进行文本分词，得到训练词语；

具体地，本实施例中的文本来源于网络新闻和中文维基百科，文本分词的过程为：首先加载词典，分析文本，分词为最大词长切分得到训练词语。比如对文本“中华人民共和国成立了”进行分词，分词的结果为“中华人民共和国|成立|了”，得到训练词语“中华人民共和国”、“成立”。

文本分词的方法为现有技术中的分词方法，本发明不作详细的阐述。

S202、采用word2vec方法对训练词语进行训练，得到词向量文件。

具体地，在本实施例中，采用word2vec方法可使用如下命令对训练词语进行训练：

./word2vec-train test.txt-output vectors.bin-cbow 0-size 200-window5-negative 0-hs 1-sample 1e-3-threads 12-binary 1

以上命令表示的是输入文件是test.txt，输出文件是vectors.bin，不使用cbow模型，默认为Skip-Gram模型；每个单词的向量维度是200，训练的窗口大小为5，即为考虑一个词语的前五个词语和后五个词语；不使用Negative Sampling(NEG)方法，使用Hierarchhical Softmax方法；-sampe指的是采样的阈值，如果一个词语在训练集中出现的频率越大，那么就越会被采样；-binary为1指的是结果二进制存储；若-binary为0表示普通存储。

采用上述命令对训练词语进行训练，训练完成之后，得到了vectors.bin这个词向量文件。

其中，在普通存储的情况下，词向量文件是可以可视化的形式呈现给检测用户，也就是检测用户打开词向量文件后，能看到词语和词语对应的向量(包含相似度的向量)；而在二进制存储的情况下，词向量文件不能以可视化的形式呈现给检测用户。上述窗口的大小可以变更，优先为小于等于5。

本实施例中通过采用word2vec方法对训练词语进行训练，得到词向量文件，实现了基于文本语义信息的对微博突发事件的检测。

为了使得对微博事件的检测更加准确，本实施例在上一实施例的基础上作了进一步的改进，本实施例的基于语义扩展的微博突发事件检测方法是在上一实施例的步骤“采用word2vec方法对所述训练词语进行训练，得到所述词向量文件”之后进行的，包括：每隔预设周期更新所述词向量文件，得到更新后的词向量文件；

相应地，根据第一关键词和第一关键词关联的词向量文件，得到微博突发事件，包括：根据更新后的词向量文件获取与第一关键词语义相似度满足第一阈值的第二关键词；根据第一关键词和第二关键词，获取包含第一关键词和/或第二关键词的多个微博；根据多个微博，得到微博突发事件。

具体地，每隔预设周期更新词向量文件，具体为：每隔预设周期重新获取多个文本，并对各重新获取的文本进行文本分词，得到更新后的训练词语；采用word2vec方法对更新后的训练词语进行训练，得到更新后的词向量文件。其中，预设周期优选为24小时，重新获取的多个文本来源于最新的网络新闻和中文维基百科，比如突发事件“美国总统大选可能需要威斯康星州、宾夕法尼亚州和密歇根州重新计票，但是宾夕法尼亚州拒绝重新计票”便为最新的网络新闻。

举例来说，在突发事件“美国总统大选可能需要威斯康星州、宾夕法尼亚州和密歇根州重新计票，但是宾夕法尼亚州拒绝重新计票”发生之前，词语“美国”与词语“华盛顿”的语义相似度大于词语“美国”与词语“宾夕法尼亚州”的语义相似度，在突发事件“美国总统大选可能需要威斯康星州、宾夕法尼亚州和密歇根州重新计票，但是宾夕法尼亚州拒绝重新计票”发生之后，词语“美国”与词语“华盛顿”的语义相似度小于词语“美国”与词语“宾夕法尼亚州”的语义相似度。采用通过最新的网络新闻和中文维基百科获取的文本对应的训练词语得到的更新后的词向量文件对上述突发事件进行检测时，输入第一关键词“美国”与“选举”后，根据更新后的词向量文件，便可扩展出第二关键词“宾夕法尼亚州”，可准确的得到微博突发事件。若仍然采用突发事件“美国总统大选可能需要威斯康星州、宾夕法尼亚州和密歇根州重新计票，但是宾夕法尼亚州拒绝重新计票”发生之前得到的词向量文件，输入第一关键词“美国”与“选举”后，可能不会扩展出第二关键词“宾夕法尼亚州”，那么得到的微博突发事件可能不准确，也就是说微博突发事件中可能不包括有关突发事件“美国总统大选可能需要威斯康星州、宾夕法尼亚州和密歇根州重新计票，但是宾夕法尼亚州拒绝重新计票”的微博。

本实施例中通过每隔预设周期更新词向量文件，并采用更新后的词向量文件进行微博突发事件的检测，进一步保证了得到的微博突发事件的准确度。

图3为本发明提供的基于语义扩展的微博突发事件检测装置实施例一的结构示意图，如图3所示，本实施例的装置可以包括：第一关键词获取模块31,和微博突发事件检测模块32；其中，第一关键词获取模块31用于获取与待检测的微博突发事件对应的第一关键词，微博突发事件检测模块32用于根据第一关键词和第一关键词关联的词向量文件，得到微博突发事件；其中，第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的，词向量文件包括第一关键词与其它训练词语之间的语义相似度。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本发明提供的基于语义扩展的微博突发事件检测装置实施例二的结构示意图，如图4所示，本实施例的装置在图3所示装置结构的基础上，进一步地，微博突发事件检测模块32可以包括：第二关键词获取单元321、微博获取单元322和微博突发事件获取单元323，其中，第二关键词获取单元321用于根据词向量文件获取与第一关键词语义相似度满足第一阈值的第二关键词；微博获取单元322用于根据第一关键词和第二关键词，获取包含第一关键词和/或第二关键词的多个微博；微博突发事件获取单元323用于根据多个微博，得到微博突发事件。

微博突发事件获取单元具体用于，

获取多个微博被检测出来的检测时间；

采用基于SVM的情感分类方法，获取微博突发事件的情感；

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5为本发明提供的基于语义扩展的微博突发事件检测装置实施例三的结构示意图，如图5所示，本实施例的装置在图3所示装置结构的基础上，进一步地，还可以包括：训练词语获取模块33和词向量文件获取模块34，其中，训练词语获取模块33用于获取多个文本，并对各文本进行文本分词，得到训练词语；词向量文件获取模块34用于采用word2vec方法对训练词语进行训练，得到词向量文件。

训练词语获取模块33还用于每隔预设周期重新获取多个文本，并对各重新获取的文本进行文本分词，得到更新后的训练词语；词向量文件获取模块34还用于采用word2vec方法对更新后的训练词语进行训练，得到更新后的词向量文件。

本实施例的装置，可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于语义扩展的微博突发事件检测方法，其特征在于，包括：

获取与待检测的微博突发事件对应的第一关键词；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一关键词和所述第一关键词关联的词向量文件，得到微博突发事件，包括：

根据所述多个微博，得到所述微博突发事件。

3.根据权利要求1所述的方法，其特征在于，在所述根据所述第一关键词和所述第一关键词关联的词向量文件，得到微博突发事件之前，还包括：

4.根据权利要求3所述的方法，其特征在于，在所述采用word2vec方法对所述训练词语进行训练，得到所述词向量文件之后，还包括：

根据所述多个微博，得到所述微博突发事件。

5.根据权利要求4所述的方法，其特征在于，所述每隔预设周期更新所述词向量文件，包括：

6.根据权利要求2所述的方法，其特征在于，所述根据所述多个微博，得到所述微博突发事件，包括：

获取所述多个微博被检测出来的检测时间；

7.根据权利要求6所述的方法，其特征在于，所述获取所述相关微博的摘要，包括：

采用NLPIR分词系统获取对所述相关微博的第一描述；

8.一种基于语义扩展的微博突发事件检测装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述微博突发事件检测模块包括：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：