CN109726289A

CN109726289A - 事件检测方法及装置

Info

Publication number: CN109726289A
Application number: CN201811633560.5A
Authority: CN
Inventors: 刘路; 武睿峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-07

Abstract

本发明提出一种事件检测方法及装置，其中，该方法包括：获取待挖掘语料集合；对语料样本分别进行分词以生成样本文本；从样本文本中提取核心词和从属词，并根据核心词和从属词构建语义网络；对语义网络进行聚类以生成事件类，并获取事件类对应的事件文本；通过挖掘待挖掘语料集合中的核心词和从属词以构建语义网络，以及将语义网络聚类成不同的事件类，并将待挖掘语料集合中的语料样本与事件类的映射，实现从待挖掘语料集合中自动发现新的热点事件。进一步地，还能够对旧事件的发酵进行跟踪。当待挖掘的语料集合的来源为用户舆论时，也能从用户舆论中挖掘出热点事件并监测，有效地解决了移动互联网时代的舆情监测难题。

Description

事件检测方法及装置

技术领域

本发明涉及移动互联网技术领域，尤其涉及一种事件检测方法及装置。

背景技术

随着网络普及越来越高，网络媒体、社群媒体的发展越来越成熟，这些媒体已经成为信息的主要传播途径，网络言论达到了前所未有的程度，并通过互联网社交软件进行传播。

社交网络的开放性、便捷性和交互性以及越来越大的影响力，使得更多的用户愿意用社交媒体的方式分享自己对于各种事件的看法。在用户看来，其发表的网络言论貌似随心所欲，杂乱无章，但是往往有很多网络言论是围绕某些事件产生的，而这些言论的发酵是最有可能对企业和社会造成舆论危机的，社交网络也变成了比传统互联网媒体时效性更强的信息渠道。为了能够尽早发现、有效引导和控制舆论，对于用户舆情数据的分析势在必行。

另外，社交网络上常常会出现流行语和金句，对于互联网公司而言，无论是公关还是产品运营，想要拉近和用户之间的距离，甚至为了防止在措辞上闹出笑话，那么必须对这些流行动态加以了解和监控。

然而，用户舆论不同于媒体舆论，用户言论相对较短，且句法、语法格式往往更加自由，甚至不够规范；内容和形式也更多样化，常常用一段言论阐述对多个事件的看法。因此，不同于传统媒体的事件挖掘，如何在用户舆论中挖掘出热点事件并加以监测，成为了移动互联网时代的舆情监测难题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种事件检测方法。

本发明的第二个目的在于提出一种事件检测装置。

本发明的第三个目的在于提出另一种事件检测装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种事件检测方法，包括：

获取待挖掘语料集合，其中，所述待挖掘语料集合包括语料样本；

对所述语料样本分别进行分词以生成样本文本；

从所述样本文本中提取核心词和从属词，并根据所述核心词和所述从属词构建语义网络；

对所述语义网络进行聚类以生成事件类，并获取所述事件类对应的事件文本。

进一步地，所述从所述样本文本中提取核心词和从属词，包括：

获取所述样本文本中每个分词的词频-逆文本频率指数TF-IDF；

根据所述TF-IDF对所述样本文本中的分词进行排序；

将排序位置在预设位置之前的分词作为所述核心词；以及

获取其他分词与所述核心词之间的共现关系，并根据所述共现关系获取所述核心词对应的从属词。

进一步地，所述获取其他分词与所述核心词之间的共现关系，并根据所述共现关系获取所述核心词对应的从属词，包括：

获取其他分词与所述核心词在同一个语料样本中的共现次数；以及

如果所述共现次数大于预设阈值，则将所述其他分词作为所述核心词对应的从属词。

进一步地，在所述从所述样本文本中提取核心词和从属词之前，还包括：

根据停用词表对所述样本文本进行过滤。

进一步地，所述根据所述核心词和所述从属词构建语义网络，包括：

将所述核心词和所述从属词作为所述语义网络的节点；以及

根据所述核心词与所述从属词的共现次数确定所述核心词所在节点至所述从属词所在节点的边的权重值。

进一步地，所述方法还包括：

获取所述语义网络中每个节点的节点密度；以及

将所述节点密度小于预设密度阈值的节点从所述语义网络中删除。

进一步地，所述对所述语义网络进行聚类以生成事件类，包括：

根据所述语义网络中节点之间的边的权重值生成共现关系矩阵；

根据所述共现关系矩阵对所述语义网络进行聚类以生成多个事件类，其中，所述事件类中包括多个代表词。

进一步地，所述方法还包括：

获取事件类中代表词的数量；

如果所述代表词的数量小于预设数量阈值，则将所述事件类删除。

进一步地，所述获取所述事件类对应的事件文本，包括：

获取所述事件类中每个代表词的重要程度信息；

根据所述每个代表词的重要程度信息将所述语料样本与所述事件类进行映射以获取所述事件类对应的事件文本。

进一步地，所述方法还包括：

获取所述事件类的中心词；

判断已有事件类中是否包含所述中心词；

如果所述已有事件类中包含所述中心词，则将所述事件类作为所述已有事件类的延伸，并将所述事件类合并至所述已有事件类之中。

本发明实施例提供的事件检测方法，通过获取待挖掘语料集合，其中，所述待挖掘语料集合包括语料样本；对所述语料样本分别进行分词以生成样本文本；从所述样本文本中提取核心词和从属词，并根据所述核心词和所述从属词构建语义网络；对所述语义网络进行聚类以生成事件类，并获取所述事件类对应的事件文本。通过挖掘待挖掘语料集合中的核心词和从属词以构建语义网络，以及将语义网络聚类成不同的事件类，并将待挖掘语料集合中的语料样本与事件类的映射，实现从待挖掘语料集合中自动发现新的热点事件。进一步地，还能够对旧事件的发酵进行跟踪。当待挖掘的语料集合的来源为用户舆论，也能从用户舆论中挖掘出热点事件并监测，有效地解决了移动互联网时代的舆情监测难题，经过聚合和择优的热点事件形成的热点榜单能明显减少用户的阅读时间，提升用户体验。

为达上述目的，本发明第二方面实施例提出了一种事件检测装置，包括：

获取模块，用于获取待挖掘语料集合，其中，所述待挖掘语料集合包括语料样本；

分词模块，用于对所述语料样本分别进行分词以生成样本文本；

挖掘模块，用于从所述样本文本中提取核心词和从属词；

构建模块，用于根据所述核心词和所述从属词构建语义网络；

聚类模块，用于对所述语义网络进行聚类以生成事件类

映射模块，用于获取所述事件类对应的事件文本。

进一步地，所述挖掘模块包括第一单元、第二单元、第三单元、第四单元；

所述第一单元，用于获取所述样本文本中每个分词的词频-逆文本频率指数TF-IDF；

所述第二单元，用于根据所述TF-IDF对所述样本文本中的分词进行排序；

所述第三单元，用于将排序位置在预设位置之前的分词作为所述核心词；以及

所述第四单元，用于获取其他分词与所述核心词之间的共现关系，并根据所述共现关系获取所述核心词对应的从属词。

进一步地，所述第四单元，具体用于：

进一步地，所述装置还包括过滤模块，用于在所述从所述样本文本中提取核心词和从属词之前，根据停用词表对所述样本文本进行过滤。

进一步地，所述构建模块，具体用于；

将所述核心词和所述从属词作为所述语义网络的节点；以及

进一步地，所述构建模块还用于：

获取所述语义网络中每个节点的节点密度；以及

进一步地，所述聚类模块，具体用于：

进一步地，所述聚类模块还用于：

获取事件类中代表词的数量；

进一步地，所述映射模块，具体用于：

获取所述事件类中每个代表词的重要程度信息；

进一步地，所述装置还包括：

合并模块，用于获取所述事件类的中心词；判断已有事件类中是否包含所述中心词；如果所述已有事件类中包含所述中心词，则将所述事件类作为所述已有事件类的延伸，并将所述事件类合并至所述已有事件类之中。

本发明实施例提供的事件检测装置，通过获取待挖掘语料集合，其中，所述待挖掘语料集合包括语料样本；对所述语料样本分别进行分词以生成样本文本；从所述样本文本中提取核心词和从属词，并根据所述核心词和所述从属词构建语义网络。对所述语义网络进行聚类以生成事件类，并获取所述事件类对应的事件文本；通过挖掘待挖掘语料集合中的核心词和从属词以构建语义网络，以及将语义网络聚类成不同的事件类，并将待挖掘语料集合中的语料样本与事件类的映射，实现从待挖掘语料集合中自动发现新的热点事件。进一步地，还能够对旧事件的发酵进行跟踪。当待挖掘的语料集合的来源为用户舆论，也能从用户舆论中挖掘出热点事件并监测，有效地解决了移动互联网时代的舆情监测难题，经过聚合和择优的热点事件形成的热点榜单能明显减少用户的阅读时间，提升用户体验。

为达上述目的，本发明第三方面实施例提出了另一种事件检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的事件检测方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令被处理器执行时，实现如上所述的事件检测方法。

为达上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上所述的事件检测方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种事件检测方法的流程示意图；

图2为示例性一的语义网络；

图3为示例性二的语义网络；

图4为示例性的聚类结果；

图5为示例性的排序结果图；

图6为示例性的事件检测方法的流程图；

图7为本发明实施例提供的一种事件检测装置的结构示意图；

图8为本发明实施例提供的另一种事件检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

相关技术中，一种用户舆情事件的挖掘方式为：对大量用户舆论进行相似度计算进行聚类，以类中文本个数进行倒排，挑选出热点事件，然后从每个类中挑选出一些代表词来描述该类。另一种用户舆情事件的挖掘方式为：利用LDA(Latent DirichletAllocation，文档主题生成模型)算法用户数据加以聚类，然后利用TF-IDF(termfrequency–inverse document frequency，词频-逆文本频率指数)从类中挑选出热点事件。

然而，上述两种挖掘方式都存在自身的局限性导致无法很好的解决问题：对于第一种挖掘方式，由于用户舆论不同于新闻通稿，都采用相同或类似的句式句法结构，而是非常灵活多样化的，甚至常常出现语法错误，因此利用简单的文本相似度计算进行聚类是无法奏效的，常常存在召回率低的问题。对于第二种挖掘，问题主要出现在聚类方法上，对词向量的聚类意味着丢掉了文本上下文关系以及每个词对不同事件的贡献程度这些重要的信息，所以也无法取得比较好的结果。另外LDA方法需要已知主题个数，这对于网络中新事件的发掘几乎是不可能完成的。

另外，以上两种挖掘方式都难以对事件的发酵进行跟踪，因为事件的发酵一定意味这事件的偏移，而这种偏移就会导致新的言论无法利用相似度计算和之前的事件进行聚合。

下面参考附图描述本发明实施例的事件检测方法及装置。

图1为本发明实施例提供的一种事件检测方法的流程示意图。本实施例提供了一种事件检测方法，其执行主体为事件检测方法装置，该执行主体由硬件和/或软件组成。

如图1所示，该事件检测方法，包括以下步骤：

S101、获取待挖掘语料集合，其中，所述待挖掘语料集合包括语料样本。

本实施例中，语料样本可以理解为构成待挖掘语料集合的语言材料，语料样本例如为用户在互联网社交软件上发表的言论，或，语料样本例如为内容提供商提供的针对某事件的观点或用户针对某事件的言论。

本实施例中，可以获取互联网社交软件上的语料样本以构成待挖掘语料集合，还可以通过获取内容提供商上的语料样本以构成待挖掘语料集合，但并不以此为限。其中，互联网社交软件向用户提供社交服务，互联网社交软件例如为微信、微博、论坛、博客等。内容提供商可以提供包括文字、图像、音频和视频等各种媒体内容，内容提供商例如新闻客户端。

S102、对所述语料样本分别进行分词以生成样本文本。

本实施例中，对语料样本进行数据预处理以生成样本文本。具体地，对语料样本执行诸如分词处理等数据预处理，根据分词结果生成样本文本。其中，样本文本包括多个分词。

进一步地，为了降低分词错误给对事件挖掘带来的影响，针对处理语料所涉及的行业构建专有词表，采用专有词表对语料样本进行分词处理，得到多个分词。

进一步地，过滤分词结果中词性被标记为x的分词，以减少该类词对于事件挖掘的影响。其中，在词性标注的时候，首先基于正则表达式分词进行判断，如果该分词是汉字，则会基于前缀词典构建有向无环图，然后基于有向图计算最大概率路径，同时在前缀词典中查找所分出的词的词性，如果没有找到，则将其词性标注为“x”，“x”代表未知数或符号等非语素字。

进一步地，预先构建停用词表。停用词表中保存了海量的一些没有实际意义或者意义过于宽泛的词，这类词对于事件本身贡献度很小，却使得词矩阵维度过大。本实施例中，检测样本文本中的分词是否在停用词表中，若在，将该分词从样本文本中删除，实现利用停用词表对样本文本进行过滤，过滤掉样本文本中一些没有实际意义或者意义过于宽泛的词。

S103、从所述样本文本中提取核心词和从属词，并根据所述核心词和所述从属词构建语义网络。

本实施例中，核心词可以理解为对事件类的贡献比较大的分词，可以利用TF-IDF(term frequency–inverse document frequency，词频-逆文本频率指数)从样本文本中挖掘核心词。其中，TF-IDF是一种统计方法，用以评估某个词对于一个文件集或一个语料库中的其中一份文件的重要程度。某个词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

在一种可能的实现方式中，“从样本文本中提取核心词”的具体实现方式为：获取所述样本文本中每个分词的词频-逆文本频率指数TF-IDF；根据所述TF-IDF对所述样本文本中的分词进行排序；将排序位置在预设位置之前的分词作为所述核心词。其中，预设位置根据实际情形设置，预设位置例如为第51个。先计算样本文本中各个分词的TF-IDF，接着按TF-IDF从大到小的顺序排列样本文本中的各个分词，最后，将排在前面的50个分词挑选出来作为核心词。

本实施例中，为了对核心词进行有意义的扩充并且建立各个核心词之间的联系，从而帮助发现事件，有必要挖掘核心词对应的从属词。在待挖掘语料集合中，对某一核心词，若某个其他分词与该核心词同时出现在同一语料样本的共现次数比较多，说明该其他分词同该核心词一样，也是对某一事件类贡献比较大的分词。在此，将与核心词在同一语料样本的共现次数比较多的其他分词作为该核心词对应的从属词。

本实施例中，为了实现挖掘核心词对应的从属词，需要先获取其他分词与所述核心词之间的共现关系，并根据所述共现关系获取所述核心词对应的从属词。

在一种可能的实现方式中，“获取其他分词与所述核心词之间的共现关系，并根据所述共现关系获取所述核心词对应的从属词”的具体实现方式为：获取其他分词与所述核心词在同一个语料样本中的共现次数；如果所述共现次数大于预设阈值，则将所述其他分词作为所述核心词对应的从属词。其中，预设阈值根据实际情形设置，预设阈值例如为10。

本实施例中，在从样本文本中提取核心词和从属词之后，则根据核心词和从属词搭建语义网络以建立各个核心词之间的联系，从而帮助发现热点事件。

本实施例中，可以借助带权有向图对事件之间的关系进行描述。具体地，将核心词和从属词都作为带权有向图中的节点，边的方向是由核心词指向从属词，若某个从属词同时也是核心词，那么它也会作为起点连向它对应的从属词。其中，边的权重值取决于从属词与核心词之间的共现次数。

在一种可能的实现方式中，“根据所述核心词和所述从属词构建语义网络”具体实现方式为：将所述核心词和所述从属词作为所述语义网络的节点；以及根据所述核心词与所述从属词的共现次数确定所述核心词所在节点至所述从属词所在节点的边的权重值。

图2为示例性一的语义网络。在图2中，核心词对应的节点指向从属词对应的节点，节点之间用边连接。该边的权重值的计算过程为：统计与该边对应的核心词的出现次数COUNT(n_core)，统计与该边对应的核心词与从属词的共现次数COUNT(n_sub)；将作为该边的权重值。

在实际应用过程中，若仅仅采用共现次数挑选出来的从属词可能对最终的聚类结果是存在负面影响。导致出现这样的负面影响的原因在于基于共现次数所挑选出来的从属词是统计学上的很重要的一个词，而并非语义上的很重要的一个词。

图3为示例性二的语义网络。在图3中，“百科”这个高频词在统计学上来看是一个非常重要的词，被识别为核心词，但是在语义方面，对于当前语义网络，它并不是一个非常重要的词。甚至由于它的存在，可能导致在聚类过程中，将“火箭少女赖美云应援”和“钟汉良饰演天佑重登快乐大本营”两个不同的事件类聚合在一起。

本实施例中，为了有效地避免高频词将不同事件聚合在一起，在对语义网络聚类之前，对语义网络进行剪枝。

在一种可能的实现方式中，“对语义网络进行剪枝”的具体实现方式为：获取所述语义网络中每个节点的节点密度；以及将所述节点密度小于预设密度阈值的节点从所述语义网络中删除。

本实施例中，采用节点密度来衡量一个词对整个语义网络的贡献度，对于节点密度小于预设密度阈值的节点进行剪枝操作，即在语义网络中删除该节点。其中，预设密度阈值根据实际情形设置。

作为一种示例，根据公式计算节点n_t的节点密度Contr(n_t)。其中，Edge(G_t)为与节点n_t相连的所有节点组成的联通图的边数，G_t为联通图中的所有节点；

其中，i≠t，j≠t，n_i∈G_t，n_j∈G_t；

其中，Conn(n_i,n_j)的取值为1或0，若节点与节点之间存在一条边，Conn(n_i,n_j)的取值为1，反之，Conn(n_i,n_j)的取值为0。

S104、对所述语义网络进行聚类以生成事件类，并获取所述事件类对应的事件文本。

本实施例中，采用聚类算法对所构建的语义网络进行聚类，得到以词集合表示的多个簇，每个簇对应一个事件类，簇中的各个词之间关系密切，该簇可以代表着某个事件类。其中，聚类算法可以是马尔可夫聚类算法(MCL，Markov clustering algorithm)，但并不以此为限。需要指出的是，马尔可夫聚类算法能够将同一事件的不同表示形式合并在一起还能够减少极高频词对于事件类别的影响，减少因为某几个高频词而将不同事件合并到一起的情况出现。

进一步地，“对所述语义网络进行聚类以生成事件类”包括以下步骤：

S11、根据所述语义网络中节点之间的边的权重值生成共现关系矩阵。

本实施例中，统计语义网络中的核心词对应节点和从属词对应节点，并构建共现关系矩阵。共现关系矩阵为一个m行n列的m×n矩阵，其中，m为核心词对应节点的个数、n为从属词对应节点的个数，矩阵中的元素a_ij的值为第i个核心词所在节点至第j个从属词所在节点的边的权重值，m、n、i、j均为大于1的整数，i在1至m中取值，j在1至n中取值。

S12、根据所述共现关系矩阵对所述语义网络进行聚类以生成多个事件类，其中，所述事件类中包括多个代表词。

本实施例中，可以采用马尔可夫聚类算法处理共现关系矩阵以对语义网络进行聚类，得到以词集合表示的多个簇，每个簇对应一个事件类，实现将语义网络生成不同类别的多个事件类。其中，簇的词可以理解为对应的事件类的代表词，簇中的词可以有多个核心词，也可能有每个核心词对应的从属词。

进一步地，由于代表词数量过少难以对事件进行描述，会降低类内数据的准确性，因此，本实施例对代表词比较少的事件类进行删除。具体地，先获取事件类中代表词的数量，如果代表词的数量小于预设数量阈值，则将事件类删除。其中，预设数量阈值根据实际情形进行设置，预设数量阈值例如为3，则舍弃代表词个数小于3的事件类。

聚类结果不仅给出了每个事件类的代表词，也给出了每个代表词对该事件类的重要程度信息。图4为示例性的聚类结果，每个事件类用一个包括多个代表词的词集合描述，并统计了每个代表词的重要程度信息。

例如，对某事件类，该事件类的词集合为{冯鑫，0.41、晋商，0.41、贾跃亭，0.40、互联网,0.37}，对于冯鑫这一代表词，其重要程度信息为0.41；对于晋商这一代表词，其重要程度信息为0.41；对于贾跃亭这一代表词，其重要程度信息为0.4；对于互联网这一代表词，其重要程度信息为0.37。

本实施例中，在得到各个事件类之后，进行类文本集合映射，将待挖掘语料集合中语料样本与聚类得到的事件类进行映射，得到最终的热点事件。具体地，从待挖掘的语料集合中，找到与各个事件类匹配的语料样本，实现语料样本与事件类的映射，与事件类对应的语料样本为该事件类对应的事件文本。

进一步地，“获取所述事件类对应的事件文本”的具体实现方式为：获取所述事件类中每个代表词的重要程度信息；根据所述每个代表词的重要程度信息将所述语料样本与所述事件类进行映射以获取所述事件类对应的事件文本。

本实施例中，结合聚类结果所给出的每一事件类中的代表词对该事件类的重要程度信息，根据语料样本对代表词的命中情况进行类文本集合映射，以将语料样本与包括代表词的事件类关联起来。

在一种可能的实现方式中，“根据所述每个代表词的重要程度信息将所述语料样本与所述事件类进行映射”的具体实现方式为：

S21、针对每个事件类，聚合至少命中一个代表词的各个语料样本。

例如，某一事件类的聚类结果为：{冯鑫，0.41、晋商，0.41、贾跃亭，0.40、互联网,0.37}，

若某个语料样本包括冯鑫、晋商、贾跃亭、互联网中的至少一个代表词，则该语料样本可以理解为至少命中一个代表词的语料样本，该语料样本很可能属于该事件类。

S22、针对每个命中代表词的语料样本，获取命中的代表词的重要程度信息，对各个命中的代表词的重要程度信息进行求和，将求和结果作为该语料样本的得分。

例如，某个语料样本命中了冯鑫、贾跃亭、互联网三个代表词，对于冯鑫这一代表词，其重要程度信息为0.41；对于贾跃亭这一代表词，其重要程度信息为0.4；对于互联网这一代表词，其重要程度信息为0.37。在计算该样本的得分时，还可以乘以一个放大系数K，将得分进行放大。其中，K的取值为大于0的数，K的大小根据实际情形进行取值。则该语料样本的得分Score＝(0.41+0.4+0.37)*K。

又例如，某个语料样本命中了冯鑫、晋商、贾跃亭、互联网四个代表词，对于冯鑫这一代表词，其重要程度信息为0.41；对于晋商这一代表词，其重要程度信息为0.41；对于贾跃亭这一代表词，其重要程度信息为0.4；对于互联网这一代表词，其重要程度信息为0.37。在计算该样本的得分时，还可以乘以一个放大系数K，将得分进行放大。则该语料样本的得分Score＝(0.41+0.4+0.41+0.37)*K。

S23、按照得分由大到小对各个语料样本进行排序，根据排序结果选择该事件类的语料样本。

本实施例中，在计算语料样本的得分之后，再利用得分的大小对各个命中代表词的语料样本进行排序，对排序结果进行分析，确定得分下降最快的语料文本，将排在该得分下降最快的语料文本的前面的各个语料文本选择为该事件类的语料文本。而排在得分下降最快的语料文本后面的各个语料文本，可以理解为与该事件类不相关的语料文本，不属于该事件类。

图5为示例性的排序结果图。图5的横坐标对应的是各个语料文本在排序序列中的位置，纵坐标对应的是各个语料文本的得分。从图5可知，大概在第28个语料文本之前，各个语料文本的得分基本维持在比较高的得分，从第28个语料文本开始，得分下降特别快，呈现直线下降的趋势。则第28个语料文本之前的各个语料文本作为对应事件类的语料文本。

进一步地，在进行类文本集合映射之后，将新发现的事件类和已有的事件类进行聚合，实现对旧事件类的追踪。在对事件类的代表词的重要程度信息进行归一化操作后，观察数据发现，对于代表词之间重要程度信息相差无几，波动较小的事件往往是一句话新闻，没有明确的事件主体，这种事件随着时间进行偏移的可能性较小；而在那些代表词间重要程度信息差异较大的事件中，重要程度信息大的词往往是事件围绕的主题，事件也会继续围绕该主题进行偏移。

具体地，对某些事件类的代表词，其代表词的重要程度信息非常接近，这种情况大部分是营销通稿或者一句话新闻，没有明显的事件主体。例如，对于冯鑫这一代表词，其重要程度信息为0.41；对于晋商这一代表词，其重要程度信息为0.41；对于贾跃亭这一代表词，其重要程度信息为0.4；对于互联网这一代表词，其重要程度信息为0.37。这说明这些代表词对于该事件类的贡献相同，也就是说人们在描述这个事件类时，往往同时运用这几个代表词。

但是，还有一些事件类的代表词，其代表词的重要程度信息相差比较大，有明显的事件主体。例如，对于百度云这一代表词，其重要程度信息为0.51；对于照片这一代表词，其重要程度信息为0.22；对于推荐这一代表词，其重要程度信息为0.15。其中，百度云这一代表词对该事件类的贡献程度较大，该百度云可以理解为该事件类的事件主体。

针对没有明显的事件主体的事件类，判断该事件类的代表词是否与该已有事件类的代表词完全重合，若完全重合，则认为该事件类是已有事件类的延伸。

针对有明显的事件主体的事件类，获取事件类的中心词；判断已有事件类中是否包含中心词；如果已有事件类中包含中心词，则将事件类作为已有事件类的延伸，并将事件类合并至已有事件类之中。

对于每个事件类，定义事件类t的中心词为EC(t)，满足以下条件的词记为事件类t的中心词：

第一种：对该事件类，若代表词的重要程度信息的方差小于设定阈值，将该事件类的全部代表词作为该事件类的中心词。其中，设定阈值根据实际情形进行设置。

第二种：对该事件类，若代表词的重要程度信息的方差大于设定阈值，则按照重要程度信息的大小对代表词进行降序排序，从排在第一位的代表词开始，按排序顺序依次将各个代表词的重要程度信息进行相加，直至重要程度信息之和超过目标值，将各个代表词选为该事件类的中心词。其中，目标值根据实际情形进行设置，目标值例如为0.5。举例来说，若该事件类有10个代表词，并按照重要程度信息的大小对代表词进行了降序排序，第一个代表词至第四个代表词的重要程度信息的相加结果为0.49，第一个代表词至第五个代表词的重要程度信息的相加结果为0.51，则将第一个代表词至第五个代表词这五个代表词作为该事件类的中心词。

进一步地，还可以根据中心词来判断两个事件类的相关性。具体地，记该事件t1的中心词个数为COUNT(EC(t₁))，记该事件t2的中心词个数为COUNT(EC(t₂))，记属于事件t1且属于事件t2的中心词个数为COUNT(EC(t₁)∩EC(t₂))：

若则认为事件t₁和事件t₂为相关事件，除去中心词之外的代表词则是事件发酵的重点内容。

其中，θ根据实际情形进行取值；MIN(COUNT(EC(t₁)),COUNT(EC(t₂))的取值在COUNT(EC(t₁))、COUNT(EC(t₂))中取值，若COUNT(EC(t₁))小于COUNT(EC(t₂))，则MIN(COUNT(EC(t₁)),COUNT(EC(t₂))的取值为COUNT(EC(t₁))，反之，MIN(COUNT(EC(t₁)),COUNT(EC(t₂))的取值为COUNT(EC(t₂))。

本发明实施例提供的事件检测方法，通过获取待挖掘语料集合，其中，所述待挖掘语料集合包括语料样本；对所述语料样本分别进行分词以生成样本文本；从所述样本文本中提取核心词和从属词，并根据所述核心词和所述从属词构建语义网络。对所述语义网络进行聚类以生成事件类，并获取所述事件类对应的事件文本。通过挖掘待挖掘语料集合中的核心词和从属词以构建语义网络，以及将语义网络聚类成不同的事件类，并将待挖掘语料集合中的语料样本与事件类的映射，实现从待挖掘语料集合中自动发现新的热点事件。进一步地，还能够对旧事件的发酵进行跟踪。当待挖掘的语料集合的来源为用户舆论，也能从用户舆论中挖掘出热点事件并监测，有效地解决了移动互联网时代的舆情监测难题，经过聚合和择优的热点事件形成的热点榜单能明显减少用户的阅读时间，提升用户体验。

图6为示例性的事件检测方法的流程图。如图6所示，在接收到待测语料S后，利用预处理模块对待测语料S进行数据预处理。具体地，利用jieba分词工具基于对专有词表user_dict对待测语料S进行分词，过滤掉分词词性为x的词。还可以利用停用词表stop_words过滤分词结果中的停用词。

在核心词挖掘模块中，利用idf_model模型计算每个词对应的TF-IDF，挑选出前50个词作为核心词。在模型训练阶段，我们对固定时间段内的语料进行分词，并统计每个词对应的IDF值，以得到(idf_model)模型。idf_model模型的训练频次可以根据业务情况和数据特点来确定，例如，每隔一段时间(周、月)更新一次。

在构建语义网络模块中，统计与核心词共现次数大于阈值的词作为从属词；基于核心词和从属词构建语义网络；利用节点密度对语义网络进行剪枝。

在聚类模块中，基于马尔可夫算法聚类，得到N个聚类结果，N为正整数。

在类文本集合映射模块中，判断是否有未处理的事件类，若有，则挑选出语料中包含前3个代表词的文本；根据代表词命中情况及时每个文本的得分；挑选出大于给定阈值的文本加入到该类的文本集合中。

图7为本发明实施例提供的一种事件检测装置的结构示意图。本实施例提供了一种事件检测装置，该装置是事件检测方法的执行主体，该执行主体由硬件和/或软件组成。如图7所示，该事件检测装置包括：获取模块11、分词模块12、挖掘模块13、构建模块14、聚类模块15、映射模块16。

获取模块11，用于获取待挖掘语料集合，其中，所述待挖掘语料集合包括语料样本；

分词模块12，用于对所述语料样本分别进行分词以生成样本文本；

挖掘模块13，用于从所述样本文本中提取核心词和从属词；

构建模块14，用于根据所述核心词和所述从属词构建语义网络；

聚类模块15，用于对所述语义网络进行聚类以生成事件类

映射模块16，用于获取所述事件类对应的事件文本。

进一步地，所述挖掘模块13包括第一单元、第二单元、第三单元、第四单元；

进一步地，所述第四单元，具体用于：

进一步地，所述构建模块14，具体用于；

将所述核心词和所述从属词作为所述语义网络的节点；以及

进一步地，所述构建模块14还用于：

获取所述语义网络中每个节点的节点密度；以及

进一步地，所述聚类模块15，具体用于：

进一步地，所述聚类模块15还用于：

获取事件类中代表词的数量；

进一步地，所述映射模块16，具体用于：

获取所述事件类中每个代表词的重要程度信息；

进一步地，所述装置还包括：

需要说明的是，前述对事件检测方法实施例的解释说明也适用于该实施例的事件检测装置，此处不再赘述。

本发明实施例提供的事件检测装置，通过获取待挖掘语料集合，其中，所述待挖掘语料集合包括语料样本；对所述语料样本分别进行分词以生成样本文本；从所述样本文本中提取核心词和从属词，并根据所述核心词和所述从属词构建语义网络。对所述语义网络进行聚类以生成事件类，并获取所述事件类对应的事件文本。通过挖掘待挖掘语料集合中的核心词和从属词以构建语义网络，以及将语义网络聚类成不同的事件类，并将待挖掘语料集合中的语料样本与事件类的映射，实现从待挖掘语料集合中自动发现新的热点事件。进一步地，还能够对旧事件的发酵进行跟踪。当待挖掘的语料集合的来源为用户舆论，也能从用户舆论中挖掘出热点事件并监测，有效地解决了移动互联网时代的舆情监测难题，经过聚合和择优的热点事件形成的热点榜单能明显减少用户的阅读时间，提升用户体验。

图8为本发明实施例提供的另一种事件检测装置的结构示意图。该事件检测装置包括：

存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。

处理器1002执行所述程序时实现上述实施例中提供的事件检测方法。

进一步地，事件检测装置还包括：

通信接口1003，用于存储器1001和处理器1002之间的通信。

存储器1001，用于存放可在处理器1002上运行的计算机程序。

存储器1001可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器1002，用于执行所述程序时实现上述实施例所述的事件检测方法。

如果存储器1001、处理器1002和通信接口1003独立实现，则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003，集成在一块芯片上实现，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。

处理器1002可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上所述的事件检测方法。

本实施例还提供一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，如上所述的事件检测方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种事件检测方法，其特征在于，包括：

对所述语料样本分别进行分词以生成样本文本；

2.如权利要求1所述的事件检测方法，其特征在于，所述从所述样本文本中提取核心词和从属词，包括：

获取所述样本文本中每个分词的词频-逆文本频率指数TF-IDF；

根据所述TF-IDF对所述样本文本中的分词进行排序；

将排序位置在预设位置之前的分词作为所述核心词；以及

3.如权利要求2所述的事件检测方法，其特征在于，所述获取其他分词与所述核心词之间的共现关系，并根据所述共现关系获取所述核心词对应的从属词，包括：

4.如权利要求1所述的事件检测方法，其特征在于，在所述从所述样本文本中提取核心词和从属词之前，还包括：

根据停用词表对所述样本文本进行过滤。

5.如权利要求1所述的事件检测方法，其特征在于，所述根据所述核心词和所述从属词构建语义网络，包括：

将所述核心词和所述从属词作为所述语义网络的节点；以及

6.如权利要求5所述的事件检测方法，其特征在于，还包括：

获取所述语义网络中每个节点的节点密度；以及

7.如权利要求5所述的事件检测方法，其特征在于，所述对所述语义网络进行聚类以生成事件类，包括：

8.如权利要求7所述的事件检测方法，其特征在于，还包括：

获取事件类中代表词的数量；

9.如权利要求7所述的事件检测方法，其特征在于，所述获取所述事件类对应的事件文本，包括：

获取所述事件类中每个代表词的重要程度信息；

10.如权利要求1所述的事件检测方法，其特征在于，还包括：

获取所述事件类的中心词；

判断已有事件类中是否包含所述中心词；

11.一种事件检测装置，其特征在于，包括：

挖掘模块，用于从所述样本文本中提取核心词和从属词；

聚类模块，用于对所述语义网络进行聚类以生成事件类；

映射模块，用于并获取所述事件类对应的事件文本。

12.如权利要求11所述的事件检测装置，其特征在于，所述挖掘模块包括第一单元、第二单元、第三单元、第四单元；

13.如权利要求12所述的事件检测装置，其特征在于，所述第四单元，具体用于：

14.如权利要求11所述的事件检测装置，其特征在于，还包括过滤模块，用于在所述从所述样本文本中提取核心词和从属词之前，根据停用词表对所述样本文本进行过滤。

15.如权利要求11所述的事件检测装置，其特征在于，所述构建模块，具体用于；

将所述核心词和所述从属词作为所述语义网络的节点；以及

16.如权利要求15所述的事件检测装置，其特征在于，所述构建模块还用于：

获取所述语义网络中每个节点的节点密度；以及

17.如权利要求15所述的事件检测装置，其特征在于，所述聚类模块，具体用于：

18.如权利要求17所述的事件检测装置，其特征在于，所述聚类模块还用于：

获取事件类中代表词的数量；

19.如权利要求17所述的事件检测装置，其特征在于，所述映射模块，具体用于：

获取所述事件类中每个代表词的重要程度信息；

20.如权利要求11所述的事件检测装置，其特征在于，还包括：

合并模块，用于获取所述事件类的中心词；判断已有事件类中是否包含所述中心词；

21.一种计算机设备，其特征在于，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10中任一所述的事件检测方法。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的事件检测方法。

23.一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如权利要求1-10任一所述的事件检测方法。