CN110020214A

CN110020214A - 一种融合知识的社交网络流式事件检测系统

Info

Publication number: CN110020214A
Application number: CN201910276919.6A
Authority: CN
Inventors: 李建欣; 彭浩; 宁元星; 龚其然; 李晨; 胡春明
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-07-16
Anticipated expiration: 2039-04-08
Also published as: CN110020214B

Abstract

本申请公开了一种融合知识的社交网络流式事件检测系统，所述方法包括：从事件数据中提取多种类别的关键词，其中，所述多种类别的关键词以及所述事件本身构成异构网络中的节点；从所述异构网络中选择多种元路径，将在异构网络中按照各种元路径进行随机游走得到路径作为语料；将所述语料输入到Streaming lightRNN中进行训练，得到各个节点对应的嵌入表示；基于所述嵌入表示计算事件之间的相似度。

Description

一种融合知识的社交网络流式事件检测系统

技术领域

本申请涉及神经网络技术，尤其涉及一种融合知识的社交网络流式事件检测系统。

背景技术

随着互联网的迅猛发展，数据的快速增长成了许多行业共同面临的机遇与挑战。在当今网络环境下，大量数据源是实时的不间断的，要求对用户的响应时间也是实时的。这些数据以流式的形式被采集、计算与查询。例如网络异常检测系统，通过采集网络包、网络日志等数据，进行分析，并保证在一定时间范围内返回分析结果，保障网络的高可用性。这种系统的特点在于：每个时刻都有各式各样海量的网络数据流入系统，流入速度各异，数据结构复杂多样(包括二进制文件、文本文件、压缩文件等)，网络异常检测只是一种应用。对于此类应用，需要底层存储系统能够支持对流入的数据以统一格式存储，对上层应用提供统一接口，方便检索，并且对实时性有一定要求。针对现今的大数据趋势，涌现了一批大数据处理平台，例如，比较广泛的包括采用MapReduce并行处理框架的Hadoop分布式系统处理架构。

但类似Hadoop这样架构的批处理模式不能满足实时计算的要求，系统处理速度减慢，不适合数据直接流入；所有到达的数据经过处理后直接进入内存中计算，并不对流入的数据进行持久化存储，不能满足应用的需求，会对空间造成许多要求。

申请内容

为解决上述技术问题，本发明实施例提供了一种融合知识的社交网络流式事件检测系统。

本申请实施例提供的神经网络处理数据的方法，包括：

从事件数据中提取多种类别的关键词，其中，所述多种类别的关键词以及所述事件本身构成异构网络中的节点，所述多种类别的关键词以及所述事件之间的联系构成异构网络的边；

从所述异构网络中选择多种元路径，将在异构网络中按照各种元路径进行随机游走得到路径作为语料；

将基础数据得到所述语料输入到Streaming轻量循环神经网络(light RecurrentNeural Network，Streaming lightRNN)中进行训练，得到事件的嵌入表示，以及StreaminglightRNN中行列的嵌入表示；对于流式事件中新增加的数据，单独获得所述流式事件的随机游走得到的语料，并输入至训练好的Streaming lightRNN中进行增量训练，得到所述新增加的数据的嵌入表示以及新的Streaming lightRNN行列的嵌入表示；

基于所述嵌入表示计算事件之间的相似度。

本申请实施例提供的神经网络处理数据的装置，包括：

关键词提取模块，用于从事件数据中提取多种类别的关键词，其中，所述多种类别的关键词以及所述事件本身构成异构网络中的节点，所述多种类别的关键词以及所述事件之间的联系构成异构网络的边；

语料生成模块，用于从所述异构网络中选择多种元路径，将在异构网络中按照各种元路径进行随机游走得到路径作为语料；

训练模块，用于将基础数据得到所述语料输入到轻量循环神经网络StreaminglightRNN中进行训练，得到事件的嵌入表示，以及Streaming lightRNN中行列的嵌入表示；对于流式事件中新增加的数据，单独获得所述流式事件的随机游走得到的语料，并输入至训练好的Streaming lightRNN中进行增量训练，得到所述新增加的数据的嵌入表示以及新的Streaming lightRNN行列的嵌入表示；

相似度计算模块，用于基于所述嵌入表示计算事件之间的相似度。

本申请实施例中，1)定义的事件的元图像表征社会事件的语义相关性，并呈现基于事件相似性度量(KIES)的离散余弦和基于事件相似度度量(SHEES)的社交媒体文本的离散余弦；2)提出了一种流式LightRNN模型，包括增量LightRNN算法和动态最小成本最大流算法，以实现快速和增量的HIN表示学习，并提出流式社交实例嵌入框架；3)开发一个有效和高效的在线社交媒体事件检测系统，该系统是在亿级的相似性搜索引擎上开发的，并集成KIES和SHEES以进一步提高准确性；采用本申请实施例的上述技术方案，1)内存占用量少，采用Streaming lightRNN的模型进行词的嵌入(embedding)，内存占用率会大大降低；2)速度会显著提高，与此同时，运行速度也会大幅度提升；3)算法多参数可调，可根据需求设置，算法内部耦合性低，可移植性好。

附图说明

图1为本申请实施例提供的神经网络处理数据的方法的流程示意图一；

图2为本申请实施例提供的异构网络的示意图；

图3为本申请实施例提供的Streaming lightRNN的处理原理示意图；

图4为本申请实施例提供的Streaming LightRNN的动态最大流示意图；

图5为本申请实施例提供的神经网络处理数据的方法的流程示意图二；

图6为本申请实施例提供的神经网络处理数据的装置的结构组成示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于计算机系统/服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在大规模流式数据处理上还存在许多问题，因此本申请实施例采用StreaminglightRNN并将其应用于流式数据的处理上，采用新的语料获取方式放入StreaminglightRNN中进行训练，对于流式数据在读入后可在原先的基础上继续迭代训练，这样可以处理数以十亿级别的数据，并且不会占用太多内存，以及拥有很快的速度。

图1为本申请实施例提供的神经网络处理数据的方法的流程示意图一，如图1所示，所述神经网络处理数据的方法包括以下步骤：

步骤101：从事件数据中提取多种类别的关键词，其中，所述多种类别的关键词以及所述事件本身构成异构网络中的节点，所述多种类别的关键词以及所述事件之间的联系构成异构网络的边。

需要说明的是，本申请实施例中的方法步骤可以在部署和配置python的tensorflow运行环境中实现，不局限于此，本申请实施例中的方法步骤还可以在其他机器学习框架中实现。

本申请实施例中，从事件数据中提取如下关键词：实体(entity)、词(word)、以及主题(topic)、元素(element)、用户(user)。entity、word、topic、element、user，以及事件(event)本身构成的异构网络，它们之间的联系构成异构网络的边，如图2所示。

步骤102：从所述异构网络中选择多种元路径，将在异构网络中按照各种元路径进行随机游走得到路径作为语料。

本申请实施例中，可以在步骤101得到的所述异构网络中选择多种元路径(meta_path)，然后按照meta_path做随机游走，得到许多的语料，这些语料就如同一般自然语言处理(Natural Language Processing，NLP)问题中的句子文档一样，而一个个entity，word，topic，event就相当于单词。通过在数以十亿级别的数据集上做随机游走，可以获得大量的语料。这里，根据异构网络的信选择的meta_path总共有22条，22条meta_path如下所示：

a、event-element-event

1、event-entity-event；

2、event-word-event；

3、event-topic-event；

4、event-user-event。

b、event-element-element-event

1、event-entity-entity-event；

2、event-word-word-event；

3、event-topic-topic-event；

4、event-user-user-event；

5、vent-entity-word-event；

6、event-word-topic-event。

c、event-element-element-element-event

1、event-entity-entity-entity-event；

2、event-word-word-word-event；

3、event-topic-topic-topic-event；

4、event-user-user-user-event；

5、event-entity-entity-word-event；

6、event-entity-word-entity-event；

7、event-word-word-entity-event；

8、event-word-word-topic-event；

9、event-word-topic-word-event；

10、event-topic-topic-word-event；

11、event-word-entity-word-event；

12、event-topic-word-topic-event。

步骤103：将基础数据得到所述语料输入到Streaming lightRNN中进行训练，得到事件的嵌入表示，以及Streaming lightRNN中行列的嵌入表示。

这里，将大量基础得到的语料输入到streaming LightRNN中进行训练，得到各个结点的嵌入表示。

本申请实施例中，所述Streaming lightRNN采用单词之间共享行列嵌入表示，通过所述Streaming lightRNN对所述语料进行训练后，得到各个单词的行列嵌入表示；其中，在得到各个单词的行列嵌入表示后，所述Streaming lightRNN能够使用最大流进行单词之间的位置变换。

具体地，将所述语料输入到Streaming lightRNN中，通过Streaming lightRNN训练建模。具体地，将获得的语料放入Streaming lightRNN中进行训练，得到每个单词的嵌入表示(embedding)，Streaming lightRNN不同于一般embedding，它采用单词之间共享行列embedding的方式，大大简化了计算的复杂度与空间存储量，使得在流式数据集上的实现成为可能。Streaming lightRNN的处理原理如图3所示，其中：

单词w在位置t的概率由这两部分组成，

进一步，P(w_t)＝P_r(w_t)P_c(w_t)，

这里，r(w)是单词w的行索引，c(w)是单词的列索引。

Streaming LightRNN的损失函数为：

其中Sw为行列位置。

通过Streaming lightRNN训练可以得到每个词的行列embedding。

在训练好embedding后可以使用最小费用最大流进行单词之间的位置变换，参照图4。

步骤104：对于流式事件中新增加的数据，单独获得所述流式事件的随机游走得到的语料，并输入至训练好的Streaming lightRNN中进行增量训练，得到所述新增加的数据的嵌入表示以及新的Streaming lightRNN行列的嵌入表示。

本申请实施例中，基于所述Streaming lightRNN对所述事件数据训练完成后，在训练好的模型上，继续训练新的事件数据所生成的语料。具体地，如果有新的流式数据信息读入，则需要进行更新迭代，本申请实施例中，因为通过之前训练得到的embedding矩阵中位置不会因新到的数据而发生很大改变，因此我们只需要在训练好的模型上继续训练新的事件构成的语料这样不需要很多的轮数，就可以将词换到合适的位置，因此不需要训练多次大大节约了时间，这里的流式采用Streaming LightRNN中的动态最大流，同样在做增量时，最大流算法会保留之前的图，在之前图的基础上进行位置变换。

流式中新增的数据补充进异构信息网络中，并单独按照元路径训练语料，并放入Streaming LightRNN中继续训练。Streaming LightRNN损失函数的公式为：

其中，w为单词，|V|为LightRNN矩阵中旧词总数，|V’|为增量后新词总数，S'w为新的行列总数。前一部分为旧的基础词在新的LightRNN矩阵中loss，后一部分为新的增量词在LightRNN矩阵中loss，后一部分是少量增量数据，其loss计算与之前基础数据的计算一致，而大量基础数据在新矩阵中如果要重新计算一次loss，则开销过大，不适于做流式，因此本申请实施例利用之前计算的loss辅助计算其在新的矩阵中的loss，设其loss变化为ΔNNL′，则：

上述公式进行化简，得到：

这里，并且因此P，Q都为常数，这就大大简化了就词的loss计算，是其能够做流式。

需要说明的是，为了能够快速训练得到结果，流式Streaming LightRNN训练的损失函数与静态Streaming LightRNN训练的损失函数不同。

步骤105：基于所述嵌入表示计算事件之间的相似度。

具体地，事件的embedding可以直接在矩阵中获得，任意两个事件的embedding可以通过计算余弦相似度来得到其相似度。具体地，基于以下余弦相似度公式计算事件之间的相似度：

Sim(e₁,e₂)＝cos(embedding(e₁),embedding(e₂))

其中，Sim(e₁,e₂)代表事件e₁和事件e₂之间的相似度，embedding(e₁)代表事件e₁的嵌入表示，embedding(e₂)代表事件e₂的嵌入表示。

进一步，将所述事件之间的相似度与阈值进行比较，确定所述事件是否相似；其中，所述阈值采用枚举的方式获得。

图5为本申请实施例提供的神经网络处理数据的方法的流程示意图二，如图5所示，包括：

1)获取事件文档(document)。

2)从事件文档中提取关键词，得到不同类别的关键词。例如：entity，word，topic。

3)异构网络的构建，其中，entity，word，topic，event构成异构网络中的节点。

4)从异构网络中选择meta_path。

5)将各种meta_path随机游走得到的路径作为语料，例如语料1，语料2、……，语料n。

6)将语料作为Streaming lightRNN的输入进行训练，得到各个entity，word，topic的embedding。

7)通过embedding计算事件之间的相似度。

图6为本申请实施例提供的神经网络处理数据的装置的结构组成示意图，如图6所示，所述装置包括：

关键词提取模块601，用于从事件数据中提取多种类别的关键词，其中，所述多种类别的关键词以及所述事件本身构成异构网络中的节点，所述多种类别的关键词以及所述事件之间的联系构成异构网络的边；

语料生成模块602，用于从所述异构网络中选择多种元路径，将在异构网络中按照各种元路径进行随机游走得到路径作为语料；

训练模块603，用于将基础数据得到所述语料输入到轻量循环神经网络StreaminglightRNN中进行训练，得到事件的嵌入表示，以及Streaming lightRNN中行列的嵌入表示；对于流式事件中新增加的数据，单独获得所述流式事件的随机游走得到的语料，并输入至训练好的Streaming lightRNN中进行增量训练，得到所述新增加的数据的嵌入表示以及新的Streaming lightRNN行列的嵌入表示；

相似度计算模块604，用于基于所述嵌入表示计算事件之间的相似度。

在一实施方式中，所述关键词提取模块601，用于从事件数据中提取如下关键词：entity、word、以及topic、element、user。

在一实施方式中，所述异构网络中构建如下元路径：

event-entity-event；

event-word-event；

event-topic-event；

event-user-event；

event-entity-entity-event；

event-word-word-event；

event-topic-topic-event；

event-user-user-event；

event-entity-word-event；

event-word-topic-event；

event-entity-entity-entity-event；

event-word-word-word-event；

event-topic-topic-topic-event；

event-user-user-user-event；

event-entity-entity-word-event；

event-entity-word-entity-event；

event-word-word-entity-event；

event-word-word-topic-event；

event-word-topic-word-event；

event-topic-topic-word-event；

event-word-entity-word-event；

event-topic-word-topic-event。

在一实施方式中，所述Streaming lightRNN采用单词之间共享行列嵌入表示，通过所述Streaming lightRNN对所述语料进行训练后，得到各个节点的行列嵌入表示；

其中，在得到各个节点的行列嵌入表示后，所述Streaming lightRNN能够使用最大流进行节点之间的位置变换。

在一实施方式中，流式Streaming LightRNN训练的损失函数与静态StreamingLightRNN训练的损失函数不同。

在一实施方式中，所述训练模块603，还用于基于所述Streaming lightRNN对所述事件数据训练完成后，在训练好的模型上，继续训练新的事件数据所生成的语料。

在一实施方式中，所述相似度计算模块604，用于基于以下余弦相似度公式计算事件之间的相似度：

Sim(e₁,e₂)＝cos(embedding(e₁),embedding(e₂))

在一实施方式中，所述相似度计算模块604，还用于：将所述事件之间的相似度与阈值进行比较，确定所述事件是否相似；其中，所述阈值采用枚举的方式获得。

本领域技术人员应当理解，图6所示的神经网络处理数据的装置中的各模块的实现功能可参照前述神经网络处理数据的方法的相关描述而理解。图6所示的神经网络处理数据的装置中的各模块的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种融合知识的社交网络流式事件检测系统，其特征在于，所述方法包括：

将基础数据得到所述语料输入到轻量循环神经网络Streaming lightRNN中进行训练，得到事件的嵌入表示，以及Streaming lightRNN中行列的嵌入表示；对于流式事件中新增加的数据，单独获得所述流式事件的随机游走得到的语料，并输入至训练好的StreaminglightRNN中进行增量训练，得到所述新增加的数据的嵌入表示以及新的StreaminglightRNN行列的嵌入表示；

基于所述嵌入表示计算事件之间的相似度。

2.根据权利要求1所述的方法，其特征在于，所述从事件数据中提取多种类别的关键词，包括：

从事件数据中提取如下关键词：实体entity、词word、以及主题topic、元素element、用户user。

3.根据权利要求2所述的方法，其特征在于，根据所述异构网络，构建如下元路径：

event-entity-event；

event-word-event；

event-topic-event；

event-user-event；

event-entity-entity-event；

event-word-word-event；

event-topic-topic-event；

event-user-user-event；

event-entity-word-event；

event-word-topic-event；

event-entity-entity-entity-event；

event-word-word-word-event；

event-topic-topic-topic-event；

event-user-user-user-event；

event-entity-entity-word-event；

event-entity-word-entity-event；

event-word-word-entity-event；

event-word-word-topic-event；

event-word-topic-word-event；

event-topic-topic-word-event；

event-word-entity-word-event；

event-topic-word-topic-event。

4.根据权利要求1所述的方法，其特征在于，所述Streaming lightRNN采用单词之间共享行列嵌入表示，通过所述Streaming lightRNN对所述语料进行训练后，得到各个单词的行列嵌入表示；

其中，在得到各个单词的行列嵌入表示后，所述Streaming lightRNN能够使用最大流进行单词之间的位置变换。

5.根据权利要求1所述的方法，其特征在于，流式Streaming LightRNN训练的损失函数与静态Streaming LightRNN训练的损失函数不同。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述基于所述嵌入表示计算事件之间的相似度，包括：

基于以下余弦相似度公式计算事件之间的相似度：

Sim(e₁,e₂)＝cos(embedding(e₁),embedding(e₂))

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述事件之间的相似度与阈值进行比较，确定所述事件是否相似；其中，所述阈值采用枚举的方式获得。

8.一种神经网络处理数据的装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述关键词提取模块，用于从事件数据中提取如下关键词：entity、word、以及topic、element、user。

10.根据权利要求9所述的装置，其特征在于，所述异构网络中构建如下元路径：

event-entity-event；

event-word-event；

event-topic-event；

event-user-event；

event-entity-entity-event；

event-word-word-event；

event-topic-topic-event；

event-user-user-event；

event-entity-word-event；

event-word-topic-event；

event-entity-entity-entity-event；

event-word-word-word-event；

event-topic-topic-topic-event；

event-user-user-user-event；

event-entity-entity-word-event；

event-entity-word-entity-event；

event-word-word-entity-event；

event-word-word-topic-event；

event-word-topic-word-event；

event-topic-topic-word-event；

event-word-entity-word-event；

event-topic-word-topic-event。

11.根据权利要求8所述的装置，其特征在于，所述Streaming lightRNN采用单词之间共享行列嵌入表示，通过所述Streaming lightRNN对所述语料进行训练后，得到各个节点的行列嵌入表示；

12.根据权利要求8所述的装置，其特征在于，流式Streaming LightRNN训练的损失函数与静态Streaming LightRNN训练的损失函数不同。

13.根据权利要求8至12任一项所述的装置，其特征在于，所述相似度计算模块，用于基于以下余弦相似度公式计算事件之间的相似度：

Sim(e₁,e₂)＝cos(embedding(e₁),embedding(e₂))

14.根据权利要求13所述的装置，其特征在于，所述相似度计算模块，还用于：将所述事件之间的相似度与阈值进行比较，确定所述事件是否相似；其中，所述阈值采用枚举的方式获得。