CN110020214A - 一种融合知识的社交网络流式事件检测系统 - Google Patents

一种融合知识的社交网络流式事件检测系统 Download PDF

Info

Publication number
CN110020214A
CN110020214A CN201910276919.6A CN201910276919A CN110020214A CN 110020214 A CN110020214 A CN 110020214A CN 201910276919 A CN201910276919 A CN 201910276919A CN 110020214 A CN110020214 A CN 110020214A
Authority
CN
China
Prior art keywords
event
word
entity
streaming
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910276919.6A
Other languages
English (en)
Other versions
CN110020214B (zh
Inventor
李建欣
彭浩
宁元星
龚其然
李晨
胡春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201910276919.6A priority Critical patent/CN110020214B/zh
Publication of CN110020214A publication Critical patent/CN110020214A/zh
Application granted granted Critical
Publication of CN110020214B publication Critical patent/CN110020214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种融合知识的社交网络流式事件检测系统,所述方法包括:从事件数据中提取多种类别的关键词,其中,所述多种类别的关键词以及所述事件本身构成异构网络中的节点;从所述异构网络中选择多种元路径,将在异构网络中按照各种元路径进行随机游走得到路径作为语料;将所述语料输入到Streaming lightRNN中进行训练,得到各个节点对应的嵌入表示;基于所述嵌入表示计算事件之间的相似度。

Description

一种融合知识的社交网络流式事件检测系统
技术领域
本申请涉及神经网络技术,尤其涉及一种融合知识的社交网络流式事件检测系统。
背景技术
随着互联网的迅猛发展,数据的快速增长成了许多行业共同面临的机遇与挑战。在当今网络环境下,大量数据源是实时的不间断的,要求对用户的响应时间也是实时的。这些数据以流式的形式被采集、计算与查询。例如网络异常检测系统,通过采集网络包、网络日志等数据,进行分析,并保证在一定时间范围内返回分析结果,保障网络的高可用性。这种系统的特点在于:每个时刻都有各式各样海量的网络数据流入系统,流入速度各异,数据结构复杂多样(包括二进制文件、文本文件、压缩文件等),网络异常检测只是一种应用。对于此类应用,需要底层存储系统能够支持对流入的数据以统一格式存储,对上层应用提供统一接口,方便检索,并且对实时性有一定要求。针对现今的大数据趋势,涌现了一批大数据处理平台,例如,比较广泛的包括采用MapReduce并行处理框架的Hadoop分布式系统处理架构。
但类似Hadoop这样架构的批处理模式不能满足实时计算的要求,系统处理速度减慢,不适合数据直接流入;所有到达的数据经过处理后直接进入内存中计算,并不对流入的数据进行持久化存储,不能满足应用的需求,会对空间造成许多要求。
申请内容
为解决上述技术问题,本发明实施例提供了一种融合知识的社交网络流式事件检测系统。
本申请实施例提供的神经网络处理数据的方法,包括:
从事件数据中提取多种类别的关键词,其中,所述多种类别的关键词以及所述事件本身构成异构网络中的节点,所述多种类别的关键词以及所述事件之间的联系构成异构网络的边;
从所述异构网络中选择多种元路径,将在异构网络中按照各种元路径进行随机游走得到路径作为语料;
将基础数据得到所述语料输入到Streaming轻量循环神经网络(light RecurrentNeural Network,Streaming lightRNN)中进行训练,得到事件的嵌入表示,以及StreaminglightRNN中行列的嵌入表示;对于流式事件中新增加的数据,单独获得所述流式事件的随机游走得到的语料,并输入至训练好的Streaming lightRNN中进行增量训练,得到所述新增加的数据的嵌入表示以及新的Streaming lightRNN行列的嵌入表示;
基于所述嵌入表示计算事件之间的相似度。
本申请实施例提供的神经网络处理数据的装置,包括:
关键词提取模块,用于从事件数据中提取多种类别的关键词,其中,所述多种类别的关键词以及所述事件本身构成异构网络中的节点,所述多种类别的关键词以及所述事件之间的联系构成异构网络的边;
语料生成模块,用于从所述异构网络中选择多种元路径,将在异构网络中按照各种元路径进行随机游走得到路径作为语料;
训练模块,用于将基础数据得到所述语料输入到轻量循环神经网络StreaminglightRNN中进行训练,得到事件的嵌入表示,以及Streaming lightRNN中行列的嵌入表示;对于流式事件中新增加的数据,单独获得所述流式事件的随机游走得到的语料,并输入至训练好的Streaming lightRNN中进行增量训练,得到所述新增加的数据的嵌入表示以及新的Streaming lightRNN行列的嵌入表示;
相似度计算模块,用于基于所述嵌入表示计算事件之间的相似度。
本申请实施例中,1)定义的事件的元图像表征社会事件的语义相关性,并呈现基于事件相似性度量(KIES)的离散余弦和基于事件相似度度量(SHEES)的社交媒体文本的离散余弦;2)提出了一种流式LightRNN模型,包括增量LightRNN算法和动态最小成本最大流算法,以实现快速和增量的HIN表示学习,并提出流式社交实例嵌入框架;3)开发一个有效和高效的在线社交媒体事件检测系统,该系统是在亿级的相似性搜索引擎上开发的,并集成KIES和SHEES以进一步提高准确性;采用本申请实施例的上述技术方案,1)内存占用量少,采用Streaming lightRNN的模型进行词的嵌入(embedding),内存占用率会大大降低;2)速度会显著提高,与此同时,运行速度也会大幅度提升;3)算法多参数可调,可根据需求设置,算法内部耦合性低,可移植性好。
附图说明
图1为本申请实施例提供的神经网络处理数据的方法的流程示意图一;
图2为本申请实施例提供的异构网络的示意图;
图3为本申请实施例提供的Streaming lightRNN的处理原理示意图;
图4为本申请实施例提供的Streaming LightRNN的动态最大流示意图;
图5为本申请实施例提供的神经网络处理数据的方法的流程示意图二;
图6为本申请实施例提供的神经网络处理数据的装置的结构组成示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于计算机系统/服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
在大规模流式数据处理上还存在许多问题,因此本申请实施例采用StreaminglightRNN并将其应用于流式数据的处理上,采用新的语料获取方式放入StreaminglightRNN中进行训练,对于流式数据在读入后可在原先的基础上继续迭代训练,这样可以处理数以十亿级别的数据,并且不会占用太多内存,以及拥有很快的速度。
图1为本申请实施例提供的神经网络处理数据的方法的流程示意图一,如图1所示,所述神经网络处理数据的方法包括以下步骤:
步骤101:从事件数据中提取多种类别的关键词,其中,所述多种类别的关键词以及所述事件本身构成异构网络中的节点,所述多种类别的关键词以及所述事件之间的联系构成异构网络的边。
需要说明的是,本申请实施例中的方法步骤可以在部署和配置python的tensorflow运行环境中实现,不局限于此,本申请实施例中的方法步骤还可以在其他机器学习框架中实现。
本申请实施例中,从事件数据中提取如下关键词:实体(entity)、词(word)、以及主题(topic)、元素(element)、用户(user)。entity、word、topic、element、user,以及事件(event)本身构成的异构网络,它们之间的联系构成异构网络的边,如图2所示。
步骤102:从所述异构网络中选择多种元路径,将在异构网络中按照各种元路径进行随机游走得到路径作为语料。
本申请实施例中,可以在步骤101得到的所述异构网络中选择多种元路径(meta_path),然后按照meta_path做随机游走,得到许多的语料,这些语料就如同一般自然语言处理(Natural Language Processing,NLP)问题中的句子文档一样,而一个个entity,word,topic,event就相当于单词。通过在数以十亿级别的数据集上做随机游走,可以获得大量的语料。这里,根据异构网络的信选择的meta_path总共有22条,22条meta_path如下所示:
a、event-element-event
1、event-entity-event;
2、event-word-event;
3、event-topic-event;
4、event-user-event。
b、event-element-element-event
1、event-entity-entity-event;
2、event-word-word-event;
3、event-topic-topic-event;
4、event-user-user-event;
5、vent-entity-word-event;
6、event-word-topic-event。
c、event-element-element-element-event
1、event-entity-entity-entity-event;
2、event-word-word-word-event;
3、event-topic-topic-topic-event;
4、event-user-user-user-event;
5、event-entity-entity-word-event;
6、event-entity-word-entity-event;
7、event-word-word-entity-event;
8、event-word-word-topic-event;
9、event-word-topic-word-event;
10、event-topic-topic-word-event;
11、event-word-entity-word-event;
12、event-topic-word-topic-event。
步骤103:将基础数据得到所述语料输入到Streaming lightRNN中进行训练,得到事件的嵌入表示,以及Streaming lightRNN中行列的嵌入表示。
这里,将大量基础得到的语料输入到streaming LightRNN中进行训练,得到各个结点的嵌入表示。
本申请实施例中,所述Streaming lightRNN采用单词之间共享行列嵌入表示,通过所述Streaming lightRNN对所述语料进行训练后,得到各个单词的行列嵌入表示;其中,在得到各个单词的行列嵌入表示后,所述Streaming lightRNN能够使用最大流进行单词之间的位置变换。
具体地,将所述语料输入到Streaming lightRNN中,通过Streaming lightRNN训练建模。具体地,将获得的语料放入Streaming lightRNN中进行训练,得到每个单词的嵌入表示(embedding),Streaming lightRNN不同于一般embedding,它采用单词之间共享行列embedding的方式,大大简化了计算的复杂度与空间存储量,使得在流式数据集上的实现成为可能。Streaming lightRNN的处理原理如图3所示,其中:
单词w在位置t的概率由这两部分组成,
进一步,P(wt)=Pr(wt)Pc(wt),
这里,r(w)是单词w的行索引,c(w)是单词的列索引。
Streaming LightRNN的损失函数为:
其中Sw为行列位置。
通过Streaming lightRNN训练可以得到每个词的行列embedding。
在训练好embedding后可以使用最小费用最大流进行单词之间的位置变换,参照图4。
步骤104:对于流式事件中新增加的数据,单独获得所述流式事件的随机游走得到的语料,并输入至训练好的Streaming lightRNN中进行增量训练,得到所述新增加的数据的嵌入表示以及新的Streaming lightRNN行列的嵌入表示。
本申请实施例中,基于所述Streaming lightRNN对所述事件数据训练完成后,在训练好的模型上,继续训练新的事件数据所生成的语料。具体地,如果有新的流式数据信息读入,则需要进行更新迭代,本申请实施例中,因为通过之前训练得到的embedding矩阵中位置不会因新到的数据而发生很大改变,因此我们只需要在训练好的模型上继续训练新的事件构成的语料这样不需要很多的轮数,就可以将词换到合适的位置,因此不需要训练多次大大节约了时间,这里的流式采用Streaming LightRNN中的动态最大流,同样在做增量时,最大流算法会保留之前的图,在之前图的基础上进行位置变换。
流式中新增的数据补充进异构信息网络中,并单独按照元路径训练语料,并放入Streaming LightRNN中继续训练。Streaming LightRNN损失函数的公式为:
其中,w为单词,|V|为LightRNN矩阵中旧词总数,|V’|为增量后新词总数,S'w为新的行列总数。前一部分为旧的基础词在新的LightRNN矩阵中loss,后一部分为新的增量词在LightRNN矩阵中loss,后一部分是少量增量数据,其loss计算与之前基础数据的计算一致,而大量基础数据在新矩阵中如果要重新计算一次loss,则开销过大,不适于做流式,因此本申请实施例利用之前计算的loss辅助计算其在新的矩阵中的loss,设其loss变化为ΔNNL′,则:
上述公式进行化简,得到:
这里,并且因此P,Q都为常数,这就大大简化了就词的loss计算,是其能够做流式。
需要说明的是,为了能够快速训练得到结果,流式Streaming LightRNN训练的损失函数与静态Streaming LightRNN训练的损失函数不同。
步骤105:基于所述嵌入表示计算事件之间的相似度。
具体地,事件的embedding可以直接在矩阵中获得,任意两个事件的embedding可以通过计算余弦相似度来得到其相似度。具体地,基于以下余弦相似度公式计算事件之间的相似度:
Sim(e1,e2)=cos(embedding(e1),embedding(e2))
其中,Sim(e1,e2)代表事件e1和事件e2之间的相似度,embedding(e1)代表事件e1的嵌入表示,embedding(e2)代表事件e2的嵌入表示。
进一步,将所述事件之间的相似度与阈值进行比较,确定所述事件是否相似;其中,所述阈值采用枚举的方式获得。
图5为本申请实施例提供的神经网络处理数据的方法的流程示意图二,如图5所示,包括:
1)获取事件文档(document)。
2)从事件文档中提取关键词,得到不同类别的关键词。例如:entity,word,topic。
3)异构网络的构建,其中,entity,word,topic,event构成异构网络中的节点。
4)从异构网络中选择meta_path。
5)将各种meta_path随机游走得到的路径作为语料,例如语料1,语料2、……,语料n。
6)将语料作为Streaming lightRNN的输入进行训练,得到各个entity,word,topic的embedding。
7)通过embedding计算事件之间的相似度。
图6为本申请实施例提供的神经网络处理数据的装置的结构组成示意图,如图6所示,所述装置包括:
关键词提取模块601,用于从事件数据中提取多种类别的关键词,其中,所述多种类别的关键词以及所述事件本身构成异构网络中的节点,所述多种类别的关键词以及所述事件之间的联系构成异构网络的边;
语料生成模块602,用于从所述异构网络中选择多种元路径,将在异构网络中按照各种元路径进行随机游走得到路径作为语料;
训练模块603,用于将基础数据得到所述语料输入到轻量循环神经网络StreaminglightRNN中进行训练,得到事件的嵌入表示,以及Streaming lightRNN中行列的嵌入表示;对于流式事件中新增加的数据,单独获得所述流式事件的随机游走得到的语料,并输入至训练好的Streaming lightRNN中进行增量训练,得到所述新增加的数据的嵌入表示以及新的Streaming lightRNN行列的嵌入表示;
相似度计算模块604,用于基于所述嵌入表示计算事件之间的相似度。
在一实施方式中,所述关键词提取模块601,用于从事件数据中提取如下关键词:entity、word、以及topic、element、user。
在一实施方式中,所述异构网络中构建如下元路径:
event-entity-event;
event-word-event;
event-topic-event;
event-user-event;
event-entity-entity-event;
event-word-word-event;
event-topic-topic-event;
event-user-user-event;
event-entity-word-event;
event-word-topic-event;
event-entity-entity-entity-event;
event-word-word-word-event;
event-topic-topic-topic-event;
event-user-user-user-event;
event-entity-entity-word-event;
event-entity-word-entity-event;
event-word-word-entity-event;
event-word-word-topic-event;
event-word-topic-word-event;
event-topic-topic-word-event;
event-word-entity-word-event;
event-topic-word-topic-event。
在一实施方式中,所述Streaming lightRNN采用单词之间共享行列嵌入表示,通过所述Streaming lightRNN对所述语料进行训练后,得到各个节点的行列嵌入表示;
其中,在得到各个节点的行列嵌入表示后,所述Streaming lightRNN能够使用最大流进行节点之间的位置变换。
在一实施方式中,流式Streaming LightRNN训练的损失函数与静态StreamingLightRNN训练的损失函数不同。
在一实施方式中,所述训练模块603,还用于基于所述Streaming lightRNN对所述事件数据训练完成后,在训练好的模型上,继续训练新的事件数据所生成的语料。
在一实施方式中,所述相似度计算模块604,用于基于以下余弦相似度公式计算事件之间的相似度:
Sim(e1,e2)=cos(embedding(e1),embedding(e2))
其中,Sim(e1,e2)代表事件e1和事件e2之间的相似度,embedding(e1)代表事件e1的嵌入表示,embedding(e2)代表事件e2的嵌入表示。
在一实施方式中,所述相似度计算模块604,还用于:将所述事件之间的相似度与阈值进行比较,确定所述事件是否相似;其中,所述阈值采用枚举的方式获得。
本领域技术人员应当理解,图6所示的神经网络处理数据的装置中的各模块的实现功能可参照前述神经网络处理数据的方法的相关描述而理解。图6所示的神经网络处理数据的装置中的各模块的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (14)

1.一种融合知识的社交网络流式事件检测系统,其特征在于,所述方法包括:
从事件数据中提取多种类别的关键词,其中,所述多种类别的关键词以及所述事件本身构成异构网络中的节点,所述多种类别的关键词以及所述事件之间的联系构成异构网络的边;
从所述异构网络中选择多种元路径,将在异构网络中按照各种元路径进行随机游走得到路径作为语料;
将基础数据得到所述语料输入到轻量循环神经网络Streaming lightRNN中进行训练,得到事件的嵌入表示,以及Streaming lightRNN中行列的嵌入表示;对于流式事件中新增加的数据,单独获得所述流式事件的随机游走得到的语料,并输入至训练好的StreaminglightRNN中进行增量训练,得到所述新增加的数据的嵌入表示以及新的StreaminglightRNN行列的嵌入表示;
基于所述嵌入表示计算事件之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述从事件数据中提取多种类别的关键词,包括:
从事件数据中提取如下关键词:实体entity、词word、以及主题topic、元素element、用户user。
3.根据权利要求2所述的方法,其特征在于,根据所述异构网络,构建如下元路径:
event-entity-event;
event-word-event;
event-topic-event;
event-user-event;
event-entity-entity-event;
event-word-word-event;
event-topic-topic-event;
event-user-user-event;
event-entity-word-event;
event-word-topic-event;
event-entity-entity-entity-event;
event-word-word-word-event;
event-topic-topic-topic-event;
event-user-user-user-event;
event-entity-entity-word-event;
event-entity-word-entity-event;
event-word-word-entity-event;
event-word-word-topic-event;
event-word-topic-word-event;
event-topic-topic-word-event;
event-word-entity-word-event;
event-topic-word-topic-event。
4.根据权利要求1所述的方法,其特征在于,所述Streaming lightRNN采用单词之间共享行列嵌入表示,通过所述Streaming lightRNN对所述语料进行训练后,得到各个单词的行列嵌入表示;
其中,在得到各个单词的行列嵌入表示后,所述Streaming lightRNN能够使用最大流进行单词之间的位置变换。
5.根据权利要求1所述的方法,其特征在于,流式Streaming LightRNN训练的损失函数与静态Streaming LightRNN训练的损失函数不同。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于所述嵌入表示计算事件之间的相似度,包括:
基于以下余弦相似度公式计算事件之间的相似度:
Sim(e1,e2)=cos(embedding(e1),embedding(e2))
其中,Sim(e1,e2)代表事件e1和事件e2之间的相似度,embedding(e1)代表事件e1的嵌入表示,embedding(e2)代表事件e2的嵌入表示。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将所述事件之间的相似度与阈值进行比较,确定所述事件是否相似;其中,所述阈值采用枚举的方式获得。
8.一种神经网络处理数据的装置,其特征在于,所述装置包括:
关键词提取模块,用于从事件数据中提取多种类别的关键词,其中,所述多种类别的关键词以及所述事件本身构成异构网络中的节点,所述多种类别的关键词以及所述事件之间的联系构成异构网络的边;
语料生成模块,用于从所述异构网络中选择多种元路径,将在异构网络中按照各种元路径进行随机游走得到路径作为语料;
训练模块,用于将基础数据得到所述语料输入到轻量循环神经网络StreaminglightRNN中进行训练,得到事件的嵌入表示,以及Streaming lightRNN中行列的嵌入表示;对于流式事件中新增加的数据,单独获得所述流式事件的随机游走得到的语料,并输入至训练好的Streaming lightRNN中进行增量训练,得到所述新增加的数据的嵌入表示以及新的Streaming lightRNN行列的嵌入表示;
相似度计算模块,用于基于所述嵌入表示计算事件之间的相似度。
9.根据权利要求8所述的装置,其特征在于,所述关键词提取模块,用于从事件数据中提取如下关键词:entity、word、以及topic、element、user。
10.根据权利要求9所述的装置,其特征在于,所述异构网络中构建如下元路径:
event-entity-event;
event-word-event;
event-topic-event;
event-user-event;
event-entity-entity-event;
event-word-word-event;
event-topic-topic-event;
event-user-user-event;
event-entity-word-event;
event-word-topic-event;
event-entity-entity-entity-event;
event-word-word-word-event;
event-topic-topic-topic-event;
event-user-user-user-event;
event-entity-entity-word-event;
event-entity-word-entity-event;
event-word-word-entity-event;
event-word-word-topic-event;
event-word-topic-word-event;
event-topic-topic-word-event;
event-word-entity-word-event;
event-topic-word-topic-event。
11.根据权利要求8所述的装置,其特征在于,所述Streaming lightRNN采用单词之间共享行列嵌入表示,通过所述Streaming lightRNN对所述语料进行训练后,得到各个节点的行列嵌入表示;
其中,在得到各个节点的行列嵌入表示后,所述Streaming lightRNN能够使用最大流进行节点之间的位置变换。
12.根据权利要求8所述的装置,其特征在于,流式Streaming LightRNN训练的损失函数与静态Streaming LightRNN训练的损失函数不同。
13.根据权利要求8至12任一项所述的装置,其特征在于,所述相似度计算模块,用于基于以下余弦相似度公式计算事件之间的相似度:
Sim(e1,e2)=cos(embedding(e1),embedding(e2))
其中,Sim(e1,e2)代表事件e1和事件e2之间的相似度,embedding(e1)代表事件e1的嵌入表示,embedding(e2)代表事件e2的嵌入表示。
14.根据权利要求13所述的装置,其特征在于,所述相似度计算模块,还用于:将所述事件之间的相似度与阈值进行比较,确定所述事件是否相似;其中,所述阈值采用枚举的方式获得。
CN201910276919.6A 2019-04-08 2019-04-08 一种融合知识的社交网络流式事件检测系统 Active CN110020214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910276919.6A CN110020214B (zh) 2019-04-08 2019-04-08 一种融合知识的社交网络流式事件检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910276919.6A CN110020214B (zh) 2019-04-08 2019-04-08 一种融合知识的社交网络流式事件检测系统

Publications (2)

Publication Number Publication Date
CN110020214A true CN110020214A (zh) 2019-07-16
CN110020214B CN110020214B (zh) 2021-05-18

Family

ID=67190675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910276919.6A Active CN110020214B (zh) 2019-04-08 2019-04-08 一种融合知识的社交网络流式事件检测系统

Country Status (1)

Country Link
CN (1) CN110020214B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717042A (zh) * 2019-09-24 2020-01-21 北京工商大学 一种构建文档-关键词异构网络模型方法
CN111091005A (zh) * 2019-12-20 2020-05-01 北京邮电大学 一种基于元结构的无监督异质网络表示学习方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955535A (zh) * 2014-05-14 2014-07-30 南京大学镇江高新技术研究院 一种基于元路径的个性化推荐方法及系统
CN104765733A (zh) * 2014-01-02 2015-07-08 华为技术有限公司 一种社交网络事件分析的方法和装置
CN104850632A (zh) * 2015-05-22 2015-08-19 东北师范大学 一种通用的基于异构信息网络的相似度计算方法与系统
CN106407373A (zh) * 2016-09-12 2017-02-15 电子科技大学 一种异质网络社团结构以及基于该结构的社团发现方法
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
CN108322925A (zh) * 2018-01-29 2018-07-24 东北大学 超密度异构融合网络中区分业务类型的传输路径计算方法
WO2018148493A1 (en) * 2017-02-09 2018-08-16 Painted Dog, Inc. Methods and apparatus for detecting, filtering, and identifying objects in streaming video
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
EP3407288A1 (en) * 2017-05-22 2018-11-28 Fujitsu Limited Apparatus and method for generation of a financial event database
CN109145114A (zh) * 2018-08-29 2019-01-04 电子科技大学 基于Kleinberg在线状态机的社交网络事件检测方法
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765733A (zh) * 2014-01-02 2015-07-08 华为技术有限公司 一种社交网络事件分析的方法和装置
CN103955535A (zh) * 2014-05-14 2014-07-30 南京大学镇江高新技术研究院 一种基于元路径的个性化推荐方法及系统
CN104850632A (zh) * 2015-05-22 2015-08-19 东北师范大学 一种通用的基于异构信息网络的相似度计算方法与系统
CN106407373A (zh) * 2016-09-12 2017-02-15 电子科技大学 一种异质网络社团结构以及基于该结构的社团发现方法
WO2018148493A1 (en) * 2017-02-09 2018-08-16 Painted Dog, Inc. Methods and apparatus for detecting, filtering, and identifying objects in streaming video
EP3407288A1 (en) * 2017-05-22 2018-11-28 Fujitsu Limited Apparatus and method for generation of a financial event database
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
CN108322925A (zh) * 2018-01-29 2018-07-24 东北大学 超密度异构融合网络中区分业务类型的传输路径计算方法
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
CN109145114A (zh) * 2018-08-29 2019-01-04 电子科技大学 基于Kleinberg在线状态机的社交网络事件检测方法
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CHARU C. AGGARWAL 等: "Event Detection in Social Streams", 《PROCEEDINGS OF THE 2012 SIAM INTERNATIONAL CONTERENCE ON DATA MINING》 *
CHRISTOPHER C. YANG 等: "Determining Associations with Word Embedding in Heterogeneous Network for Detecting Off-label Drug Uses", 《2017 IEEE INTERNATIONAL CONFERENCE ON HEALTHCARE INFORMATICS》 *
LV, FANG 等: "Detecting Fraudulent Bank Account Based on Convolutional Neural Network with Heterogeneous Data", 《MATHEMATICAL PROBLEMS IN ENGINEERING》 *
TIAN LAN 等: "Mining Semantic Variation in Time Series for Rumor Detection via Recurrent Neural Networks", 《2018 IEEE 20TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS; IEEE 16TH INTERNATIONAL CONFERENCE ON SMART CITY; IEEE 4TH INTL. CONFERENCE ON DATA SCIENCE AND SYSTEMS》 *
XIANG LI 等: "LightRNN: Memory and Computation-Efficient Recurrent Neural Networks", 《30TH CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *
何奕江: "社交网络跨媒体国民安全事件语义学习与行为分析研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
田野: "基于社会化媒体的话题检测与传播关键问题研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717042A (zh) * 2019-09-24 2020-01-21 北京工商大学 一种构建文档-关键词异构网络模型方法
CN111091005A (zh) * 2019-12-20 2020-05-01 北京邮电大学 一种基于元结构的无监督异质网络表示学习方法
CN111091005B (zh) * 2019-12-20 2022-05-13 北京邮电大学 一种基于元结构的无监督异质网络表示学习方法

Also Published As

Publication number Publication date
CN110020214B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
Heidari et al. Using transfer learning approach to implement convolutional neural network model to recommend airline tickets by using online reviews
Coelho et al. Building machine learning systems with Python
US11288590B2 (en) Automatic generation of training sets using subject matter experts on social media
Aletras et al. Measuring the similarity between automatically generated topics
CN108073568A (zh) 关键词提取方法和装置
CN108701125A (zh) 用于建议表情符号的系统和方法
Khan et al. Sentiment classification using sentence-level lexical based
Joho et al. Overview of NTCIR-11 Temporal Information Access (Temporalia) Task.
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
Li et al. Where you instagram? associating your instagram photos with points of interest
CN110362663A (zh) 自适应多感知相似度检测和解析
Karkera Building probabilistic graphical models with Python
Höpken et al. Sensing the online social sphere using a sentiment analytical approach
CN112805715A (zh) 识别实体属性关系
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
CN110020214A (zh) 一种融合知识的社交网络流式事件检测系统
Wei et al. Using network flows to identify users sharing extremist content on social media
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN106446696B (zh) 一种信息处理方法及电子设备
Tarwani et al. Survey of Cyberbulling Detection on Social Media Big-Data.
Voronov et al. Forecasting popularity of news article by title analyzing with BN-LSTM network
Fischer et al. Timely semantics: a study of a stream-based ranking system for entity relationships
Brefeld et al. Document assignment in multi-site search engines
Elbaghazaoui et al. Optimized influencers profiling from social media based on Machine Learning
Abdel-Latif et al. A supervised learning approach using the combination of semantic and lexical features for Arabic community question answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant