CN114861004A - 一种社交事件检测方法、装置及系统 - Google Patents

一种社交事件检测方法、装置及系统 Download PDF

Info

Publication number
CN114861004A
CN114861004A CN202210448703.5A CN202210448703A CN114861004A CN 114861004 A CN114861004 A CN 114861004A CN 202210448703 A CN202210448703 A CN 202210448703A CN 114861004 A CN114861004 A CN 114861004A
Authority
CN
China
Prior art keywords
preset
model
event detection
meta
social event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210448703.5A
Other languages
English (en)
Inventor
王晔
廖清
黄裕涛
高翠芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202210448703.5A priority Critical patent/CN114861004A/zh
Publication of CN114861004A publication Critical patent/CN114861004A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社交事件检测方法、装置、系统及计算机可读存储介质。该社交事件检测装置包括信息构建单元、模型输出单元以及事件检测单元。该社交事件检测系统包括事件检测模块以及数据存储模块。该存储介质存储计算机可读程序代码,当所述计算机可读程序代码被执行时实现如前所述的一种社交事件检测方法的步骤。通过根据信息数据流构建异构图,利用包括预设的节点聚合策略模型以及元路径聚合策略模型的检测神经网络模型对所述异构图进行聚合输出,并以预设的聚类方法对输出结果进行聚类以获取社交事件检测结果,该社交事件检测方法、装置、系统及计算机可读存储介质提升了语义信息的挖掘充分性。

Description

一种社交事件检测方法、装置及系统
技术领域
本发明涉及社交事件检测领域,涉及一种社交事件检测方法、装置、系统及计算机可读存储介质。
背景技术
随着互联网的快速发展,人们获取、传播信息的方式发生了革命性的变化。尤其是在线社交网络(即社交网络服务,Social Network Service SNS)的出现,改变了传统的信息扩散方式,社交网络已逐渐成为主流的信息发布和传播平台。从最早的电子邮件、BBS、即时通讯、博客到现在的移动社交网络,用户不仅仅是信息的消费者,也是信息的生产者和传播者。庞大社交网络传播的事件信息也引起了计算机学者的广泛关注。在社交网络事件信息传播平台上,随着可记录下来的社交网络事件信息数据越来越多,蕴含的信息也越来越多。显然,针对社交事件的检测研究是十分重要的。
在现有技术中,通常基于异构信息网络进行社交事件检测,使用基于社交网络事件的异构信息网络(HIN)对社交媒体事件进行建模,整合来自外部知识库的信息。模型设计了一个新颖的基于社交事件元路径的方法KIES来度量社交网络中事件的语义相关性,然后基于KIES方法的构建出带权邻接矩阵的同构图,最终使用GCN得到社交网络中事件的嵌入表示。
但是,现有技术仍存在下述缺陷:忽略了异构信息网络中元数据路径提供的丰富语义信息;也没有充分考虑异构信息网络中各种类型节点的复杂相互作用。
因此,当前需要一种社交事件检测方法、装置、系统及计算机可读存储介质,从而克服现有技术中存在的上述问题。
发明内容
针对现存的上述技术问题,本发明的目的在于提供一种社交事件检测方法、装置、系统及计算机可读存储介质,从而提升了语义信息的挖掘充分性。
本发明提供了一种社交事件检测方法,所述社交事件检测方法包括:获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图;所述异质元素包括推文、单词、命名实体以及主题;将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组;所述检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型;根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
在一个实施例中,将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组,具体包括:根据预设的元路径自动生成算法获取多种元路径,根据所述多种元路径将所述异构图转化为同质网络;根据预设的节点聚合策略模型,对所述同质网络进行聚合学习以获得元路径语义信息集合;将所述元路径语义信息集合输入预设的元路径聚合策略模型,从而获得并输出检测向量组。
在一个实施例中,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图,具体包括:从所述信息数据流中选取推文、单词、命名实体以及主题;所述单词包括第一单词,所述命名实体包括第一命名实体;抓取各个推文中所包括的第一单词,并在所述推文和所述第一单词之间构建边;抓取各个推文中所包括的第一命名实体,并在所述推文和所述第一命名实体之间构建边;根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边;根据预设的主题算法以及所述推文,在各个推文以及相应的主题之间构建边;根据预设的主题模型算法以及所述推文,在各个推文以及主题模型算法抽取出相应的主题之间构建边。
在一个实施例中,所述节点聚合策略模型的公式为:
Figure BDA0003617770410000031
式中,
Figure BDA0003617770410000032
表示在元路径下p生成的消息节点信息mi初始嵌入向量。
在一个实施例中,所述元路径聚合策略模型的公式为:
Figure BDA0003617770410000033
式中,
Figure BDA0003617770410000034
表示节点mi的嵌入。
在一个实施例中,所述元路径聚合策略模型采用三元组损失函数。
在一个实施例中,所述社交事件检测方法还包括:根据预设的语义权重计算公式,计算各个消息对应的语义权重;以预设的筛选比例,根据各个消息的语义权重,对应筛选出若干个训练消息;根据所述训练消息,对预设的检测神经网络模型进行更新训练。
本发明还提供了一种社交事件检测装置,所述社交事件检测装置包括信息构建单元、模型输出单元以及事件检测单元,其中,所述信息构建单元用于获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图;所述异质元素包括推文、单词、命名实体以及主题;所述模型输出单元用于将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组;所述检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型;所述事件检测单元用于根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
在一个实施例中,所述社交事件检测装置还包括更新训练单元,所述更新训练单元用于:根据预设的语义权重计算公式,计算各个消息对应的语义权重;以预设的筛选比例,根据各个消息的语义权重,对应筛选出若干个训练消息;根据所述训练消息,对预设的检测神经网络模型进行更新训练。
在一个实施例中,所述模型输出单元还用于:根据预设的元路径自动生成算法获取多种元路径,根据所述多种元路径将所述异构图转化为同质网络;根据预设的节点聚合策略模型,对所述同质网络进行聚合学习以获得元路径语义信息集合;将所述元路径语义信息集合输入预设的元路径聚合策略模型,从而获得并输出检测向量组。
在一个实施例中,所述信息构建单元还用于:从所述信息数据流中选取推文、单词、命名实体以及主题;所述单词包括第一单词,所述命名实体包括第一命名实体;抓取各个推文中所包括的第一单词,并在所述推文和所述第一单词之间构建边;抓取各个推文中所包括的第一命名实体,并在所述推文和所述第一命名实体之间构建边;根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边;根据预设的主题算法以及所述推文,在各个推文以及相应的主题之间构建边;根据预设的主题模型算法以及所述推文,在各个推文以及主题模型算法抽取出相应的主题之间构建边。
本发明还提供了一种社交事件检测的计算机可读存储介质,所述存储介质存储计算机可读程序代码,当所述计算机可读程序代码被执行时实现如前所述的一种社交事件检测方法的步骤。
本发明还提供了一种社交事件检测系统,所述社交事件检测系统包括事件检测模块以及数据存储模块,所述事件检测模块与所述数据存储模块通信连接,所述数据存储模块用于存储所有数据,所述事件检测模块用于执行如前所述的社交事件检测方法。
相比于现有技术,本发明实施例具有如下有益效果:
本发明提供了一种社交事件检测方法、装置、系统及计算机可读存储介质,通过根据信息数据流构建异构图,利用包括预设的节点聚合策略模型以及元路径聚合策略模型的检测神经网络模型对所述异构图进行聚合输出,并以预设的聚类方法对输出结果进行聚类以获取社交事件检测结果,该社交事件检测方法、装置、系统及计算机可读存储介质提升了语义信息的挖掘充分性。
进一步地,本发明提供的一种社交事件检测方法、装置、系统及计算机可读存储介质还通过计算消息块中各个消息的语义权重,并根据语义权重筛选出的训练消息,对检测神经网络模型进行更新训练,从而提升了社交事件检测的持续可靠性。
附图说明
下文将结合说明书附图对本发明进行进一步的描述说明,其中:
图1示出了根据本发明的一种社交事件检测方法的一个实施例的流程图;
图2示出了根据本发明的一种社交事件检测装置的一个实施例的结构图;
图3示出了根据本发明的一种社交事件检测系统的一个实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
具体实施例一
本发明实施例首先描述了一种社交事件检测方法。图1示出了根据本发明的一种社交事件检测方法的一个实施例的流程图。
如图1所示,该社交事件检测方法包括如下步骤:
S1:获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图。
所述异质元素包括推文、单词、命名实体以及主题;其中,单词是通过对消息文本的分词处理获得的,命名实体是使用开源的自然语言处理工具Spacy等抽取的,主题是通过LDA主题模型对消息文本集合生成的。信息数据流包括多个消息。
在一个实施例中,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图,具体包括:从所述信息数据流中选取推文、单词、命名实体以及主题;抓取各个推文中所包括的第一单词,并在所述推文和所述第一单词之间构建边;抓取各个推文中所包括的第一命名实体,并在所述推文和所述第一命名实体之间构建边;根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边;根据预设的主题算法以及所述推文,在各个推文以及相应的主题之间构建边;根据预设的主题模型算法以及所述推文,在各个推文以及主题模型算法抽取出相应的主题之间构建边。其中,所述单词包括第一单词,所述命名实体包括第一命名实体。
在一个实施例中,根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边,具体包括:根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据预先设置的余弦相似度阈值,在余弦相似度大于阈值的相应的两个单词之间构建边。
S2:将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组。
所述检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型。
在一个实施例中,将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组,具体包括:根据预设的元路径自动生成算法获取多种元路径,根据所述多种元路径将所述异构图转化为同质网络;根据预设的节点聚合策略模型,对所述同质网络进行聚合学习以获得元路径语义信息集合;将所述元路径语义信息集合输入预设的元路径聚合策略模型,从而获得并输出检测向量组。
作为语义挖掘的有效工具,元路径(meta-path)可以规范对象的连接序列并捕获目标语义,已被广泛应用于异构网络分析中的各种数据挖掘问题。通过设计不同的元路径,可以将上一节中构造的异构图转换为同构图。这样做的目的不仅是考虑HIN的异质性,还可以将HIN转换为每个元路径提供的不同语义信息,还可以过滤掉异构信息网络中非消息节点的干扰。
因此,对于上一部分设计的异构信息网络,本发明实例采用广度优先搜索算法在其网络模式上进行元路径的选择。首先确定元路径最大长度限制L和首尾类型节点M,利用队列存储算法过程中的子元路径。根据网络模式,可以不停地拓展队列当中的子元路径。如果子元路径符合条件则将其加入结果集当中,不符合条件则舍弃。
本发明实施例设计元路径长度为5,首尾的节点类型为M,根据算法可得如下元路径来表示多种语义含义:推文(Message)-单词(Word)-推文(Message);推文(Message)-实体(Entity)-推文(Message);推文(Message)-用户(User)-推文(Message);推文(Message)-主题(Topic)-推文(Message);推文(Message)-主题(Topic)-单词(Word)推文(Message);推文(Message)-单词(Word)-单词(Word)-推文(Message);推文(Message)-单词(Word)-单词(Word)-单词(Word)-推文(Message);推文(Message)-单词(Word)-主题(Topic)-单词(Word)-推文(Message);推文(Message)-主题(Topic)-单词(Word)-主题(Topic)-推文(Message)。
将异构图转换为同质网络的具体转换方法如下:对于任何元路径p,将AK定义为异质信息网络中的异构元素,从而将元路径对应的邻接矩阵Wp定义为:
Figure BDA0003617770410000071
其中,
Figure BDA0003617770410000072
表示在元路径p上的类型和类型之间的相邻矩阵。
例如,对于上面设计元路径推文-单词-单词-推文,那么对于P3这条元路径,计算得到在这条元路径下推文之间的邻接矩阵
Figure BDA0003617770410000081
在一个实施例中,所述节点聚合策略模型的公式为:
Figure BDA0003617770410000082
式中,
Figure BDA0003617770410000083
表示在元路径下p生成的消息节点信息mi初始嵌入向量。
Figure BDA0003617770410000084
是一个线性变化,将作用于每一个message节点,目的是将信息初始化节点向量投影到高维线性空间。其中σ表示激活函数,||表示两个向量的拼接运算,而a是节点级别的注意力向量。通过SoftMax归一化后,将得到的节点mj相对于节点mi的注意力权重
Figure BDA0003617770410000085
由此可以推广到所有信息节点,计算它们之间的节点级别的注意力权重。消息节点的初始化嵌入由预训练好的词嵌入模型对消息中的每一个单词进行池化得到。
最终通过节点mi的相邻节点mj∈Ni与节点mj相对于节点mi的注意力权重
Figure BDA0003617770410000086
的乘积计算节点mi的嵌入
Figure BDA0003617770410000087
其中,该嵌入的具体计算公式如下:
Figure BDA0003617770410000088
为了稳定节点级聚合的学习过程,本发明实施例还引入了多头注意力机制。
Figure BDA0003617770410000089
表示是K个独立的嵌入计算,最后拼接为一个检测向量组,作为一个集成的作用,防止过拟合。
在经过节点级别的聚合信息阶段后,即得到了不同元路径下的推文节点语义嵌入,随后,为了充分挖掘语义信息,本发明实施例使用了一种新颖的语义级注意力来自动学习不同元路径的重要性(语义权重)并将它们融合到社交事件检测任务中。其中,每个元路径的语义权重
Figure BDA0003617770410000097
可以如下所示:
Figure BDA0003617770410000091
这里aggmetapath表示执行元路径级别注意力的深度神经网络,它的物理意义是计算异构信息网络当中各种类型的元路径语义信息的重要程度。
为了衡量每个元路径的重要性,本发明实施例首先通过单层MLP转换元路径pi下的消息嵌入;随后,使用转换后的嵌入来乘以元路径级别的注意向量q;然后计算元路径的重要性(表示为
Figure BDA0003617770410000092
),其具体公式如下:
Figure BDA0003617770410000093
式中,W是权重矩阵,b是偏置向量,q是语义级别的注意力向量。在获得每个元路径的重要性后,通过SoftMax函数对它们进行归一化。元路径的权重分数,可以通过使用SoftMax函数对所有元路径的上述重要性进行归一化来获得,归一化公式具体如下:
Figure BDA0003617770410000094
显然,ζpi越高,元路径pi就越重要。将学习到的权重分数作为系数,可以融合之前经过节点级别的聚合策略学习到的message节点嵌入以获得最终的嵌入
Figure BDA0003617770410000095
即,在一个实施例中,所述最终嵌入的计算公式为:
Figure BDA0003617770410000096
式中,ζpi为语义权重。
最后需要考虑的是损失函数的设计。随着社交事件源源不断地到达,可能会出现模型之前未发现的新事件。交叉熵损失函数虽然被各种GNN广泛采用,但是在社交事件检测任务上却不再适用。因此,本发明实施例考虑构建了一个对比三元组损失函数,使模型可以能够在社交事件类别总数未知的情况下区分出社交事件。对于每条社交事件mi(称为锚社交事件),本发明实施例采样一个正样本社交事件mi+(即来自同一类的消息)和一个负样本社交事件mi-(即一条社交事件来自不同的事件类别)形成三元组(mi,mi+,mi-)。三元组损失函数将正样本社交事件推近锚社交事件,将负样本社交事件推离锚社交事件,具体形式化为:
Figure BDA0003617770410000101
这里的
Figure BDA0003617770410000102
计算两个向量之间的欧几里德距离。a∈R是一个超参数,它控制着负样本应该与正样本相距多远,T表示的是一组以在线方式采样的三元组。通过对比三元组损失函数,可以解决在动态的社交事件流检测中会出现从未发现的新事件种类问题,即社交事件类别总数未知难题。
在一个实施例中,所述元路径聚合策略模型采用三元组损失函数。
S3:根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
在获得所述检测向量组后,即可通过预设的聚类方法进行聚类,从而输出社交事件检测结果。在一个实施例中,预设的聚类方法为K-means算法。
在社交事件数据流场景下,单词与实体的语义信息是与时俱进的且动态变化的,如果匮乏一定的反馈与纠正机制,则会导致模型稳定性与可靠性下降。
对此,本发明实施例设计了一种基于消息语义权重的持续检测框架,能够连续检测即将到来的消息,并定期进行模型的微调以保证模型的先进性。框架采用基于时间窗口的方法对社交消息数据流进行分段,例如,以一天为窗口的大小,每天进行一次社交事件检测,检测之后选择一定的消息进行模型的微调更新。社交事件数据流规模随着时间的增加,也引入了很多噪音消息,由此提出了基于消息语义权重来过滤掉不必要的噪音消息,只保留有意义的消息来参与后续的社交事件检测过程中的模型微调。具体地,消息节点mj的语义权重计算公式如下:
Figure BDA0003617770410000111
其中,ζpi是上述提到的元路径pi的语义权重,
Figure BDA0003617770410000112
表示在元路径pi转换的同构图下节点mj的度数。
为了仅保留重要信息,将根据语义权重保留一定百分比的消息Δ=60%,语义权重排名较低的消息将被忽略,并且不会参与后续模型的训练。
在一个实施例中,所述社交事件检测方法还包括:根据预设的语义权重计算公式,计算消息块中各个消息对应的语义权重;以预设的筛选比例,根据各个消息的语义权重,对应筛选出若干个训练消息;根据所述训练消息,对预设的检测神经网络模型进行更新训练。
本发明实施例描述了一种社交事件检测方法,通过根据信息数据流构建异构图,利用包括预设的节点聚合策略模型以及元路径聚合策略模型的检测神经网络模型对所述异构图进行聚合输出,并以预设的聚类方法对输出结果进行聚类以获取社交事件检测结果,该社交事件检测方法提升了语义信息的挖掘充分性;进一步地,本发明实施例描述的一种社交事件检测方法还通过计算各个消息的语义权重,并根据语义权重筛选出的训练消息,对检测神经网络模型进行更新训练,从而提升了社交事件检测的持续可靠性。
具体实施例二
除上述方法外,本发明实施例还描述了一种社交事件检测装置。图2示出了根据本发明的一种社交事件检测装置的一个实施例的结构图。
如图所示,该所述社交事件检测装置包括信息构建单元11、模型输出单元12以及事件检测单元13。
其中,信息构建单元11用于获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图;所述异质元素包括推文、单词、命名实体以及主题。
在一个实施例中,所述信息构建单元11还用于:从所述信息数据流中选取推文、单词、命名实体以及主题;抓取各个推文中所包括的第一单词,并在所述推文和所述第一单词之间构建边;抓取各个推文中所包括的第一命名实体,并在所述推文和所述第一命名实体之间构建边;根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边;根据预设的主题算法以及所述推文,在各个推文以及相应的主题之间构建边;根据预设的主题模型算法以及所述推文,在各个推文以及主题模型算法抽取出相应的主题之间构建边。其中,所述单词包括第一单词,所述命名实体包括第一命名实体。对每一个主题与其下的高频单词构建边
模型输出单元12用于将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组。检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型。
在一个实施例中,所述模型输出单元12还用于:根据预设的多种元路径,将所述异构图转化为同质网络;根据预设的节点聚合策略模型,对所述同质网络进行聚合学习以获得元路径语义信息集合;将所述元路径语义信息集合输入预设的元路径聚合策略模型,从而获得并输出检测向量组。
事件检测单元13用于根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
在一个实施例中,所述社交事件检测装置还包括更新训练单元,所述更新训练单元用于:根据预设的语义权重计算公式,计算消息块中各个消息对应的语义权重;以预设的筛选比例,根据各个消息的语义权重,对应筛选出若干个训练消息;根据所述训练消息,对预设的检测神经网络模型进行更新训练。
其中,所述社交事件检测装置集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例描述了一种社交事件检测装置及计算机可读存储介质,通过根据信息数据流构建异构图,利用包括预设的节点聚合策略模型以及元路径聚合策略模型的检测神经网络模型对所述异构图进行聚合输出,并以预设的聚类方法对输出结果进行聚类以获取社交事件检测结果,该社交事件检测装置及计算机可读存储介质提升了语义信息的挖掘充分性;进一步地,本发明实施例描述的一种社交事件检测装置及计算机可读存储介质还通过计算各个消息块的语义权重,并根据语义权重筛选出的训练消息,对检测神经网络模型进行更新训练,从而提升了社交事件检测的持续可靠性。
具体实施例三
除上述方法和装置外,本发明还描述了一种社交事件检测系统。图3示出了根据本发明的一种社交事件检测系统的一个实施例的结构图。
如图所示,该社交事件检测系统包括事件检测模块1以及数据存储模块2,所述事件检测模块1与所述数据存储模块2通信连接,所述数据存储模块2用于存储所有数据,所述事件检测模块1用于执行如前所述的社交事件检测方法。
本发明实施例描述了一种社交事件检测系统,通过根据信息数据流构建异构图,利用包括预设的节点聚合策略模型以及元路径聚合策略模型的检测神经网络模型对所述异构图进行聚合输出,并以预设的聚类方法对输出结果进行聚类以获取社交事件检测结果,该社交事件检测系统提升了语义信息的挖掘充分性;进一步地,本发明实施例描述的一种社交事件检测系统还通过计算各个消息块的语义权重,并根据语义权重筛选出的训练消息,对检测神经网络模型进行更新训练,从而提升了社交事件检测的持续可靠性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种社交事件检测方法,其特征在于,所述社交事件检测方法包括:
获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图;所述异质元素包括推文、单词、命名实体以及主题;
将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组;所述检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型;
根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
2.根据权利要求1所述的社交事件检测方法,其特征在于,将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组,具体包括:
根据预设的元路径自动生成算法获取多种元路径,根据所述多种元路径将所述异构图转化为同质网络;
根据预设的节点聚合策略模型,对所述同质网络进行聚合学习以获得元路径语义信息集合;
将所述元路径语义信息集合输入预设的元路径聚合策略模型,从而获得并输出检测向量组。
3.根据权利要求1所述的社交事件检测方法,其特征在于,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图,具体包括:
从所述信息数据流中选取推文、单词、命名实体以及主题;所述单词包括第一单词,所述命名实体包括第一命名实体;
抓取各个推文中所包括的第一单词,并在所述推文和所述第一单词之间构建边;
抓取各个推文中所包括的第一命名实体,并在所述推文和所述第一命名实体之间构建边;
根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边;
根据预设的主题算法以及所述推文,在各个推文以及相应的主题之间构建边;
根据预设的主题模型算法以及所述推文,在各个推文以及主题模型算法抽取出相应的主题之间构建边。
4.根据权利要求2所述的社交事件检测方法,其特征在于,所述节点聚合策略模型的公式为:
Figure FDA0003617770400000021
式中,
Figure FDA0003617770400000022
表示在元路径下p生成的消息节点信息mi初始嵌入向量。
5.根据权利要求2所述的社交事件检测方法,其特征在于,所述元路径聚合策略模型的公式为:
Figure FDA0003617770400000023
式中,
Figure FDA0003617770400000024
表示节点mi的嵌入。
6.根据权利要求5所述的社交事件检测方法,其特征在于,所述元路径聚合策略模型采用三元组损失函数。
7.根据权利要求1-6任一项所述的社交事件检测方法,其特征在于,所述社交事件检测方法还包括:
根据预设的语义权重计算公式,计算各个消息对应的语义权重;
以预设的筛选比例,根据各个消息的语义权重,对应筛选出若干个训练消息;
根据所述训练消息,对预设的检测神经网络模型进行更新训练。
8.一种社交事件检测装置,其特征在于,所述社交事件检测装置包括信息构建单元、模型输出单元以及事件检测单元,其中,
所述信息构建单元用于获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图;所述异质元素包括推文、单词、命名实体以及主题;
所述模型输出单元用于将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组;所述检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型;
所述事件检测单元用于根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
9.一种社交事件检测系统,其特征在于,所述社交事件检测系统包括事件检测模块以及数据存储模块,所述事件检测模块与所述数据存储模块通信连接,所述数据存储模块用于存储所有数据,所述事件检测模块用于执行如权利要求1-7任一项所述的社交事件检测方法。
10.一种社交事件检测的计算机可读存储介质,其特征在于,所述存储介质存储计算机可读程序代码,当所述计算机可读程序代码被执行时实现权利要求1至7中任一项所述的一种社交事件检测方法的步骤。
CN202210448703.5A 2022-04-27 2022-04-27 一种社交事件检测方法、装置及系统 Pending CN114861004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210448703.5A CN114861004A (zh) 2022-04-27 2022-04-27 一种社交事件检测方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210448703.5A CN114861004A (zh) 2022-04-27 2022-04-27 一种社交事件检测方法、装置及系统

Publications (1)

Publication Number Publication Date
CN114861004A true CN114861004A (zh) 2022-08-05

Family

ID=82632787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210448703.5A Pending CN114861004A (zh) 2022-04-27 2022-04-27 一种社交事件检测方法、装置及系统

Country Status (1)

Country Link
CN (1) CN114861004A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117670571A (zh) * 2024-01-30 2024-03-08 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117670571A (zh) * 2024-01-30 2024-03-08 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法
CN117670571B (zh) * 2024-01-30 2024-04-19 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法

Similar Documents

Publication Publication Date Title
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
JP5454357B2 (ja) 情報処理装置および方法、並びに、プログラム
TW202139045A (zh) 基於隱私保護確定目標業務模型的方法及裝置
CN108549647B (zh) 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
CN107679228A (zh) 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法
CN116304063B (zh) 一种简单的情感知识增强提示调优的方面级情感分类方法
CN115577316A (zh) 一种基于多模态数据融合的用户人格预测方法与应用
Dai et al. ICS-SVM: A user retweet prediction method for hot topics based on improved SVM
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
CN114861004A (zh) 一种社交事件检测方法、装置及系统
Cao et al. Deep multi-task learning model for time series prediction in wireless communication
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN114842247B (zh) 基于特征累加的图卷积网络半监督节点分类方法
CN115510326A (zh) 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法
Murthy et al. TwitSenti: a real-time Twitter sentiment analysis and visualization framework
CN113157993A (zh) 一种基于时序图极化分析的网络水军行为预警模型
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质
Roller et al. An adaptive computational network model for multi-emotional social interaction
CN112507185A (zh) 用户肖像的确定方法和装置
CN112632229A (zh) 文本聚类方法及装置
Mahalakshmi et al. Twitter sentiment analysis using conditional generative adversarial network
CN113505154B (zh) 一种基于大数据的数字阅读统计分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination