CN114861004A - 一种社交事件检测方法、装置及系统 - Google Patents
一种社交事件检测方法、装置及系统 Download PDFInfo
- Publication number
- CN114861004A CN114861004A CN202210448703.5A CN202210448703A CN114861004A CN 114861004 A CN114861004 A CN 114861004A CN 202210448703 A CN202210448703 A CN 202210448703A CN 114861004 A CN114861004 A CN 114861004A
- Authority
- CN
- China
- Prior art keywords
- preset
- model
- event detection
- meta
- social event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 128
- 230000002776 aggregation Effects 0.000 claims abstract description 52
- 238000004220 aggregation Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000003062 neural network model Methods 0.000 claims abstract description 29
- 230000002159 abnormal effect Effects 0.000 claims abstract description 10
- 238000013500 data storage Methods 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 5
- 238000005065 mining Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种社交事件检测方法、装置、系统及计算机可读存储介质。该社交事件检测装置包括信息构建单元、模型输出单元以及事件检测单元。该社交事件检测系统包括事件检测模块以及数据存储模块。该存储介质存储计算机可读程序代码,当所述计算机可读程序代码被执行时实现如前所述的一种社交事件检测方法的步骤。通过根据信息数据流构建异构图,利用包括预设的节点聚合策略模型以及元路径聚合策略模型的检测神经网络模型对所述异构图进行聚合输出,并以预设的聚类方法对输出结果进行聚类以获取社交事件检测结果,该社交事件检测方法、装置、系统及计算机可读存储介质提升了语义信息的挖掘充分性。
Description
技术领域
本发明涉及社交事件检测领域,涉及一种社交事件检测方法、装置、系统及计算机可读存储介质。
背景技术
随着互联网的快速发展,人们获取、传播信息的方式发生了革命性的变化。尤其是在线社交网络(即社交网络服务,Social Network Service SNS)的出现,改变了传统的信息扩散方式,社交网络已逐渐成为主流的信息发布和传播平台。从最早的电子邮件、BBS、即时通讯、博客到现在的移动社交网络,用户不仅仅是信息的消费者,也是信息的生产者和传播者。庞大社交网络传播的事件信息也引起了计算机学者的广泛关注。在社交网络事件信息传播平台上,随着可记录下来的社交网络事件信息数据越来越多,蕴含的信息也越来越多。显然,针对社交事件的检测研究是十分重要的。
在现有技术中,通常基于异构信息网络进行社交事件检测,使用基于社交网络事件的异构信息网络(HIN)对社交媒体事件进行建模,整合来自外部知识库的信息。模型设计了一个新颖的基于社交事件元路径的方法KIES来度量社交网络中事件的语义相关性,然后基于KIES方法的构建出带权邻接矩阵的同构图,最终使用GCN得到社交网络中事件的嵌入表示。
但是,现有技术仍存在下述缺陷:忽略了异构信息网络中元数据路径提供的丰富语义信息;也没有充分考虑异构信息网络中各种类型节点的复杂相互作用。
因此,当前需要一种社交事件检测方法、装置、系统及计算机可读存储介质,从而克服现有技术中存在的上述问题。
发明内容
针对现存的上述技术问题,本发明的目的在于提供一种社交事件检测方法、装置、系统及计算机可读存储介质,从而提升了语义信息的挖掘充分性。
本发明提供了一种社交事件检测方法,所述社交事件检测方法包括:获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图;所述异质元素包括推文、单词、命名实体以及主题;将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组;所述检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型;根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
在一个实施例中,将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组,具体包括:根据预设的元路径自动生成算法获取多种元路径,根据所述多种元路径将所述异构图转化为同质网络;根据预设的节点聚合策略模型,对所述同质网络进行聚合学习以获得元路径语义信息集合;将所述元路径语义信息集合输入预设的元路径聚合策略模型,从而获得并输出检测向量组。
在一个实施例中,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图,具体包括:从所述信息数据流中选取推文、单词、命名实体以及主题;所述单词包括第一单词,所述命名实体包括第一命名实体;抓取各个推文中所包括的第一单词,并在所述推文和所述第一单词之间构建边;抓取各个推文中所包括的第一命名实体,并在所述推文和所述第一命名实体之间构建边;根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边;根据预设的主题算法以及所述推文,在各个推文以及相应的主题之间构建边;根据预设的主题模型算法以及所述推文,在各个推文以及主题模型算法抽取出相应的主题之间构建边。
在一个实施例中,所述元路径聚合策略模型采用三元组损失函数。
在一个实施例中,所述社交事件检测方法还包括:根据预设的语义权重计算公式,计算各个消息对应的语义权重;以预设的筛选比例,根据各个消息的语义权重,对应筛选出若干个训练消息;根据所述训练消息,对预设的检测神经网络模型进行更新训练。
本发明还提供了一种社交事件检测装置,所述社交事件检测装置包括信息构建单元、模型输出单元以及事件检测单元,其中,所述信息构建单元用于获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图;所述异质元素包括推文、单词、命名实体以及主题;所述模型输出单元用于将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组;所述检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型;所述事件检测单元用于根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
在一个实施例中,所述社交事件检测装置还包括更新训练单元,所述更新训练单元用于:根据预设的语义权重计算公式,计算各个消息对应的语义权重;以预设的筛选比例,根据各个消息的语义权重,对应筛选出若干个训练消息;根据所述训练消息,对预设的检测神经网络模型进行更新训练。
在一个实施例中,所述模型输出单元还用于:根据预设的元路径自动生成算法获取多种元路径,根据所述多种元路径将所述异构图转化为同质网络;根据预设的节点聚合策略模型,对所述同质网络进行聚合学习以获得元路径语义信息集合;将所述元路径语义信息集合输入预设的元路径聚合策略模型,从而获得并输出检测向量组。
在一个实施例中,所述信息构建单元还用于:从所述信息数据流中选取推文、单词、命名实体以及主题;所述单词包括第一单词,所述命名实体包括第一命名实体;抓取各个推文中所包括的第一单词,并在所述推文和所述第一单词之间构建边;抓取各个推文中所包括的第一命名实体,并在所述推文和所述第一命名实体之间构建边;根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边;根据预设的主题算法以及所述推文,在各个推文以及相应的主题之间构建边;根据预设的主题模型算法以及所述推文,在各个推文以及主题模型算法抽取出相应的主题之间构建边。
本发明还提供了一种社交事件检测的计算机可读存储介质,所述存储介质存储计算机可读程序代码,当所述计算机可读程序代码被执行时实现如前所述的一种社交事件检测方法的步骤。
本发明还提供了一种社交事件检测系统,所述社交事件检测系统包括事件检测模块以及数据存储模块,所述事件检测模块与所述数据存储模块通信连接,所述数据存储模块用于存储所有数据,所述事件检测模块用于执行如前所述的社交事件检测方法。
相比于现有技术,本发明实施例具有如下有益效果:
本发明提供了一种社交事件检测方法、装置、系统及计算机可读存储介质,通过根据信息数据流构建异构图,利用包括预设的节点聚合策略模型以及元路径聚合策略模型的检测神经网络模型对所述异构图进行聚合输出,并以预设的聚类方法对输出结果进行聚类以获取社交事件检测结果,该社交事件检测方法、装置、系统及计算机可读存储介质提升了语义信息的挖掘充分性。
进一步地,本发明提供的一种社交事件检测方法、装置、系统及计算机可读存储介质还通过计算消息块中各个消息的语义权重,并根据语义权重筛选出的训练消息,对检测神经网络模型进行更新训练,从而提升了社交事件检测的持续可靠性。
附图说明
下文将结合说明书附图对本发明进行进一步的描述说明,其中:
图1示出了根据本发明的一种社交事件检测方法的一个实施例的流程图;
图2示出了根据本发明的一种社交事件检测装置的一个实施例的结构图;
图3示出了根据本发明的一种社交事件检测系统的一个实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
具体实施例一
本发明实施例首先描述了一种社交事件检测方法。图1示出了根据本发明的一种社交事件检测方法的一个实施例的流程图。
如图1所示,该社交事件检测方法包括如下步骤:
S1:获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图。
所述异质元素包括推文、单词、命名实体以及主题;其中,单词是通过对消息文本的分词处理获得的,命名实体是使用开源的自然语言处理工具Spacy等抽取的,主题是通过LDA主题模型对消息文本集合生成的。信息数据流包括多个消息。
在一个实施例中,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图,具体包括:从所述信息数据流中选取推文、单词、命名实体以及主题;抓取各个推文中所包括的第一单词,并在所述推文和所述第一单词之间构建边;抓取各个推文中所包括的第一命名实体,并在所述推文和所述第一命名实体之间构建边;根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边;根据预设的主题算法以及所述推文,在各个推文以及相应的主题之间构建边;根据预设的主题模型算法以及所述推文,在各个推文以及主题模型算法抽取出相应的主题之间构建边。其中,所述单词包括第一单词,所述命名实体包括第一命名实体。
在一个实施例中,根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边,具体包括:根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据预先设置的余弦相似度阈值,在余弦相似度大于阈值的相应的两个单词之间构建边。
S2:将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组。
所述检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型。
在一个实施例中,将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组,具体包括:根据预设的元路径自动生成算法获取多种元路径,根据所述多种元路径将所述异构图转化为同质网络;根据预设的节点聚合策略模型,对所述同质网络进行聚合学习以获得元路径语义信息集合;将所述元路径语义信息集合输入预设的元路径聚合策略模型,从而获得并输出检测向量组。
作为语义挖掘的有效工具,元路径(meta-path)可以规范对象的连接序列并捕获目标语义,已被广泛应用于异构网络分析中的各种数据挖掘问题。通过设计不同的元路径,可以将上一节中构造的异构图转换为同构图。这样做的目的不仅是考虑HIN的异质性,还可以将HIN转换为每个元路径提供的不同语义信息,还可以过滤掉异构信息网络中非消息节点的干扰。
因此,对于上一部分设计的异构信息网络,本发明实例采用广度优先搜索算法在其网络模式上进行元路径的选择。首先确定元路径最大长度限制L和首尾类型节点M,利用队列存储算法过程中的子元路径。根据网络模式,可以不停地拓展队列当中的子元路径。如果子元路径符合条件则将其加入结果集当中,不符合条件则舍弃。
本发明实施例设计元路径长度为5,首尾的节点类型为M,根据算法可得如下元路径来表示多种语义含义:推文(Message)-单词(Word)-推文(Message);推文(Message)-实体(Entity)-推文(Message);推文(Message)-用户(User)-推文(Message);推文(Message)-主题(Topic)-推文(Message);推文(Message)-主题(Topic)-单词(Word)推文(Message);推文(Message)-单词(Word)-单词(Word)-推文(Message);推文(Message)-单词(Word)-单词(Word)-单词(Word)-推文(Message);推文(Message)-单词(Word)-主题(Topic)-单词(Word)-推文(Message);推文(Message)-主题(Topic)-单词(Word)-主题(Topic)-推文(Message)。
将异构图转换为同质网络的具体转换方法如下:对于任何元路径p,将AK定义为异质信息网络中的异构元素,从而将元路径对应的邻接矩阵Wp定义为:
在一个实施例中,所述节点聚合策略模型的公式为:
式中,表示在元路径下p生成的消息节点信息mi初始嵌入向量。是一个线性变化,将作用于每一个message节点,目的是将信息初始化节点向量投影到高维线性空间。其中σ表示激活函数,||表示两个向量的拼接运算,而a是节点级别的注意力向量。通过SoftMax归一化后,将得到的节点mj相对于节点mi的注意力权重由此可以推广到所有信息节点,计算它们之间的节点级别的注意力权重。消息节点的初始化嵌入由预训练好的词嵌入模型对消息中的每一个单词进行池化得到。
其中,该嵌入的具体计算公式如下:
在经过节点级别的聚合信息阶段后,即得到了不同元路径下的推文节点语义嵌入,随后,为了充分挖掘语义信息,本发明实施例使用了一种新颖的语义级注意力来自动学习不同元路径的重要性(语义权重)并将它们融合到社交事件检测任务中。其中,每个元路径的语义权重可以如下所示:
这里aggmetapath表示执行元路径级别注意力的深度神经网络,它的物理意义是计算异构信息网络当中各种类型的元路径语义信息的重要程度。
式中,W是权重矩阵,b是偏置向量,q是语义级别的注意力向量。在获得每个元路径的重要性后,通过SoftMax函数对它们进行归一化。元路径的权重分数,可以通过使用SoftMax函数对所有元路径的上述重要性进行归一化来获得,归一化公式具体如下:
式中,ζpi为语义权重。
最后需要考虑的是损失函数的设计。随着社交事件源源不断地到达,可能会出现模型之前未发现的新事件。交叉熵损失函数虽然被各种GNN广泛采用,但是在社交事件检测任务上却不再适用。因此,本发明实施例考虑构建了一个对比三元组损失函数,使模型可以能够在社交事件类别总数未知的情况下区分出社交事件。对于每条社交事件mi(称为锚社交事件),本发明实施例采样一个正样本社交事件mi+(即来自同一类的消息)和一个负样本社交事件mi-(即一条社交事件来自不同的事件类别)形成三元组(mi,mi+,mi-)。三元组损失函数将正样本社交事件推近锚社交事件,将负样本社交事件推离锚社交事件,具体形式化为:
这里的计算两个向量之间的欧几里德距离。a∈R是一个超参数,它控制着负样本应该与正样本相距多远,T表示的是一组以在线方式采样的三元组。通过对比三元组损失函数,可以解决在动态的社交事件流检测中会出现从未发现的新事件种类问题,即社交事件类别总数未知难题。
在一个实施例中,所述元路径聚合策略模型采用三元组损失函数。
S3:根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
在获得所述检测向量组后,即可通过预设的聚类方法进行聚类,从而输出社交事件检测结果。在一个实施例中,预设的聚类方法为K-means算法。
在社交事件数据流场景下,单词与实体的语义信息是与时俱进的且动态变化的,如果匮乏一定的反馈与纠正机制,则会导致模型稳定性与可靠性下降。
对此,本发明实施例设计了一种基于消息语义权重的持续检测框架,能够连续检测即将到来的消息,并定期进行模型的微调以保证模型的先进性。框架采用基于时间窗口的方法对社交消息数据流进行分段,例如,以一天为窗口的大小,每天进行一次社交事件检测,检测之后选择一定的消息进行模型的微调更新。社交事件数据流规模随着时间的增加,也引入了很多噪音消息,由此提出了基于消息语义权重来过滤掉不必要的噪音消息,只保留有意义的消息来参与后续的社交事件检测过程中的模型微调。具体地,消息节点mj的语义权重计算公式如下:
为了仅保留重要信息,将根据语义权重保留一定百分比的消息Δ=60%,语义权重排名较低的消息将被忽略,并且不会参与后续模型的训练。
在一个实施例中,所述社交事件检测方法还包括:根据预设的语义权重计算公式,计算消息块中各个消息对应的语义权重;以预设的筛选比例,根据各个消息的语义权重,对应筛选出若干个训练消息;根据所述训练消息,对预设的检测神经网络模型进行更新训练。
本发明实施例描述了一种社交事件检测方法,通过根据信息数据流构建异构图,利用包括预设的节点聚合策略模型以及元路径聚合策略模型的检测神经网络模型对所述异构图进行聚合输出,并以预设的聚类方法对输出结果进行聚类以获取社交事件检测结果,该社交事件检测方法提升了语义信息的挖掘充分性;进一步地,本发明实施例描述的一种社交事件检测方法还通过计算各个消息的语义权重,并根据语义权重筛选出的训练消息,对检测神经网络模型进行更新训练,从而提升了社交事件检测的持续可靠性。
具体实施例二
除上述方法外,本发明实施例还描述了一种社交事件检测装置。图2示出了根据本发明的一种社交事件检测装置的一个实施例的结构图。
如图所示,该所述社交事件检测装置包括信息构建单元11、模型输出单元12以及事件检测单元13。
其中,信息构建单元11用于获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图;所述异质元素包括推文、单词、命名实体以及主题。
在一个实施例中,所述信息构建单元11还用于:从所述信息数据流中选取推文、单词、命名实体以及主题;抓取各个推文中所包括的第一单词,并在所述推文和所述第一单词之间构建边;抓取各个推文中所包括的第一命名实体,并在所述推文和所述第一命名实体之间构建边;根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边;根据预设的主题算法以及所述推文,在各个推文以及相应的主题之间构建边;根据预设的主题模型算法以及所述推文,在各个推文以及主题模型算法抽取出相应的主题之间构建边。其中,所述单词包括第一单词,所述命名实体包括第一命名实体。对每一个主题与其下的高频单词构建边
模型输出单元12用于将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组。检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型。
在一个实施例中,所述模型输出单元12还用于:根据预设的多种元路径,将所述异构图转化为同质网络;根据预设的节点聚合策略模型,对所述同质网络进行聚合学习以获得元路径语义信息集合;将所述元路径语义信息集合输入预设的元路径聚合策略模型,从而获得并输出检测向量组。
事件检测单元13用于根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
在一个实施例中,所述社交事件检测装置还包括更新训练单元,所述更新训练单元用于:根据预设的语义权重计算公式,计算消息块中各个消息对应的语义权重;以预设的筛选比例,根据各个消息的语义权重,对应筛选出若干个训练消息;根据所述训练消息,对预设的检测神经网络模型进行更新训练。
其中,所述社交事件检测装置集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例描述了一种社交事件检测装置及计算机可读存储介质,通过根据信息数据流构建异构图,利用包括预设的节点聚合策略模型以及元路径聚合策略模型的检测神经网络模型对所述异构图进行聚合输出,并以预设的聚类方法对输出结果进行聚类以获取社交事件检测结果,该社交事件检测装置及计算机可读存储介质提升了语义信息的挖掘充分性;进一步地,本发明实施例描述的一种社交事件检测装置及计算机可读存储介质还通过计算各个消息块的语义权重,并根据语义权重筛选出的训练消息,对检测神经网络模型进行更新训练,从而提升了社交事件检测的持续可靠性。
具体实施例三
除上述方法和装置外,本发明还描述了一种社交事件检测系统。图3示出了根据本发明的一种社交事件检测系统的一个实施例的结构图。
如图所示,该社交事件检测系统包括事件检测模块1以及数据存储模块2,所述事件检测模块1与所述数据存储模块2通信连接,所述数据存储模块2用于存储所有数据,所述事件检测模块1用于执行如前所述的社交事件检测方法。
本发明实施例描述了一种社交事件检测系统,通过根据信息数据流构建异构图,利用包括预设的节点聚合策略模型以及元路径聚合策略模型的检测神经网络模型对所述异构图进行聚合输出,并以预设的聚类方法对输出结果进行聚类以获取社交事件检测结果,该社交事件检测系统提升了语义信息的挖掘充分性;进一步地,本发明实施例描述的一种社交事件检测系统还通过计算各个消息块的语义权重,并根据语义权重筛选出的训练消息,对检测神经网络模型进行更新训练,从而提升了社交事件检测的持续可靠性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种社交事件检测方法,其特征在于,所述社交事件检测方法包括:
获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图;所述异质元素包括推文、单词、命名实体以及主题;
将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组;所述检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型;
根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
2.根据权利要求1所述的社交事件检测方法,其特征在于,将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组,具体包括:
根据预设的元路径自动生成算法获取多种元路径,根据所述多种元路径将所述异构图转化为同质网络;
根据预设的节点聚合策略模型,对所述同质网络进行聚合学习以获得元路径语义信息集合;
将所述元路径语义信息集合输入预设的元路径聚合策略模型,从而获得并输出检测向量组。
3.根据权利要求1所述的社交事件检测方法,其特征在于,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图,具体包括:
从所述信息数据流中选取推文、单词、命名实体以及主题;所述单词包括第一单词,所述命名实体包括第一命名实体;
抓取各个推文中所包括的第一单词,并在所述推文和所述第一单词之间构建边;
抓取各个推文中所包括的第一命名实体,并在所述推文和所述第一命名实体之间构建边;
根据预设的词嵌入模型,计算各个单词之间的余弦相似度,并根据各个余弦相似度,在相应的两个单词之间构建边;
根据预设的主题算法以及所述推文,在各个推文以及相应的主题之间构建边;
根据预设的主题模型算法以及所述推文,在各个推文以及主题模型算法抽取出相应的主题之间构建边。
6.根据权利要求5所述的社交事件检测方法,其特征在于,所述元路径聚合策略模型采用三元组损失函数。
7.根据权利要求1-6任一项所述的社交事件检测方法,其特征在于,所述社交事件检测方法还包括:
根据预设的语义权重计算公式,计算各个消息对应的语义权重;
以预设的筛选比例,根据各个消息的语义权重,对应筛选出若干个训练消息;
根据所述训练消息,对预设的检测神经网络模型进行更新训练。
8.一种社交事件检测装置,其特征在于,所述社交事件检测装置包括信息构建单元、模型输出单元以及事件检测单元,其中,
所述信息构建单元用于获取各个待检测的消息块中的信息数据流,从所述信息数据流中选取多种异质元素,并分别根据所述异质元素对应构建出异构图;所述异质元素包括推文、单词、命名实体以及主题;
所述模型输出单元用于将所述异构图输入预设的检测神经网络模型中,从而输出检测向量组;所述检测神经网络模型包括预设的节点聚合策略模型以及元路径聚合策略模型;
所述事件检测单元用于根据预设的聚类方法对所述检测向量组进行聚类,从而输出社交事件检测结果。
9.一种社交事件检测系统,其特征在于,所述社交事件检测系统包括事件检测模块以及数据存储模块,所述事件检测模块与所述数据存储模块通信连接,所述数据存储模块用于存储所有数据,所述事件检测模块用于执行如权利要求1-7任一项所述的社交事件检测方法。
10.一种社交事件检测的计算机可读存储介质,其特征在于,所述存储介质存储计算机可读程序代码,当所述计算机可读程序代码被执行时实现权利要求1至7中任一项所述的一种社交事件检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210448703.5A CN114861004A (zh) | 2022-04-27 | 2022-04-27 | 一种社交事件检测方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210448703.5A CN114861004A (zh) | 2022-04-27 | 2022-04-27 | 一种社交事件检测方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114861004A true CN114861004A (zh) | 2022-08-05 |
Family
ID=82632787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210448703.5A Pending CN114861004A (zh) | 2022-04-27 | 2022-04-27 | 一种社交事件检测方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861004A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117670571A (zh) * | 2024-01-30 | 2024-03-08 | 昆明理工大学 | 基于异构消息图关系嵌入的增量式社交媒体事件检测方法 |
-
2022
- 2022-04-27 CN CN202210448703.5A patent/CN114861004A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117670571A (zh) * | 2024-01-30 | 2024-03-08 | 昆明理工大学 | 基于异构消息图关系嵌入的增量式社交媒体事件检测方法 |
CN117670571B (zh) * | 2024-01-30 | 2024-04-19 | 昆明理工大学 | 基于异构消息图关系嵌入的增量式社交媒体事件检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717408B (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
JP5454357B2 (ja) | 情報処理装置および方法、並びに、プログラム | |
TW202139045A (zh) | 基於隱私保護確定目標業務模型的方法及裝置 | |
CN108549647B (zh) | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN107122455A (zh) | 一种基于微博的网络用户增强表示方法 | |
CN110598869B (zh) | 基于序列模型的分类方法、装置、电子设备 | |
CN107679228A (zh) | 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 | |
CN116304063B (zh) | 一种简单的情感知识增强提示调优的方面级情感分类方法 | |
CN115577316A (zh) | 一种基于多模态数据融合的用户人格预测方法与应用 | |
Dai et al. | ICS-SVM: A user retweet prediction method for hot topics based on improved SVM | |
WO2023024408A1 (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN114861004A (zh) | 一种社交事件检测方法、装置及系统 | |
Cao et al. | Deep multi-task learning model for time series prediction in wireless communication | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN114842247B (zh) | 基于特征累加的图卷积网络半监督节点分类方法 | |
CN115510326A (zh) | 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法 | |
Murthy et al. | TwitSenti: a real-time Twitter sentiment analysis and visualization framework | |
CN113157993A (zh) | 一种基于时序图极化分析的网络水军行为预警模型 | |
CN112463964A (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
Roller et al. | An adaptive computational network model for multi-emotional social interaction | |
CN112507185A (zh) | 用户肖像的确定方法和装置 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
Mahalakshmi et al. | Twitter sentiment analysis using conditional generative adversarial network | |
CN113505154B (zh) | 一种基于大数据的数字阅读统计分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |