CN108399241B - 一种基于多类特征融合的新兴热点话题检测系统 - Google Patents

一种基于多类特征融合的新兴热点话题检测系统 Download PDF

Info

Publication number
CN108399241B
CN108399241B CN201810170864.6A CN201810170864A CN108399241B CN 108399241 B CN108399241 B CN 108399241B CN 201810170864 A CN201810170864 A CN 201810170864A CN 108399241 B CN108399241 B CN 108399241B
Authority
CN
China
Prior art keywords
topic
microblog
microblogs
user
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810170864.6A
Other languages
English (en)
Other versions
CN108399241A (zh
Inventor
廖祥文
陈国龙
殷明刚
杨定达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810170864.6A priority Critical patent/CN108399241B/zh
Publication of CN108399241A publication Critical patent/CN108399241A/zh
Application granted granted Critical
Publication of CN108399241B publication Critical patent/CN108399241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多类特征融合的新兴热点话题检测系统,包括:数据预处理模块,用于对微博文本进行预处理;分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;话题预测模块,用于对话题进行预测。本发明基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,提高新兴热点话题检测能力。

Description

一种基于多类特征融合的新兴热点话题检测系统
技术领域
本发明涉及自然语言处理领域,特别是一种基于多类特征融合的新兴热点话题检测系统。
背景技术
当前,存在着一些偏向于话题内容特征(静态特征)的新兴热点话题检测方法,其基本思想是根据相应的推理公式或理论来求解话题的评价依据,如转发增长率、评论数增长率、用户增长率等等,作为真是特征,再使用评判函数(如分类算法)来判定是否是新兴热点话题。
当前,还存在着一些偏向于使用话题的传播特征来检测新兴热点话题,其基本思想是利用相关特定的数据结构(如:树、图、粒子群、神经网络等等)来计算或训练话题的特征,这里特征偏向于传播型,也即数据间是有联系的,不是静态的。接着使用分类算法来求解话题是否是新兴热点话题。
然而,这些方法模型虽然在一定程度上取得了相应的成果,也推进了话题检测任务的发展;但是也存在不足的地方,基于话题内容静态特征的方法,固然在新兴热点话题预测上有一定准确率,但其缺少对话题文本的上下文语义分析,因此在话题的追踪效果上较差。基于传播特征(动态特征)的也都考虑到话题中文本的上下文语义信息,在新兴热点话题预测时间方面有一定延迟,因此其准确率不够,但它在话题追踪时有较好的性能。针对上述的不足之处,提出将话题静态特征和传播特征进行融合,基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,提高新兴热点话题检测能力。
发明内容
本发明的目的在于提供一种基于多类特征融合的新兴热点话题检测系统,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种基于多类特征融合的新兴热点话题检测系统,包括:
一数据预处理模块,用于对微博文本进行预处理;
一分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;
一词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;
一句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;
一话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;
一话题预测模块,用于对话题进行预测,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率,并得到预测概率。
在本发明一实施例中,所述数据预处理模块对微博文本进行预处理包括过滤微博文本中网页链接、微博文本中的表情字符、微博文本常用词、文本长度小于5个字符的微博、发表时间错误或者时间大于预设时间阈值的微博以及缺失了用户uid的微博。
在本发明一实施例中,所述词序列编码层对句子中的各个词语向量化过程中,通过使用word2vec对句子分词的一个初步向量化。
在本发明一实施例中,在所述词序列编码层,对于一个句子的词序列wit,t∈[1,T],将词序列中的词通过词嵌入方法映射到向量中,嵌入矩阵为We,xij=Wexij;通过双向循环神经网络BiRNN汇总来自双向的词的信息得到词的表示,并将词的表示中的上下文信息合并;双向循环神经网络BiRNN包括一个向前的网络RNN
Figure BDA0001584923730000021
用来从wi1到wiT读取句子si;还有一个向后的网络RNN
Figure BDA0001584923730000022
用来从wiT到wi1读取句子si;通过连接向前隐藏状态
Figure BDA0001584923730000023
和向后隐藏状态
Figure BDA0001584923730000024
得到词wit的隐藏表示hit,其包含了句子中围绕词wit的总体信息,也即
Figure BDA0001584923730000025
在本发明一实施例中,在所述句子级别特征求解层,通过微博当前时刻的评论数和转发数来表示内容特征,经过对一微博的信息采集及计算,得到该微博各个时刻的评论数集合Reply及转发数集合Retweet,且分别通过如下方式获取:
Figure BDA0001584923730000026
Figure BDA0001584923730000027
其中,
Figure BDA0001584923730000028
表示i时刻,微博t的转发数;
Figure BDA0001584923730000029
表示i时刻,微博t的评论数。
在本发明一实施例中,在所述话题级别特征求解层,为了识别新兴热点话题,提取话题每个时刻点的新兴特征,包括:转发数、用户数、微博数量、微博数量变化量的泊松值、用户权威值、微博影响力累积值、话题热度值以及新颖值。
在本发明一实施例中,在所述话题级别特征求解层,记话题T从第一篇微博被检测到当前时刻t有n个时间窗口;
记feature1是话题T在n个时间窗口内的转发数增长率:
Figure BDA0001584923730000031
其中,Rti为话题T在第i个时间窗口时的转发次数;
记feature2是话题T在n个时间窗口内的用户数增长率:
Figure BDA0001584923730000032
其中,Ui表示话题T在第i个时间窗口时的参与用户数量;
记feature3是话题T在n个时间窗口内的评论数增长率:
Figure BDA0001584923730000033
其中,Repi表示话题T在第i个时间窗口时的评论数;
记话题T对应的用户集合为UT={u1,u2,...,um},对于话题T,每个用户ui在话题T中的权威值通过如下方式获取:
Figure BDA0001584923730000034
其中,numi表示用户ui发表的相关微博数;fi表示在UT中是ui的粉丝的数量;rei表示ui相关微博被转发总数;fansi表示用户ui的粉丝数;fansmax为粉丝数最多的用户粉丝数量;
记话题T对应的微博集合为TW={tw1,tw2,...,twm},记feature4是话题T的相关微博累计值增长率:
Figure BDA0001584923730000041
Figure BDA0001584923730000042
Figure BDA0001584923730000043
其中,effecti表示话题T在第i个时间窗口时的累积影响力;auth(twi)表示微博twi对话题T的权威值;auth(ui)表示微博twi作者的权威值;Uretweet表示微博twi转发用户集合;auth(u)表示户用户ui的转发用户集合中用户的权威值;
Figure BDA0001584923730000044
为话题T在第i个时间窗口时的新颖值,
Figure BDA0001584923730000045
为热度值:
Figure BDA0001584923730000046
Figure BDA0001584923730000047
Figure BDA0001584923730000048
Figure BDA0001584923730000049
其中,wordkey表示当前计算时间段内的关键词集合,userkey表示当前计算时间段内的高权威值用户集合;
记feature7是话题T在n个时间窗口内的微博数量增长率;feature8是话题T在第n个时间窗口时微博数量变化的泊松值,通过如下获取:
Figure BDA00015849237300000410
Figure BDA00015849237300000411
其中,Ni表示话题T在第i个时间窗口时的微博数量;λ为预设个数时间窗口内微博数量变化的均值;Δtw为当前时间窗口微博数据变化量。
相较于现有技术,本发明具有以下有益效果:本发明提出的一种基于多类特征融合的新兴热点话题检测系统,将话题静态特征和传播特征进行融合,基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,能够从中文微博数据中学习高质量的话题向量特征,最终检测出新兴热点话题,并提高新兴热点话题检测能力。
附图说明
图1为本发明一实施例中在社交媒介中基于多类特征融合的分层循环神经网络模型的示意配置图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明一种基于多类特征融合的新兴热点话题检测系统,如图1所示,包括:
数据预处理模块,用于对数据进行预先处理,用于去除文本中的链接,特殊字符,表情符号,标点符号等等,为后阶段的运算提供高可用高质量的数据;
分层序列模型,用于训练双向循环神经网络模型,使用双向的LSTM网络,训练输入的微博文本,得到高质量的话题向量表示,提高预测准确率,为后面的预测任务输送高质量的词向量、句子向量和话题向量;
词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;并使用word2vec对句子分词的一个初步向量化。
句子级别静态特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;
话题级别静态特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;
话题预测模块,完成对话题的预测工作,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率。
进一步的,下面分别详细描述各模块的配置。
在本实施例中,由于社交媒体文档中包含了丰富的信息但同时也夹杂了一定的噪声,需要数据预处理模块对数据集进行预处理,主要进行以下几个方面的操作:
(1)过滤掉微博文本中网页链接。如“http://t.cn/Rfan9TD”。
(2)过滤掉微博文本中的表情字符。如“[偷乐]”、“[加油啊]”等。
(3)过滤掉微博文本常用词。如“组图”、“原文转发”等。
(4)过滤掉微博文本长度小于5个字符的微博。
(5)过滤掉微博发表时间错误或者时间过于久远的微博。
(6)过滤掉缺失了用户uid的微博。
在本实施例中,在词序列编码层(Word Encoder Layer,WEL),给定一个句子的词序列wit,t∈[1,T],首先将词通过词嵌入方法映射到向量中,嵌入矩阵为We,xij=Wexij。使用一个双向循环神经网络BiRNN通过汇总来自双向的词的信息来得到词的表示,并将表示中的上下文信息合并,双向循环神经网络Bi-directional RNN,BiRNN包括一个向前的网络RNN
Figure BDA0001584923730000061
用来从wi1到wiT读取句子si;还有一个向后的网络RNN
Figure BDA0001584923730000062
用来从wiT到wi1读取句子si。通过连接向前隐藏状态
Figure BDA0001584923730000063
和向后隐藏状态
Figure BDA0001584923730000064
得到词wit的隐藏表示hit,它包含了句子中围绕词wit的总体信息,也即
Figure BDA0001584923730000065
在本实施例中,在句子级别静态特征求解层,使用微博当前时刻的评论数和转发数来表示内容特征,因为对于一篇微博来说,评论数和转发数是它的重要属性特征,一定程度上能够表明微博内容讨论话题的热点程度,经过采集的信息及计算,得到一个微博各个时刻的评论数集合Reply及转发数集合Retweet,计算公式如下:
Figure BDA0001584923730000066
Figure BDA0001584923730000067
其中,
Figure BDA0001584923730000068
表示i时刻,微博t的转发数;
Figure BDA0001584923730000069
表示i时刻,微博t的评论数。
在本实施例中,在话题级别静态特征求解层,在微博数据流的话题演变过程中,为了识别新兴热点话题,我们提取话题每个时刻点的新兴特征。其中有转发数、用户数、微博数量、微博数量变化量的泊松值、用户权威值、微博影响力累积值、话题热度值和新颖值。
进一步的,假设话题T从第一篇微博被检测到当前时刻t有n个时间窗口。各个特征计算公式如下:
feature1是话题T在n个时间窗口内的转发数增长率:
Figure BDA0001584923730000071
其中,Rti为话题T在第i个时间窗口时的转发次数(话题内各微博转发数之和)。
feature2是话题T在n个时间窗口内的用户数增长率:
Figure BDA0001584923730000072
其中,Ui表示话题T在第i个时间窗口时的参与用户数量。
feature3是话题T在n个时间窗口内的评论数增长率:
Figure BDA0001584923730000073
其中,Repi表示话题T在第i个时间窗口时的评论数(话题内各微博评论数之和)。
进一步的,假设话题T对应的用户集合UT={u1,u2,...,um},对于话题T,用户ui发表更多话题T相关的微博;用户的相关微博更多被转发;用户集合UT中有更多用户是ui的粉丝;用户ui有更多的粉丝数,则用户ui在话题T中会有更高的权威值。每个用户ui在话题T中的权威值计算公式如下:
Figure BDA0001584923730000074
其中,numi表示用户ui发表的相关微博数;fi表示在UT中是ui的粉丝的数量;rei表示ui相关微博被转发总数;fansi表示用户ui的粉丝数;fansmax为粉丝数最多的用户粉丝数量,这么做的目的是消除用户粉丝数之间数量级的差距。
假设话题T对应的微博集合为TW={tw1,tw2,...,twm},feature4是话题T的相关微博累计值增长率:
Figure BDA0001584923730000075
Figure BDA0001584923730000076
Figure BDA0001584923730000077
其中,effecti表示话题T在第i个时间窗口时的累积影响力;auth(twi)表示微博twi对话题T的权威值;auth(ui)表示微博twi作者的权威值;Uretweet表示微博twi转发用户集合;auth(u)表示户用户ui的转发用户集合中用户的权威值。
进一步的,热点话题是一个时间段内热点讨论的话题,新兴热点话题是有一个过程,先兴起再到未来某个时间段内的成为热门话题,而网络媒介中每个时间段都会有相应的热点关键词出现。在本实施例中,通过计算卡方值来得到时间段内的关键词集合,然后计算话题关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖值;计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值:
Figure BDA0001584923730000081
Figure BDA0001584923730000082
Figure BDA0001584923730000083
Figure BDA0001584923730000084
其中,wordkey表示当前计算时间段内的关键词集合,userkey表示当前计算时间段内的高权威值用户集合;
Figure BDA0001584923730000085
表示话题T在第i个时间窗口时的新颖值;
Figure BDA0001584923730000086
为热度值。
进一步的,泊松分布是一种离散型概率模型,事件满足泊松分布需要有三个条件:①该事件是小概率事件;②事件发生相互之间是独立的;③该事件的发生概率是稳定的。对一个话题来说,随着时间窗口的移动,话题中微博数量是非递减的,这样在一定时间段内微博的数量变化大致是符合泊松分布,宏观来看新兴热点话题也是符合泊松分布的条件:①新兴热点话题不是大概率事件;②各个话题是否是新兴热点话题是相互独立的;③各个话题成为新兴热点话题的趋势都稳定的。
在本实施例中,以8小时为窗口大小,1小时为移动距离,来计算话题各个时刻的微博数量变化泊松值作为话题的一个特征。feature7是话题T在n个时间窗口内的微博数量增长率;feature8是话题T在第n个时间窗口时微博数量变化的泊松值,计算公式如下:
Figure BDA0001584923730000091
Figure BDA0001584923730000092
其中,Ni表示话题T在第i个时间窗口时的微博数量;λ为8个时间窗口内微博数量变化的均值;Δtw为当前时间窗口微博数据变化量。
进一步的,话题预测模块在经过上面四层的计算之后,得到向量v,这是话题的高质量的表示,可以用来作为分类的特征。使用softmax来预测话题是否属于新兴热点话题或非新兴热点话题,并得到预测概率。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (3)

1.一种基于多类特征融合的新兴热点话题检测系统,其特征在于,包括:
一数据预处理模块,用于对微博文本进行预处理;
一分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;
一词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;
一句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;
一话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;
一话题预测模块,用于对话题进行预测,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率,并得到预测概率
在所述词序列编码层,对于一个句子的词序列wit,t∈[1,T],将词序列中的词通过词嵌入方法映射到向量中,嵌入矩阵为(We,xij)=Wexij;通过双向循环神经网络BiRNN汇总来自双向的词的信息得到词的表示,并将词的表示中的上下文信息合并;双向循环神经网络BiRNN包括一个向前的网络RNN
Figure FDA0003124226550000011
用来从wi1到wiT读取句子si;还有一个向后的网络RNN
Figure FDA0003124226550000012
用来从wiT到wi1读取句子si;通过连接向前隐藏状态
Figure FDA0003124226550000013
和向后隐藏状态
Figure FDA0003124226550000014
得到词wit的隐藏表示hit,其包含了句子中围绕词wit的总体信息,也即
Figure FDA0003124226550000015
在所述句子级别特征求解层,通过微博当前时刻的评论数和转发数来表示内容特征,经过对一微博的信息采集及计算,得到该微博各个时刻的评论数集合Reply及转发数集合Retweet,且分别通过如下方式获取:
Figure FDA0003124226550000016
Figure FDA0003124226550000017
其中,
Figure FDA0003124226550000018
表示i时刻,微博t的转发数;
Figure FDA0003124226550000019
表示i时刻,微博t的评论数;
在所述话题级别特征求解层,为了识别新兴热点话题,提取话题每个时刻点的新兴特征,包括:转发数、用户数、微博数量、微博数量变化量的泊松值、用户权威值、微博影响力累积值、话题热度值以及新颖值;
在所述话题级别特征求解层,记话题T从第一篇微博被检测到当前时刻t有n个时间窗口;
记feature1是话题T在n个时间窗口内的转发数增长率:
Figure FDA0003124226550000021
其中,Rti为话题T在第i个时间窗口时的转发次数;
记feature2是话题T在n个时间窗口内的用户数增长率:
Figure FDA0003124226550000022
其中,Ui表示话题T在第i个时间窗口时的参与用户数量;
记feature3是话题T在n个时间窗口内的评论数增长率:
Figure FDA0003124226550000023
其中,Repi表示话题T在第i个时间窗口时的评论数;
记话题T对应的用户集合为UT={u1,u2,...,um},对于话题T,每个用户ui在话题T中的权威值通过如下方式获取:
Figure FDA0003124226550000024
其中,numi表示用户ui发表的相关微博数;fi表示在UT中是ui的粉丝的数量;rei表示ui相关微博被转发总数;fansi表示用户ui的粉丝数;fansmax为粉丝数最多的用户粉丝数量;
记话题T对应的微博集合为TW={tw1,tw2,...,twm},记feature4是话题T的相关微博累计值增长率:
Figure FDA0003124226550000025
Figure FDA0003124226550000026
Figure FDA0003124226550000027
其中,effecti表示话题T在第i个时间窗口时的累积影响力;auth(twi)表示微博twi对话题T的权威值;auth(ui)表示微博twi作者的权威值;Uretweet表示微博twi转发用户集合;auth(u)表示户用户ui的转发用户集合中用户的权威值;
Figure FDA0003124226550000031
为话题T在第i个时间窗口时的新颖值,
Figure FDA0003124226550000032
为热度值:
Figure FDA0003124226550000033
Figure FDA0003124226550000034
Figure FDA0003124226550000035
Figure FDA0003124226550000036
其中,wordkey表示当前计算时间段内的关键词集合,userkey表示当前计算时间段内的高权威值用户集合;
记feature7是话题T在n个时间窗口内的微博数量增长率;feature8是话题T在第n个时间窗口时微博数量变化的泊松值,通过如下获取:
Figure FDA0003124226550000037
Figure FDA0003124226550000038
其中,Ni表示话题T在第i个时间窗口时的微博数量;λ为预设个数时间窗口内微博数量变化的均值;Δtw为当前时间窗口微博数据变化量。
2.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,所述数据预处理模块对微博文本进行预处理包括过滤微博文本中网页链接、微博文本中的表情字符、微博文本常用词、文本长度小于5个字符的微博、发表时间错误或者时间大于预设时间阈值的微博以及缺失了用户uid的微博。
3.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,所述词序列编码层对句子中的各个词语向量化过程中,通过使用word2vec对句子分词的一个初步向量化。
CN201810170864.6A 2018-02-28 2018-02-28 一种基于多类特征融合的新兴热点话题检测系统 Active CN108399241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810170864.6A CN108399241B (zh) 2018-02-28 2018-02-28 一种基于多类特征融合的新兴热点话题检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810170864.6A CN108399241B (zh) 2018-02-28 2018-02-28 一种基于多类特征融合的新兴热点话题检测系统

Publications (2)

Publication Number Publication Date
CN108399241A CN108399241A (zh) 2018-08-14
CN108399241B true CN108399241B (zh) 2021-08-31

Family

ID=63091438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810170864.6A Active CN108399241B (zh) 2018-02-28 2018-02-28 一种基于多类特征融合的新兴热点话题检测系统

Country Status (1)

Country Link
CN (1) CN108399241B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046342A (zh) * 2019-02-19 2019-07-23 阿里巴巴集团控股有限公司 一种文本质量检测方法
CN113488048A (zh) * 2019-03-12 2021-10-08 百度国际科技(深圳)有限公司 信息交互方法和装置
CN110287355B (zh) * 2019-05-16 2021-06-22 中国科学院西安光学精密机械研究所 基于检索话题记忆网络的遥感图像描述方法
CN110502635B (zh) * 2019-08-13 2022-07-15 北京创鑫旅程网络技术有限公司 信息质量评价方法及装置
CN111046907B (zh) * 2019-11-02 2023-10-27 国网天津市电力公司 一种基于多头注意力机制的半监督卷积网络嵌入方法
CN111444429B (zh) * 2020-03-27 2023-04-07 腾讯科技(深圳)有限公司 信息推送方法、装置及服务器
CN112348257A (zh) * 2020-11-09 2021-02-09 中国石油大学(华东) 一种多源数据融合与时序分析驱动的选举预测方法
CN112818125B (zh) * 2021-02-25 2022-09-09 西安理工大学 一种网络话题结构演化发现方法
CN113505924B (zh) * 2021-07-09 2023-08-01 福州大学 一种基于级联时空特征的信息传播预测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339619A (zh) * 2008-08-11 2009-01-07 重庆大学 用于模式分类的动态特征选择方法
CN102646114A (zh) * 2012-02-17 2012-08-22 清华大学 一种基于突破点的新闻话题时间线摘要生成方法
CN103853724A (zh) * 2012-11-29 2014-06-11 三星电子(中国)研发中心 多媒体数据分类方法及装置
US10798193B2 (en) * 2015-06-03 2020-10-06 Oath Inc. System and method for automatic storyline construction based on determined breaking news

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339619A (zh) * 2008-08-11 2009-01-07 重庆大学 用于模式分类的动态特征选择方法
CN102646114A (zh) * 2012-02-17 2012-08-22 清华大学 一种基于突破点的新闻话题时间线摘要生成方法
CN103853724A (zh) * 2012-11-29 2014-06-11 三星电子(中国)研发中心 多媒体数据分类方法及装置
US10798193B2 (en) * 2015-06-03 2020-10-06 Oath Inc. System and method for automatic storyline construction based on determined breaking news

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于网页内容相似度改进算法的主题网络爬虫";魏晶晶等;《计算机与现代化》;20110930;全文 *

Also Published As

Publication number Publication date
CN108399241A (zh) 2018-08-14

Similar Documents

Publication Publication Date Title
CN108399241B (zh) 一种基于多类特征融合的新兴热点话题检测系统
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
Pan et al. Social media-based user embedding: A literature review
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN105068991A (zh) 一种基于大数据的舆情发现方法
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN104965823A (zh) 一种基于大数据的观点抽取方法
Uppal et al. Fake news detection using discourse segment structure analysis
CN106294333A (zh) 一种微博突发话题检测方法及装置
CN108363784A (zh) 一种基于文本机器学习的舆情走向预测方法
CN104166726A (zh) 一种面向微博文本流的突发关键词检测方法
CN115017887A (zh) 基于图卷积的中文谣言检测方法
CN116362811A (zh) 一种基于大数据的广告自动化投放管理系统
CN116431760A (zh) 基于情感感知和图卷积网络的社交网络谣言检测方法
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
Kavatagi et al. A context aware embedding for the detection of hate speech in social media networks
CN110377845B (zh) 基于区间半监督lda的协同过滤推荐方法
Wang et al. Sentiment detection and visualization of Chinese micro-blog
Cheng et al. Negative emotion diffusion and intervention countermeasures of social networks based on deep learning
CN108710650B (zh) 一种针对论坛文本的主题挖掘方法
Lan et al. Mining semantic variation in time series for rumor detection via recurrent neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant