CN108399241B - 一种基于多类特征融合的新兴热点话题检测系统 - Google Patents
一种基于多类特征融合的新兴热点话题检测系统 Download PDFInfo
- Publication number
- CN108399241B CN108399241B CN201810170864.6A CN201810170864A CN108399241B CN 108399241 B CN108399241 B CN 108399241B CN 201810170864 A CN201810170864 A CN 201810170864A CN 108399241 B CN108399241 B CN 108399241B
- Authority
- CN
- China
- Prior art keywords
- topic
- microblog
- microblogs
- user
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 10
- 238000001514 detection method Methods 0.000 title abstract description 10
- 239000013598 vector Substances 0.000 claims abstract description 36
- 230000003068 static effect Effects 0.000 claims abstract description 27
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000003062 neural network model Methods 0.000 claims abstract description 5
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 abstract description 3
- 230000006403 short-term memory Effects 0.000 abstract description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于多类特征融合的新兴热点话题检测系统,包括:数据预处理模块,用于对微博文本进行预处理;分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;话题预测模块,用于对话题进行预测。本发明基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,提高新兴热点话题检测能力。
Description
技术领域
本发明涉及自然语言处理领域,特别是一种基于多类特征融合的新兴热点话题检测系统。
背景技术
当前,存在着一些偏向于话题内容特征(静态特征)的新兴热点话题检测方法,其基本思想是根据相应的推理公式或理论来求解话题的评价依据,如转发增长率、评论数增长率、用户增长率等等,作为真是特征,再使用评判函数(如分类算法)来判定是否是新兴热点话题。
当前,还存在着一些偏向于使用话题的传播特征来检测新兴热点话题,其基本思想是利用相关特定的数据结构(如:树、图、粒子群、神经网络等等)来计算或训练话题的特征,这里特征偏向于传播型,也即数据间是有联系的,不是静态的。接着使用分类算法来求解话题是否是新兴热点话题。
然而,这些方法模型虽然在一定程度上取得了相应的成果,也推进了话题检测任务的发展;但是也存在不足的地方,基于话题内容静态特征的方法,固然在新兴热点话题预测上有一定准确率,但其缺少对话题文本的上下文语义分析,因此在话题的追踪效果上较差。基于传播特征(动态特征)的也都考虑到话题中文本的上下文语义信息,在新兴热点话题预测时间方面有一定延迟,因此其准确率不够,但它在话题追踪时有较好的性能。针对上述的不足之处,提出将话题静态特征和传播特征进行融合,基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,提高新兴热点话题检测能力。
发明内容
本发明的目的在于提供一种基于多类特征融合的新兴热点话题检测系统,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种基于多类特征融合的新兴热点话题检测系统,包括:
一数据预处理模块,用于对微博文本进行预处理;
一分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;
一词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;
一句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;
一话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;
一话题预测模块,用于对话题进行预测,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率,并得到预测概率。
在本发明一实施例中,所述数据预处理模块对微博文本进行预处理包括过滤微博文本中网页链接、微博文本中的表情字符、微博文本常用词、文本长度小于5个字符的微博、发表时间错误或者时间大于预设时间阈值的微博以及缺失了用户uid的微博。
在本发明一实施例中,所述词序列编码层对句子中的各个词语向量化过程中,通过使用word2vec对句子分词的一个初步向量化。
在本发明一实施例中,在所述词序列编码层,对于一个句子的词序列wit,t∈[1,T],将词序列中的词通过词嵌入方法映射到向量中,嵌入矩阵为We,xij=Wexij;通过双向循环神经网络BiRNN汇总来自双向的词的信息得到词的表示,并将词的表示中的上下文信息合并;双向循环神经网络BiRNN包括一个向前的网络RNN用来从wi1到wiT读取句子si;还有一个向后的网络RNN用来从wiT到wi1读取句子si;通过连接向前隐藏状态和向后隐藏状态得到词wit的隐藏表示hit,其包含了句子中围绕词wit的总体信息,也即
在本发明一实施例中,在所述句子级别特征求解层,通过微博当前时刻的评论数和转发数来表示内容特征,经过对一微博的信息采集及计算,得到该微博各个时刻的评论数集合Reply及转发数集合Retweet,且分别通过如下方式获取:
在本发明一实施例中,在所述话题级别特征求解层,为了识别新兴热点话题,提取话题每个时刻点的新兴特征,包括:转发数、用户数、微博数量、微博数量变化量的泊松值、用户权威值、微博影响力累积值、话题热度值以及新颖值。
在本发明一实施例中,在所述话题级别特征求解层,记话题T从第一篇微博被检测到当前时刻t有n个时间窗口;
记feature1是话题T在n个时间窗口内的转发数增长率:
其中,Rti为话题T在第i个时间窗口时的转发次数;
记feature2是话题T在n个时间窗口内的用户数增长率:
其中,Ui表示话题T在第i个时间窗口时的参与用户数量;
记feature3是话题T在n个时间窗口内的评论数增长率:
其中,Repi表示话题T在第i个时间窗口时的评论数;
记话题T对应的用户集合为UT={u1,u2,...,um},对于话题T,每个用户ui在话题T中的权威值通过如下方式获取:
其中,numi表示用户ui发表的相关微博数;fi表示在UT中是ui的粉丝的数量;rei表示ui相关微博被转发总数;fansi表示用户ui的粉丝数;fansmax为粉丝数最多的用户粉丝数量;
记话题T对应的微博集合为TW={tw1,tw2,...,twm},记feature4是话题T的相关微博累计值增长率:
其中,effecti表示话题T在第i个时间窗口时的累积影响力;auth(twi)表示微博twi对话题T的权威值;auth(ui)表示微博twi作者的权威值;Uretweet表示微博twi转发用户集合;auth(u)表示户用户ui的转发用户集合中用户的权威值;
其中,wordkey表示当前计算时间段内的关键词集合,userkey表示当前计算时间段内的高权威值用户集合;
记feature7是话题T在n个时间窗口内的微博数量增长率;feature8是话题T在第n个时间窗口时微博数量变化的泊松值,通过如下获取:
其中,Ni表示话题T在第i个时间窗口时的微博数量;λ为预设个数时间窗口内微博数量变化的均值;Δtw为当前时间窗口微博数据变化量。
相较于现有技术,本发明具有以下有益效果:本发明提出的一种基于多类特征融合的新兴热点话题检测系统,将话题静态特征和传播特征进行融合,基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,能够从中文微博数据中学习高质量的话题向量特征,最终检测出新兴热点话题,并提高新兴热点话题检测能力。
附图说明
图1为本发明一实施例中在社交媒介中基于多类特征融合的分层循环神经网络模型的示意配置图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明一种基于多类特征融合的新兴热点话题检测系统,如图1所示,包括:
数据预处理模块,用于对数据进行预先处理,用于去除文本中的链接,特殊字符,表情符号,标点符号等等,为后阶段的运算提供高可用高质量的数据;
分层序列模型,用于训练双向循环神经网络模型,使用双向的LSTM网络,训练输入的微博文本,得到高质量的话题向量表示,提高预测准确率,为后面的预测任务输送高质量的词向量、句子向量和话题向量;
词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;并使用word2vec对句子分词的一个初步向量化。
句子级别静态特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;
话题级别静态特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;
话题预测模块,完成对话题的预测工作,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率。
进一步的,下面分别详细描述各模块的配置。
在本实施例中,由于社交媒体文档中包含了丰富的信息但同时也夹杂了一定的噪声,需要数据预处理模块对数据集进行预处理,主要进行以下几个方面的操作:
(1)过滤掉微博文本中网页链接。如“http://t.cn/Rfan9TD”。
(2)过滤掉微博文本中的表情字符。如“[偷乐]”、“[加油啊]”等。
(3)过滤掉微博文本常用词。如“组图”、“原文转发”等。
(4)过滤掉微博文本长度小于5个字符的微博。
(5)过滤掉微博发表时间错误或者时间过于久远的微博。
(6)过滤掉缺失了用户uid的微博。
在本实施例中,在词序列编码层(Word Encoder Layer,WEL),给定一个句子的词序列wit,t∈[1,T],首先将词通过词嵌入方法映射到向量中,嵌入矩阵为We,xij=Wexij。使用一个双向循环神经网络BiRNN通过汇总来自双向的词的信息来得到词的表示,并将表示中的上下文信息合并,双向循环神经网络Bi-directional RNN,BiRNN包括一个向前的网络RNN用来从wi1到wiT读取句子si;还有一个向后的网络RNN用来从wiT到wi1读取句子si。通过连接向前隐藏状态和向后隐藏状态得到词wit的隐藏表示hit,它包含了句子中围绕词wit的总体信息,也即
在本实施例中,在句子级别静态特征求解层,使用微博当前时刻的评论数和转发数来表示内容特征,因为对于一篇微博来说,评论数和转发数是它的重要属性特征,一定程度上能够表明微博内容讨论话题的热点程度,经过采集的信息及计算,得到一个微博各个时刻的评论数集合Reply及转发数集合Retweet,计算公式如下:
在本实施例中,在话题级别静态特征求解层,在微博数据流的话题演变过程中,为了识别新兴热点话题,我们提取话题每个时刻点的新兴特征。其中有转发数、用户数、微博数量、微博数量变化量的泊松值、用户权威值、微博影响力累积值、话题热度值和新颖值。
进一步的,假设话题T从第一篇微博被检测到当前时刻t有n个时间窗口。各个特征计算公式如下:
feature1是话题T在n个时间窗口内的转发数增长率:
其中,Rti为话题T在第i个时间窗口时的转发次数(话题内各微博转发数之和)。
feature2是话题T在n个时间窗口内的用户数增长率:
其中,Ui表示话题T在第i个时间窗口时的参与用户数量。
feature3是话题T在n个时间窗口内的评论数增长率:
其中,Repi表示话题T在第i个时间窗口时的评论数(话题内各微博评论数之和)。
进一步的,假设话题T对应的用户集合UT={u1,u2,...,um},对于话题T,用户ui发表更多话题T相关的微博;用户的相关微博更多被转发;用户集合UT中有更多用户是ui的粉丝;用户ui有更多的粉丝数,则用户ui在话题T中会有更高的权威值。每个用户ui在话题T中的权威值计算公式如下:
其中,numi表示用户ui发表的相关微博数;fi表示在UT中是ui的粉丝的数量;rei表示ui相关微博被转发总数;fansi表示用户ui的粉丝数;fansmax为粉丝数最多的用户粉丝数量,这么做的目的是消除用户粉丝数之间数量级的差距。
假设话题T对应的微博集合为TW={tw1,tw2,...,twm},feature4是话题T的相关微博累计值增长率:
其中,effecti表示话题T在第i个时间窗口时的累积影响力;auth(twi)表示微博twi对话题T的权威值;auth(ui)表示微博twi作者的权威值;Uretweet表示微博twi转发用户集合;auth(u)表示户用户ui的转发用户集合中用户的权威值。
进一步的,热点话题是一个时间段内热点讨论的话题,新兴热点话题是有一个过程,先兴起再到未来某个时间段内的成为热门话题,而网络媒介中每个时间段都会有相应的热点关键词出现。在本实施例中,通过计算卡方值来得到时间段内的关键词集合,然后计算话题关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖值;计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值:
进一步的,泊松分布是一种离散型概率模型,事件满足泊松分布需要有三个条件:①该事件是小概率事件;②事件发生相互之间是独立的;③该事件的发生概率是稳定的。对一个话题来说,随着时间窗口的移动,话题中微博数量是非递减的,这样在一定时间段内微博的数量变化大致是符合泊松分布,宏观来看新兴热点话题也是符合泊松分布的条件:①新兴热点话题不是大概率事件;②各个话题是否是新兴热点话题是相互独立的;③各个话题成为新兴热点话题的趋势都稳定的。
在本实施例中,以8小时为窗口大小,1小时为移动距离,来计算话题各个时刻的微博数量变化泊松值作为话题的一个特征。feature7是话题T在n个时间窗口内的微博数量增长率;feature8是话题T在第n个时间窗口时微博数量变化的泊松值,计算公式如下:
其中,Ni表示话题T在第i个时间窗口时的微博数量;λ为8个时间窗口内微博数量变化的均值;Δtw为当前时间窗口微博数据变化量。
进一步的,话题预测模块在经过上面四层的计算之后,得到向量v,这是话题的高质量的表示,可以用来作为分类的特征。使用softmax来预测话题是否属于新兴热点话题或非新兴热点话题,并得到预测概率。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (3)
1.一种基于多类特征融合的新兴热点话题检测系统,其特征在于,包括:
一数据预处理模块,用于对微博文本进行预处理;
一分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;
一词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;
一句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;
一话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;
一话题预测模块,用于对话题进行预测,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率,并得到预测概率
在所述词序列编码层,对于一个句子的词序列wit,t∈[1,T],将词序列中的词通过词嵌入方法映射到向量中,嵌入矩阵为(We,xij)=Wexij;通过双向循环神经网络BiRNN汇总来自双向的词的信息得到词的表示,并将词的表示中的上下文信息合并;双向循环神经网络BiRNN包括一个向前的网络RNN用来从wi1到wiT读取句子si;还有一个向后的网络RNN用来从wiT到wi1读取句子si;通过连接向前隐藏状态和向后隐藏状态得到词wit的隐藏表示hit,其包含了句子中围绕词wit的总体信息,也即
在所述句子级别特征求解层,通过微博当前时刻的评论数和转发数来表示内容特征,经过对一微博的信息采集及计算,得到该微博各个时刻的评论数集合Reply及转发数集合Retweet,且分别通过如下方式获取:
在所述话题级别特征求解层,为了识别新兴热点话题,提取话题每个时刻点的新兴特征,包括:转发数、用户数、微博数量、微博数量变化量的泊松值、用户权威值、微博影响力累积值、话题热度值以及新颖值;
在所述话题级别特征求解层,记话题T从第一篇微博被检测到当前时刻t有n个时间窗口;
记feature1是话题T在n个时间窗口内的转发数增长率:
其中,Rti为话题T在第i个时间窗口时的转发次数;
记feature2是话题T在n个时间窗口内的用户数增长率:
其中,Ui表示话题T在第i个时间窗口时的参与用户数量;
记feature3是话题T在n个时间窗口内的评论数增长率:
其中,Repi表示话题T在第i个时间窗口时的评论数;
记话题T对应的用户集合为UT={u1,u2,...,um},对于话题T,每个用户ui在话题T中的权威值通过如下方式获取:
其中,numi表示用户ui发表的相关微博数;fi表示在UT中是ui的粉丝的数量;rei表示ui相关微博被转发总数;fansi表示用户ui的粉丝数;fansmax为粉丝数最多的用户粉丝数量;
记话题T对应的微博集合为TW={tw1,tw2,...,twm},记feature4是话题T的相关微博累计值增长率:
其中,effecti表示话题T在第i个时间窗口时的累积影响力;auth(twi)表示微博twi对话题T的权威值;auth(ui)表示微博twi作者的权威值;Uretweet表示微博twi转发用户集合;auth(u)表示户用户ui的转发用户集合中用户的权威值;
其中,wordkey表示当前计算时间段内的关键词集合,userkey表示当前计算时间段内的高权威值用户集合;
记feature7是话题T在n个时间窗口内的微博数量增长率;feature8是话题T在第n个时间窗口时微博数量变化的泊松值,通过如下获取:
其中,Ni表示话题T在第i个时间窗口时的微博数量;λ为预设个数时间窗口内微博数量变化的均值;Δtw为当前时间窗口微博数据变化量。
2.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,所述数据预处理模块对微博文本进行预处理包括过滤微博文本中网页链接、微博文本中的表情字符、微博文本常用词、文本长度小于5个字符的微博、发表时间错误或者时间大于预设时间阈值的微博以及缺失了用户uid的微博。
3.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统,其特征在于,所述词序列编码层对句子中的各个词语向量化过程中,通过使用word2vec对句子分词的一个初步向量化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810170864.6A CN108399241B (zh) | 2018-02-28 | 2018-02-28 | 一种基于多类特征融合的新兴热点话题检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810170864.6A CN108399241B (zh) | 2018-02-28 | 2018-02-28 | 一种基于多类特征融合的新兴热点话题检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108399241A CN108399241A (zh) | 2018-08-14 |
CN108399241B true CN108399241B (zh) | 2021-08-31 |
Family
ID=63091438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810170864.6A Active CN108399241B (zh) | 2018-02-28 | 2018-02-28 | 一种基于多类特征融合的新兴热点话题检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108399241B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046342A (zh) * | 2019-02-19 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种文本质量检测方法 |
CN113488048A (zh) * | 2019-03-12 | 2021-10-08 | 百度国际科技(深圳)有限公司 | 信息交互方法和装置 |
CN110287355B (zh) * | 2019-05-16 | 2021-06-22 | 中国科学院西安光学精密机械研究所 | 基于检索话题记忆网络的遥感图像描述方法 |
CN110502635B (zh) * | 2019-08-13 | 2022-07-15 | 北京创鑫旅程网络技术有限公司 | 信息质量评价方法及装置 |
CN111046907B (zh) * | 2019-11-02 | 2023-10-27 | 国网天津市电力公司 | 一种基于多头注意力机制的半监督卷积网络嵌入方法 |
CN111444429B (zh) * | 2020-03-27 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 信息推送方法、装置及服务器 |
CN112348257A (zh) * | 2020-11-09 | 2021-02-09 | 中国石油大学(华东) | 一种多源数据融合与时序分析驱动的选举预测方法 |
CN112818125B (zh) * | 2021-02-25 | 2022-09-09 | 西安理工大学 | 一种网络话题结构演化发现方法 |
CN113505924B (zh) * | 2021-07-09 | 2023-08-01 | 福州大学 | 一种基于级联时空特征的信息传播预测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101339619A (zh) * | 2008-08-11 | 2009-01-07 | 重庆大学 | 用于模式分类的动态特征选择方法 |
CN102646114A (zh) * | 2012-02-17 | 2012-08-22 | 清华大学 | 一种基于突破点的新闻话题时间线摘要生成方法 |
CN103853724A (zh) * | 2012-11-29 | 2014-06-11 | 三星电子(中国)研发中心 | 多媒体数据分类方法及装置 |
US10798193B2 (en) * | 2015-06-03 | 2020-10-06 | Oath Inc. | System and method for automatic storyline construction based on determined breaking news |
-
2018
- 2018-02-28 CN CN201810170864.6A patent/CN108399241B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101339619A (zh) * | 2008-08-11 | 2009-01-07 | 重庆大学 | 用于模式分类的动态特征选择方法 |
CN102646114A (zh) * | 2012-02-17 | 2012-08-22 | 清华大学 | 一种基于突破点的新闻话题时间线摘要生成方法 |
CN103853724A (zh) * | 2012-11-29 | 2014-06-11 | 三星电子(中国)研发中心 | 多媒体数据分类方法及装置 |
US10798193B2 (en) * | 2015-06-03 | 2020-10-06 | Oath Inc. | System and method for automatic storyline construction based on determined breaking news |
Non-Patent Citations (1)
Title |
---|
"基于网页内容相似度改进算法的主题网络爬虫";魏晶晶等;《计算机与现代化》;20110930;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108399241A (zh) | 2018-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399241B (zh) | 一种基于多类特征融合的新兴热点话题检测系统 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN105488092A (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
Pan et al. | Social media-based user embedding: A literature review | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN103324665A (zh) | 一种基于微博的热点信息提取的方法和装置 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN105068991A (zh) | 一种基于大数据的舆情发现方法 | |
CN104268230B (zh) | 一种基于异质图随机游走的中文微博客观点探测方法 | |
CN104965823A (zh) | 一种基于大数据的观点抽取方法 | |
Uppal et al. | Fake news detection using discourse segment structure analysis | |
CN106294333A (zh) | 一种微博突发话题检测方法及装置 | |
CN108363784A (zh) | 一种基于文本机器学习的舆情走向预测方法 | |
CN104166726A (zh) | 一种面向微博文本流的突发关键词检测方法 | |
CN115017887A (zh) | 基于图卷积的中文谣言检测方法 | |
CN116362811A (zh) | 一种基于大数据的广告自动化投放管理系统 | |
CN116431760A (zh) | 基于情感感知和图卷积网络的社交网络谣言检测方法 | |
CN104794209A (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
Kavatagi et al. | A context aware embedding for the detection of hate speech in social media networks | |
CN110377845B (zh) | 基于区间半监督lda的协同过滤推荐方法 | |
Wang et al. | Sentiment detection and visualization of Chinese micro-blog | |
Cheng et al. | Negative emotion diffusion and intervention countermeasures of social networks based on deep learning | |
CN108710650B (zh) | 一种针对论坛文本的主题挖掘方法 | |
Lan et al. | Mining semantic variation in time series for rumor detection via recurrent neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |