CN107133219A - 一种基于张量分解的在线爆炸性话题早发现方法 - Google Patents

一种基于张量分解的在线爆炸性话题早发现方法 Download PDF

Info

Publication number
CN107133219A
CN107133219A CN201710416848.6A CN201710416848A CN107133219A CN 107133219 A CN107133219 A CN 107133219A CN 201710416848 A CN201710416848 A CN 201710416848A CN 107133219 A CN107133219 A CN 107133219A
Authority
CN
China
Prior art keywords
topic
word
matrix
module
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710416848.6A
Other languages
English (en)
Inventor
张涛
贾焰
周斌
杨树强
韩伟红
李爱平
黄九鸣
江荣
朱湘
全拥
邓璐
刘强
张良
宋怡晨
刘心
胡玥
童咏之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710416848.6A priority Critical patent/CN107133219A/zh
Publication of CN107133219A publication Critical patent/CN107133219A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于张量分解的在线爆炸性话题早发现方法,能尽早的捕捉实时数据流中的爆炸性话题,并精确定量分析爆炸性话题的爆炸度。本发明能准确及时的获取爆炸性话题词。

Description

一种基于张量分解的在线爆炸性话题早发现方法
技术领域
本发明涉及文本挖掘和在线话题发现与跟踪技术领域,具体的涉及一种基于张量分解的在线爆炸性话题早发现方法。
背景技术
在互联网环境下,客户需要在重大事件发生初期,尽早捕捉到事件的发生和发展,以便做出更好的决策。这就需要话题发现技术能兼顾时效性和准确性,以便对突发事件及时预警。
爆炸性话题是指在网络数据流中短时间内出现次数出现激增的话题。话题的爆炸程度,可借助时间加速度进行度量。该话题在短时间内在互联网环境中激增,加速度增大称为爆炸性话题。对话题发展传播趋势的计算方法:概率方法,统计方法和时域波方法。
1、概率方法:采用点过程理论的概率预测模型,能将博文随着时间随机产生这一过程模拟成点过程中的泊松过程,从而预测在某一时刻最大可能的博文数量。
2、统计方法:基于词频实时统计追踪词频或共现词频的增长率,之后通过聚类词项或共现词增长趋势的方式得到话题。例如采用如算法TopicSketch计算某时刻t,根据各话题词概率分布和该话题的加速度估计当前数据流中总的词频增长率,最后优化期望误差得到各话题的词概率分布和该话题的加速度。话题的词概率方法:获取当前数据流中所有不同的词项在该话题下的分布,来测量话题的加速度。
3、时域波方法,在话题发现过程中,引入小波变换或傅里叶变换实现数域到时域波的转换,从而达到话题早发现的目的。
上述方法都能达到话题早发现的目的,但并不能准确及时的发现爆炸性话题。爆炸性话题的发现对时效性,话题粒度和话题准确度要求较高。
相比已有的热门话题发现方法,已有的该领域专利技术通常采用热度明显的词表示话题,而对话题语义的完整性表达有所缺陷。或者通过聚类话题来还原话题语义,但通常对聚类质量和话题语义粒度控制上难度较大。
发明内容
本发明的目的在于提供一种基于张量分解的在线爆炸性话题早发现方法,该发明解决了现有技术中对于爆炸性话题无法及时准确的发现的技术问题。
同时本发明的目标在于,尽可能早地发现实时产生的微博数据中挖掘热议度广的话题。并在挖掘爆炸性话题的同时,能度量爆炸性话题在当前数据中的爆炸度和当前数据流中所有词在话题中的概率分布。从而能在挖掘的爆炸性话题中抽取最爆炸的话题,和最能表达当前话题的话题关键词集合,这样话题的完整语义能通过话题词的概率值来表达。
本发明提供一种基于张量分解的在线爆炸性话题早发现方法,包括以下步骤:
步骤S100:遍历实时博文数据流中的t时刻博文,对博文依序进行清洗、分词、过滤处理后,得到按照TF-IDF值排序的词项集;
步骤S200:构造包含博文总数量增长趋势、共现词词频、词项集中共现词对增长趋势M2和共现词三元组增长趋势M3的数据快照,并判断博文总数量增长趋势是否超过预设阈值,如果超过阈值时,则进入步骤S300,否则返回步骤S100;
步骤S300:采用张量分解话题模型分别对数据快照中的共现词对增长趋势M2和共现词三元组增长趋势M3进行奇异值分解,得到话题pi在实时数据流中的权重值wk以及话题pi的词概率词分布φk,任意两话题pi的权重wk≠wi
步骤S400:采用精化话题模型对张量分解得到的话题词pi进行精细化处理,得到精化话题,并将精化话题与现实世界发生的事件对应,得到爆炸性话题。
进一步地,过滤步骤过滤去除停用词和TFIDF低于阈值的词。
进一步地,步骤S300包括以下步骤:
步骤S310:对共现词对增长趋势M2进行奇异值分解,并取前K个特征值得到特征向量组成的矩阵U和特征值构成的对角矩阵Λ;
步骤S320:通过特征向量U和特征值Λ构造白化矩阵W,W=UΛ-1/2
步骤S330:将共现三元组增长趋势M3降维成二维矩阵M3(η),白化矩阵W作用于矩阵M3(η)得到矩阵T3,T3=WTM3(η)W;
步骤S340:对矩阵T3进行奇异值分解得到特征向量vk,通过白化矩阵W和特征向量vk计算得到话题pi的词概率分布φk和话题pi在实时数据流中的权重值wk
进一步地,步骤S400包括以下步骤:
步骤S410:根据话题pi的词概率词分布φk,挑选概率值前n的词项组成权重wk的当前话题词集合;
步骤S420:根据共现词词频对当前话题词集合内的词进行聚类,得到每个话题词集合下的C个聚类精化话题topick,z
步骤S430:通过每个精化话题topick,z中的话题词概率与话题词集合的权重wk进行加权求和,得到精化话题topick,z的爆炸度ak,z
本发明的另一方面还提供了一种如上述方法用装置,包括:
博文数据预处理模块:用于遍历实时博文数据流中的t时刻博文,对博文依序进行清洗、分词、过滤处理后,得到按照TF-IDF值排序的词项集;
数据快照构造模块,用于构造包含博文总数量增长趋势、共现词词频、词项集中共现词对增长趋势M2和共现词三元组增长趋势M3的数据快照,并判断博文总数量增长趋势是否超过预设阈值,如果超过阈值时,则进入张量分解模块,否则返回博文数据预处理模块;
张量分解模块:用于采用张量分解话题模型分别对数据快照中的共现词对增长趋势M2和共现词三元组增长趋势M3进行奇异值分解,得到话题pi在实时数据流中的权重值wk以及话题pi的词概率词分布φk,任意两话题pi的权重wk≠wi
精化话题模块:用于采用精化话题模型对张量分解得到的话题词pi进行精细化处理,得到精化话题,并将精化话题与现实世界发生的事件对应,得到爆炸性话题。
进一步地,张量分解模块包括:
奇异值分解模块:用于对共现词对增长趋势M2进行奇异值分解,并取前K个特征值得到特征向量组成的矩阵U和特征值构成的对角矩阵Λ;
构造白化矩阵模块:用于通过特征向量U和特征值Λ构造白化矩阵W,W=UΛ-1/2
降维模块:用于将共现三元组增长趋势M3降维成二维矩阵M3(η),白化矩阵W作用于矩阵M3(η)得到矩阵T3,T3=WTM3(η)W;
词概率分布模块:用于对矩阵T3进行奇异值分解得到特征向量vk,通过白化矩阵W和特征向量vk计算得到话题pi的词概率分布φk和话题pi在实时数据流中的权重值wk
进一步地,精化话题模块包括:
当前话题词集合模块:用于根据话题pi的词概率词分布φk,挑选概率值前n的词项组成权重wk的当前话题词集合;
聚类模块:用于根据共现词词频对当前话题词集合内的词进行聚类,得到每个话题词集合下的C个聚类精化话题topick,z
加权求和模块:用于通过每个精化话题topick,z中的话题词概率与话题词集合的权重wk进行加权求和,得到精化话题topick,z的爆炸度ak,z
本发明的技术效果:
本发明提供基于张量分解的在线爆炸性话题早发现方法,能及时准确的发现当前爬取的微博数据流中博文数量激增的爆炸性话题,在挖掘爆炸性话题的同时,能计算各爆炸性话题的爆炸度和当前数据流中所有词在话题中的概率分布。并能通过基于张量分解的精化步骤得到最能表达当前话题的话题关键词集合,所得话题词的准确性高。
本发明提供基于张量分解的在线爆炸性话题早发现方法,通过挑选话题下概率值大的话题词,在获取话题词博文归属的同时保留话题词的准确语义,。
具体请参考根据本发明的一种基于张量分解的在线爆炸性话题早发现方法提出的各种实施例的如下描述,将使得本发明的上述和其他方面显而易见。
附图说明
图1是本发明提供基于张量分解的在线爆炸性话题早发现方法流程示意图;
图2是本发明优选实施例中所用Count-min Sketc(最小计数机制的数据快照)示意图;
图3是本发明提供的基于张量分解的在线爆炸性话题早发现装置的结构示意图;
图4是本发明优选实施例中张量分解模块的结构示意图;
图5是本发明优选实施例中精化话题模块的结构示意图。
具体实施方式
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
本发明主要借助张量分解的方式,统计实时的共现词频和共现词三元组的词频,通过统计数据从而抽取出短时间内相关博文数激增的爆炸性话题。对共现词频统计表进行张量分解,得到当前数据流中重要程度不一的词项集合。再根据共现词模糊聚类的方式进行同一重要程度的词项集合内的话题内聚得到话题相关的词项和话题的词概率分布。
需要说明的是,通常在人们日常讨论中“话题”和“事件”是可以等同的概念。但是在在线社交网络分析技术领域中,话题是人们正在讨论的主题所涉及的关键词组成的集合,事件是人们讨论相关主题对应的实际生活中真实发生的事件。再者,爆炸性话题与突发性话题也不能等同看待,爆炸性话题只体现话题相关博文数激增的特性,而突发性话题则是在语义层面有一定社会影响力的爆炸性话题,通常突发性话题是种特殊的爆炸性话题。
本发明提供的方法尤其适用于在实时的微博数据流提取爆炸性话题。以下说明中均以微博为例进行说明,其他待处理文档类似。
参见图1,本发明提供了一种基于张量分解的在线爆炸性话题早发现方法,包括以下步骤:
步骤S100:遍历实时博文数据流中的t时刻博文,对所述博文依序进行清洗、分词、过滤处理后,得到按照TF-IDF值排序的词项集;
在某一时刻t产生的所有博文,称为实时博文数据流中的待处理博文。该步骤的处理可以按现有方法进行清洗、分词、过滤、集结。优选的,过滤时去除停用词和TFIDF低于1的词。
例如首先经过特殊符号过滤,过滤掉文本中含义不强的表情符号,链接地址,非中英文文本等。经过数据清洗过后,再借助中文分词工具进行分词得到词项,在分词结果中去掉常用没有话题指向意义且日常用语中出现频率极高的停用词。从而对每个词项计算TFIDF(term frequency–inverse document frequency,词频-逆向文件频率)值,去掉TF-IDF值过低的词项。最后每篇微博映射成了按照TF-IDF值排序词项有序集。
步骤S200:构造包含所述博文总数量增长趋势、所述词项集中共现词对增长趋势M2和共现词三元组增长趋势M3的数据快照,并判断所述博文总数量增长趋势是否超过预设阈值,如果超过阈值时,则进入步骤S300,否则返回步骤S100;
将同一篇微博中任意相邻的两个词视为共现词对,任意相邻的三个词视为共现词三元组,采用数据快照(Sketch,)结构实时地统计数据流中每篇博文的共现词对和共现词三元组的增长趋势。
由于数据流中博文数量巨大,产生的词项数量需要的时间消耗和硬件内存消耗都相当大,所以需要采用数据流中频繁项挖掘技术实现数据降维,保留活跃词,加快数据索引与更新,以保证实时检测的系统性能。
数据快照结构实时记录共现词对和共现三元组的统计量后,计算统计量的发展趋势,并设定阈值,超过阈值则警示有爆炸式信息产生的可能。
趋势计算可以按现有方法进行,也可以采用金融领域股票市场趋势指标EMA/MACD(Exponential Moving Average/Moving Average Convergence/Divergence,期望移动平均/指数平滑异同移动平均线)。使用该方法计算博文数量的趋势并保存在sketch中,实时的追踪博文数量的发展趋势,当趋势超过一定的阈值则触发话题模型。
当实时数据流到来,首先需要更新数据快照结构,记录数流中的统计量:S″(t),博文数量的增长趋势,也即增长加速度;M2,共现词对的增长加速度;M3,共现词三元组的增长加速度。
对于博文总数量增长趋势这个统计量的计算,采用EMA/MACD的方式。首先借用物理学的速率的概念,将博文总数量在某时刻的增长率描述为博文数量的增长速率。本发明采用EMA平滑博文数量的增长速率。主要是考虑历史值对当前值的影响,利用参数控制历史值和当前实际值的权重,得到由当前实际值和历史值共同作用的估计当前值。
例如,某一时刻数据流中博文总数量的实际增长速率是v1,而历史博文数量增长速率的估计值为vh,,当前实际值权重为α,则历史值权重分配为1-α,当前估计值v2=αv1+(1-α)vh。然后利用MACD算出当前估计值的趋势,也即博文总数的增长趋势。MACD在估计趋势值时主要考虑对历史值的历史时间长短。历史值的时间长度越长,那么说明历史值对当前值的影响越大,估计值变化更缓,反之,则估计值对实际值变化的变化敏感。取历史时间长度n1,n2不一致,且n1<n2的EMA值,计算两者之间的差值即可得博文总数量的增长趋势:
MACD(n1,n2)=EMA(n1)-EMA(n2)
数据快照中另外两个统计量共现词对和共现三元组的增长趋势,则只需要计算共现词对和共现三元组的频度关于时间的二次导数,也即相当于物理学中的加速度。
综上,数据快照能通过对上述三个统计量的监测和追踪,实时捕捉爆炸式话题的产生可能性。若当前数据流中,博文总数量在短时间内发生激增现象,这将预示着爆炸式话题产生的可能性,可触发接下来的话题发现模型计算具体的爆炸性话题和爆炸度。
步骤S300:采用张量分解话题模型分别对所述数据快照中的所述共现词对增长趋势M2和所述共现词三元组增长趋势M3进行奇异值分解,得到所述话题pi在所述实时数据流中的权重值wk以及所述话题pi的词概率词分布φk,任意两所述话题pi的权重wk≠wi
这个步骤主要实现了触发话题发现模型,进行话题检测,并提供爆炸话题的话题词和话题爆炸度。
通过张量分解的方式将爆炸数据快照中的统计量进行奇异值分解,得到不同权重的话题,并能计算出实时数据流中的所有不同的词在该话题下的概率分布。
张量分解的话题模型将给出话题的词概率分布φk和话题在数据流中的权重wk。具体的方法主要借助数据快照中的共现词对增长趋势M2和共现三元组增长趋势M3。充分利用词共现的特性,能更好地计算出话题词之间的内聚性和区别性。而通常M3数据结构内存消耗大,在进行张量分解过程之前,需对共现三元组增长趋势M3进行降维处理,将该三位数组降维成二维矩阵M3(η)。
优选的,张量分解话题模型的算法包括以下步骤;
步骤S310:对M2进行奇异值分解,并取前K个特征值得到特征向量组成的矩阵U和特征值构成的对角矩阵Λ。此处的K即为张量分解话题模型计算出的话题个数。
步骤S320:通过特征向量U和特征值Λ构造白化矩阵W,W=UΛ-1/2
步骤S330:将所述共现三元组增长趋势M3降维成二维矩阵M3(η),所述白化矩阵W作用于所述矩阵M3(η)得到矩阵T3,T3=WTM3(η)W;
因为矩阵T3的特征值和特征向量是求出话题的词概率分布φk和话题在数据流中的权重值wk的关键。采用上述方法处理能使矩阵T3的维度从N*N降为K*K,降低奇异值分解过程计算复杂度,且更能保证结果准确性。
步骤S340:对所述矩阵T3进行奇异值分解得到特征向量vk,通过所述白化矩阵W和所述特征向量vk计算得到话题pi的词概率分布φk和所述话题pi在所述实时数据流中的权重值wk
步骤S300通过对数据快照中两个数据结构M2和M3进行奇异值分解,并以不同的话题对应的词分布也不同为前提,抽取不同权重wk的K个话题,并能提供话题的词分布率φk
但是实际情况下,如果仅采用张量分解话题模型,则有可能出现以下情况:反映同一现实事件发生的话题会存在多个,且各话题之间无论是语义上还是关键词的分布上都存在关联。同时在实时数据流中,爆炸度相近的话题关键词出现的频率也相近,从而导致出现次数相近的关键词被归入同一话题分布,导致话题提取误差。为了避免这一误差,继续对所得话题进行精化话题模型抽取,则能有效提高所得话题的准确度。
步骤S400:采用精化话题模型对所述张量分解得到的所述话题词pi进行精细化处理,得到精化话题,并将所述精化话题与现实世界发生的事件对应,得到爆炸性话题。
话题的精化模型,是在张量分解的基础上,应用模糊集理论,将张量模型得到的话题和权重转化成模糊集理论。具体可以理解为:权重w下,实时数据流中所有不同的词在该权重的话题下的概率分布。话题是话题词的集合,那么话题的词概率分布就是对于该权重话题下的话题词集合的隶属度。概率分布即为隶属度函数。基于共现词的统计数据可聚类共现的话题词,因此同一话题下可聚类产生多个子话题,子话题的爆炸度可根据话题的权重和话题词的概率求得。
通过对张量分解所得话题进行精化,能得到语义更明确、关键词更准确的话题。
对于权重wk的话题,其词概率分布φk可看成为这些词归属在权重wk下的隶属函数中,具体概率值则是单个词的隶属度。因此,对权重wk的话题中的词进行聚类重组,并且重新生成语义明确的子话题及其权重,将子话题的权重称为爆炸度az明确。例如,在张量分解过程中得到权重wk=0.58的话题A,话题A的词概率分布φk={“word1”:0.34,“word2”:0.27,“word3”:0.19,….}。话题A的精化模型:首先根据词共现聚类φk中的词得到分类{C1,C2,…Ck},其中每个分类Ck的关键词集合topick,z={“word1”:0.34,“word3”:0.19,…}。在权重wk=0.58上为每个分类Ck计算新的权重,将所得新权重作为该分类的爆炸度az=wk*topick,z
在生成子话题的过程中,需要根据实时数据流中共现词的跟踪结果。共现词往往来自一篇博文,具有较强的语意相似性,并且共现词常被约束在与该篇博文代表话题一致的范围内。对于权重wk的话题,根据sketch中共现词的词频聚类话题词得到子话题topick,z,再根据模糊理论得到每个话题词的隶属度,对话题的权重加权求和得到子话题权重,也即话题的爆炸度az
优选的,步骤S400包括以下步骤:
步骤S410:根据话题pi的词概率词分布φk,挑选概率值前n的词项组成权重wk的当前话题词集合;
步骤S420:根据共现词词频对所述当前话题词集合内的词进行聚类,得到每个话题词集合下的C个聚类精化话题topick,z
步骤S430:通过所述每个精化话题topick,z中的话题词概率与话题词集合的权重wk进行加权求和,得到所述精化话题topick,z的爆炸度ak,z
精化话题模型分充分利用张量分解得到的话题词概率分布和话题的权重系数,采用模糊集理论和聚类方法得到语义明确的高质量话题,并保证话题的关键词有较高的内联性和话题解释性,与话题语义保持一致。再结合子话题的概率值作为隶属度,与权重值进行加权求和得到精化后的话题爆炸度。
第四部分,数据降维方法。
在数据快照结构实施过程,由于实时数据流中产生的词项数量较大,易造成话题模型训练时间和空间消耗过大,以至于严重影响整个方法的实际应用性能。所以在进行张量分解模型和精化模型之前必须对词项字典做降维处理,只保留当前数据流中的活跃词。本发明提供的方法,采用基于数据流中频繁项有效挖掘的方法count-min sketch(最小计数机制的数据快照)的数据结构进行活跃词的保留。本文中词项字典是指数据流中所有不同的词组成的集合即为词典。
参见图2,在count-min sketch数据结构中,将大小为N字典中的所有词项,采用哈希散列的方式映射到B个桶结构中。B的大小远远小于N,在话题模型中即可将B个桶视为B个当前数据流中的活跃词,挖掘其中爆炸性的活跃词进一步计算成爆炸性话题。Count-min的方式,是采用H个哈希函数(H1,H2,…,HH),每个哈希函数对应B个桶[1…B]。
也即,之前sketch中存储的N*N的二维结构M2,在count-min sketch中转换为H*B*B的三维结构。每篇新博文到来后,经过数据预处理成词项集。每对词项经过H个哈希函数散列,映射到B*B数组中的某个桶空间,该桶记录共现词对的M2值。由此每对词项在sketch中经过H个哈希函数作用后,记录了H个值。由于哈希碰撞现象的产生,H个统计值会比真实记录值高,为了减少统计误差,挑选H个值中最小的作为真实值的估计值,这也即count-min的统计原理。
由此,本方法可以在sketch统计数据流中词对概率时,直接将其经过H个哈希函数哈希映射到降维后的H*B*B个桶中,统计每个桶代表的活跃共现词的概率,换言之,sketch保留的将是共现活跃词的桶概率。话题模型在count-min sketch数据结构中挖掘出的话题的分布其实是桶分布,再将桶概率还原成词概率,即找当前词对应的最小桶概率作为词概率,最后可得到话题的词概率分布。而这一方法在时间消耗和空间占用上都有很明显的效率提升,并且还能有效控制哈希映射产生碰撞错误的概率。词概率分布的获得方法:第一步数量小的桶代替数量大的词参与张量分解,张量分解得到了基于桶的概率分布,再通过count-min的机制还原得到词概率分布。
综上所述,借助本发明实施的详细过程的介绍,通过对爬取的微博数据进行数据预处理后传递给sketch数据结构有效的记录数据流中的共现词的统计量,和实时微博总数变化趋势值来预测爆炸性话题产生的可能性。当数据快照的统计量达到其阈值时触发话题发现模型,进行话题检测过程。在话题检测过程,主要借用张量分解模型,并采用聚类模糊处理等方式挑选话题粒度和话题词质量有保障的爆炸性话题。根据本发明给出的检测结果可以很明确的分析各个检测的爆炸性话题具体爆炸情况,如爆炸度和爆炸趋势,爆炸事件,爆炸内容等以供相关机构实时分析爆炸性话题的需求。同时,本发明采用相关技术可以在单机环境下有效的实施,可以保障实时分析的性能。对软硬件环境需求并不高,可移植性强,内存消耗也在降维技术的实施下得到控制。最后本发明能确保在单机环境下尽可能短的时间内实时挖掘并计算爆炸性话题以及爆炸情况。
参见图3,本发明的另一发明还提供了一种用于上述方法的基于张量分解的在线爆炸性话题早发现装置,包括:
博文数据预处理模块100:用于遍历实时博文数据流中的t时刻博文,对博文依序进行清洗、分词、过滤处理后,得到按照TF-IDF值排序的词项集;
数据快照构造模块200,用于构造包含博文总数量增长趋势、共现词词频、词项集中共现词对增长趋势M2和共现词三元组增长趋势M3的数据快照,并判断博文总数量增长趋势是否超过预设阈值,如果超过阈值时,则进入张量分解模块300,否则返回博文数据预处理模块100;
张量分解模块300:用于采用张量分解话题模型分别对数据快照中的共现词对增长趋势M2和共现词三元组增长趋势M3进行奇异值分解,得到话题pi在实时数据流中的权重值wk以及话题pi的词概率词分布φk,任意两话题pi的权重wk≠wi
精化话题模块400:用于采用精化话题模型对张量分解得到的话题词pi进行精细化处理,得到精化话题,并将精化话题与现实世界发生的事件对应,得到爆炸性话题。
参见图4,优选的,张量分解模块300包括:
奇异值分解模块310:用于对共现词对增长趋势M2进行奇异值分解,并取前K个特征值得到特征向量组成的矩阵U和特征值构成的对角矩阵Λ;
构造白化矩阵模块320:用于通过特征向量U和特征值Λ构造白化矩阵W,W=UΛ-1/2
降维模块330:用于将共现三元组增长趋势M3降维成二维矩阵M3(η),白化矩阵W作用于矩阵M3(η)得到矩阵T3,T3=WTM3(η)W;
词概率分布模块340:用于对矩阵T3进行奇异值分解得到特征向量vk,通过白化矩阵W和特征向量vk计算得到话题pi的词概率分布φk和话题pi在实时数据流中的权重值wk
参见图5,优选的,精化话题模块400包括:
当前话题词集合模块410:用于根据话题pi的词概率词分布φk,挑选概率值前n的词项组成权重wk的当前话题词集合;
聚类模块420:用于根据共现词词频对当前话题词集合内的词进行聚类,得到每个话题词集合下的C个聚类精化话题topick,z
加权求和模块430:用于通过每个精化话题topick,z中的话题词概率与话题词集合的权重wk进行加权求和,得到精化话题topick,z的爆炸度ak,z
以下结合具体实例对本发明提供的方法进行详细说明。
通过张量分解,可以得到当前数据流中所有不同的词在不同的话题下的概率分布,对于每个张量分解话题,提取概率值最高的前8个词(“冰桶挑战”,“憨豆先生”,“勋鹿”,“礼貌”,“天秤座”,“视频”,“袁弘823生日”,“FBIcr”),该话题的权重为0.66。该张量分解话题经过精化算法的作用后,得到聚类后的子话题topic1=(“憨豆先生”,“上海”,“浦东机场”,“Rowan Atkinson”),a1=0.2112;topic2=(“天枰座”,“星座”,“冠军”,“第三名”),a2=0.1009;topic3=(“ASL”,“冰桶挑战”,“冰桶”,“蔓延”),a3=0.0892。张量分解得到的话题,往往话题中穿插着多个描述现实事件的关键词。而精化模型通过聚类共现词的机制改善了这种关键词交叉的现象,得到的话题关键词能保证指向同一事件,更能准确地表达话题的含义。
本领域技术人员将清楚本发明的范围不限制于以上讨论的示例,有可能对其进行若干改变和修改,而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明,但这样的说明和描述仅是说明或示意性的,而非限制性的。本发明并不限于所公开的实施例。
通过对附图,说明书和权利要求书的研究,在实施本发明时本领域技术人员可以理解和实现所公开的实施例的变形。在权利要求书中,术语“包括”不排除其他步骤或元素,而不定冠词“一个”或“一种”不排除多个。在彼此不同的从属权利要求中引用的某些措施的事实不意味着这些措施的组合不能被有利地使用。权利要求书中的任何参考标记不构成对本发明的范围的限制。

Claims (7)

1.一种基于张量分解的在线爆炸性话题早发现方法,其特征在于,包括以下步骤:
步骤S100:遍历实时博文数据流中的t时刻博文,对所述博文依序进行清洗、分词、过滤处理后,得到按照TF-IDF值排序的词项集;
步骤S200:构造包含所述博文总数量增长趋势、共现词词频、所述词项集中共现词对增长趋势M2和共现词三元组增长趋势M3的数据快照,并判断所述博文总数量增长趋势是否超过预设阈值,如果超过阈值时,则进入步骤S300,否则返回所述步骤S100;
步骤S300:采用张量分解话题模型分别对所述数据快照中的所述共现词对增长趋势M2和所述共现词三元组增长趋势M3进行奇异值分解,得到所述话题pi在所述实时数据流中的权重值wk以及所述话题pi的词概率词分布φk,任意两所述话题pi的权重wk≠wi
步骤S400:采用精化话题模型对所述张量分解得到的所述话题词pi进行精细化处理,得到精化话题,并将所述精化话题与现实世界发生的事件对应,得到爆炸性话题。
2.根据权利要求1所述的基于张量分解的在线爆炸性话题早发现方法,其特征在于,所述过滤步骤过滤去除停用词和TFIDF低于阈值的词。
3.根据权利要求1所述的基于张量分解的在线爆炸性话题早发现方法,其特征在于,所述步骤S300包括以下步骤:
步骤S310:对所述共现词对增长趋势M2进行奇异值分解,并取前K个特征值得到特征向量组成的矩阵U和特征值构成的对角矩阵Λ;
步骤S320:通过所述特征向量U和所述特征值Λ构造白化矩阵W,W=UΛ-1/2
步骤S330:将所述共现三元组增长趋势M3降维成二维矩阵M3(η),所述白化矩阵W作用于所述矩阵M3(η)得到矩阵T3,T3=WTM3(η)W;
步骤S340:对所述矩阵T3进行奇异值分解得到特征向量vk,通过所述白化矩阵W和所述特征向量vk计算得到话题pi的词概率分布φk和所述话题pi在所述实时数据流中的权重值wk
4.根据权利要求1所述的基于张量分解的在线爆炸性话题早发现方法,其特征在于,所述步骤S400包括以下步骤:
步骤S410:根据话题pi的词概率词分布φk,挑选概率值前n的词项组成权重wk的当前话题词集合;
步骤S420:根据共现词词频对所述当前话题词集合内的词进行聚类,得到每个话题词集合下的C个聚类精化话题topick,z
步骤S430:通过所述每个精化话题topick,z中的话题词概率与话题词集合的权重wk进行加权求和,得到所述精化话题topick,z的爆炸度ak,z
5.一种如权利要求1~4中任一项所述的基于张量分解的在线爆炸性话题早发现方法所用装置,其特征在于,包括:
博文数据预处理模块:用于遍历实时博文数据流中的t时刻博文,对所述博文依序进行清洗、分词、过滤处理后,得到按照TF-IDF值排序的词项集;
数据快照构造模块,用于构造包含所述博文总数量增长趋势、共现词词频、所述词项集中共现词对增长趋势M2和共现词三元组增长趋势M3的数据快照,并判断所述博文总数量增长趋势是否超过预设阈值,如果超过阈值时,则进入张量分解模块,否则返回所述博文数据预处理模块;
所述张量分解模块:用于采用张量分解话题模型分别对所述数据快照中的所述共现词对增长趋势M2和所述共现词三元组增长趋势M3进行奇异值分解,得到所述话题pi在所述实时数据流中的权重值wk以及所述话题pi的词概率词分布φk,任意两所述话题pi的权重wk≠wi
精化话题模块:用于采用精化话题模型对所述张量分解得到的所述话题词pi进行精细化处理,得到精化话题,并将所述精化话题与现实世界发生的事件对应,得到爆炸性话题。
6.根据权利要求5所述的基于张量分解的在线爆炸性话题早发现装置,其特征在于,所述张量分解模块包括:
奇异值分解模块:用于对所述共现词对增长趋势M2进行奇异值分解,并取前K个特征值得到特征向量组成的矩阵U和特征值构成的对角矩阵Λ;
构造白化矩阵模块:用于通过所述特征向量U和所述特征值Λ构造白化矩阵W,W=UΛ-1/2
降维模块:用于将所述共现三元组增长趋势M3降维成二维矩阵M3(η),所述白化矩阵W作用于所述矩阵M3(η)得到矩阵T3,T3=WTM3(η)W;
词概率分布模块:用于对所述矩阵T3进行奇异值分解得到特征向量vk,通过所述白化矩阵W和所述特征向量vk计算得到话题pi的词概率分布φk和所述话题pi在所述实时数据流中的权重值wk
7.根据权利要求5所述的基于张量分解的在线爆炸性话题早发现装置,其特征在于,所述精化话题模块包括:
当前话题词集合模块:用于根据话题pi的词概率词分布φk,挑选概率值前n的词项组成权重wk的当前话题词集合;
聚类模块:用于根据共现词词频对所述当前话题词集合内的词进行聚类,得到每个话题词集合下的C个聚类精化话题topick,z
加权求和模块:用于通过所述每个精化话题topick,z中的话题词概率与话题词集合的权重wk进行加权求和,得到所述精化话题topick,z的爆炸度ak,z
CN201710416848.6A 2017-06-06 2017-06-06 一种基于张量分解的在线爆炸性话题早发现方法 Pending CN107133219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710416848.6A CN107133219A (zh) 2017-06-06 2017-06-06 一种基于张量分解的在线爆炸性话题早发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710416848.6A CN107133219A (zh) 2017-06-06 2017-06-06 一种基于张量分解的在线爆炸性话题早发现方法

Publications (1)

Publication Number Publication Date
CN107133219A true CN107133219A (zh) 2017-09-05

Family

ID=59733750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710416848.6A Pending CN107133219A (zh) 2017-06-06 2017-06-06 一种基于张量分解的在线爆炸性话题早发现方法

Country Status (1)

Country Link
CN (1) CN107133219A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761152A (zh) * 2016-02-07 2016-07-13 重庆邮电大学 社交网络中一种基于三元组的参与话题预测方法
CN108549957A (zh) * 2018-04-11 2018-09-18 中译语通科技股份有限公司 互联网话题趋势辅助预测方法及系统、信息数据处理终端
CN117093762A (zh) * 2023-07-18 2023-11-21 南京特尔顿信息科技有限公司 一种舆情数据评估分析系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577404A (zh) * 2012-07-19 2014-02-12 中国人民大学 一种面向微博的全新突发事件发现方法
CN106294333A (zh) * 2015-05-11 2017-01-04 国家计算机网络与信息安全管理中心 一种微博突发话题检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577404A (zh) * 2012-07-19 2014-02-12 中国人民大学 一种面向微博的全新突发事件发现方法
CN106294333A (zh) * 2015-05-11 2017-01-04 国家计算机网络与信息安全管理中心 一种微博突发话题检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAO ZHANG ET.AL: "《https://www.researchgate.net/publication/317095427_A_Refined_Method_for_Detecting_Interpretable_and_Real-time_Bursty_Topic_in_Microblog_Stream》", 24 May 2017 *
WEI XIE ET.AL: "TopicSketch: Real-time Bursty Topic Detection from Twitter", 《2013 IEEE 13TH INTERNATIONAL CONFERENCE ON DATA MINING》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761152A (zh) * 2016-02-07 2016-07-13 重庆邮电大学 社交网络中一种基于三元组的参与话题预测方法
CN108549957A (zh) * 2018-04-11 2018-09-18 中译语通科技股份有限公司 互联网话题趋势辅助预测方法及系统、信息数据处理终端
CN108549957B (zh) * 2018-04-11 2021-10-29 中译语通科技股份有限公司 互联网话题趋势辅助预测方法及系统、信息数据处理终端
CN117093762A (zh) * 2023-07-18 2023-11-21 南京特尔顿信息科技有限公司 一种舆情数据评估分析系统及方法
CN117093762B (zh) * 2023-07-18 2024-02-13 南京特尔顿信息科技有限公司 一种舆情数据评估分析系统及方法

Similar Documents

Publication Publication Date Title
Özgür et al. A review of KDD99 dataset usage in intrusion detection and machine learning between 2010 and 2015
Xie et al. Topicsketch: Real-time bursty topic detection from twitter
O'Brien et al. The language of fake news: Opening the black-box of deep learning based detectors
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
WO2020108430A1 (zh) 一种微博情感分析方法及系统
CN107659429A (zh) 基于区块链的数据共享方法
Baboo An enhanced algorithm to predict a future crime using data mining
Bates et al. Counting clusters in twitter posts
ALRashdi et al. Deep learning and word embeddings for tweet classification for crisis response
Li et al. Micro-blog topic detection method based on BTM topic model and K-means clustering algorithm
Miller Automated detection of Chinese government astroturfers using network and social metadata
CN107133219A (zh) 一种基于张量分解的在线爆炸性话题早发现方法
Kaur et al. News classification and its techniques: a review
Wan Sentiment analysis of Weibo comments based on deep neural network
Akour et al. MQVC: Measuring quranic verses similarity and sura classification using N-gram
Mahara et al. Fake news detection: A RNN-LSTM, Bi-LSTM based deep learning approach
Krishnamoorthy et al. A novel and secured email classification and emotion detection using hybrid deep neural network
Brüggermann et al. Storyline detection and tracking using dynamic latent dirichlet allocation
Kusum et al. Sentiment analysis using global vector and long short-term memory
Ali et al. Cyberbullying Predictive Model: Implementation of Machine Learning Approach
Wang et al. Detecting changes in twitter streams using temporal clusters of hashtags
Li et al. Depression detection using asynchronous federated optimization
Liu et al. ICE: Information credibility evaluation on social media via representation learning
Bejan et al. Nonparametric bayesian models for unsupervised event coreference resolution
Hu et al. o-hetm: An online hierarchical entity topic model for news streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170905