CN103116651A - 一种舆情热点动态检测方法 - Google Patents

一种舆情热点动态检测方法 Download PDF

Info

Publication number
CN103116651A
CN103116651A CN2013100691819A CN201310069181A CN103116651A CN 103116651 A CN103116651 A CN 103116651A CN 2013100691819 A CN2013100691819 A CN 2013100691819A CN 201310069181 A CN201310069181 A CN 201310069181A CN 103116651 A CN103116651 A CN 103116651A
Authority
CN
China
Prior art keywords
report
topic
theme
similarity
reports
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100691819A
Other languages
English (en)
Inventor
李千目
刘婷
侯君
戚湧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Original Assignee
Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology Changshu Research Institute Co Ltd filed Critical Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Priority to CN2013100691819A priority Critical patent/CN103116651A/zh
Publication of CN103116651A publication Critical patent/CN103116651A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种舆情热点动态检测方法,属于网络信息处理技术领域。该方法利用舆情热点本身的特点,通过引入主题排序、主题合并与调整、报道淘汰以及主题描述等步骤,在主题排序方面,考虑了主题的时间和数量特性,为某一时刻的每个主题计算出其得分值,使得主题排序更加合理,通过引入主题合并和调整的机制,减少了同一主题被误分为多个小主题的情况,通过引入主题内报道淘汰的机制,使得主题的内容更加集中,同时主题描述提出了将特征词和报道标题相结合的方法使得主题描述更加准确全面。

Description

一种舆情热点动态检测方法
技术领域
本发明涉及一种舆情热点动态检测方法,属于网络信息处理技术领域。 
背景技术
网络舆情,是指在互联网上,围绕某些中介性社会事件的发生、发展和变化,网民对社会管理者产生和持有的社会政治态度,是网民关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。由于网络媒体的参与门槛低,使得网民的社会阶层分布广泛,反映出当前社会各个阶层民众的思想动态。 
网络媒体能够反映社会民意的社会舆情,但同时一些不负责任的虚假信息、极端言论以及失实的政治舆论也在传播,我国当前处于一个矛盾高发的时代,所面临的网络舆情检测与分析形势严峻,能够正确有效地把握危机事件,有利于维护社会的稳定、和谐发展,因此,在面对论坛、博客、微博等网络媒体中海量数据的时候,如何及时、准确地从互联网中检测到热点的舆情信息,快速准确地制止危及国家和社会稳定的不稳定因素以及引导正面舆论,促进和谐社会建设,保障经济持续稳定发展具有重大的意义。 
舆情热点检测技术是指从不断涌现的网络舆情中即时地获得新发生的热点信息,并对其进行持续追踪,主要依靠主题检测与追踪技术来实现。其中,文本聚类技术是主题检测技术的基础,包括单遍聚类、k-means聚类、层次凝聚聚类、概率模型。 
现有的主题检测技术的主要步骤为:(1)从数据源读入一篇报道,数据源可以是多个,包括内容、时间等其它信息;(2)采用质心比较策略或最近邻居比较策略,确定与当前报道最接近的主题;(3)判断报道与现有主题的相似度,若报道能归入某个主题,则调整该主题,若报道无法归入现有主题,则列为新主题;(4)输出检测到的主题,将主题中的特征词作为主题描述。 
由于现有主题检测技术主要考虑在固定的小数据集合上的错检率和漏检率,在实舆情热点自动检测时,主要存在的问题:(1)主题排序问题,现有技术仅仅按照主题本身包含的文档个数来排序,使得当前排序最前的主题是一些发生时间较长,相对陈旧的主题;(2)主题相似性问题,由于同一个主题在发生初期会进行不同方面的报道而被分为多个小主题,随着事态的发展,主题的相似度可能会越来越大,这就给用户的浏览带来迷惑;(3)淘汰过时报道问题,主题检测是长期持续的过程,而主题的动态演化使得主题内的一些报道和该主题的相关性会逐渐降低,或随着事态发展,整个主题内容可能过于宽泛,现有技术中没有考虑到过时报道淘汰问题;(4)主题描述问题,目前主题的描述包括提取主题若干个特征词和提取该主题中某个报道的标题两种方法,但是中文的自然语言处理技术仍然不够成熟,特征词并不一定可以表达该主题的意义,而如果采用该主题中某个报道的标题来描述,则可能会片面。 
发明内容
本发明的目的在于通过改进现有的主题检测算法,并将其用于解决舆情热点检测存在的问题而提供一种舆情热点动态监测方法。 
本发明通过如下技术方案实现,具体包括如下步骤: 
步骤1,检测一个或多个新闻网络数据源,从数据源中抓取报道,解析出报道的时间、标题和正文信息;
所述的新闻网络数据源,当新报道和已经处理报道的重复度大于重复阈值θd时,则认为是重复报道,根据新报道的内容进行消重处理,其中0<θd≤1;
所述的消重处理步骤为:采用文本挖掘中的相似度计算方法进行,并在报道预处理中,对报道按照网络数据来源规则和基于内容的自动分类相结合的方法进行分类。
步骤2,采用质心比较策略,将当前报道与所属类别内现有监测到的主题进行比较,同时考虑时间和内容特征,计算当前报道和现有监测到的主题间的相似度,并记录最大相似度Smax以及相似度最大的主题Es; 
所述的主题Es通过主题内部所有新闻中综合权重最高的若干个特征词来表达;所述的当前报道和主题Es之间的相似度基于向量空间模型,通过两者的夹角余弦值来计算;
其中,在计算当前报道和现有监测到的主题间的相似度S时,给予权威性较高的报道以较高权重,报道的权威性采用数据源的权威性。
步骤3,根据步骤2中计算得到的最大相似度Smax以及相似度最大的主题Es,对当前报道采取如下措施: 
a) 如果Smax小于创新阈值θn,则在该报道所述类别内创建一个新主题;
b) 如果Smax大于θn而小于聚类阈值θc,则返回步骤1;
c) 如果Smax大于θc而小于贡献阈值θt,则将当前报道的文章归于主题Es,但不调整Es
d) 如果Smax大于θt,则将当前报道的文章归入主题Es,并调整Es
其中,0<θnct≤1,0<Smax≤1。
步骤4,当一个类别处理固定数量新增报道后,对该类别内主题两两比较,如果两个主题的相似度大于合并阈值θu,则将其合并,其中,0<θun≤1; 
所述的两个主题的相似度S,其计算是采用如下公式:
Figure 992487DEST_PATH_IMAGE001
其中,
Figure 130338DEST_PATH_IMAGE002
是两个检测到的新闻主题,
Figure 437823DEST_PATH_IMAGE003
分别是中的报道,
Figure 751572DEST_PATH_IMAGE004
是两个报道之间的相似度,指的是两个主题中包含的报道数目的乘积。
步骤5,当一个类别处理固定数量新增报道后,对各个主题内的报道进行淘汰,重新计算报道和该主题的相似度S,对相似度S低于聚类阈值θc的报道进行淘汰,然后再重新计算主题向量。 
步骤6,若当前类别内的主题数量超过主题窗口大小,对类别内的主题进行排序,结合主题的时间和数量特性,从所有类别中选择出得分最高的若干个主题,作为该类别最热点的主题,并输出主题描述和包含的报道列表,其中,主题描述的生成过程如下: 
步骤a), 读取主题内部权重最高的若干个特征词;
步骤b), 在与主题相似度大于主题阈值θe的主题内报道中,选择时间最近的若干篇报道的标题,其中0<θe≤1;
步骤c),综合a) 和b),输出该主题的描述。
所述的在进行主题排序时,结合时间和数量特性,同时考虑之前的文档数量和当天的文档数量,时间越近的文档排序权重越大,按照设定的时间进行分段t1,t2,…tn,如果某个主题T在这n段时间内分别包含c1,c2,…cn个文档,则主题T的排序权重为:,其中0<
Figure 357631DEST_PATH_IMAGE007
<1。 
本发明的技术效果在于:(1)主题排序问题,本发明引入对所有主题在固定时刻计算权重值,从而对主题进行排序的机制,该机制综合考虑主题内文档的时间特性和重要度特性,进而在某一时刻对主题进行权重值计算,主题的浏览次序根据主题的综合权重值进行智能排序;(2)主题相似性问题,本发明引入主题合并和调整机制,该机制引入时间窗口和动态调整机制,即过一段时间对多个小主题进行两两比较,进行合并;或根据处理固定个数的报道,就对两两主题之间进行比较,对主题进行合并;(3)淘汰过时报道问题,和主题相似性问题中描述的方法相似,本发明引入时间窗口和动态调整机制,即过一段时间就对大主题进行检测,分裂成小主题;或引入固定个数的报道后,就对主题进行分析,将大主题分裂成小主题;(4)主题描述问题,本发明对舆论热点的描述采用了滚动特征词和滚动报道标题结合的方法,选择主题内部权重最高的若干个特征词描述主题;同时选择主题内部权重最高的,最具代表性的若干篇报道题目作为主题描述的一部分。 
附图说明
图1是本发明的流程示意图。 
图2是本发明算法的流程图。 
其中,Smax表示报道和主题间的最大相似度;θn表示创新阈值;θc表示聚类阈值;θt表示贡献阈值;且0<θnct≤1,0<Smax≤1;θu表示合并阈值,0<θun≤1;θe表示主题阈值,0<θe≤1。 
具体实施方式
下面结合附图对本发明的实施例作详细说明。 
一种舆情热点动态监测方法,其具体步骤如下: 
步骤1,对于多个新闻网络数据源进行不断地检测,从网络中自动抓取报道,解析出报道的时间、标题和正文信息等,如果没有从报道中找到时间,则以抓取时间为准;
由于多个数据源之间存在相当的重复,根据文本内容对新抓取的报道进行消重处理,如果新报道和已经处理报道重复度大于阈值θd,则认为是重复的报道。
步骤2,采用质心比较策略,将报道与所属类别c内现有监测到的主题进行比较,同时考虑时间和内容特征,计算报道和主题间的相似度,并记录最大相似度Smax以及相似度最大的主题Es,确定与当前报道最相近的主题;主题本身通过主题内部所有新闻中综合权重最高的若干个特征词来表达,报道和主题之间的相似度基于向量空间模型,通过两者的夹角余弦值来计算,同时赋予报道的标题以较高的权重。 
步骤3,根据步骤2中计算得到的最大相似度Smax以及相似度最大的主题Es,对当前报道采取如下措施: 
a) 如果Smax小于创新阈值θn,在该报道所述类别内创建一个新主题;
b) 如果Smax大于θn但是小于聚类阈值θc,不做处理,返回步骤1;
c) 如果Smax大于θc但是小于贡献阈值θt,将文章归于当前主题,不调整Es;
d) 如果Smax大于θt,归入主题Es,并调整Es。
步骤4,当一个类别处理固定数量(如30条)新增报道或到达设置的时间节点之后,对该类别内主题两两比较,如果两个主题的相似度大于合并阈值θu,则将其合并。 
步骤5,当一个类别处理固定数量(如30条)新增报道或到达设置的时间节点之后,对各个主题内的报道进行淘汰,重新计算报道和该主题的相似度,对相似度低于聚类阈值θc或者不满足时间限制条件的报道进行淘汰,然后再重新计算主题向量。 
步骤6,若当前类别内的主题数量超过主题窗口大小,对类别内的主要主题进行排序,结合主题的时间和数量特性,从所有类别中选择出得分最高的若干个主题,作为该类别最热点的主题,输出主题描述和包含的报道列表,其中,主题描述的生成过程如下: 
a) 读取主题内部权重最高的若干个特征词;
b) 在于主题相似度大于主题阈值θe的主题内报道中,选择时间最近的若干篇报道的标题;主题阈值还可以采取按照比例的方式进行设置;
c)综合前两项,输出该主题的描述。
下面对上述步骤进行细节说明: 
步骤1中的重复阈值θd的取值范围在(0,1]之间,所述消重处理是根据报道的内容采用文本挖掘中的相似度计算方法进行,在报道预处理中,采用自动分类的方法对报道按照预先设定好的类别进行分类,本发明中采用基于来源的规则分类和基于内容的自动分类相结合的方法对报道进行分类。
步骤2中所述的确定于当前报道相关的主题时采用质心比较策略,相似度计算考虑结合报道和主题的时间特性。在进行相似度计算的时候,给予权威性较高的报道以较高权重,报道的权威性采用数据源的权威性。 
步骤4中的主题间相似度计算,是采用传统聚类算法中计算的聚类相似度值,采用如下公式: 
Figure 263270DEST_PATH_IMAGE001
其中,是两个检测到的新闻主题,
Figure 257957DEST_PATH_IMAGE003
分别是
Figure 60828DEST_PATH_IMAGE002
中的报道,
Figure 882241DEST_PATH_IMAGE004
是两个报道之间的相似度,
Figure 590303DEST_PATH_IMAGE005
指的是两个主题中包含的报道数目的乘积,θu的取值在(0,1]之间。
步骤5中淘汰新闻的条件可以是相似度阈值或者时间限制,也可以是外部限制如关注度,用户点击次数等。 
步骤6中计算主题排序时候,需要结合时间和数量特性,本发明中采取的是同时考虑文档数量和当天的文档数量,时间越近的文档排序权重越大。按照设定的时间(如2小时)对时间进行分段t1,t2,…tn,这n段时间内,如果某个主题T在这n段时间内分别包含c1,c2,…cn个文档,则主题T的排序权重为: 
Figure 2013100691819100002DEST_PATH_IMAGE001
其中
Figure 451391DEST_PATH_IMAGE007
可以由用户自己确定。

Claims (8)

1.一种舆情热点动态检测方法,其特征在于具体算法步骤如下:
步骤1,检测一个或多个新闻网络数据源,从数据源中抓取报道,解析出报道的时间、标题和正文信息;
步骤2,采用质心比较策略,将当前报道与所属类别c内现有监测到的主题进行比较,同时考虑时间和内容特征,计算当前报道和现有监测到的主题间的相似度,并记录最大相似度Smax以及相似度最大的主题Es; 
步骤3,根据步骤2中计算得到的最大相似度Smax以及相似度最大的主题Es,对当前报道采取如下措施:
a) 如果Smax小于创新阈值θn,则在该报道所述类别内创建一个新主题;
b) 如果Smax大于θn而小于聚类阈值θc,则返回步骤1;
c) 如果Smax大于θc而小于贡献阈值θt,则将当前报道的文章归于主题Es,但不调整Es
d) 如果Smax大于θt,则将当前报道的文章归入主题Es,并调整Es
其中,0<θnct≤1,0<Smax≤1;
步骤4,当一个类别处理固定数量新增报道后,对该类别内主题两两比较,如果两个主题的相似度大于合并阈值θu,则将其合并,其中,0<θun≤1;
步骤5,当一个类别处理固定数量新增报道后,对各个主题内的报道进行淘汰,重新计算报道和该主题的相似度S,对相似度S低于聚类阈值θc的报道进行淘汰,然后再重新计算主题向量;
步骤6,若当前类别内的主题数量超过主题窗口大小,对类别内的主题进行排序,结合主题的时间和数量特性,从所有类别中选择出得分最高的若干个主题,作为该类别最热点的主题,并输出主题描述和包含的报道列表,其中,主题描述的生成过程如下:
步骤a) ,读取主题内部权重最高的若干个特征词;
步骤b) ,在与主题相似度大于主题阈值θe的主题内报道中,选择时间最近的若干篇报道的标题,其中0<θe≤1;
步骤c),综合步骤a) 和步骤b),输出该主题的描述。
2.根据权利要求1所述的一种舆情热点动态检测方法,其特征在于:步骤1中所述的新闻网络数据源,当新报道和已经处理报道的重复度大于重复阈值θd时,则认为是重复报道,根据新报道的内容进行消重处理,其中0<θd≤1。
3.根据权利要求2所述的一种舆情热点动态检测方法,其特征在于:所述的消重处理步骤为:采用文本挖掘中的相似度计算方法进行,并在报道预处理中,对报道按照网络数据来源规则和基于内容的自动分类相结合的方法进行分类。
4.根据权利要求1所述的一种舆情热点动态检测方法,其特征在于:步骤2中在计算当前报道和现有监测到的主题间的相似度S时,给予权威性较高的报道以较高权重,报道的权威性采用数据源的权威性。
5.根据权利要求1所述的一种舆情热点动态检测方法,其特征在于:步骤3中所述的主题Es通过主题内部所有新闻中综合权重最高的若干个特征词来表达;所述的当前报道和主题Es之间的相似度基于向量空间模型,通过两者的夹角余弦值来计算,同时赋予报道的标题以较高权重。
6.根据权利要求1所述的一种舆情热点动态检测方法,其特征在于:步骤4中所述的两个主题的相似度S,其计算是采用如下公式:
其中,
Figure 51621DEST_PATH_IMAGE002
是两个检测到的新闻主题,
Figure 326745DEST_PATH_IMAGE003
分别是
Figure 533998DEST_PATH_IMAGE002
中的报道,
Figure 931481DEST_PATH_IMAGE004
是两个报道之间的相似度,
Figure 722719DEST_PATH_IMAGE005
指的是两个主题中包含的报道数目的乘积。
7.根据权利要求1所述的一种舆情热点动态检测方法,其特征在于:步骤6中所述的在进行主题排序时,结合时间和数量特性,同时考虑之前的文档数量和当天的文档数量,时间越近的文档排序权重越大,按照设定的时间进行分段t1,t2,…tn,如果某个主题T在这n段时间内分别包含c1,c2,…cn个文档,则主题T的排序权重为:                                                  
Figure 2013100691819100001DEST_PATH_IMAGE001
,其中0<
Figure 361828DEST_PATH_IMAGE007
<1。
8.根据权利要求1所述的一种舆情热点动态检测方法,其特征在于:所述的主题Es通过主题内部所有新闻中综合权重最高的若干个特征词来表达;所述的当前报道和主题Es之间的相似度基于向量空间模型,通过两者的夹角余弦值来计算。
CN2013100691819A 2013-03-05 2013-03-05 一种舆情热点动态检测方法 Pending CN103116651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100691819A CN103116651A (zh) 2013-03-05 2013-03-05 一种舆情热点动态检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100691819A CN103116651A (zh) 2013-03-05 2013-03-05 一种舆情热点动态检测方法

Publications (1)

Publication Number Publication Date
CN103116651A true CN103116651A (zh) 2013-05-22

Family

ID=48415024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100691819A Pending CN103116651A (zh) 2013-03-05 2013-03-05 一种舆情热点动态检测方法

Country Status (1)

Country Link
CN (1) CN103116651A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN106257458A (zh) * 2016-07-15 2016-12-28 合肥指南针电子科技有限责任公司 一种舆情信息归类评估系统
CN106257457A (zh) * 2016-07-15 2016-12-28 合肥指南针电子科技有限责任公司 一种舆情收集整理方法
CN108062319A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 一种新主题的实时检测方法及装置
CN116701729A (zh) * 2023-08-01 2023-09-05 贵州融云信息技术有限公司 一种网络舆情检测系统及检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1822000A (zh) * 2006-02-14 2006-08-23 北大方正集团有限公司 一种自动检测新闻事件的方法
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101661513A (zh) * 2009-10-21 2010-03-03 上海交通大学 网络热点和舆情的检测方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102012929A (zh) * 2010-11-26 2011-04-13 北京交通大学 网络舆情预测方法及系统
US20110252015A1 (en) * 2007-07-02 2011-10-13 Kristina Butvydas Bard Qualitative Search Engine Based On Factors Of Consumer Trust Specification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1822000A (zh) * 2006-02-14 2006-08-23 北大方正集团有限公司 一种自动检测新闻事件的方法
US20110252015A1 (en) * 2007-07-02 2011-10-13 Kristina Butvydas Bard Qualitative Search Engine Based On Factors Of Consumer Trust Specification
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101661513A (zh) * 2009-10-21 2010-03-03 上海交通大学 网络热点和舆情的检测方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102012929A (zh) * 2010-11-26 2011-04-13 北京交通大学 网络舆情预测方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN103390051B (zh) * 2013-07-25 2016-07-20 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN106257458A (zh) * 2016-07-15 2016-12-28 合肥指南针电子科技有限责任公司 一种舆情信息归类评估系统
CN106257457A (zh) * 2016-07-15 2016-12-28 合肥指南针电子科技有限责任公司 一种舆情收集整理方法
CN108062319A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 一种新主题的实时检测方法及装置
CN116701729A (zh) * 2023-08-01 2023-09-05 贵州融云信息技术有限公司 一种网络舆情检测系统及检测方法
CN116701729B (zh) * 2023-08-01 2023-10-31 贵州融云信息技术有限公司 一种网络舆情检测系统及检测方法

Similar Documents

Publication Publication Date Title
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
Ardehaly et al. Co-training for demographic classification using deep learning from label proportions
CN107766585B (zh) 一种面向社交网络的特定事件抽取方法
CN109690529B (zh) 按事件将文档编译到时间线中
Zhao et al. Topical keyphrase extraction from twitter
CN105069072B (zh) 基于情感分析的混合用户评分信息推荐方法及其推荐装置
Ardehaly et al. Using county demographics to infer attributes of twitter users
CN107193797B (zh) 中文微博的热点话题检测及趋势预测方法
CN105183717B (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
US20140122405A1 (en) Information processing apparatus, information processing method, and program
Cheng et al. Model bloggers' interests based on forgetting mechanism
CN103116651A (zh) 一种舆情热点动态检测方法
CN111949848B (zh) 一种基于特定事件的跨平台传播态势评估及分级方法
CN101894129B (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN109885675A (zh) 基于改进lda的文本子话题发现方法
CN112711676B (zh) 一种视频召回方法、装置、电子设备及存储介质
CN115309860B (zh) 基于伪孪生网络的虚假新闻检测方法
Kunneman et al. Event detection in Twitter: A machine-learning approach based on term pivoting
Hasan et al. Using social sensing to discover trends in public emotion
CN107545075A (zh) 一种基于在线评论和情境感知的餐馆推荐方法
Saha et al. The corporeality of infotainment on fans feedback towards sports comment employing convolutional long-short term neural network
Elsawy et al. Tweetmogaz v2: Identifying news stories in social media
TW201243627A (en) Multi-label text categorization based on fuzzy similarity and k nearest neighbors
CN112182187A (zh) 提取社交媒体短文本中重要时间片段的方法
CN108287902B (zh) 一种基于数据非随机缺失机制的推荐系统方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130522