CN106339376B - 热门微博的识别方法及装置 - Google Patents
热门微博的识别方法及装置 Download PDFInfo
- Publication number
- CN106339376B CN106339376B CN201510390850.1A CN201510390850A CN106339376B CN 106339376 B CN106339376 B CN 106339376B CN 201510390850 A CN201510390850 A CN 201510390850A CN 106339376 B CN106339376 B CN 106339376B
- Authority
- CN
- China
- Prior art keywords
- microblog
- identification information
- original
- preset
- hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000009825 accumulation Methods 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 206010033307 Overweight Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种热门微博的识别方法及装置,涉及信息技术领域,能够准确识别每个时刻出现的热门微博,从而能够提升热门微博的识别准确性。所述方法包括:获取当前微博对应的原创微博的标识信息;对预置存储位置中所述原创微博的标识信息对应的出现次数进行更新,所述预置存储位置保存有不同原创微博的标识信息分别对应的出现次数;若更新后的所述出现次数大于预置阈值,则确认所述原创微博为热门微博。本发明适用于热门微博的识别。
Description
技术领域
本发明涉及信息技术领域,特别是涉及一种热门微博的识别方法及装置。
背景技术
随着互联网技术的不断进步与发展,微博已成为人们获取信息、交流信息的重要渠道,网民可以创建微博发表自己的意见和爆料各类新闻,或者转发其他人创建的微博。其中,在较短的时间内产生较高转发的微博为热门微博,及时地判断出热门微博具有相当大的意义。
目前,判断热门微博的方式为:统计一段时间内某条微博转发数增加量,若转发数增加量大于一定阈值,则判断该微博为热门微博。然而,通过上述方案判断热门微博,通常需要跟踪一段时间内微博被转发数,即分别获取开始时间和结束时间的转发数,然而,微博转发数的快速增加可能发生在前一次跟踪时间段的结尾阶段到下一次跟踪时间段的开始阶段,因此,造成两次跟踪时间段都未能抓取到转发数的快速增加,造成识别误差较大,从而导致热门微博的识别准确性较低。
发明内容
有鉴于此,本发明提供一种热门微博的识别方法及装置,主要目的在于能够准确识别每个时刻出现的热门微博,从而能够提升热门微博的识别准确性。
依据本发明一方面,提供了一种热门微博的识别方法:包括:
获取当前微博对应的原创微博的标识信息;
对预置存储位置中所述原创微博的标识信息对应的出现次数进行更新,所述预置存储位置保存有不同原创微博的标识信息分别对应的出现次数;
若更新后的所述出现次数大于预置阈值,则确认所述原创微博为热门微博。
依据本发明另一方面,提供一种热门微博的识别装置,包括:
获取单元,用于获取当前微博对应的原创微博的标识信息;
更新单元,用于根据获取单元获取的原创微博的标识信息对预置存储位置中所述原创微博的标识信息对应的出现次数进行更新,所述预置存储位置保存有不同原创微博的标识信息分别对应的出现次数;
确认单元,用于若所述更新单元更新后的所述出现次数大于预置阈值,则确认所述原创微博为热门微博。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供一种热门微博的识别方法及装置。通过获取当前微博对应的原创微博的标识信息,并根据当前原创微博的标识信息对应的出现次数进行热门微博识别,与目前通过统计一段时间内某条微博转发数增加量进行热门微博的判断相比,由于本发明实施例获取的微博为当前时刻产生的,原创微博的标识信息的出现次数也是根据当前时刻的出现次数进行更新的,当更新后的出现次数大于预置阈值,说明原创微博在较短的时间内的产生了较高的转发量,就可以判断原创微博在其当前被转发的时刻为热门微博,从而能够避免目前通过一段时间内转发数增加量识别热门微博所产生的误差,能够准确识别出每个时刻出现的热门微博,从而提升热门微博的识别准确性。
附图说明
图1示出了本发明实施例提供的一种热门微博的识别方法的流程图;
图2示出了本发明实施例提供的另一种热门微博的识别方法的流程图;
图3示出了本发明实施例提供的一种热门微博的识别装置的结构示意图;
图4示出了本发明实施例提供的另一种热门微博的识别装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。
本发明实施例提供了一种热门微博的识别方法,其中,本发明实施例所提供的一种热门微博的识别方法的执行主体,可以是服务器、移动终端或任一网络服务设备,在此不做任何限定。下面如图1所示,所述方法包括:
101、获取当前微博对应的原创微博的标识信息。
其中,当前微博可以为实时产生的微博。原创微博的标识信息可以为原创微博的身份标识号码(Identity,ID),例如,原创微博的标识信息为原创微博的ID:1020233637;也可以为原创微博用户的ID和原创微博发布时间的组合,例如,原创微博的标识信息为原创微博用户的ID“微博搞笑排行榜”和原创微博发布时间“2015年11点01分”的组合,本发明实施例不做限定。
对于本发明实施例,步骤101具体可以为:获取当前微博信息。其中,当前微博信息中包括原创微博的标识信息。例如,当前微博为微博B, 微博B信息中包括微博A的标识信息ID_A,则微博B转发自微博A,当执行主体在获取微博B时,得到的微博信息为(B-A),B表示获取的当前这条微博,A表示B的原创微博。当前微博信息可以通过网络爬虫进行获取,也可以通过微博服务提供商的数据库直接进行获取,通过调用微博服务提供商的应用程序接口(Application Programming Interface,API)进行获取,本发明实施例不做限定。例如,对于新浪微博,可以通过调用新浪对第三方应用授权的API获取当前微博信息,具体地,可以通过请求的方式获取公共微博https://api.weibo.com/2/statuses/public_timeline.json 上的信息,并设置请求OAuth2.0 协议授权,届时就能够根据第三方应用提供的访问权限发出数据请求,获取当前微博信息。
102、对预置存储位置中原创微博的标识信息对应的出现次数进行更新。
其中,预置存储位置保存有不同原创微博的标识信息分别对应的出现次数。例如,新产生的微博A、微博B的原创微博均为微博C,微博C的标识信息为ID_1,当前预置存储位置保存的ID_1对应的值为6,当通过网络爬虫获取到微博A的原创微博C的标识信息ID_1时,将预置存储位置保存的ID_1对应的值更新为7;当网络爬虫获取到微博A的原创微博C的标识信息ID_1时,将预置存储位置保存的ID_1对应的值更新为8。所述预置存储位置可以为预置队列、也可以为预置栈,本发明实施例不做限定。
103、若更新后的预置存储位置中原创微博的标识信息对应的出现次数大于预置阈值,则确认所述原创微博为热门微博。
其中,预置阈值可以按实际的业务需求进行配置,也可以由系统默认配置,本发明实施例不做限定。例如,最近产生的微博数为100,则预置阈值配置为20,或者最近产生的微博数为200,则预置阈值配置为80等。热门微博是指在较短的时间内产生较高转发的微博。对于本发明实施例,热门微博的定义为最近产生的微博中,转发自相同的原创微博的微博数量大于一定的阈值,则判断原创微博在近期较短的时间内产生了较高的转发量,即该原创微博为热门微博。
对于本发明实施例,通过在微博产生时获取原创微博的标识信息,然后更新预置存储位置中原创微博的标识信息的出现次数,当出现次数大于预置阈值时,判断原创微博为热门微博。出现次数表示最近产生的所有微博中,转发自相同原创微博的微博条数。由于在识别热门微博的整个过程中,只获取新产生的微博的原创微博的标识信息,即对每一条新产生的微博只获取一次,从而减轻了获取微博的压力。同时,由于获取的微博为实时产生的,原创微博的标识信息的出现次数也是实时进行更新的,当更新后的出现次数大于预置阈值,说明原创微博在较短的时间内的产生了较高的转发量,就可以判断原创微博在微博的发布时刻为热门微博,从而能够避免目前通过转发数增加量的识别热门微博的误差,能够准确识别出每个时刻出现的热门微博,从而提升热门微博的识别准确性。
对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:最近一秒内产生100条微博,设置预置阈值为20。依次获取100条微博的原创微博的标识信息,然后用原创微博的标识信息更新预置存储位置,即实时统计原创微博的标识信息对应的出现次数,若某一条原创微博的标识信息对应的出现次数为30大于预置阈值20,就表示在100条微博中有30条微博转发自相同的原创微博,判断原创微博在一秒内产生了较高的转发量,即该原创微博为热门微博。
本发明实施例提供的一种热门微博的识别方法。通过获取当前微博对应的原创微博的标识信息,并根据当前原创微博的标识信息对应的出现次数进行热门微博识别,与目前通过统计一段时间内某条微博转发数增加量进行热门微博的判断相比,由于本发明实施例获取的微博为当前时刻产生的,原创微博的标识信息的出现次数也是根据当前时刻的出现次数进行更新的,当更新后的出现次数大于预置阈值,说明原创微博在较短的时间内的产生了较高的转发量,就可以判断原创微博在微博其当前被转发时刻为热门微博,从而能够避免目前通过一段时间内转发数增加量的识别热门微博所产生的误差,能够准确识别出每个时刻出现的热门微博,从而提升热门微博的识别准确性。
本发明实施例提供了另一种热门微博的识别方法,如图2所示,所述方法包括:
201、获取当前微博对应的原创微博的标识信息。
其中,当前微博可以为实时产生的微博。原创微博的标识信息可以为原创微博的ID,也可以为原创微博用户的ID和微博发布时间的组合,本发明实施例不做限定。
对于本发明实施例,若所述当前微博为原创微博,步骤201具体可以为:获取当前微博信息。其中,当前微博信息中包括当前微博的标识信息。例如,若标识信息为ID_A的微博A是原创微博,则在获取微博A的微博信息时,得到的微博信息为(A-NULL),其中,微博信息(A-NULL)中包含有微博A的标识信息ID_A,A表示获取的当前这条微博,NULL表示微博A不存在原创微博。由于在识别热门微博的整个过程中,只获取新产生的微博的原创微博的标识信息,即对每一条新产生的微博只获取一次,从而减轻了获取微博的压力。
202、对预置队列中当前微博对应的原创微博的标识信息对应的键值对中的值进行更新。
其中,预置队列中保存的不同原创微博的标识信息分别对应计数器的一个键值对,所述键值对中的键为所述原创微博的标识信息,所述键值对中的值为所述原创微博的标识信息对应的出现次数。预置队列用于存放最近的若干条微博数据,起到缓存的作用。在初始化预置队列时,需要预先定义好队列的长度,如记为n,表示队列最多存放n条微博。预置队列可以按实际的业务需求进行配置,也可以由系统默认配置,本发明实施例不做限定。例如,预置队列可以为长度为10的队列,也可以为长度为30的队列等。计数器用于统计队列中各个微博出现的次数。初始化计数器时默认的没有任何键值对,随着微博加入到队列的过程,计数器将动态更新。具体的,原创微博的标识信息对应的出现次数的更新可以通过伪代码进行实现:
private class Hits
{
public int Frequence{ get; set; }//出现次数
}
private Dictionary<long, Hits> _counter; //计数器
对于本发明实施例,步骤202具体可以为:对预置队列中当前微博对应的原创微博的标识信息对应的键值对中的值进行累加操作。其中,所述累加操作具体可以为加一累加操作,也可以是根据实际情况自定义设置加或减值的累加操作,本发明实施例不做限定。
对于本发明实施例,在步骤202之前还可以为:判断预置队列中是否保存有当前微博对应的原创微博的标识信息;若否,则在预置队列中的计数器中添加一组与当前微博对应的原创微博的标识信息对应的键值对。具体的,可以通过伪代码进行实现:
public void Add(long id)
{
if (_counter.ContainsKey(id))//判断预置队列中是否保存有当前微博对应的原创微博的标识信息
{
_counter[id]. Frequence++;//若是,则将当前微博对应的原创微博的标识信息对应的键值对的值加一
}
else
{ _counter.Add( id, new Hits(){ Frequence=1 });//若否,则在计数器中添加一组键值对,键值对中的键为当前微博对应的原创微博的标识信息,键值对中的值为一
}
}
对于本发明实施例,根据微博的原创微博的标识信息更新队列,若某一原创微博的标识信息是首次被添加至队列中,则计数器相应添加一组新的键值对,其键为该原创微博的标识信息,值为一;若某原创微博的标识信息之前在队列中存在,被添加至队列时计数器中相应原创微博的标识信息的值加一。例如,微博A的原创微博的标识信息为ID_2,ID_2是首次进入队列,计数器相应添加一组新的键值对,其键为ID_2,值为一;微博B的原创微博的标识信息为ID_2,ID_2是进入队列时,计数器对应键为ID_2的值加一,变为二。
对于本发明实施例,在步骤202之前还可以为:判断预置队列中保存的原创微博的标识信息的数量是否达到该预置队列的长度;若是,则将最先进入预置队列的原创微博的标识信息删除;并将当前微博对应原创微博的标识信息添加到预置队列;所述步骤202具体为:将进行删除操作的标识信息在预置队列中的计数器中对应的键值对中的值减一,将当前微博的原创微博的标识信息在所述计数器中对应的值加一。具体地,删除原创微博的标识信息的步骤可以通过伪代码进行实现:
public void Remove(long id)
{
_counter[id]. Frequence--;
}
对于本发明实施例,当添加到队列中的标识信息数量将要超过队列长度时,通过将最先加入队列的标识信息删除,可以保证队列的稳定。同时保证队列更新的实时性,进而保证热门微博识别的实时性。
例如,预置队列的长度为3,队列中已经存放了ID_1、ID_2、ID_3;计数器中ID_1、ID_2、ID_3分别对应的值均为1。微博ID的原创微博的标识信息为ID_1,微博D对应的ID_1是进入队列时,判断预置队列中保存的原创微博的标识信息的数量达到预置队列的长度3,此时将最先进入队列的ID_1删除,计数器中ID_1对应的值减一,变为零;然后将微博D对应的ID_1是添加到队列中,计数器中ID_1对应的值加一,变为一。
203、从预置队列中获取更新后的当前微博对应的原创微博的标识信息对应的键值对中的值。
例如,预置队列的长度为6,预置阈值为3,队列中存放了ID_1、ID_2、ID_3、ID_1、ID_1、ID_1;计数器中ID_1、ID_2、ID_3分别对应的值为4、1、1。判断ID_1对应的值4大于3,则判断ID_1对应的原创微博为热门微博。
204、若更新后的值大于预置阈值,则确认当前微博对应的原创微博为热门微博。
其中,预置阈值为预置队列长度与预置权重比例之间的乘积。预置队列长度和预置权重比例均可以按实际的业务需求进行配置,也可以由系统默认配置,本发明实施例不做限定。例如,预置队列长度为n和预置权重比例为alpha,预置阈值m=n╳alpha。若某键值对的value值大于m,则该键值对的id所对应的原创微博,在该时刻就被判定为热门微博。在初始化阶段,预先定义预置权重比例值。预置权重比例的取值范围为0到1,其值越大则表示微博被判断为热门的门槛越高。其中,预置权重比例可以根据热度高低要求进行设置。例如,可以按微博的热度高低需求划分为三个权重比例区间,分别为高权重比例区间、中权重比例区间、低权重比例区间,高权重比例区间范围为[0.85-1]、中权重比例区间范围为[0.55-0.85]、低权重比例区间范围为[0-0.55]。当微博的主题需求全球人民关注时,可以设置高权重比例值,从高权重比例区间任选一值;当微博的主题需求全国人民关注时,可以设置中权重比例值,从中权重比例区间任选一值;当微博的主题需求某一地区人民关注时,可以设置低权重比例值,从低权重比例区间任选一值。通过将预置权重比值进行划分,能够满足用户根据实际需求调整热门微博的标准。
对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:最近一秒内产生10条微博,分别为微博A、B、C、D、E、F、G、H、I、J。初始化队列的长度为8,预置权重比例为0.5,则预置阈值为4。微博A为原创微博,对应的ID为ID_1。他们分别对应的原创微博的ID为NULL、ID_2、ID_3、 ID_1 、ID_1、ID_1、ID_1、ID_1、ID_4、ID_5。初始化时队列为空,不存在任何ID。当获取微博A时,判断微博A为原创微博,则将微博A对应的ID_1添加到队列,同时,在计数器中添加一组键值对,所述键值对中键为ID_1,键值对中值为1;当获取微博B时,判断微博B为原创微博,则将微博B对应的ID_2添加到队列,同时,在计数器中添加一组键值对,所述键值对中键为ID_2,键值对中值为1;当获取微博C时,判断微博C为原创微博,则将微博C对应的ID_3添加到队列,当获取微博D时,判断对应的原创微博为ID_1,则ID_1添加到队列,同时,计数器中键为ID_1对应的值加1变为2,当获取微博E、F、G时,同样分别将ID_1添加到队列,计数器中键为ID_1对应的值变为5;大于预置阈值4,则判断ID_1对应的原创微博A为热门微博;当获取微博H时,同样分别将ID_1添加到队列,计数器中键为ID_1对应的值变为6;大于预置阈值4,则判断ID_1对应的原创微博A为热门微博;队列和计数器的存储如表1和表2:
队列表1
ID_1 | ID_1 | ID_1 | ID_1 | ID_1 | ID_3 | ID_2 | ID_1 |
计数器表2
原创微博的ID | 原创微博ID对应的值 |
ID_1 | 6 |
ID_2 | 1 |
ID_3 | 1 |
当获取微博I时,判断队列中已经加入8个ID,达到队列的长度,此时将最先进入队列的微博A对应的ID_1删除,计数器中键为ID_1对应的值减1变为5;然后将微博I对应的原创微博为ID_4, 添加到队列,同时在计数器中添加一组键值对,键值对中键为ID_4,键值对中值为1;当获取微博J时,判断队列中已经加入8个ID,达到队列的长度,此时将最先进入队列的微博B对应的ID_2删除,同时在计数器中添加一组键值对,键值对中键为ID_5,键值对中值为1。队列和计数器的存储如表3和表4:
队列表3
ID_4 | ID_1 | ID_1 | ID_1 | ID_1 | ID_1 | ID_3 | ID_2 |
计数器表4
原创微博的ID | 原创微博ID对应的值 |
ID_1 | 5 |
ID_2 | 1 |
ID_3 | 1 |
ID_4 | 1 |
由于在识别热门微博的整个过程中,对10条微博中的每一条微博只获取一次,从而减轻了获取微博的压力。同时,由于获取的10条微博均为实时产生的,队列和计数器的更新也是实时的,当计数器键值对中的值大于4时,说明原创微博在较短的时间内的产生了较高的转发量,即可以判断原创微博在当前微博产生的时刻为热门微博。通过实时地更新原创微博的标识信息,从而能够避免目前通过转发数增加量的识别热门微博的误差,能够准确识别出每个时刻出现的热门微博,进而提升热门微博的识别准确性。
本发明实施例提供的另一种热门微博的识别方法。通过获取当前微博对应的原创微博的标识信息,并根据当前原创微博的标识信息对应的出现次数进行热门微博识别,与目前通过统计一段时间内某条微博转发数增加量进行热门微博的判断相比,由于本发明实施例获取的微博为当前时刻产生的,原创微博的标识信息的出现次数也是根据当前时刻的出现次数进行更新的,当更新后的出现次数大于预置阈值,说明原创微博在较短的时间内的产生了较高的转发量,就可以判断原创微博在其当前被转发的时刻为热门微博,从而能够避免目前通过一段时间内转发数增加量识别热门微博所产生的误差,能够准确识别出每个时刻出现的热门微博,从而提升热门微博的识别准确性。
进一步地,作为图1所示方法的具体实现,本发明实施例提供了一种热门微博的识别装置,如图3所示,所述装置包括:获取单元31、更新单元32、确认单元33。
获取单元31,可以用于获取当前微博对应的原创微博的标识信息。
更新单元32,可以用于根据获取单元31获取的原创微博的标识信息对预置存储位置中所述原创微博的标识信息对应的出现次数进行更新,所述预置存储位置保存有不同原创微博的标识信息分别对应的出现次数。
确认单元33,可以用于若所述更新单元32更新后的所述出现次数大于预置阈值,则确认所述原创微博为热门微博。
需要说明的是,本发明实施例提供的热门微博的识别装置所涉及各功能单元的其他相应描述,可以参考图1的对应描述,在此不再赘述。
本发明实施例提供的一种热门微博的识别装置。通过获取当前微博对应的原创微博的标识信息,并根据当前原创微博的标识信息对应的出现次数进行热门微博识别,与目前通过统计一段时间内某条微博转发数增加量进行热门微博的判断相比,由于本发明实施例获取的微博为当前时刻产生的,原创微博的标识信息的出现次数也是根据当前时刻的出现次数进行更新的,当更新后的出现次数大于预置阈值,说明原创微博在较短的时间内的产生了较高的转发量,就可以判断原创微博在其当前被转发的时刻为热门微博,从而能够避免目前通过一段时间内转发数增加量识别热门微博所产生的误差,能够准确识别出每个时刻出现的热门微博,从而提升热门微博的识别准确性。
进一步地,作为图2所示方法的具体实现,本发明实施例提供了另一种热门微博的识别装置,如图4所示,所述装置包括:获取单元41、更新单元42、确认单元43。
获取单元41,可以用于获取当前微博对应的原创微博的标识信息。
更新单元42,可以用于根据获取单元41获取的原创微博的标识信息对预置存储位置中所述原创微博的标识信息对应的出现次数进行更新,所述预置存储位置保存有不同原创微博的标识信息分别对应的出现次数。
确认单元43,可以用于若所述更新单元42更新后的所述出现次数大于预置阈值,则确认所述原创微博为热门微博。
所述更新单元42,具体可以用于对所述预置存储位置中原创微博的标识信息对应的出现次数进行累加操作。
其中,所述预置存储位置为预置队列,所述预置队列中保存的不同原创微博的标识信息分别对应计数器的一个键值对。
所述更新单元42,具体还可以用于对所述预置队列中所述原创微博的标识信息对应的键值对中的值进行更新,所述键值对中的键为所述原创微博的标识信息,值为所述原创微博的标识信息对应的出现次数。
所述确认单元43包括:获取模块4301、确定模块4302。
获取模块4301,可以用于从所述预置队列中获取更新后的所述原创微博的标识信息对应的键值对中的值。
确定模块4302,可以用于若获取模块4301获取的更新后的值大于预置阈值,则确认所述原创微博为热门微博。
所述装置还包括:判断单元44、添加单元45。
判断单元44,可以用于判断所述预置队列中是否保存有所述原创微博的标识信息。
添加单元45,可以用于若所述判断单元44判断预置队列中未保存有所述原创微博的标识信息,则在所述计数器中添加一组与所述原创微博的标识信息对应的键值对。
所述装置还包括:删除单元46。
所述判断单元44,还可以用于判断所述预置队列中保存的原创微博的标识信息的数量是否达到所述预置队列的长度。
所述删除单元46,可以用于若所述判断单元44判断预置队列中保存的原创微博的标识信息的数量达到所述预置队列的长度,则将最先进入所述预置队列的原创微博的标识信息删除。
所述添加单元45,还可以用于将当前微博对应原创微博的标识信息添加到所述预置队列。
所述更新单元42,具体还可以用于将进行删除操作的标识信息在所述计数器中对应的值减一,并将所述当前微博的原创微博的标识信息在所述计数器中对应的值加一。
所述获取单元42,具体可以用于获取所述当前微博的标识信息。
所述更新单元43,具体还可以用于对预置存储位置中所述当前微博的标识信息对应的出现次数进行更新。
其中,所述预置阈值为所述预置队列长度与预置权重比例之间的乘积。
需要说明的是,本发明实施例提供的热门微博的识别装置所涉及各功能单元的其他相应描述,可以参考图2的对应描述,在此不再赘述。
本发明实施例提供另一种热门微博的识别装置。通过获取当前微博对应的原创微博的标识信息,并根据当前原创微博的标识信息对应的出现次数进行热门微博识别,与目前通过统计一段时间内某条微博转发数增加量进行热门微博的判断相比,由于本发明实施例获取的微博为当前时刻产生的,原创微博的标识信息的出现次数也是根据当前时刻的出现次数进行更新的,当更新后的出现次数大于预置阈值,说明原创微博在较短的时间内的产生了较高的转发量,就可以判断原创微博在其当前被转发的时刻为热门微博,从而能够避免目前通过一段时间内转发数增加量识别热门微博所产生的误差,能够准确识别出每个时刻出现的热门微博,从而提升热门微博的识别准确性。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种热门微博的识别方法,其特征在于,包括:
获取当前微博对应的原创微博的标识信息,所述当前微博为实时产生的微博;
对预置存储位置中所述原创微博的标识信息对应的出现次数进行实时更新,所述预置存储位置保存有不同原创微博的标识信息分别对应的出现次数,所述出现次数为转发自相同原创微博的微博条数;
若更新后的所述出现次数大于预置阈值,则确认所述原创微博为热门微博;
其中,所述预置存储位置为预置队列,所述预置队列中保存的不同原创微博的标识信息分别对应计数器的一个键值对;
所述对预置存储位置中所述原创微博的标识信息对应的出现次数进行更新之前,还包括:
判断所述预置队列中保存的原创微博的标识信息的数量是否达到所述预置队列的长度;
若是,则将最先进入所述预置队列的原创微博的标识信息删除;
将当前微博对应原创微博的标识信息添加到所述预置队列;
所述对预置存储位置中所述原创微博的标识信息对应的出现次数进行实时更新包括:
将进行删除操作的标识信息在所述计数器中对应的值减一,并将所述当前微博的原创微博的标识信息在所述计数器中对应的值加一。
2.根据权利要求1所述的热门微博的识别方法,其特征在于,包括:所述对预置存储位置中所述原创微博的标识信息对应的出现次数进行更新包括:
对预置存储位置中所述原创微博的标识信息对应的出现次数进行累加操作。
3.根据权利要求1或2所述的热门微博的识别方法,其特征在于,所述对预置存储位置中所述原创微博的标识信息对应的出现次数进行更新包括:
对所述预置队列中所述原创微博的标识信息对应的键值对中的值进行更新,所述键值对中的键为所述原创微博的标识信息,键值对中的值为所述原创微博的标识信息对应的出现次数;
所述若更新后的所述出现次数大于预置阈值,则确认所述原创微博为热门微博包括:
从所述预置队列中获取更新后的所述原创微博的标识信息对应的键值对中的值;
若更新后的值大于预置阈值,则确认所述原创微博为热门微博。
4.根据权利要求1或2所述的热门微博的识别方法,其特征在于,所述对预置存储位置中所述原创微博的标识信息对应的出现次数进行更新之前,还包括:
判断所述预置队列中是否保存有所述原创微博的标识信息;
若否,则在所述计数器中添加一组与所述原创微博的标识信息对应的键值对。
5.根据权利要求1所述的热门微博的识别方法,其特征在于,当所述当前微博为原创微博时,所述获取当前微博对应的原创微博的标识信息包括:
获取所述当前微博的标识信息;
所述对预置存储位置中所述原创微博的标识信息对应的出现次数进行更新包括:
对预置存储位置中所述当前微博的标识信息对应的出现次数进行更新。
6.根据权利要求1、2或5所述的热门微博的识别方法,其特征在于,所述预置阈值为所述预置队列长度与预置权重比例之间的乘积。
7.一种热门微博的识别装置,其特征在于,包括:
获取单元,用于获取当前微博对应的原创微博的标识信息,所述当前微博为实时产生的微博;
更新单元,用于根据获取单元获取的原创微博的标识信息对预置存储位置中所述原创微博的标识信息对应的出现次数进行实时更新,所述预置存储位置保存有不同原创微博的标识信息分别对应的出现次数,所述出现次数为转发自相同原创微博的微博条数;
确认单元,用于若所述更新单元更新后的所述出现次数大于预置阈值,则确认所述原创微博为热门微博;
其中,所述预置存储位置为预置队列,所述预置队列中保存的不同原创微博的标识信息分别对应计数器的一个键值对;
所述装置还包括:判断单元、删除单元、添加单元;
所述判断单元,用于判断所述预置队列中保存的原创微博的标识信息的数量是否达到所述预置队列的长度;
所述删除单元,用于若所述判断单元判断预置队列中保存的原创微博的标识信息的数量是否达到所述预置队列的长度,则将最先进入所述预置队列的原创微博的标识信息删除;
所述添加单元,用于将当前微博对应原创微博的标识信息添加到所述预置队列;
所述更新单元,具体还用于将进行删除操作的标识信息在所述计数器中对应的值减一,并将所述当前微博的原创微博的标识信息在所述计数器中对应的值加一。
8.根据权利要求7所述的热门微博的识别装置,其特征在于,包括:
所述更新单元,具体用于对所述预置存储位置中原创微博的标识信息对应的出现次数进行累加操作。
9.根据权利要求7或8所述的热门微博的识别装置,其特征在于,
所述更新单元,具体还用于对所述预置队列中所述原创微博的标识信息对应的键值对中的值进行更新,所述键值对中的键为所述原创微博的标识信息,键值对中的值为所述原创微博的标识信息对应的出现次数;
所述确认单元包括:
获取模块,用于从所述预置队列中获取更新后的所述原创微博的标识信息对应的键值对中的值;
确定模块,用于若获取模块获取的更新后的值大于预置阈值,则确认所述原创微博为热门微博。
10.根据权利要求7或8所述的热门微博的识别装置,其特征在于,所述装置还包括:
判断单元,用于判断所述预置队列中是否保存有所述原创微博的标识信息;
添加单元,用若所述判断单元判断预置队列中未保存有所述原创微博的标识信息,则在所述计数器中添加一组与所述原创微博的标识信息对应的键值对。
11.根据权利要求7所述的热门微博的识别装置,其特征在于,
所述获取单元,具体用于获取所述当前微博的标识信息;
所述更新单元,具体还用于对预置存储位置中所述当前微博的标识信息对应的出现次数进行更新。
12.根据权利要求7、8或11所述的热门微博的识别装置,其特征在于,所述预置阈值为所述预置队列长度与预置权重比例之间的乘积。
13.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求6中任意一项所述的热门微博的识别方法。
14.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求6中任一项所述的热门微博的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510390850.1A CN106339376B (zh) | 2015-07-06 | 2015-07-06 | 热门微博的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510390850.1A CN106339376B (zh) | 2015-07-06 | 2015-07-06 | 热门微博的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106339376A CN106339376A (zh) | 2017-01-18 |
CN106339376B true CN106339376B (zh) | 2020-12-04 |
Family
ID=57825983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510390850.1A Active CN106339376B (zh) | 2015-07-06 | 2015-07-06 | 热门微博的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106339376B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657130A (zh) * | 2018-12-10 | 2019-04-19 | 陆少杰 | 汽车信息的查询方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102801657A (zh) * | 2012-09-03 | 2012-11-28 | 鲁赤兵 | 一种复合型微博系统和方法 |
CN104156390A (zh) * | 2014-07-07 | 2014-11-19 | 乐视网信息技术(北京)股份有限公司 | 一种评论推荐方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8972275B2 (en) * | 2011-03-03 | 2015-03-03 | Brightedge Technologies, Inc. | Optimization of social media engagement |
US10127522B2 (en) * | 2011-07-14 | 2018-11-13 | Excalibur Ip, Llc | Automatic profiling of social media users |
-
2015
- 2015-07-06 CN CN201510390850.1A patent/CN106339376B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102801657A (zh) * | 2012-09-03 | 2012-11-28 | 鲁赤兵 | 一种复合型微博系统和方法 |
CN104156390A (zh) * | 2014-07-07 | 2014-11-19 | 乐视网信息技术(北京)股份有限公司 | 一种评论推荐方法和系统 |
Non-Patent Citations (2)
Title |
---|
微博计数器的设计;刘浩;《http://www.cnblogs.com/liuhao/archive/2012/09/09/2677254.html》;20130719;1-10 * |
微架构设计之微博计数器服务;heqinxian;《http://ishare.iask.sina.com.cn/f/35989398.html》;20130308;第7,13-15,32-33 * |
Also Published As
Publication number | Publication date |
---|---|
CN106339376A (zh) | 2017-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104539514B (zh) | 消息过滤方法和装置 | |
CN111343142B (zh) | 一种基于区块链网络的数据处理方法、装置及存储介质 | |
WO2018103622A1 (zh) | 信息投放控制方法、装置及存储介质 | |
CN109299144B (zh) | 一种数据处理方法、装置、系统及应用服务器 | |
CN110033302B (zh) | 恶意账户识别方法及装置 | |
CN109495467B (zh) | 拦截规则的更新方法、设备及计算机可读存储介质 | |
WO2020248658A1 (zh) | 一种异常账户的检测方法及装置 | |
CN109600344B (zh) | 识别风险群体的方法、装置及电子设备 | |
US9866454B2 (en) | Generating anonymous data from web data | |
TWI737942B (zh) | 一種用戶追蹤方法、伺服器和用戶端 | |
CN110611667A (zh) | 边缘计算环境下动态的位置隐私保护方法及装置 | |
CN113746790B (zh) | 一种异常流量管理方法、电子设备及存储介质 | |
CN112989338A (zh) | 异常应用数据检测方法、装置、电子设备及存储介质 | |
CN107809363A (zh) | 一种网络信息传播控制方法和装置 | |
CN113680074B (zh) | 业务信息的推送方法、装置、电子设备及可读介质 | |
CN106339376B (zh) | 热门微博的识别方法及装置 | |
CN106487653B (zh) | 一种消息处理方法及服务器 | |
CN108804501A (zh) | 一种检测有效信息的方法及装置 | |
CN110442466B (zh) | 防止请求重复访问方法、装置、计算机设备及存储介质 | |
CN109587248B (zh) | 用户识别方法、装置、服务器及存储介质 | |
CN115834675A (zh) | 数据推送方法、电子设备及存储介质 | |
CN112995018B (zh) | 消息处理方法、装置、设备及存储介质 | |
CN108809909B (zh) | 数据处理方法及数据处理装置 | |
CN110933068B (zh) | 黑白名单实时优化方法、装置、服务器及存储介质 | |
CN115292729A (zh) | 一种隐私保护的多方数据处理方法、装置以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |