CN104951448B - 一种为用户推送订阅类别的消息的方法和服务器 - Google Patents

一种为用户推送订阅类别的消息的方法和服务器 Download PDF

Info

Publication number
CN104951448B
CN104951448B CN201410116549.7A CN201410116549A CN104951448B CN 104951448 B CN104951448 B CN 104951448B CN 201410116549 A CN201410116549 A CN 201410116549A CN 104951448 B CN104951448 B CN 104951448B
Authority
CN
China
Prior art keywords
message
classification
url link
score
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410116549.7A
Other languages
English (en)
Other versions
CN104951448A (zh
Inventor
张岩枫
占晓炜
陈楚辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Snowball (Beijing) Technology Development Co., Ltd.
Original Assignee
Snowball (beijing) Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Snowball (beijing) Technology Development Co Ltd filed Critical Snowball (beijing) Technology Development Co Ltd
Priority to CN201410116549.7A priority Critical patent/CN104951448B/zh
Publication of CN104951448A publication Critical patent/CN104951448A/zh
Application granted granted Critical
Publication of CN104951448B publication Critical patent/CN104951448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种为用户推送订阅类别的消息的方法和服务器,其中方法包括:获取消息;预先保存不同类别所对应的关键词及代表关键词相对于该类别权重的分数值;对获取的消息进行分词处理,提取所述消息中包含的关键词,根据代表关键词相对于不同类别权重的分数值、关键词在所述消息中出现的频率、关键词在所述消息中出现的位置和所述消息的长度中的至少一项为所述消息针对不同类别打分,并根据所述消息针对不同类别的分数判定所述消息对应的类别;根据用户订阅的类别向用户推送该类别对应的消息。本发明能够根据用户订阅的类别主动为用户推送该类别的消息。

Description

一种为用户推送订阅类别的消息的方法和服务器
技术领域
本发明涉及计算机互联网技术领域,尤其涉及一种为用户推送订阅类别的消息的方法和服务器。
背景技术
互联网中存在海量的信息,从互联网中获取信息时,一般采用的方法是用户在搜索引擎中搜索、或者在相关网站中查询,这些都是用户主动获取的方式,目前尚没有根据用户的订阅类别主动向用户推送相关信息的技术。
以股票信息为例,用户需要获取与一个股票相关的财经新闻时,通常采用的方式为:
第一种,在门户网站的财经频道搜索股票相关字。
第二种,在搜索引擎的新闻搜索中根据股票关键词查询。
第一种方式可以获取相关股票的新闻,但是需要用户主动进行搜索触发,并且只能看到该门户网站内有关该股票的财经新闻。
第二种方式同样需要用户进行搜索触发,能看到全网的关于该股票关键词的新闻,但是有些新闻可能和财经不相关。
发明内容
本发明提供了一种为用户推送订阅类别的消息的方法,能够根据用户订阅的类别主动为用户推送该类别的消息。
本发明还提供了一种为用户推送订阅类别的消息的服务器,能够根据用户订阅的类别主动为用户推送该类别的消息。
本发明的技术方案是这样实现的:
一种为用户推送订阅类别的消息的方法,包括:
获取消息;
预先保存不同类别所对应的关键词及代表关键词相对于该类别权重的分数值;
对获取的消息进行分词处理,提取所述消息中包含的关键词,根据代表关键词相对于不同类别权重的分数值、关键词在所述消息中出现的频率、关键词在所述消息中出现的位置和所述消息的长度中的至少一项为所述消息针对不同类别打分,并根据所述消息针对不同类别的分数判定所述消息对应的类别;
根据用户订阅的类别向用户推送该类别对应的消息。
上述方法中,获取消息的方式可以为:
选取消息索引页,抓取消息索引页内针对消息的URL链接,采用聚类算法对抓取的URL链接进行分类,得到需要推送的URL链接集合;
针对所述需要推送的URL链接集合中的各个URL链接,采用布隆过滤器判断所述URL链接是否已被抓取过,如果是,则从所述需要推送的URL链接集合中删除该URL链接;否则,获取所述URL链接对应的消息,将所述URL链接放入布隆过滤器。
其中,抓取消息索引页内针对消息的URL链接的方式可以为:
设置Actor模型,设置不同Actor抓取不同域名下的URL链接,通过有限状态机(FSM)控制各个Actor中的抓取频率,保证不同域名下URL链接以预设的频率进行抓取。
上述方法中,根据消息针对不同类别的分数判定消息对应的类别的方式可以为:
过滤分数小于预先设定的相应阈值的类别;或者,当消息存在针对两个以上类别的分数时,如果一个类别的分数低,并且该分数与其他类别的分数的差值超过预先设定的阈值,则过滤该类别;或者,当消息存在针对两个以上类别的分数,并且类别的个数大于预先设定的相应阈值时,过滤分数低的类别;
对于过滤后剩余的类别,取分数高的类别作为该消息对应的类别。
根据用户订阅的类别向用户推送该类别对应的消息的方式可以为:
将同一类别的消息去重;
获取用户上报的订阅类别,根据所述订阅类别向用户推送该类别对应的消息。
对同一类别的消息去重的方式可以为:
针对每一个消息,计算该消息的标题与已有消息的标题的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息;
或者,针对每一个消息,采用SimHash算法计算该消息的正文的Hash值和已有消息正文的Hash值,根据计算得到的Hash值对该消息和已有消息进行分区间对比,得到该消息与已有消息Hamming距离,当Hamming距离大于预先设定的相应阈值时,计算该消息的正文与已有消息的正文的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息。
一种为用户推送订阅类别的消息的服务器,包括:
消息获取模块,用于获取消息;
存储模块,用于预先保存不同类别所对应的关键词及代表关键词相对于该类别权重的分数值;
消息类别判定模块,用于对所述获取的消息进行分词处理,提取所述消息中包含的关键词,根据代表关键词相对于不同类别权重的分数值、关键词在所述消息中出现的频率、关键词在所述消息中出现的位置和所述消息的长度中的至少一项为所述消息针对不同类别打分,并根据所述消息针对不同类别的分数判定所述消息对应的类别;
消息推送模块,用于根据用户订阅的类别向用户推送该类别对应的消息。
上述服务器中,消息获取模块可以包括:
抓取子模块,用于选取消息索引页,抓取消息索引页内针对消息的URL链接,采用聚类算法对抓取的URL链接进行分类,得到需要推送的URL链接集合;
过滤子模块,用于针对所述需要推送的URL链接集合中的各个URL链接,采用布隆过滤器判断所述URL链接是否已被抓取过,如果是,则从所述需要推送的URL链接集合中删除该URL链接;否则,获取所述URL链接对应的消息,将所述URL链接放入布隆过滤器。
抓取子模块抓取消息索引页内针对消息的URL链接的方式可以为:
设置Actor模型,设置不同Actor抓取不同域名下的URL链接,通过有限状态机FSM控制各个Actor中的抓取频率,保证不同域名下URL链接以预设的频率进行抓取。
消息类别判定模块根据消息针对不同类别的分数判定消息对应的类别的方式可以为:
过滤分数小于预先设定的相应阈值的类别;或者,当消息存在针对两个以上类别的分数时,如果一个类别的分数低,并且该分数与其他类别的分数的差值超过预先设定的阈值,则过滤该类别;或者,当消息存在针对两个以上类别的分数,并且类别的个数大于预先设定的相应阈值时,过滤分数低的类别;
对于过滤后剩余的类别,取分数高的类别作为该消息对应的类别。
消息推送模块可以包括:
去重子模块,用于将同一类别的消息去重;
推送子模块,用于获取用户上报的订阅类别,根据所述订阅类别向用户推送该类别对应的消息。
去重子模块对同一类别的消息去重的方式可以为:
针对每一个消息,计算该消息的标题与已有消息的标题的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息;
或者,针对每一个消息,采用SimHash算法计算该消息的正文的Hash值和已有消息正文的Hash值,根据计算得到的Hash值对该消息和已有消息进行分区间对比,得到该消息与已有消息Hamming距离,当Hamming距离大于预先设定的相应阈值时,计算该消息的正文与已有消息的正文的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息。
可见,本发明提出的为用户推送订阅类别的消息的方法和服务器,通过获取消息,并根据消息中的关键词为该消息针对不同类别打分,根据打分结果判定该消息对应的类别,从而实现根据用户订阅的类别主动向用户推送对应的消息,
附图说明
图1为本发明提出的为用户推送订阅类别的消息的方法实现流程图;
图2为本发明提出的为用户推送订阅类别的消息的服务器结果示意图。具体实施方式
本发明提出一种为用户推送订阅类别的消息的方法,如图1为该方法实现流程图,包括:
步骤101:获取消息;
步骤102:预先保存不同类别所对应的关键词及代表关键词相对于该类别权重的分数值;对获取的消息进行分词处理,提取所述消息中包含的关键词,根据代表关键词相对于不同类别权重的分数值、关键词在所述消息中出现的频率、关键词在所述消息中出现的位置和所述消息的长度中的至少一项为所述消息针对不同类别打分,并根据所述消息针对不同类别的分数判定所述消息对应的类别;
步骤103:根据用户订阅的类别向用户推送该类别对应的消息。
上述步骤101中,获取消息的方式可以为:
选取消息索引页,抓取消息索引页内针对消息的URL链接,采用聚类算法对抓取的URL链接进行分类,得到需要推送的URL链接集合;
针对所述需要推送的URL链接集合中的各个URL链接,采用布隆过滤器判断所述URL链接是否已被抓取过,如果是,则从所述需要推送的URL链接集合中删除该URL链接;否则,获取所述URL链接对应的消息,将所述URL链接放入布隆过滤器。
其中,抓取消息索引页内针对消息的URL链接的方式可以为:
设置Actor模型,设置不同Actor抓取不同域名下的URL链接,通过有限状态机(FSM)控制各个Actor中的抓取频率,保证不同域名下URL链接以预设的频率进行抓取。
上述步骤102中,根据消息针对不同类别的分数判定消息对应的类别的方式可以为:
过滤分数小于预先设定的相应阈值的类别;或者,当消息存在针对两个以上类别的分数时,如果一个类别的分数低,并且该分数与其他类别的分数的差值超过预先设定的阈值,则过滤该类别;或者,当消息存在针对两个以上类别的分数,并且类别的个数大于预先设定的相应阈值时,过滤分数低的类别;
对于过滤后剩余的类别,取分数高的类别作为该消息对应的类别。
当然,并不排除根据分数判定消息类别的其他方式。
上述步骤103中,根据用户订阅的类别向用户推送该类别对应的消息的方式可以为:
将同一类别的消息去重;
获取用户上报的订阅类别,根据所述订阅类别向用户推送该类别对应的消息。
其中,对同一类别的消息去重的方式可以为:
针对每一个消息,计算该消息的标题与已有消息的标题的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息;
或者,针对每一个消息,采用SimHash算法计算该消息的正文的Hash值和已有消息正文的Hash值,根据计算得到的Hash值对该消息和已有消息进行分区间对比,得到该消息与已有消息Hamming距离,当Hamming距离大于预先设定的相应阈值时,计算该消息的正文与已有消息的正文的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息。
以下举具体的实施例详细介绍。
以向用户推送股票相关的新闻为例,每一个股票作为一个类别,预先保存各个股票代码所对应的关键词及其分数;本发明的解决方案包括三个部分:新闻抓取、新闻分类到股票和新闻展示。以下采用三个实施例介绍。
实施例一:新闻抓取
抓取过程中,选取较多有价值的财经网站或门户网站的财经频道的索引页,识别出该页面的新闻的URL链接进行抓取,并对抓取到的新闻提取标题和正文。具体细节如下:
索引页面的新闻链接判断:首先识别并抓取出网页内的URL链接,通过URL信息、锚点信息等,根据相关判断规则识别并剔除出不可能为新闻的URL链接;之后,采用Kmeans聚类算法将URL链接进行分类,一般情况下,数量较多的分类即为新闻的URL链接集合。
URL链接抓取的调度基于Actor模型,通过有限状态机(FSM)来控制同一Actor中消息的处理频率。将不同域名下的URL链接放在不同的Actor中,不同Actor控制不同的抓取频率,保证不同域名下的URL链接以预设的频率进行抓取,确保个别域名下的URL链接不会抓取过快。Actor可分布在不同的机器上,实现分布式爬虫。
URL链接判重:识别出的URL链接有可能是已经抓取过的,为了防止重复抓取,将已经抓取过的URL链接放入布隆过滤器中,识别出的新闻的URL链接通过布隆过滤的方式判断是否在已经抓取的集合中,如果是,则删除该URL链接。
新闻正文抽取:将URL链接对应的HTML页面进行解析,根据不同的规则抽取出新闻的标题、正文、发表时间等信息。
实施例二:新闻分类到股票
首先,基于各个股票代码对应的关键词及常用词词典,使用MMSEG算法对新闻的标题和正文内容做分词处理,提取股票关键词(包括股票代码)、统计关键词出现的位置、频率、以及新闻的长度等。
之后,针对每个新闻,对出现在标题、正文、摘要等位置的关键词赋予不同的权重,结合代表关键词相对于不同股票代码权值的分数值、关键词出现的频率和新闻长度等相关因素计算该新闻对应不同股票代码的得分。
之后进行相关性过滤,例如:
如果一个新闻对应一个股票代码的分数极低,小于预先设定的相应阈值,则过滤该股票代码;
或者,当一个新闻存在针对两个以上股票代码的分数时,如果一个股票代码的分数低,并且该分数与其他股票代码的分数的差值相差超过预先设定的相应阈值的,则过滤该股票代码;
或者,当一个新闻存在针对两个以上股票代码的分数,并且股票代码的个数大于预先设定的相应阈值时,过滤分数低的股票代码;
最后,取分数大的若干股票代码作为该新闻对应的股票代码。也就是说,一个新闻可以对应一个或多个股票代码。
确定出新闻对应的股票代码后,对同一股票代码对应的新闻进行去重处理,可以采用如下方式:
标题去重:针对每一条新闻,与该新闻对应股票的已有新闻对比,两两计算标题的余弦相似度,如果余弦相似度大于预先设定的阈值,则判定为重复,删除该新闻;
内容去重:针对每一条新闻,采用SimHash算法计算该新闻正文的Hash值,与该新闻对应股票的已有新闻正文的Hash值进行分区间对比,得到汉明(Hamming)距离;为了减少误判,当Hamming距离大于预先设定的相应阈值时,计算该新闻正文与已有新闻正文的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则判定为重复,删除该新闻。
实施例三:新闻内容展示
预先获取用户订阅的股票代码,这里,用户可以在网站中选择订阅的股票代码,并将选择的股票代码上传至服务器;
服务器可以根据用户订阅的股票代码,将该股票代码对应的新闻推送至客户端的消息队列;客户端从消息队列中获取该新闻,并推送至页面。
本发明还提出一种为用户推送订阅类别的消息的服务器,如图2为该服务器的示意图,包括:
消息获取模块210,用于获取消息;
存储模块220,用于预先保存不同类别所对应的关键词及代表关键词相对于该类别权重的分数值;
消息类别判定模块230,用于对所述获取的消息进行分词处理,提取所述消息中包含的关键词,根据代表关键词相对于不同类别权重的分数值、关键词在所述消息中出现的频率、关键词在所述消息中出现的位置和所述消息的长度中的至少一项为所述消息针对不同类别打分,并根据所述消息针对不同类别的分数判定所述消息对应的类别;
消息推送模块240,用于根据用户订阅的类别向用户推送该类别对应的消息。
上述服务器中,消息获取模块210可以包括:
抓取子模块211,用于选取消息索引页,抓取消息索引页内针对消息的URL链接,采用聚类算法对抓取的URL链接进行分类,得到需要推送的URL链接集合;
过滤子模块212,用于针对所述需要推送的URL链接集合中的各个URL链接,采用布隆过滤器判断所述URL链接是否已被抓取过,如果是,则从所述需要推送的URL链接集合中删除该URL链接;否则,获取所述URL链接对应的消息,将所述URL链接放入布隆过滤器。
抓取子模块211抓取消息索引页内针对消息的URL链接的方式可以为:
设置Actor模型,设置不同Actor抓取不同域名下的URL链接,通过有限状态机FSM控制各个Actor中的抓取频率,保证不同域名下URL链接以预设的频率进行抓取。
消息类别判定模块230根据消息针对不同类别的分数判定消息对应的类别的方式可以为:
过滤分数小于预先设定的相应阈值的类别;或者,当消息存在针对两个以上类别的分数时,如果一个类别的分数低,并且该分数与其他类别的分数的差值超过预先设定的阈值,则过滤该类别;或者,当消息存在针对两个以上类别的分数,并且类别的个数大于预先设定的相应阈值时,过滤分数低的类别;
对于过滤后剩余的类别,取分数高的类别作为该消息对应的类别。
消息推送模块240可以包括:
去重子模块241,用于将同一类别的消息去重;
推送子模块242,用于获取用户上报的订阅类别,根据所述订阅类别向用户推送该类别对应的消息。
上述去重子模块241对同一类别的消息去重的方式可以为:
针对每一个消息,计算该消息的标题与已有消息的标题的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息;
或者,针对每一个消息,采用SimHash算法计算该消息的正文的Hash值和已有消息正文的Hash值,根据计算得到的Hash值对该消息和已有消息进行分区间对比,得到该消息与已有消息Hamming距离,当Hamming距离大于预先设定的相应阈值时,计算该消息的正文与已有消息的正文的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息。
综上可见,本发明提出的为用户推送订阅类别的消息的方法和服务器,搜索互联网中的消息,并根据关键词对消息进行分类;在获取到用户订阅的类别时,主动将该类别对应的消息推送至用户,无需用户手动搜索。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种为用户推送订阅类别的消息的方法,其特征在于,所述方法包括:
获取消息;
预先保存不同类别所对应的关键词及代表关键词相对于该类别权重的分数值;
对获取的消息进行分词处理,提取所述消息中包含的关键词,根据代表关键词相对于不同类别权重的分数值、关键词在所述消息中出现的频率、关键词在所述消息中出现的位置和所述消息的长度中的至少一项为所述消息针对不同类别打分,并根据所述消息针对不同类别的分数判定所述消息对应的类别;
根据用户订阅的类别向用户推送该类别对应的消息。
2.根据权利要求1所述的方法,其特征在于,所述获取消息的方式为:
选取消息索引页,抓取消息索引页内针对消息的URL链接,采用聚类算法对抓取的URL链接进行分类,得到需要推送的URL链接集合;
针对所述需要推送的URL链接集合中的各个URL链接,采用布隆过滤器判断所述URL链接是否已被抓取过,如果是,则从所述需要推送的URL链接集合中删除该URL链接;否则,获取所述URL链接对应的消息,将所述URL链接放入布隆过滤器。
3.根据权利要求2所述的方法,其特征在于,所述抓取消息索引页内针对消息的URL链接的方式为:
设置Actor模型,设置不同Actor抓取不同域名下的URL链接,通过有限状态机FSM控制各个Actor中的抓取频率,保证不同域名下URL链接以预设的频率进行抓取。
4.根据权利要求1、2或3所述的方法,其特征在于,所述根据消息针对不同类别的分数判定消息对应的类别的方式为:
过滤分数小于预先设定的相应阈值的类别;或者,当消息存在针对两个以上类别的分数时,如果一个类别的分数低,并且该分数与其他类别的分数的差值超过预先设定的阈值,则过滤该类别;或者,当消息存在针对两个以上类别的分数,并且类别的个数大于预先设定的相应阈值时,过滤分数低的类别;
对于过滤后剩余的类别,取分数高的类别作为该消息对应的类别。
5.根据权利要求1、2或3所述的方法,其特征在于,所述根据用户订阅的类别向用户推送该类别对应的消息的方式为:
将同一类别的消息去重;
获取用户上报的订阅类别,根据所述订阅类别向用户推送该类别对应的消息。
6.根据权利要求5所述的方法,其特征在于,所述对同一类别的消息去重的方式为:
针对每一个消息,计算该消息的标题与已有消息的标题的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息;
或者,针对每一个消息,采用SimHash算法计算该消息的正文的Hash值和已有消息正文的Hash值,根据计算得到的Hash值对该消息和已有消息进行分区间对比,得到该消息与已有消息Hamming距离,当Hamming距离大于预先设定的相应阈值时,计算该消息的正文与已有消息的正文的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息。
7.一种为用户推送订阅类别的消息的服务器,其特征在于,所述服务器包括:
消息获取模块,用于获取消息;
存储模块,用于预先保存不同类别所对应的关键词及代表关键词相对于该类别权重的分数值;
消息类别判定模块,用于对所述获取的消息进行分词处理,提取所述消息中包含的关键词,根据代表关键词相对于不同类别权重的分数值、关键词在所述消息中出现的频率、关键词在所述消息中出现的位置和所述消息的长度中的至少一项为所述消息针对不同类别打分,并根据所述消息针对不同类别的分数判定所述消息对应的类别;
消息推送模块,用于根据用户订阅的类别向用户推送该类别对应的消息。
8.根据权利要求7所述的服务器,其特征在于,所述消息获取模块包括:
抓取子模块,用于选取消息索引页,抓取消息索引页内针对消息的URL链接,采用聚类算法对抓取的URL链接进行分类,得到需要推送的URL链接集合;
过滤子模块,用于针对所述需要推送的URL链接集合中的各个URL链接,采用布隆过滤器判断所述URL链接是否已被抓取过,如果是,则从所述需要推送的URL链接集合中删除该URL链接;否则,获取所述URL链接对应的消息,将所述URL链接放入布隆过滤器。
9.根据权利要求8所述的服务器,其特征在于,所述抓取子模块抓取消息索引页内针对消息的URL链接的方式为:
设置Actor模型,设置不同Actor抓取不同域名下的URL链接,通过有限状态机FSM控制各个Actor中的抓取频率,保证不同域名下URL链接以预设的频率进行抓取。
10.根据权利要求7、8或9所述的服务器,其特征在于,所述消息类别判定模块根据消息针对不同类别的分数判定消息对应的类别的方式为:
过滤分数小于预先设定的相应阈值的类别;或者,当消息存在针对两个以上类别的分数时,如果一个类别的分数低,并且该分数与其他类别的分数的差值超过预先设定的阈值,则过滤该类别;或者,当消息存在针对两个以上类别的分数,并且类别的个数大于预先设定的相应阈值时,过滤分数低的类别;
对于过滤后剩余的类别,取分数高的类别作为该消息对应的类别。
11.根据权利要求7、8或9所述的服务器,其特征在于,所述消息推送模块包括:
去重子模块,用于将同一类别的消息去重;
推送子模块,用于获取用户上报的订阅类别,根据所述订阅类别向用户推送该类别对应的消息。
12.根据权利要求11所述的服务器,其特征在于,所述去重子模块对同一类别的消息去重的方式为:
针对每一个消息,计算该消息的标题与已有消息的标题的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息;
或者,针对每一个消息,采用SimHash算法计算该消息的正文的Hash值和已有消息正文的Hash值,根据计算得到的Hash值对该消息和已有消息进行分区间对比,得到该消息与已有消息Hamming距离,当Hamming距离大于预先设定的相应阈值时,计算该消息的正文与已有消息的正文的余弦相似度,如果余弦相似度大于预先设定的相应阈值,则删除该消息。
CN201410116549.7A 2014-03-26 2014-03-26 一种为用户推送订阅类别的消息的方法和服务器 Active CN104951448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410116549.7A CN104951448B (zh) 2014-03-26 2014-03-26 一种为用户推送订阅类别的消息的方法和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410116549.7A CN104951448B (zh) 2014-03-26 2014-03-26 一种为用户推送订阅类别的消息的方法和服务器

Publications (2)

Publication Number Publication Date
CN104951448A CN104951448A (zh) 2015-09-30
CN104951448B true CN104951448B (zh) 2019-04-12

Family

ID=54166111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410116549.7A Active CN104951448B (zh) 2014-03-26 2014-03-26 一种为用户推送订阅类别的消息的方法和服务器

Country Status (1)

Country Link
CN (1) CN104951448B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096008B (zh) * 2016-06-23 2021-01-05 北京工业大学 一种用于金融仓单风控的网络爬虫方法
TWI654529B (zh) * 2016-08-02 2019-03-21 財團法人資訊工業策進會 網路裝置及訊息提供方法
CN106254213B (zh) * 2016-08-02 2020-02-07 北京京东尚科信息技术有限公司 基于应用的消息免打扰方法、系统和应用后台系统
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106970930B (zh) * 2016-10-10 2021-01-05 创新先进技术有限公司 消息发送确定方法及装置、数据表创建方法及装置
CN106713651A (zh) * 2016-12-30 2017-05-24 百度在线网络技术(北京)有限公司 信息显示方法和移动终端
CN107040598A (zh) * 2017-04-18 2017-08-11 湖南福米信息科技有限责任公司 股票行情数据的分发方法、分发装置及推送系统
CN108563631A (zh) * 2018-03-23 2018-09-21 江苏速度信息科技股份有限公司 一种自然语言地址描述的自动识别方法
CN110113485B (zh) * 2019-04-26 2020-09-11 维沃移动通信有限公司 一种信息的处理方法及移动终端
CN113496411B (zh) * 2020-03-18 2024-07-19 北京沃东天骏信息技术有限公司 页面推送方法、装置、系统、存储介质及电子设备
CN112765464A (zh) * 2021-01-13 2021-05-07 中国地质大学(武汉) 面向主题的新内容检索推送方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196923A (zh) * 2006-11-28 2008-06-11 株式会社Opms 基于分类的广告系统和方法
CN101311923A (zh) * 2007-05-23 2008-11-26 神乎科技股份有限公司 一种信息分类检索系统与方法
CN101694658A (zh) * 2009-10-20 2010-04-14 浙江大学 基于新闻去重的网页爬虫的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196923A (zh) * 2006-11-28 2008-06-11 株式会社Opms 基于分类的广告系统和方法
CN101311923A (zh) * 2007-05-23 2008-11-26 神乎科技股份有限公司 一种信息分类检索系统与方法
CN101694658A (zh) * 2009-10-20 2010-04-14 浙江大学 基于新闻去重的网页爬虫的构建方法

Also Published As

Publication number Publication date
CN104951448A (zh) 2015-09-30

Similar Documents

Publication Publication Date Title
CN104951448B (zh) 一种为用户推送订阅类别的消息的方法和服务器
US10764353B2 (en) Automatic genre classification determination of web content to which the web content belongs together with a corresponding genre probability
AU2006290977B2 (en) Ranking blog documents
US8989450B1 (en) Scoring items
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN108023868B (zh) 恶意资源地址检测方法和装置
JP2014502753A (ja) ウェブページ情報の検出方法及びシステム
CN110572359A (zh) 基于机器学习的钓鱼网页检测方法
Liu et al. Detecting spam in chinese microblogs-a study on sina weibo
CN103020208B (zh) 一种与移动终端相适应的搜索方法及装置
CN113961810A (zh) 新闻推送方法、装置、计算机设备和存储介质
Wahsheh et al. A link and content hybrid approach for Arabic web spam detection
CN108681571B (zh) 基于Word2Vec的主题爬虫系统和方法
CN116361362B (zh) 一种基于网页内容识别的用户信息挖掘方法与系统
CN103678601A (zh) 一种范文检索请求的处理方法和装置
Ma et al. Advanced deep web crawler based on Dom
Ozawa et al. An autonomous online malicious spam email detection system using extended RBF network
Soman et al. A study of Spam Detection Algorithm On Social Media networks
Soiraya et al. Using a data mining approach: spam detection on Facebook
Zhu et al. Online spam-blog detection through blog search
Subhan et al. Preprocessing of radicalism dataset to predict radical content in Indonesia
CN112287229B (zh) 一种基于组合语义相似度的国防建设动态信息推荐方法
Saini A study of spam detection algorithm on social media networks
Lee et al. ScalableWeb News Adaptation To Mobile Devices Using Visual Block Segmentation for Ubiquitous Media Services
Rygl et al. A Framework for Authorship Identification in the Internet Environment.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181207

Address after: 100102 19th Floor, 3A Block, Soho Tower, Wangjing, No. 1 Courtyard, Futong East Street, Chaoyang District, Beijing

Applicant after: Snowball (Beijing) Technology Development Co., Ltd.

Address before: 100080 Beijing Haidian District Haidian North Second Street No. 8 803

Applicant before: BEIJING XUEQIU INFORMATION TECHNOLOGY CO., LTD.

GR01 Patent grant
GR01 Patent grant