CN114791978A - 新闻推荐方法、装置、设备以及存储介质 - Google Patents
新闻推荐方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN114791978A CN114791978A CN202210413246.6A CN202210413246A CN114791978A CN 114791978 A CN114791978 A CN 114791978A CN 202210413246 A CN202210413246 A CN 202210413246A CN 114791978 A CN114791978 A CN 114791978A
- Authority
- CN
- China
- Prior art keywords
- news data
- hash bucket
- news
- hash
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000009825 accumulation Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 description 21
- 238000004590 computer program Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 10
- 230000002452 interceptive effect Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000007621 cluster analysis Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000009193 crawling Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002071 nanotube Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本申请的实施例揭示了一种新闻推荐方法、新闻推荐装置、电子设备以及计算机可读存储介质,新闻推荐方法包括:获取多个新闻数据;对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号,并将每个新闻数据存放于对应的哈希桶号所指向的哈希桶中;确定存放新闻数据的数目最多的哈希桶对应的目标哈希桶号;从目标哈希桶号所指向的哈希桶中获取目标新闻数据,并将目标新闻数据推送给客户端。本申请提供的新闻推荐方法能够提高新闻推荐的效率。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种新闻推荐方法、装置、设备以及存储介质。
背景技术
随着万维网的广泛普及,大量新闻正在迅速出现,并且信息严重超载,因此用户别无选择。新闻推荐的出现减轻了信息过载,并帮助用户快速准确地获取他们感兴趣的新闻。常用的推荐方法是基于内容的过滤推荐方法、协作过滤推荐方法等,上述推荐方法都是基于用户针对新闻的互动数据进行推荐,那么在用户针对新闻的互动数据较少的情况下新闻推荐的置信度可能会较低。
发明内容
为解决上述技术问题,本申请的实施例提供了一种新闻推荐方法、新闻推荐装置、电子设备以及计算机可读存储介质,能够提高新闻推荐的效率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种新闻推荐方法,包括:获取多个新闻数据;对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号,并将每个新闻数据存放于对应的哈希桶号所指向的哈希桶中;确定存放新闻数据的数目最多的哈希桶对应的目标哈希桶号;从目标哈希桶号所指向的哈希桶中获取目标新闻数据,并将目标新闻数据推送给客户端。
在一个示例性的实施例中,对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号,并将每个新闻数据存放于对应的哈希桶号所指向的哈希桶中包括:对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号;若检测到哈希桶号所指向的哈希桶中新闻数据的累积量为第一预设阈值,则从对应的哈希桶中删除部分的新闻数据,第一预设阈值为哈希桶存放的最大数据量;将对应的新闻数据存放于删除了新闻数据的哈希桶中。
在一个示例性的实施例中,在若检测到哈希桶号所指向的哈希桶中新闻数据的累积量为第一预设阈值,则从对应的哈希桶中删除部分的新闻数据之前,方法还包括:对每个哈希桶号所指向的哈希桶中的新闻数据进行数目累计,以得到对应哈希桶中存放的新闻数据的累积量。
在一个示例性的实施例中,从对应的哈希桶中删除部分的新闻数据包括:确定哈希桶中存放的新闻数据的聚类中心;将哈希桶中距离聚类中心最远的新闻数据作为待删除数据,并删除待删除数据。
在一个示例性的实施例中,确定哈希桶中存储的新闻数据的聚类中心包括:对哈希桶中的新闻数据进行聚类处理,得到至少一个新闻数据类别对应的聚类中心;获取包含新闻数据数目最多的新闻数据类别对应的聚类中心为目标聚类中心,将目标聚类中心作为对应哈希桶中存储的新闻数据的聚类中心。
在一个示例性的实施例中,从目标哈希桶号所指向的哈希桶中获取目标新闻数据,并将目标新闻数据推送给客户端包括:获取目标哈希桶号所指向的哈希桶中的新闻数据的聚类中心;将聚类中心对应的新闻数据作为目标新闻数据推送给客户端。
在一个示例性的实施例中,从目标哈希桶号所指向的哈希桶中获取目标新闻数据,并将目标新闻数据推送给客户端包括:接收客户端发送的待查询新闻数据;对待查询新闻数据进行局部敏感哈希处理,得到待查询新闻数据对应的哈希桶号;将待查询新闻数据对应的哈希桶号所指向的哈希桶中的新闻数据推送给客户端。
根据本申请实施例的一个方面,提供了一种用户前置设备的纳管装置,包括:获取模块,用于获取多个新闻数据;处理模块,用于对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号,并将每个新闻数据存放于对应的哈希桶号所指向的哈希桶中;确定模块,用于确定存放新闻数据的数目最多的哈希桶对应的目标哈希桶号;推送模块,用于从目标哈希桶号所指向的哈希桶中获取目标新闻数据,并将目标新闻数据推送给客户端。
根据本申请实施例的一个方面,提供了一种电子设备,包括处理器及存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时实现如上的新闻推荐方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当计算机可读指令被计算机的处理器执行时,使计算机执行如前提供的新闻推荐方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的新闻推荐方法。
在本申请的实施例提供的技术方案,通过对每个新闻数据进行局部敏感哈希处理,本实施例中会较高概率让相似度高的新闻数据分布在一个哈希桶中,而相似度较低的新闻数据不会进入同一个哈希桶,从而从包括从存放新闻数据的数目最多的哈希桶中获取目标新闻数据,并将目标新闻数据推送给客户端,上述新闻推荐方式能够避免通过计算新闻数据之间的相似性进行推荐,能够极大地减少数据计算量,加快新闻推荐的效率;另外,本方案在用户针对新闻数据的交互数据较少的情况下,能够避免遗漏掉热度较高但属于冷启动新闻数据,能够解决冷启动问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请的一示例性实施例示出的用户前置设备的纳管方法的流程图;
图2是图1所示实施例中的步骤S102在一示例性实施例的流程图;
图3是图2所示实施例中的步骤S201在一示例性实施例的流程图;
图4是图3所示实施例中的步骤S301在一示例性实施例的流程图;
图5是本申请一示例性实施例示出的将新闻数据存放于对应的哈希桶号所指向的哈希桶的示意图;
图6是图2所示实施例中的步骤S203在一示例性实施例的流程图;
图7是图6所示实施例中的步骤S501在一示例性实施例的流程图;
图8是在图1所示实施例步骤S104一示例性实施例的流程图;
图9是在图1所示实施例步骤S104一示例性实施例的流程图;
图10是本申请一示例性实施例示出的新闻推荐装置的框图;
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在新闻个性化推荐领域中,往往需要对新闻热度进行计算打分,来实现对高热度新闻进行推荐。传统的新闻热度计算方式多采用基于历史点击统计状况的热文评分技术,比如利用贝叶斯平滑的新闻热度计算等。具体地,热文评分技术一般是通过对用户在文章的点击情况进行统计,进而对文章进行热度打分,也就是说,在该热文评分技术中,新闻必须有曝光才能计算分值。
众所周知,在新闻推荐领域中,新闻推荐的准确性和时效性是影响用户体验十分重要的因素之一,从而使得新闻热度计算的准确性与实时性尤为重要,而热文评分技术,由于需要以新闻曝光为前提,从而会大大降低新闻推送的时效性,同时对于曝光次数有限的文章其打分精度显然存在精度较低的问题,导致新闻推荐的置信度不高。
在新闻推荐领域,现有技术包括两种新闻推荐方式,第一种为通过计算新闻数据之间的相似性来进行推荐,这种推荐方式的计算量大,耗时长,推荐效率极低;另一种方式为基于用户针对新闻数据的交互数据进行个性化推荐,这种推荐方式在用户针对新闻数据的交互数据较少的情况下,极易遗漏掉热度较高但属于冷启动新闻数据,导致冷启动问题。
为解决现有技术中至少存在的如上问题,本申请的实施例分别提出一种新闻推荐方法、新闻推荐装置、电子设备以及计算机可读存储介质以下将针对这些实施例进行详细描述。
请参阅图1,图1是本申请的一示例性实施例示出的新闻推荐方法的流程图,如图1所示,本实施例提供的新闻推荐方法包括步骤S101-步骤S104,详细描述参考如下:
步骤S101:获取多个新闻数据。
在本实施例中,新闻数据就是一些互联网资讯,类型如文本、视频、图片和一些组合。本实施例并不限定获取的新闻数据的题材类型、文字类型、涉及地域范围、新闻数据的形式等,例如新闻数据的题材类型为体育类新闻、娱乐新闻、军事新闻、民生新闻、财经新闻等等;例如新闻数据的文字类型为中文形式、英文形式、德文形式等等,例如新闻数据涉及的地域范围包括国家A、国家B等等。
示例性地,定期从外部网络中获取多篇新闻数据,对每篇新闻数据进行清洗处理,将经过清洗处理之后的新闻数据进行格式统一处理,对经过格式统一处理之后的新闻数据进行过滤,以删除重复的新闻数据,得到多个新闻数据。
示例性地,通过分布式爬虫技术从指定的外部网络中分别爬取不同的新闻数据,能更快速、准确的爬取更多类别的新闻数据。
示例性地,在利用爬虫技术爬取大量新闻数据之后,对每篇新闻数据按预设的规则进行清洗。由于爬取获得的新闻数据内容比较复杂,一般会将多网页上的大量超文本标记语言内容一起爬取下来,本实施例可以根据预设的正则表达式对获取的新闻数据进行清洗,还可以根据爬取的位置和预设的关键词库去除其他不相关内容。
步骤S102:对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号,并将每个新闻数据存放于对应的哈希桶号所指向的哈希桶中。
局部敏感哈希(Local Sensitive Hashing,LSH)指一系列哈希处理,用于将高维数据空间中的数据映射到低维数据空间中。采用局部敏感哈希将高维数据空间中的两个相邻的数据映射到低维数据空间中,被映射到低维数据空间中的数据将会有很大的概率仍然相邻。采用局部敏感哈希将高维数据空间中的两个不相邻的数据映射到低维数据空间中,被映射到低维数据空间中的数据将会有很大的概率仍然不相邻。
在本实施例中,在对每个新闻数据进行局部敏感哈希处理之前,需要对多个新闻数据建立索引,过程如下:
(1)选取满足(d1,d2,p1,p2)-sensitive条件的局部敏感哈希函数;
(2)根据对查找结果的准确率(即相邻的数据被查找到的概率)要求确定哈希表的个数以及每个哈希表内的局部敏感哈希函数的个数。
在本实施例中,若哈希函数满足以下两个条件,则确定哈希函数满足(d1,d2,p1,p2)-sensitive条件:
1)如果d(x,y)≤d1,则h(x)=h(y)的概率至少为p1;
2)如果d(x,y)≥d2,则h(x)=h(y)的概率至多为p2;
其中,x和y分别表示不同的新闻数据,d(x,y)表示x和y之间的距离,h(x)表示新闻数据x的局部敏感哈希值,h(y)表示新闻数据y的局部敏感哈希值,d1、d2、p1、p2为待确定的参量,可以根据实际应用场景确定,在此不做具体限定。
在本实施例中,在对多个新闻数据建立索引得到符合条件的局部敏感哈希函数之后,将每个新闻数据带入该局部敏感哈希函数,得到对应的哈希桶号,将每个新闻数据存放于对应的哈希桶号所指向的哈希桶中,已完成对每个新闻数据进行局部敏感哈希处理。
通常情况下,现有新闻推荐方式多采用用户的历史互动数据例如点击率等进行新闻数据的推荐,但是,由于新闻数据具有时效性强、生命周期短的特性,通过上述方式进行新闻推荐的准确性低;另外,在冷启动情况下,用户针对新闻数据的交互数据较少,上述新闻推荐方式极易遗漏掉热度较高但属于冷启动新闻数据;基于此,本实施例通过对每个新闻数据进行局部敏感哈希处理,进而基于处理结果进行新闻推荐,能够克服由于新闻数据的时效性强以及生命周期短所带来推荐的不准确性,且能够避免遗漏掉热度较高但属于冷启动新闻数据。
步骤S103:确定存放新闻数据的数目最多的哈希桶对应的目标哈希桶号。
在本实施例中,统计每个哈希桶中存放的新闻数据的数目进行统计,即可确定存放新闻数据的数目最多的哈希桶对应的目标哈希桶号,存放新闻数据的数目最多的哈希桶中包括的新闻数据就是热度最高的新闻数据。
步骤S104:从目标哈希桶号所指向的哈希桶中获取目标新闻数据,并将目标新闻数据推送给客户端。
由于属于同一个哈希桶中的新闻数据相似度相对于属于不同哈希桶中的新闻数据的相似度较高,不妨设属于同一个哈希桶中的新闻数据为同一类别下的新闻数据,在本实施例中,由于目标哈希桶号所指向的哈希桶中的新闻数据的数量最多,说明在所有新闻数据中属于目标类别的新闻数据的数目最多;因此,相对于其他类别的新闻数据,目标类别的新闻数据的热度较高,可以推断用户更有意愿点击该类别的新闻数据,其中,目标类别表示属于目标哈希桶号所指向的哈希桶的新闻数据对应的类别。因此,本实施例从这一类别下的新闻数据中获取部分目标新闻数据推送给客户端,能够提高用户对推荐的新闻数据的点击概率,提高用户对新闻网页的黏性。
示例性地,本实施例从目标哈希桶号所指向的哈希桶中随机获取一个或多个目标新闻数据,并将目标新闻数据推送给客户端。
示例性地,从目标哈希桶号所指向的哈希桶中随机获取所有的新闻数据,对所有的新闻数据进行聚类处理,若得到的聚类处理结果包括多个类别,则分别从每个类别包括的新闻数据中获取一个目标新闻数据,并将所有目标新闻数据推送给客户端。这种方式能够保证在目标哈希桶号所指向的哈希桶中的新闻数据不止一个类别时,将每个类别的新闻数据均推送给客户端,防止遗漏掉客户感兴趣的新闻数据。
本实施例提供的新闻推荐方法通过对每个新闻数据进行局部敏感哈希处理,本实施例中会较高概率让相似度高的新闻数据分布在一个哈希桶中,而相似度较低的新闻数据不会进入同一个哈希桶,从而从包括从存放新闻数据的数目最多的哈希桶中获取目标新闻数据,并将目标新闻数据推送给客户端,上述新闻推荐方式能够避免通过计算新闻数据之间的相似性进行推荐,能够极大地减少数据计算量,加快新闻推荐的效率;另外,本方案在新闻数据与用户的交互数据较少的情况下,能够避免遗漏掉热度较高但属于冷启动新闻数据,能够解决冷启动问题。
参阅图2,图2是图1所示实施例中的步骤S102在一示例性实施例的流程图,如图2所示,步骤S102包括步骤S201-步骤S203,详细描述如下:
步骤S201:对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号。
在本实施例中,对每个新闻数据进行局部敏感哈希处理,也即是,将每个新闻数据带入事先确定的哈希函数中,得到每个新闻数据对应的哈希桶号。
本实施例不限制对新闻数据的进行局部敏感哈希处理的顺序,例如,为了提高新闻数据的推荐效率,同时进行新闻数据的获取进程和对新闻数据的进行局部敏感哈希处理的进程,因此,根据新闻数据的获取顺序对新闻数据的进行局部敏感哈希处理即可。
参阅图3,图3是图2所示实施例中的步骤S201在一示例性实施例的流程图,如图3所示,步骤S201包括步骤S301-步骤S302,详细描述如下:
步骤S301:为每个新闻数据构建对应的特征向量。
在本步骤中,本实施例考虑到新闻数据中可能存在一些无效数据,例如新闻数据中的标点符号、形容词、副词等等,为了提高推荐新闻数据的效率,本实施例从在对每个新闻数据进行局部敏感哈希处理之前,首先构建对应的特征向量,能够加快处理器的处理效率;另外,将新闻数据向量化便于后续对每个新闻数据进行局部敏感哈希处理。
参阅图4,图4是图3所示实施例中的步骤S301在一示例性实施例的流程图,如图4所示,步骤S301包括步骤S401-步骤S405,详细描述如下:
步骤S401:获取新闻数据的文字内容。
在本实施例中,获取的新闻数据可以以多种形式呈现,例如视频形式、图片形式或者文字形式,因此本实施例需要获取所有除了以文字形式呈现的新闻数据的文字内容,例如,将以图片形式或视频形式呈现的新闻数据转化为文字形式。
示例性地,利用OCR(Optical Character Recognition,光学字符识别)的文字信息提取方式提取新闻数据的文字内容,OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。为了提高文字内容提取的准确性,本实施例也可以利用机器学习的方式提取新闻数据的文字内容,在此不做具体限定。
步骤S402:对新闻的文字内容进行分词处理,获得多个字词。
本实施例利用分词器对新闻数据的文字内容进行分词处理,获得多个字词。通常,经过分词处理后得到的字词不仅包括例如“苹果”、“手机”、“电脑”等关键词,还包括标点符号、“的”、“是”等其他无特殊意义的字词,本实施例为了提高字词的处理效率,在对新闻数据的文字内容进行分词处理后,还可进一步包括,将分词处理后得到的所有字词进行预处理,删除垃圾字词。其中,垃圾字词包括标点符号、“的”、“是”等其他无特殊意义的字词。
步骤S403:计算每个字词的词向量。
本实施例利用word2vec工具计算每个字词的词向量。例如计算“足球”的词向量为[0.121 0.321 0.334 0.584 0.837],本发明利用计算得到的一组向量值来表示一个字词。
示例性地,在计算得到某个字词,如字词A的词向量后,便将该字词A的词向量进行保存。当后续在需要计算该字词A的词向量,例如本篇新闻的文字内容中出现多次字词A需要计算词向量,或在计算其他新闻的文字内容时,出现字词A需要计算词向量时,无需再重新计算字词A的词向量,而可以直接通过查找存储的字词A的词向量,来直接获知字词A的词向量,能够大大节省处理器的处理时间,提高处理效率。
步骤S404:计算每个字词的tf-idf值。
本实施例利用tf-idf(term frequency–inverse document frequency,词频-逆向文件频率)算法计算每个字词的tf-idf值。tf-idf算法是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。
在本实施例中,每个字词的tf-idf值的大小反应了该字词对新闻的贡献度的大小,tf-idf值越大表示该字词越有意义。示例性地,在计算得到某个字词,如字词A的tf-idf值后,将该字词A的tf-idf值进行保存。当后续在需要计算该字词A的tf-idf值时,直接通过查找存储的字词A的tf-idf值,来直接获知字词A的tf-idf值,大大节省了处理器的处理时间,提高了处理效率。
步骤S405:分别以每个字词的tf-idf值为权重,将新闻的所有词向量累加求和,计算得到对应新闻数据的特征向量。
本实施例将获得的字词的tf-idf值与之对应的词向量相乘,进而将所有字词相乘后的结果累加求和,计算得到新闻数据的特征向量。
步骤S302:对每个新闻向量进行局部敏感哈希处理,得到每个新闻向量对应的哈希桶号。
在本实施例中,将新闻向量带入局部敏感哈希函数中,即可得到对应的哈希桶号,在此不做过多叙述。
步骤S202:若检测到哈希桶号所指向的哈希桶中新闻数据的累积量为第一预设阈值,则从对应的哈希桶中删除部分的新闻数据。
在本实施例中,第一预设阈值为预先设置的哈希桶存放的最大数据量。示例性地,根据所有新闻数据的数目和哈希桶的数目确定第一预设阈值,例如,新闻数据的数目为1000条,哈希桶的数目为10个,则设置第一预设阈值为100。
在本实施例中,为哈希桶设置最大数据量以使得哈希桶中能容纳的新闻数据的数量不超过第一预设阈值,进而能够避免哈希桶包括的新闻数据的数目较少的情况下造成内存浪费现象,另外也可以防止哈希桶中包括的新闻数据的数目过多的情况下造成的内存泄露问题。
在本实施例中,对每个哈希桶号所指向的哈希桶中的新闻数据进行数目累计,以得到对应哈希桶中存放的新闻数据的累积量;在将每个待存放的新闻数据存放于对应的哈希桶号所指向的哈希桶中之前,若检测到对应哈希桶号所指向的哈希桶中新闻数据的累积量小于第一预设阈值,直接将待存放的新闻数据存放于对应的哈希桶号所指向的哈希桶中。
若检测到哈希桶号所指向的哈希桶中新闻数据的累积量为第一预设阈值,说明此时哈希桶号所指向的哈希桶中新闻数据的数据已经达到该哈希桶的最大容量,此时可以采取两种措施以避免内存泄露,其一是直接结束将与该哈希桶号对应的新闻数据存放于该哈希桶号对应的哈希桶的进程,其二从对应的哈希桶中是删除部分的新闻数据以为与该哈希桶号对应的新闻数据腾出容量空间。
由于此时尚不确定对应哈希桶号所指向的哈希桶中存放的所有新闻数据是否为最相关,示例性地,本实施例从对应的哈希桶中是删除部分的新闻数据以为与该哈希桶号对应的新闻数据腾出容量空间。示例性地,删除的新闻数据的数目为一个或多个,在此不做具体限定。
示例性地,参阅图5,图5是本申请一示例性实施例示出的将新闻数据存放于对应的哈希桶号所指向的哈希桶的示意图,如图5所示,本实施例利用链表存储哈希桶内的新闻数据,形成倒排索引结构,若检测到对应哈希桶号所指向的哈希桶中新闻数据的累积量小于M-1,直接将待存放的新闻数据存放于链表;若检测到对应哈希桶号所指向的哈希桶中新闻数据的累积量等于M-1,则将待存放的新闻数据作为新元素加入链表,遍历链表得到链表的中心点C,计算链表内各个元素到中心点的距离,按照距离排序写入链表,示例性地,链表的中心点为链表中的元素的聚类中心;若检测到对应哈希桶号所指向的哈希桶中新闻数据的累积量大于M-1,触发预先设置的链表满写入事件,将元素加入到有序链表中,并剔除链表头元素,其中,第一预设阈值包括M。
示例性地,在检测到哈希桶号所指向的哈希桶中新闻数据的累积量为第一预设阈值时,对哈希桶号所指向的哈希桶中新闻数据进行聚类分析,若聚类分析的结果包括的新闻数据类别个数大于预设阈值,则删除包括的新闻数据类别最少的新闻数据类别中的所有新闻数据。事实上,本实施例包括的新闻数据类别最少的新闻数据类别的热度最低,通常不会从这一新闻数据类别中获取新闻数据作为目标新闻数据推送给客户端,因此,本实施例将该新闻数据类别下的所有新闻数据删除,以为后续待存放的新闻数据腾出存储空间。
步骤S203:将对应的新闻数据存放于删除了新闻数据的哈希桶中。
在本实施例中,将对应的新闻数据存放于删除了新闻数据的哈希桶中之后,哈希桶中包括的新闻数据的数目与步骤S202删除的新闻数据的数目相关,例如,步骤S202删除的新闻数据的数目为1个,则将对应的新闻数据存放于删除了新闻数据的哈希桶中之后,哈希桶中包括的新闻数据的数目为第一预设阈值,若步骤S202删除的新闻数据的数目为k个,则将对应的新闻数据存放于删除了新闻数据的哈希桶中之后,哈希桶中包括的新闻数据的数目为k+1。
参阅图6,图6是图2所示实施例中的步骤S203在一示例性实施例的流程图,如图6所示,步骤S203包括步骤S501-步骤S502,详细描述如下:
步骤S501:确定哈希桶中存放的新闻数据的聚类中心。
聚类中心是聚类分析中的一个特殊新闻数据,用来代表一类新闻数据,其他新闻数据通过与聚类中心计算距离来决定是否属于该类。
本实施例利用聚类算法对哈希桶中存放的新闻数据进行聚类分析,得到聚类中心。本实施例并不限制所使用的聚类算法的种类,例如K-MEANS聚类算法、均值偏移聚类算法、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法等等。
步骤S502:将哈希桶中距离聚类中心最远的新闻数据作为待删除数据,并删除待删除数据。
哈希桶中距离聚类中心最远的新闻数据表示在所有除了聚类中心的新闻数据中,该新闻数据具有最大概率与聚类中心不属于同一类别,在这种情况下,将该新闻数据作为待删除数据最为合理。
在本实施例中,首先计算哈希桶中除了聚类中心外的所有新闻数据与聚类中心的距离,以确定距离聚类中心最远的新闻数据。
示例性地,按照于聚类中心的距离从大到小的排列顺序将新闻数据依次从哈希桶的链表的表头开始存放,最终使得哈希表越靠近表头的位置的新闻数据距离聚类中心的距离越大,越靠近表尾的位置的新闻数据距离聚类中心的距离越小,在删除待删除数据时,直接将表头位置的新闻数据剔除哈希表即可,并将对应的待存入的新闻数据存放于表尾。
示例性地,在确定待删除数据之后,计算待存储的新闻数据与聚类中心的距离,若然后将待删除数据与聚类中心的距离大于待存储的新闻数据与聚类中心的距离,表示此时哈希桶号所指向的哈希桶中存放的所有新闻数据不是最相关的,则删除待删除数据,反之,若然后将待删除数据与聚类中心的距离小于待存储的新闻数据与聚类中心的距离,表示此时哈希桶号所指向的哈希桶中存放的所有新闻数据相对于对应的新闻数据是最相关的,则不删除待删除数据,进行下一个待存储的新闻数据的存储进程。
参阅图7,图7是图6所示实施例中的步骤S501在一示例性实施例的流程图,如图7所示,步骤S501包括步骤S601-步骤S602,详细描述如下:
步骤S601:对哈希桶中的新闻数据进行聚类处理,得到至少一个新闻数据类别对应的聚类中心。
在本实施例中,对哈希桶中的新闻数据进行聚类处理存在两种结果,一种结果是得到一个新闻数据类别对应的聚类中心,则该新闻数据类别对应的聚类中心即是哈希桶中存储的新闻数据的聚类中心;另一种结果是得到2个以上的新闻数据类别对应的聚类中心,说明哈希桶中的新闻数据的包括至少2个新闻数据类别。
在得到2个以上的新闻数据类别对应的聚类中心时,本实施例需要从至少两个聚类中心中确定一个聚类中心作为哈希桶中存储的新闻数据的聚类中心。例如,随机从多个聚类中心选取一个聚类中心作为哈希桶中存储的新闻数据的聚类中心。
步骤S602:获取包含新闻数据数目最多的新闻数据类别对应的聚类中心为目标聚类中心,将目标聚类中心作为对应哈希桶中存储的新闻数据的聚类中心。
本实施例获取热度最高的新闻数据类别对应的目标聚类中心,热度最高的新闻数据类别表示该新闻数据类别中包括的新闻数据数目最多,并将该目标聚类中心作为所有新闻数据的聚类中心。本实施例获取包括的新闻数据数目最多的新闻数据类别的目标聚类中心作为哈希桶中存储的新闻数据的聚类中心,能够提高新闻推荐方法的准确性。
参阅图8,图8是在图1所示实施例步骤S104一示例性实施例的流程图,如图8所示,步骤S104包括步骤S701-步骤S702,详细描述如下:
步骤S701:获取目标哈希桶号所指向的哈希桶中的新闻数据的聚类中心。
本实施例通过对目标哈希桶号所指向的哈希桶中的新闻数据进行聚类分析,得到至少一个聚类中心。
步骤S702:将聚类中心对应的新闻数据作为目标新闻数据推送给客户端。
聚类中心对应的新闻数据是哈希桶中的所有新闻数据的中心点,最具有代表性,用户会点击和查看聚类中心对应的新闻数据具有最大概率,因此,直接将聚类中心对应的新闻数据作为目标新闻数据推送给客户端以提高新闻推荐的准确性。
示例性地,若获取的目标哈希桶号所指向的哈希桶中的新闻数据的聚类中心包括多个,则将多个聚类宗信均作为目标新闻数据推送给客户端。
参阅图9,图9是在图1所示实施例步骤S104一示例性实施例的流程图,如图9所示,步骤S104包括步骤S801-步骤S803,详细描述如下:
步骤S801:接收客户端发送的待查询新闻数据。
在本实施例中,待查询新闻数据可以为一个或多个,在此不做具体限定。
步骤S802:对待查询新闻数据进行局部敏感哈希处理,得到待查询新闻数据对应的哈希桶号。
在本实施例中,对待查询新闻数据进行局部敏感哈希处理,得到待查询新闻数据对应的哈希桶号,其中,待查询新闻数据对应的哈希桶号所指向的哈希桶中存放的新闻数据就是与待查询新闻数据最相似的新闻数据。
示例性地,提取待查询新闻数据对应的特征向量,对待查询新闻数据对应的特征向量进行局部敏感哈希处理,得到待查询新闻数据对应的哈希桶号。
步骤S803:将待查询新闻数据对应的哈希桶号所指向的哈希桶中的新闻数据推送给客户端。
在本实施例中,将待查询新闻数据对应的哈希桶号所指向的哈希桶中的新闻数据推送给客户端,以使得客户端获取到所有与待查询新闻数据相似的新闻数据。
示例性地,分别与待查询新闻数据进行相似度计算,将与待查询新闻数据的相似度大于预设阈值的所有新闻数据作为目标新闻数据推送给客户端。
示例性地,按照相似度从大到小对哈希桶号所指向的哈希桶中的新闻数据进行排序,获取排列靠前的多个新闻数据,并按顺序将新闻数据发送给客户端。
本实施例考虑到客户端存在查询与一个新闻数据类似的所有新闻数据的需求,此时,如果将该新闻数据与所有新闻数据进行相似度匹配,则计算量过于大,浪费资源,且耗时过长,本实施例对多个新闻数据进行局部敏感哈希处理,会较高概率让相似度高的新闻数据分布在一个哈希桶中,而相似度较低的新闻数据不会进入同一个哈希桶,从而降低查询与一个新闻数据类似的所有新闻数据的计算量,降低处理时长,提高查询效率。
参与图10,图10是本申请一示例性实施例示出的新闻推荐装置的框图,如图10所示,新闻推荐装置900包括获取模块901、处理模块902、确定模块903以及推送模块904。
其中,获取模块901用于获取多个新闻数据;处理模块902用于对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号,并将每个新闻数据存放于对应的哈希桶号所指向的哈希桶中;确定模块903用于确定存放新闻数据的数目最多的哈希桶对应的目标哈希桶号;推送模块904用于从目标哈希桶号所指向的哈希桶中获取目标新闻数据,并将目标新闻数据推送给客户端。
在另一示例性实施例中,处理模块902包括第一处理单元、删除单元和存放单元,其中,第一处理单元用于对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号;删除单元用于若检测到哈希桶号所指向的哈希桶中新闻数据的累积量为第一预设阈值,则从对应的哈希桶中删除部分的新闻数据,第一预设阈值为哈希桶存放的最大数据量;存放单元用于将对应的新闻数据存放于删除了新闻数据的哈希桶中。
在另一示例性实施例中,删除单元包括确定子单元和删除子单元,其中,确定子单元用于确定哈希桶中存放的新闻数据的聚类中心;删除子单元用于将哈希桶中距离聚类中心最远的新闻数据作为待删除数据,并删除待删除数据。
在另一示例性实施例中,确定子单元包括处理子单元和获取子单元,其中,处理子单元用于对哈希桶中的新闻数据进行聚类处理,得到至少一个新闻数据类别对应的聚类中心;获取子单元用于获取包含新闻数据数目最多的新闻数据类别对应的聚类中心为目标聚类中心,将目标聚类中心作为对应哈希桶中存储的新闻数据的聚类中心。
在另一示例性实施例中,推送模块904包括获取单元和第一推送单元,其中,获取单元用于获取目标哈希桶号所指向的哈希桶中的新闻数据的聚类中心;第一推送单元用于将聚类中心对应的新闻数据作为目标新闻数据推送给客户端。
在另一示例性实施例中,推送模块904包括接收单元、第二处理单元和第二推送单元,其中,接收单元用于接收客户端发送的待查询新闻数据;第二处理单元用于对待查询新闻数据进行局部敏感哈希处理,得到待查询新闻数据对应的哈希桶号;第二推送单元用于将待查询新闻数据对应的哈希桶号所指向的哈希桶中的新闻数据推送给客户端。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
在另一示例性实施例中,本申请提供一种电子设备,包括处理器和存储器,其中,存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时实现如前的用户前置设备的纳管方法。
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图11示出的电子设备的计算机系统1000仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机系统1000包括中央处理单元(Central Processing Unit,CPU)1001,其可以根据存储在只读存储器(Read-Only Memory,ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(Random Access Memory,RAM)1003中的程序而执行各种适当的动作和处理,例如执行上述实施例中的信息推荐方法。在RAM 1003中,还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output,I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机可读指令,该计算机可读指令被处理器执行时实现如前实施例中任一项的新闻推荐方法。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的新闻推荐方法。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
Claims (10)
1.一种新闻推荐方法,其特征在于,包括:
获取多个新闻数据;
对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号,并将每个新闻数据存放于对应的哈希桶号所指向的哈希桶中;
确定存放新闻数据的数目最多的哈希桶对应的目标哈希桶号;
从所述目标哈希桶号所指向的哈希桶中获取目标新闻数据,并将所述目标新闻数据推送给客户端。
2.根据权利要求1所述的方法,其特征在于,所述对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号,并将每个新闻数据存放于对应的哈希桶号所指向的哈希桶中包括:
对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号;
若检测到哈希桶号所指向的哈希桶中新闻数据的累积量为第一预设阈值,则从对应的哈希桶中删除部分的新闻数据,所述第一预设阈值为哈希桶存放的最大数据量;
将对应的新闻数据存放于删除了新闻数据的哈希桶中。
3.根据权利要求2所述的方法,其特征在于,在所述若检测到哈希桶号所指向的哈希桶中新闻数据的累积量为第一预设阈值,则从对应的哈希桶中删除部分的新闻数据之前,所述方法还包括:
对每个哈希桶号所指向的哈希桶中的新闻数据进行数目累计,以得到对应哈希桶中存放的新闻数据的累积量。
4.根据权利要求2所述的方法,其特征在于,所述从对应的哈希桶中删除部分的新闻数据包括:
确定哈希桶中存放的新闻数据的聚类中心;
将哈希桶中距离所述聚类中心最远的新闻数据作为待删除数据,并删除所述待删除数据。
5.根据权利要求4所述的方法,其特征在于,所述确定哈希桶中存储的新闻数据的聚类中心包括:
对哈希桶中的新闻数据进行聚类处理,得到至少一个新闻数据类别对应的聚类中心;
获取包含新闻数据数目最多的新闻数据类别对应的聚类中心为目标聚类中心,将所述目标聚类中心作为对应哈希桶中存储的新闻数据的聚类中心。
6.根据权利要求1所述的方法,其特征在于,所述从所述目标哈希桶号所指向的哈希桶中获取目标新闻数据,并将所述目标新闻数据推送给客户端包括:
获取所述目标哈希桶号所指向的哈希桶中的新闻数据的聚类中心;
将所述聚类中心对应的新闻数据作为所述目标新闻数据推送给所述客户端。
7.根据权利要求1所述的方法,其特征在于,所述从所述目标哈希桶号所指向的哈希桶中获取目标新闻数据,并将所述目标新闻数据推送给客户端包括:
接收所述客户端发送的待查询新闻数据;
对所述待查询新闻数据进行局部敏感哈希处理,得到所述待查询新闻数据对应的哈希桶号;
将所述待查询新闻数据对应的哈希桶号所指向的哈希桶中的新闻数据推送给所述客户端。
8.一种新闻推荐装置,其特征在于,包括:
获取模块,用于获取多个新闻数据;
处理模块,用于对每个新闻数据进行局部敏感哈希处理,得到每个新闻数据对应的哈希桶号,并将每个新闻数据存放于对应的哈希桶号所指向的哈希桶中;
确定模块,用于确定存放新闻数据的数目最多的哈希桶对应的目标哈希桶号;
推送模块,用于从所述目标哈希桶号所指向的哈希桶中获取目标新闻数据,并将所述目标新闻数据推送给客户端。
9.一种电子设备,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-7中的任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-7中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210413246.6A CN114791978A (zh) | 2022-04-19 | 2022-04-19 | 新闻推荐方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210413246.6A CN114791978A (zh) | 2022-04-19 | 2022-04-19 | 新闻推荐方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114791978A true CN114791978A (zh) | 2022-07-26 |
Family
ID=82461640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210413246.6A Pending CN114791978A (zh) | 2022-04-19 | 2022-04-19 | 新闻推荐方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114791978A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279272A (zh) * | 2015-10-30 | 2016-01-27 | 南京未来网络产业创新有限公司 | 一种基于分布式网络爬虫的内容聚合方法 |
CN105528432A (zh) * | 2015-12-15 | 2016-04-27 | 北大方正集团有限公司 | 一种数字资源热点生成方法及装置 |
CN106202362A (zh) * | 2016-07-07 | 2016-12-07 | Tcl集团股份有限公司 | 图像推荐方法和图像推荐装置 |
CN107066602A (zh) * | 2017-04-21 | 2017-08-18 | 北京搜狐新媒体信息技术有限公司 | 一种新闻信息推送方法及系统 |
CN107766258A (zh) * | 2017-09-27 | 2018-03-06 | 精硕科技(北京)股份有限公司 | 内存存储方法与装置、内存查询方法与装置 |
CN110941766A (zh) * | 2019-12-10 | 2020-03-31 | 北京字节跳动网络技术有限公司 | 一种信息推送的方法、装置、计算机设备及存储介质 |
CN111522989A (zh) * | 2020-07-06 | 2020-08-11 | 南京梦饷网络科技有限公司 | 用于图像检索的方法、计算设备和计算机存储介质 |
-
2022
- 2022-04-19 CN CN202210413246.6A patent/CN114791978A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279272A (zh) * | 2015-10-30 | 2016-01-27 | 南京未来网络产业创新有限公司 | 一种基于分布式网络爬虫的内容聚合方法 |
CN105528432A (zh) * | 2015-12-15 | 2016-04-27 | 北大方正集团有限公司 | 一种数字资源热点生成方法及装置 |
CN106202362A (zh) * | 2016-07-07 | 2016-12-07 | Tcl集团股份有限公司 | 图像推荐方法和图像推荐装置 |
CN107066602A (zh) * | 2017-04-21 | 2017-08-18 | 北京搜狐新媒体信息技术有限公司 | 一种新闻信息推送方法及系统 |
CN107766258A (zh) * | 2017-09-27 | 2018-03-06 | 精硕科技(北京)股份有限公司 | 内存存储方法与装置、内存查询方法与装置 |
CN110941766A (zh) * | 2019-12-10 | 2020-03-31 | 北京字节跳动网络技术有限公司 | 一种信息推送的方法、装置、计算机设备及存储介质 |
CN111522989A (zh) * | 2020-07-06 | 2020-08-11 | 南京梦饷网络科技有限公司 | 用于图像检索的方法、计算设备和计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10922350B2 (en) | Associating still images and videos | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
US9171081B2 (en) | Entity augmentation service from latent relational data | |
US9201903B2 (en) | Query by image | |
US7962500B2 (en) | Digital image retrieval by aggregating search results based on visual annotations | |
US9672283B2 (en) | Structured and social data aggregator | |
US8630972B2 (en) | Providing context for web articles | |
US8527564B2 (en) | Image object retrieval based on aggregation of visual annotations | |
US20100241647A1 (en) | Context-Aware Query Recommendations | |
US20100034470A1 (en) | Image and website filter using image comparison | |
CN109885773A (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
CN110162522B (zh) | 一种分布式数据搜索系统及方法 | |
CN114461839B (zh) | 基于多模态预训练的相似图片检索方法、装置及电子设备 | |
US8768105B2 (en) | Method for searching a database using query images and an image anchor graph-based ranking algorithm | |
CN113297457B (zh) | 一种高精准性的信息资源智能推送系统及推送方法 | |
EP3485394B1 (en) | Contextual based image search results | |
Cheng et al. | Supporting entity search: a large-scale prototype search engine | |
EP4109293A1 (en) | Data query method and apparatus, electronic device, storage medium, and program product | |
US9424338B2 (en) | Clustering queries for image search | |
KR101931859B1 (ko) | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 | |
CN111930949A (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN111538903A (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
US9405846B2 (en) | Publish-subscribe based methods and apparatuses for associating data files | |
CN114791978A (zh) | 新闻推荐方法、装置、设备以及存储介质 | |
CN109271580B (zh) | 搜索方法、装置、客户端和搜索引擎 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |