CN103559315B - 资讯筛选推送方法及装置 - Google Patents

资讯筛选推送方法及装置 Download PDF

Info

Publication number
CN103559315B
CN103559315B CN201310590508.7A CN201310590508A CN103559315B CN 103559315 B CN103559315 B CN 103559315B CN 201310590508 A CN201310590508 A CN 201310590508A CN 103559315 B CN103559315 B CN 103559315B
Authority
CN
China
Prior art keywords
information
record
key word
theme
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310590508.7A
Other languages
English (en)
Other versions
CN103559315A (zh
Inventor
张记者
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqin Technology Co Ltd
Original Assignee
Huaqin Telecom Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqin Telecom Technology Co Ltd filed Critical Huaqin Telecom Technology Co Ltd
Priority to CN201310590508.7A priority Critical patent/CN103559315B/zh
Publication of CN103559315A publication Critical patent/CN103559315A/zh
Application granted granted Critical
Publication of CN103559315B publication Critical patent/CN103559315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种资讯筛选推送方法及装置。该资讯筛选推送方法包括以下步骤:计算浏览记录的关闭时间和打开时间的时间间隔,并依据时间间隔的大小选取第一类浏览记录和第二类浏览记录;从第一类浏览记录中提取主题中的词组作为第一主题关键词,记录至关键词数据库;从第二类浏览记录中提取主题中的词组作为第二主题关键词,记录至关键词数据库中;获取新资讯;筛选出主题中包含第一主题关键词且不包含第二主题关键词的资讯;推送筛选出的资讯。本发明的资讯筛选推送方法及装置,能够高效地自动筛选出适应用户个性化需求的新资讯进行推送,节省了用户用于搜索资讯的时间和网络流量,同时筛选推送的资讯具有较佳的准确性和针对性。

Description

资讯筛选推送方法及装置
技术领域
本发明涉及一种资讯筛选推送方法及装置。
背景技术
随着互联网的不断发展和普及,如今人们越来越多通过网络来了解各类新闻、资讯等,通过网络获得资讯可以通过计算机、手机等多种设备来完成。这种新的资讯获取方式不仅有效利用了网络传输数据的高效以及便捷性,更利用了网络中的海量资讯来满足用户的几乎任何对于资讯的需求。然而,互联网上的海量资讯也给用户带来了一些负面影响,即用户在获取资讯时需要自行进行搜索和筛选,这样就会浪费时间和网络流量。而一些网站为此设计的资讯推送方法,则是基于网站方面的统计将一段时间内比较流行的或者点击率较高的资讯向用户端自动推送,这种方式尽管一定程度上减少了用户自行搜索的时间和网络流量,但对于用户需求无法进行有效区分,更无法适应于用户个性化的需求,因而在资讯推送的准确性和效率上仍有明显不足,即在资讯内容上无法准确高效地匹配于用户实际想要获取的资讯。
发明内容
本发明要解决的技术问题是为了克服现有技术中资讯的推送大多需要用户进行搜索和筛选,而自动推送的资讯又无法适应于个性化的需求,因而筛选推送的资讯的准确性和效率较低的缺陷,提出一种资讯筛选推送方法及装置。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供了一种资讯筛选推送方法,其特点在于,将客户端的浏览记录实时存入一浏览记录池,每条浏览记录包括主题、资讯文本、打开时间和关闭时间,该资讯筛选推送方法还包括以下步骤:
S1、计算每条浏览记录的关闭时间和打开时间的时间间隔,将该时间间隔大于预设的第一间隔的浏览记录作为第一类浏览记录,将该时间间隔小于预设的第二间隔的浏览记录作为第二类浏览记录,其中第一间隔大于第二间隔;
S2、从每条第一类浏览记录中提取主题中的词组作为第一主题关键词,并记录至一关键词数据库中;
S3、从每条第二类浏览记录中提取主题中的词组作为第二主题关键词,并记录至该关键词数据库中;
S4、获取发布时间距离当前时刻之差小于预设的第三间隔的新资讯;
S5、从新资讯中筛选出主题中包含该关键词数据库中的至少一第一主题关键词、且不包含该关键词数据库中的任何第二主题关键词的资讯作为待推送资讯;
S6、将待推送资讯发送至该客户端。
该资讯筛选推送方法实质上是基于对客户端过去的浏览记录的分析,从新资讯中筛选出和同一客户端过去浏览的资讯在内容上较相近的资讯进行推送。其中,主题表示这一浏览记录所对应的资讯的标题,资讯文本即资讯的正文内容、打开时间和关闭时间分别为客户端打开和关闭这条资讯的时间。并且,本领域技术人员容易理解地,这一浏览记录池通常可以设置为仅存储有最近一段时间内的浏览记录,或者可以设置为其具有一定的容量并在存入新的浏览记录时删除生成时间最早的浏览记录。
步骤S1中计算得到的某一浏览记录的时间间隔越长,通常说明用户在这一浏览记录上所花费的时间较长,反之亦然。步骤S1中选取了两类浏览记录,其中第一类浏览记录的时间间隔较长,第二类浏览记录的时间间隔较短,第二类浏览记录更可能是由于用户的误操作而打开的资讯或者是用户在打开这一资讯后很快发现这一资讯和自己的需求是不一致的,而第一类浏览记录更可能是用户经仔细阅读的资讯。因此,将第一类浏览记录作为在资讯筛选中的关键词来源,同时将第二类浏览记录作为资讯筛选中需要排除的关键词来源。为此不仅需要区别这两类浏览记录,在后续的步骤S2和S3中将从这两类浏览记录中提取的关键词也进行区别。为了更切合用户使用习惯来进行浏览记录的区别,第一间隔和第二间隔的具体数值可由本领域技术人员根据统计数据进行设置。
在步骤S5中,根据新资讯的主题对于新资讯进行了筛选,这样筛选得到的待推送资讯,其内容和用户过去曾仔细阅读的资讯较为接近,并且在筛选中排除了用户误操作对于分析结果的影响,因而能够较准确地适应于用户的实际需求。
较佳地,S2包括以下步骤:
S21、从每条第一类浏览记录中提取主题中的词组作为第一主题关键词,并记录至该关键词数据库中;
S22、计算各个第一主题关键词在该关键词数据库中的出现次数作为权重值,并在该关键词数据库中记录第一主题关键词和权重值;
S3包括以下步骤:
S31、从每条第二类浏览记录中提取主题中的词组作为第二主题关键词,并记录至该关键词数据库中;
S32、计算各个第二主题关键词在该关键词数据库中的出现次数的负数作为权重值,并在该关键词数据库中记录第二主题关键词和权重值;
S5由步骤S5a替代:
S5a、计算每条新资讯的主题中的所有词组在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯。
其中,步骤S22及S32中计算各个第一主题关键词及第二主题关键词在该关键词数据库中的出现次数时,并不对同一个关键词是提取自哪条浏览记录进行区分。并且,若有一个词组同时以第一主题关键词和第二主题关键词的形式出现在该关键词数据库中,则通过步骤S22及S32,在该关键词数据库中会同时记录有这一词组作为第一主题关键词的权重值以及作为第二主题关键词的权重值。
在步骤S5a中,首先确定每条新资讯的主题中的词组,接着对于其中的每个词组、均在该关键词数据库中搜索是否有和这一词组在用词上相同的关键词,应当注意,这里所说的关键词包括上述第一主题关键词和第二主题关键词。然后计算这些用词相同的关键词的权重值之和,最后选取权重值之和相对较大的若干条新资讯作为待推送资讯。也就是说,步骤S5a中的“词组在该关键词数据库中的权重值之和”意为该关键词数据库中所有和词组用词相同的所有关键词的权重值之和。通过这样的筛选方法,既考虑到了用户可能的误操作的影响,又能够基于量化的统计数据进行判断,筛选结果更为客观准确。
较佳地,S2还包括以下步骤:
S23、对每条第一类浏览记录中的资讯文本采用TF-IDF算法进行分词后,提取关键词作为第一文本关键词,并提取第一文本关键词的权值;
S24、取第一文本关键词和预设的一第一修正系数之积作为第一文本关键词的权重值,其中该第一修正系数大于零;
S25、在该关键词数据库中记录第一文本关键词和权重值;
S3还包括以下步骤:
S33、对每条第二类浏览记录中的资讯文本采用TF-IDF算法进行分词后,提取关键词作为第二文本关键词,并提取第二文本关键词的权值;
S34、取第二文本关键词和预设的一第二修正系数之积作为第二文本关键词的权重值,其中该第二修正系数小于零;
S35、在该关键词数据库中记录第二文本关键词和权重值。
较佳地,S5a由S5b替代,S5b包括以下步骤:
S51b、对每条新资讯的资讯文本采用TF-IDF算法进行分词后,提取权值较高的若干资讯关键词;
S52b、计算每条新资讯的主题中的所有词组以及S51b中提取的该若干资讯关键词在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯。
本发明还提供了一种资讯筛选推送装置,其特点在于,包括:
一浏览记录接收模块,用于接收并存储客户端的浏览记录,每条浏览记录包括主题、资讯文本、打开时间和关闭时间;
一时间筛选模块,用于计算每条浏览记录的关闭时间和打开时间的时间间隔,将该时间间隔大于预设的第一间隔的浏览记录作为第一类浏览记录,将该时间间隔小于预设的第二间隔的浏览记录作为第二类浏览记录,其中第一间隔大于第二间隔;
一第一关键词提取模块,用于从每条第一类浏览记录中提取主题中的词组作为第一主题关键词,并记录至一关键词数据库中;
一第二关键词提取模块,用于从每条第二类浏览记录中提取主题中的词组作为第二主题关键词,并记录至该关键词数据库中;
一资讯更新模块,用于获取发布时间距离当前时刻之差小于预设的第三间隔的新资讯;
一资讯筛选模块,用于从新资讯中筛选出主题中包含该关键词数据库中的至少一第一主题关键词、且不包含该关键词数据库中的任何第二主题关键词的资讯作为待推送资讯;
一推送模块,用于将待推送资讯发送至该客户端。
较佳地,该第一关键词提取模块包括一第一主题提取单元和一第一主题权重计算单元,该第一主题提取单元用于从每条第一类浏览记录中提取主题中的词组作为第一主题关键词、并记录至该关键词数据库中,该第一主题权重计算单元用于计算各个第一主题关键词在该关键词数据库中的出现次数作为权重值、并在该关键词数据库中记录第一主题关键词和权重值;
该第二关键词提取模块包括一第二主题提取单元和一第二主题权重计算单元,该第二主题提取单元用于从每条第二类浏览记录中提取主题中的词组作为第二主题关键词、并记录至该关键词数据库中,该第二主题权重计算单元用于计算各个第二主题关键词在该关键词数据库中的出现次数的负数作为权重值,并在该关键词数据库中记录第二主题关键词和权重值;
该资讯筛选模块由一权重值计算模块代替,该权重值计算模块用于计算每条新资讯的主题中的所有词组在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯。
较佳地,该第一关键词提取模块还包括一第一分词单元和一第一修正单元,该第一分词单元用于对每条第一类浏览记录中的资讯文本采用TF-IDF算法进行分词后、提取关键词作为第一文本关键词、并提取第一文本关键词的权值,该第一修正单元用于取第一文本关键词和预设的一第一修正系数之积作为第一文本关键词的权重值、并在该关键词数据库中记录第一文本关键词和权重值,其中该第一修正系数大于零;
该第二关键词提取模块还包括一第二分词单元和一第二修正单元,该第二分词单元用于对每条第二类浏览记录中的资讯文本采用TF-IDF算法进行分词后、提取关键词作为第二文本关键词、并提取第二文本关键词的权值,该第二修正单元用于取第二文本关键词和预设的一第二修正系数之积作为第二文本关键词的权重值、并在该关键词数据库中记录第二文本关键词和权重值,其中该第二修正系数小于零。
较佳地,该权重值计算模块由一资讯文本分析模块代替,该资讯文本分析模块用于对每条新资讯的资讯文本采用TF-IDF算法进行分词后,提取权值较高的若干资讯关键词,然后计算每条新资讯的主题中的所有词组以及提取的该若干资讯关键词在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明的资讯筛选推送方法及装置,通过对用户端的浏览记录依据打开时间和关闭时间的间隔的分类,以及进一步地对于浏览记录中的关键词的提取和统计分析,能够高效地自动筛选出适应用户个性化需求的新资讯进行推送,节省了用户用于搜索资讯的时间和网络流量,同时筛选推送的资讯具有较佳的准确性和针对性。
附图说明
图1为本发明实施例1的资讯筛选推送方法的流程图。
图2为本发明实施例2的资讯筛选推送方法的流程图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例的资讯筛选推送方法中,将客户端的浏览记录实时存入一浏览记录池,每条浏览记录包括主题、资讯文本、打开时间和关闭时间。参考图1所示,本实施例的资讯筛选推送方法还包括以下步骤:
S1、计算每条浏览记录的关闭时间和打开时间的时间间隔,将该时间间隔大于预设的第一间隔的浏览记录作为第一类浏览记录,将该时间间隔小于预设的第二间隔的浏览记录作为第二类浏览记录,其中第一间隔大于第二间隔;
S21、从每条第一类浏览记录中提取主题中的词组作为第一主题关键词,并记录至该关键词数据库中;
S22、计算各个第一主题关键词在该关键词数据库中的出现次数作为权重值,并在该关键词数据库中记录第一主题关键词和权重值;
S31、从每条第二类浏览记录中提取主题中的词组作为第二主题关键词,并记录至该关键词数据库中;
S32、计算各个第二主题关键词在该关键词数据库中的出现次数的负数作为权重值,并在该关键词数据库中记录第二主题关键词和权重值;
S4、获取发布时间距离当前时刻之差小于预设的第三间隔的新资讯;
S5a、计算每条新资讯的主题中的所有词组在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯;
S6、将待推送资讯发送至该客户端。
本实施例中,该第一间隔为10秒,该第二间隔为5秒。在步骤S1中计算得到的某一浏览记录的时间间隔如果大于10秒,也就是说用户在这一浏览记录上所花费的时间较长。反之如果时间间隔小于5秒,说明用户在这一浏览记录上仅花费了很短的时间就关闭了这一浏览记录。因此,第一类浏览记录很可能包括用户真正感兴趣的内容,而第二类浏览记录很可能并不包括用户真正感兴趣的内容,仅仅由于用户的误操作或者对标题信息的误解才打开的资讯。应当注意的是,尽管根据时间间隔的长短判断相应的一篇资讯内容是否是用户真正感兴趣的难以做到完全准确,但对于大量的浏览记录而言,从统计意义上来说,如果资讯中包含了用户真正感兴趣的内容,那么用户查看这类资讯所花费的时间会更长。因此,将第一类浏览记录作为在资讯筛选中的关键词来源,同时将第二类浏览记录作为资讯筛选中需要排除的关键词来源。为此不仅需要区别这两类浏览记录,在后续的步骤中将从这两类浏览记录中提取的关键词也进行区别。
其中,步骤S22及S32中计算各个第一主题关键词及第二主题关键词在该关键词数据库中的出现次数时,并不对同一个关键词是提取自哪条浏览记录进行区分。并且,若有一个词组同时以第一主题关键词和第二主题关键词的形式出现在该关键词数据库中,则通过步骤S22及S32,在该关键词数据库中会同时记录有这一词组作为第一主题关键词的权重值以及作为第二主题关键词的权重值。举例来说,若从5条浏览记录中分别提取了一次第一主题关键词“电器”,同时从另外3条浏览记录中分别提取了一次第二主题关键词“电器”,那么在步骤S22及S32中计算该第一主题关键词及第二主题关键词在该关键词数据库中的出现次数时,分别得到第一主题关键词“电器”的出现次数为5,第二主题关键词“电器”的出现次数为3。也就是说,在该关键词数据库中记录了第一主题关键词“电器”的权重值为5,第二主题关键词“电器”的权重值为-3。
在步骤S5a中,首先确定每条新资讯的主题中的词组,接着对于其中的每个词组、均在该关键词数据库中搜索是否有和这一词组在用词上相同的关键词,应当注意,这里所说的关键词包括上述第一主题关键词和第二主题关键词。然后计算这些用词相同的关键词的权重值之和,最后选取权重值之和相对较大的若干条新资讯作为待推送资讯。
举例来说,在该关键词数据库中第一主题关键词“电器”的权重值为5,第二主题关键词“电器”的权重值为-3,另一第二主题关键词“空调”的权重值为-4。并且4条新资讯A、B、C、D的主题中除了词组“电器”和“空调”,其他词组在该关键词数据库中的权重值均为零。新资讯A的主题中包括了词组“电器”和“空调”,新资讯B的主题中仅包括词组“电器”,新资讯C的主题中仅包括词组“空调”,新资讯D的主题中则不包含词组“电器”和“空调”。因此,新资讯A、B、C、D中的词组在该关键词数据库中的权重值之和分别为-2、2、-4、0。这样的条件下,若选取权重值之和相对较大的2条新资讯,则会选择新资讯B、D作为待推送资讯,并在步骤S6中将新资讯B、D发送至该客户端。
本实施例的资讯筛选推送装置,包括以下模块:
一浏览记录接收模块,用于接收并存储客户端的浏览记录,每条浏览记录包括主题、资讯文本、打开时间和关闭时间;
一时间筛选模块,用于计算每条浏览记录的关闭时间和打开时间的时间间隔,将该时间间隔大于预设的第一间隔的浏览记录作为第一类浏览记录,将该时间间隔小于预设的第二间隔的浏览记录作为第二类浏览记录,其中第一间隔大于第二间隔;
一第一关键词提取模块,用于从每条第一类浏览记录中提取主题中的词组作为第一主题关键词,并记录至一关键词数据库中;
一第二关键词提取模块,用于从每条第二类浏览记录中提取主题中的词组作为第二主题关键词,并记录至该关键词数据库中;
一资讯更新模块,用于获取发布时间距离当前时刻之差小于预设的第三间隔的新资讯;
一资讯筛选模块,用于从新资讯中筛选出主题中包含该关键词数据库中的至少一第一主题关键词、且不包含该关键词数据库中的任何第二主题关键词的资讯作为待推送资讯;
一推送模块,用于将待推送资讯发送至该客户端。
其中,该第一关键词提取模块包括一第一主题提取单元和一第一主题权重计算单元,该第一主题提取单元用于从每条第一类浏览记录中提取主题中的词组作为第一主题关键词、并记录至该关键词数据库中,该第一主题权重计算单元用于计算各个第一主题关键词在该关键词数据库中的出现次数作为权重值、并在该关键词数据库中记录第一主题关键词和权重值。
该第二关键词提取模块包括一第二主题提取单元和一第二主题权重计算单元,该第二主题提取单元用于从每条第二类浏览记录中提取主题中的词组作为第二主题关键词、并记录至该关键词数据库中,该第二主题权重计算单元用于计算各个第二主题关键词在该关键词数据库中的出现次数的负数作为权重值,并在该关键词数据库中记录第二主题关键词和权重值。
该资讯筛选模块由一权重值计算模块代替,该权重值计算模块用于计算每条新资讯的主题中的所有词组在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯。
实施例2
如图2所示,本实施例的资讯筛选推送方法和实施例1相比,差别仅在于:
S22之后还包括以下步骤:
S23、对每条第一类浏览记录中的资讯文本采用TF-IDF算法进行分词后,提取关键词作为第一文本关键词,并提取第一文本关键词的权值;
S24、取第一文本关键词和预设的一第一修正系数之积作为第一文本关键词的权重值,其中该第一修正系数大于零;
S25、在该关键词数据库中记录第一文本关键词和权重值,然后执行S31,S32后还包括以下步骤:
S33、对每条第二类浏览记录中的资讯文本采用TF-IDF算法进行分词后,提取关键词作为第二文本关键词,并提取第二文本关键词的权值;
S34、取第二文本关键词和预设的一第二修正系数之积作为第二文本关键词的权重值,其中该第二修正系数小于零;
S35、在该关键词数据库中记录第二文本关键词和权重值,然后执行S4
并且,S5a由S5b替代,S5b包括以下步骤:
S51b、对每条新资讯的资讯文本采用TF-IDF算法进行分词后,提取权值较高的若干资讯关键词;
S52b、计算每条新资讯的主题中的所有词组以及S51b中提取的该若干资讯关键词在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯。
其中,上述第一文本关键词和第二文本关键词的权值即在相应的资讯文本中关键词的TF-IDF值,其中TF为词频、IDF为逆向文件频率。对于第一类浏览记录中采用的TF-IDF算法,语料库所包含的文件即所有的第一类浏览记录中的资讯文本,对于第二类浏览记录中采用的TF-IDF算法,语料库所包含的文件即所有的第二类浏览记录中的资讯文本。
此外,在后续步骤S5a中,同样首先确定每条新资讯的主题中的词组,接着对于其中的每个词组、均在该关键词数据库中搜索是否有和这一词组在用词上相同的关键词,应当注意的是,在这一优选的技术方案中,这里的关键词不仅包括上述第一主题关键词和第二主题关键词,还包括第一文本关键词和第二文本关键词。然后计算这些用词相同的关键词的权重值之和,最后选取权重值之和相对较大的若干条新资讯作为待推送资讯。在这一方案中,第一修正系数和第二修正系数的取值可由本领域技术人员根据需要进行设置,第一修正系数和第二修正系数的绝对值越大,则相应的第一文本关键词和第二文本关键词在筛选过程中所起作用相对于第一和第二主题关键词所起作用就越大,反之亦然。
对于步骤S51b中的TF-IDF算法,其语料库包含了所有的新资讯的资讯文本。同时,容易理解地,如果存在资讯关键词和新资讯的主题中的词组重复的情况,计算在该关键词数据库中的权重值之和无须重复执行。上述对于资讯关键词在该关键词数据库中的权重值之和的计算,实质上是对于和资讯关键词在用词上相同的、该关键词数据库中的所有关键词的权重值之和的计算。
本实施例的资讯筛选推送装置和实施例1相比,差别仅在于:
该第一关键词提取模块还包括一第一分词单元和一第一修正单元,该第一分词单元用于对每条第一类浏览记录中的资讯文本采用TF-IDF算法进行分词后、提取关键词作为第一文本关键词、并提取第一文本关键词的权值,该第一修正单元用于取第一文本关键词和预设的一第一修正系数之积作为第一文本关键词的权重值、并在该关键词数据库中记录第一文本关键词和权重值,其中该第一修正系数大于零。
该第二关键词提取模块还包括一第二分词单元和一第二修正单元,该第二分词单元用于对每条第二类浏览记录中的资讯文本采用TF-IDF算法进行分词后、提取关键词作为第二文本关键词、并提取第二文本关键词的权值,该第二修正单元用于取第二文本关键词和预设的一第二修正系数之积作为第二文本关键词的权重值、并在该关键词数据库中记录第二文本关键词和权重值,其中该第二修正系数小于零。
并且,该权重值计算模块由一资讯文本分析模块代替,该资讯文本分析模块用于对每条新资讯的资讯文本采用TF-IDF算法进行分词后,提取权值较高的若干资讯关键词,然后计算每条新资讯的主题中的所有词组以及提取的该若干资讯关键词在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (6)

1.一种资讯筛选推送方法,其特征在于,将客户端的浏览记录实时存入一浏览记录池,每条浏览记录包括主题、资讯文本、打开时间和关闭时间,该资讯筛选推送方法还包括以下步骤:
S1、计算每条浏览记录的关闭时间和打开时间的时间间隔,将该时间间隔大于预设的第一间隔的浏览记录作为第一类浏览记录,将该时间间隔小于预设的第二间隔的浏览记录作为第二类浏览记录,其中第一间隔大于第二间隔;
S2,包括以下步骤:
S21、从每条第一类浏览记录中提取主题中的词组作为第一主题关键词,并记录至一关键词数据库中;
S22、计算各个第一主题关键词在该关键词数据库中的出现次数作为权重值,并在该关键词数据库中记录权重值;
S3,包括以下步骤:
S31、从每条第二类浏览记录中提取主题中的词组作为第二主题关键词,并记录至该关键词数据库中;
S32、计算各个第二主题关键词在该关键词数据库中的出现次数的负数作为权重值,并在该关键词数据库中记录权重值;
S4、获取发布时间距离当前时刻之差小于预设的第三间隔的新资讯;
S5a、计算每条新资讯的主题中的所有词组在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯;
S6、将待推送资讯发送至该客户端。
2.如权利要求1所述的资讯筛选推送方法,其特征在于,S2还包括以下步骤:
S23、对每条第一类浏览记录中的资讯文本采用TF-IDF算法进行分词后,提取关键词作为第一文本关键词,并提取第一文本关键词的权值;
S24、取第一文本关键词的权值和预设的一第一修正系数之积作为第一文本关键词的权重值,其中该第一修正系数大于零;
S25、在该关键词数据库中记录第一文本关键词和权重值;
S3还包括以下步骤:
S33、对每条第二类浏览记录中的资讯文本采用TF-IDF算法进行分词后,提取关键词作为第二文本关键词,并提取第二文本关键词的权值;
S34、取第二文本关键词的权值和预设的一第二修正系数之积作为第二文本关键词的权重值,其中该第二修正系数小于零;
S35、在该关键词数据库中记录第二文本关键词和权重值。
3.如权利要求1或2所述的资讯筛选推送方法,其特征在于,S5a由S5b替代,S5b包括以下步骤:
S51b、对每条新资讯的资讯文本采用TF-IDF算法进行分词后,提取权值较高的若干资讯关键词;
S52b、计算每条新资讯的主题中的所有词组以及S51b中提取的该若干资讯关键词在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯。
4.一种资讯筛选推送装置,其特征在于,包括:
一浏览记录接收模块,用于接收并存储客户端的浏览记录,每条浏览记录包括主题、资讯文本、打开时间和关闭时间;
一时间筛选模块,用于计算每条浏览记录的关闭时间和打开时间的时间间隔,将该时间间隔大于预设的第一间隔的浏览记录作为第一类浏览记录,将该时间间隔小于预设的第二间隔的浏览记录作为第二类浏览记录,其中第一间隔大于第二间隔;
一第一关键词提取模块,该第一关键词提取模块包括一第一主题提取单元和一第一主题权重计算单元,该第一主题提取单元用于从每条第一类浏览记录中提取主题中的词组作为第一主题关键词、并记录至一关键词数据库中,该第一主题权重计算单元用于计算各个第一主题关键词在该关键词数据库中的出现次数作为权重值、并在该关键词数据库中记录第一主题关键词和权重值;
一第二关键词提取模块,该第二关键词提取模块包括一第二主题提取单元和一第二主题权重计算单元,该第二主题提取单元用于从每条第二类浏览记录中提取主题中的词组作为第二主题关键词、并记录至该关键词数据库中,该第二主题权重计算单元用于计算各个第二主题关键词在该关键词数据库中的出现次数的负数作为权重值,并在该关键词数据库中记录第二主题关键词和权重值;
一资讯更新模块,用于获取发布时间距离当前时刻之差小于预设的第三间隔的新资讯;
一权重值计算模块,该权重值计算模块用于计算每条新资讯的主题中的所有词组在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯;
一推送模块,用于将待推送资讯发送至该客户端。
5.如权利要求4所述的资讯筛选推送装置,其特征在于,该第一关键词提取模块还包括一第一分词单元和一第一修正单元,该第一分词单元用于对每条第一类浏览记录中的资讯文本采用TF-IDF算法进行分词后、提取关键词作为第一文本关键词、并提取第一文本关键词的权值,该第一修正单元用于取第一文本关键词的权值和预设的一第一修正系数之积作为第一文本关键词的权重值、并在该关键词数据库中记录第一文本关键词和权重值,其中该第一修正系数大于零;
该第二关键词提取模块还包括一第二分词单元和一第二修正单元,该第二分词单元用于对每条第二类浏览记录中的资讯文本采用TF-IDF算法进行分词后、提取关键词作为第二文本关键词、并提取第二文本关键词的权值,该第二修正单元用于取第二文本关键词的权值和预设的一第二修正系数之积作为第二文本关键词的权重值、并在该关键词数据库中记录第二文本关键词和权重值,其中该第二修正系数小于零。
6.如权利要求4或5所述的资讯筛选推送装置,其特征在于,该权重值计算模块由一资讯文本分析模块代替,该资讯文本分析模块用于对每条新资讯的资讯文本采用TF-IDF算法进行分词后,提取权值较高的若干资讯关键词,然后计算每条新资讯的主题中的所有词组以及提取的该若干资讯关键词在该关键词数据库中的权重值之和,并选取权重值之和相对较大的若干条新资讯作为待推送资讯。
CN201310590508.7A 2013-11-20 2013-11-20 资讯筛选推送方法及装置 Active CN103559315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310590508.7A CN103559315B (zh) 2013-11-20 2013-11-20 资讯筛选推送方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310590508.7A CN103559315B (zh) 2013-11-20 2013-11-20 资讯筛选推送方法及装置

Publications (2)

Publication Number Publication Date
CN103559315A CN103559315A (zh) 2014-02-05
CN103559315B true CN103559315B (zh) 2017-01-04

Family

ID=50013561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310590508.7A Active CN103559315B (zh) 2013-11-20 2013-11-20 资讯筛选推送方法及装置

Country Status (1)

Country Link
CN (1) CN103559315B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224529A (zh) * 2014-05-28 2016-01-06 济南政和科技有限公司 一种基于用户浏览行为的个性化推荐方法和装置
CN106570003B (zh) * 2015-10-08 2021-03-12 腾讯科技(深圳)有限公司 数据推送方法及装置
CN106385607A (zh) * 2016-02-24 2017-02-08 深圳嘟嘟智能科技有限公司 基于车用智能后视镜的视频信息推送方法及系统
CN107424610B (zh) * 2017-03-02 2021-02-19 广州小鹏汽车科技有限公司 一种车载电台资讯获取方法及装置
CN107590179A (zh) * 2017-08-01 2018-01-16 佛山市深研信息技术有限公司 一种大数据分类处理方法
CN107609073A (zh) * 2017-09-01 2018-01-19 福建中金在线信息科技有限公司 一种资讯展示方法、装置、电子设备及存储介质
CN110309410B (zh) * 2018-03-15 2022-04-29 中国移动通信集团有限公司 一种资讯推荐方法、平台及计算机可读存储介质
CN109977320B (zh) * 2019-04-08 2021-07-27 北京网聘咨询有限公司 资讯推送方法及系统
CN110177143B (zh) * 2019-05-27 2022-03-04 北京字节跳动网络技术有限公司 资讯更新的通知方法、装置、服务器及可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101047723A (zh) * 2006-03-30 2007-10-03 腾讯科技(深圳)有限公司 分类信息推送系统及方法
CN101694659A (zh) * 2009-10-20 2010-04-14 浙江大学 基于多主题追踪的个性化网络新闻推送方法
CN101866341A (zh) * 2009-04-17 2010-10-20 华为技术有限公司 一种信息推送方法、装置及系统
CN102035893A (zh) * 2010-12-23 2011-04-27 中国农业银行股份有限公司 一种服务器主动推送数据的方法和系统
CN102760124A (zh) * 2011-04-25 2012-10-31 阿里巴巴集团控股有限公司 一种推荐数据的推送方法及系统
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100819846B1 (ko) * 2005-04-08 2008-04-07 김동암 인터넷 검색결과 정보를 언어고리로 구성하여 제공하는방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101047723A (zh) * 2006-03-30 2007-10-03 腾讯科技(深圳)有限公司 分类信息推送系统及方法
CN101866341A (zh) * 2009-04-17 2010-10-20 华为技术有限公司 一种信息推送方法、装置及系统
CN101694659A (zh) * 2009-10-20 2010-04-14 浙江大学 基于多主题追踪的个性化网络新闻推送方法
CN102035893A (zh) * 2010-12-23 2011-04-27 中国农业银行股份有限公司 一种服务器主动推送数据的方法和系统
CN102760124A (zh) * 2011-04-25 2012-10-31 阿里巴巴集团控股有限公司 一种推荐数据的推送方法及系统
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法

Also Published As

Publication number Publication date
CN103559315A (zh) 2014-02-05

Similar Documents

Publication Publication Date Title
CN103559315B (zh) 资讯筛选推送方法及装置
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN106503014B (zh) 一种实时信息的推荐方法、装置和系统
CN104750856B (zh) 一种多维协同推荐的系统与方法
KR101536520B1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN103885987B (zh) 一种音乐推荐方法和系统
CN106570144A (zh) 推荐信息的方法和装置
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
KR20150036117A (ko) 쿼리 확장
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN102812475A (zh) 确定在文档中所表达的情绪的系统和方法
CN102194015B (zh) 根据检索信息热度统计实现检索的方法
CN103425763B (zh) 基于sns的用户推荐方法及装置
CN101246499A (zh) 网络信息搜索方法及系统
CN103064880B (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN103870454A (zh) 数据推荐方法及系统
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN105378730A (zh) 社交媒体分析与输出
CN103902579B (zh) 获取信息的方法和装置
CN105718590A (zh) 面向多租户的SaaS舆情监控系统及方法
CN104809252A (zh) 互联网数据提取系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 201203 Building 1, 399 Zhangyuan Road, Zhangjiang, Pudong New Area, Shanghai

Patentee after: HUAQIN TELECOM TECHNOLOGY Co.,Ltd.

Address before: 201203 Building 1, 399 Zhangyuan Road, Zhangjiang, Pudong New Area, Shanghai

Patentee before: SHANGHAI HUAQIN TELECOM TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Building 1, No. 399 Keyuan Road, Zhangjiang hi tech park, Pudong New Area, Shanghai, 201203

Patentee after: Huaqin Technology Co.,Ltd.

Address before: Building 1, No. 399 Keyuan Road, Zhangjiang hi tech park, Pudong New Area, Shanghai, 201203

Patentee before: Huaqin Technology Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Building 1, No. 399 Keyuan Road, Zhangjiang hi tech park, Pudong New Area, Shanghai, 201203

Patentee after: Huaqin Technology Co.,Ltd.

Address before: 201203 Building 1, 399 Zhangyuan Road, Zhangjiang, Pudong New Area, Shanghai

Patentee before: HUAQIN TELECOM TECHNOLOGY Co.,Ltd.