CN104573054B - 一种信息推送方法和设备 - Google Patents

一种信息推送方法和设备 Download PDF

Info

Publication number
CN104573054B
CN104573054B CN201510030145.0A CN201510030145A CN104573054B CN 104573054 B CN104573054 B CN 104573054B CN 201510030145 A CN201510030145 A CN 201510030145A CN 104573054 B CN104573054 B CN 104573054B
Authority
CN
China
Prior art keywords
media event
event
news
user
news information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510030145.0A
Other languages
English (en)
Other versions
CN104573054A (zh
Inventor
戴朝约
潘照明
谢煜锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Shuzhifan Technology Co ltd
Original Assignee
Hangzhou Langhe Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Langhe Technology Co Ltd filed Critical Hangzhou Langhe Technology Co Ltd
Priority to CN201510030145.0A priority Critical patent/CN104573054B/zh
Publication of CN104573054A publication Critical patent/CN104573054A/zh
Application granted granted Critical
Publication of CN104573054B publication Critical patent/CN104573054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施方式提供了一种信息推送方法。该方法包括:依据预先获取的用户对各个新闻事件的关注度,和,各个新闻事件之间的关联程度,确定每个新闻事件对所述用户的推送度;依据所述推送度确定需要向所述用户推送的新闻事件;将需要向所述用户推送的新闻事件中的新闻信息推送给所述用户。通过获得用户对新闻事件的关注度和新闻事件之间的关联关系,本发明的方法使得向用户推送更符合其兴趣的新闻信息成为可能,从而显著地提升了推送符合用户要求的新闻信息的精确度,为用户带来了更好的体验。此外,本发明的实施方式提供了一种信息推送设备。

Description

一种信息推送方法和设备
技术领域
本发明的实施方式涉及互联网信息技术处理领域,更具体地,本发明的实施方式涉及一种信息推送方法和设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前,随着信息量的日复一日的爆炸性增多,各大门户新闻网站或者应用都推出了向用户推送新闻信息的方式。
一种常用的方式是根据用户喜欢的类别进行新闻信息推送例如,娱乐,或者更细分的将大类确定出小类,例如,娱乐-八卦,等等。
发明内容
但是,用户可能仅仅对某一个类别中的某些新闻信息感兴趣,通常情况下并不是对该类别中的所有新闻信息都感兴趣。
不可避免的是,按照现有技术向用户按照类别来推送新闻信息,可能就会使得推送结果不能满足用户要求,也因此,用户如果需要看到自己感兴趣的新闻信息,就需要触发更多与新闻网站或者新闻应用的交互才能实现。
为此,非常需要一种改进的信息推送的方法,以使得向用户推送更符合其阅读需求和兴趣的新闻信息成为可能,提升推送信息符合用户要求的精确度。
在本上下文中,本发明的实施方式期望提供一种信息推送方法和信息推送设备。
在本发明实施方式的第一方面中,提供了一种信息推送方法,包括:依据预先获取的用户对各个新闻事件的关注度,和,各个新闻事件之间的关联程度,确定每个新闻事件对所述用户的推送度;依据所述推送度确定需要向所述用户推送的新闻事件;将需要向所述用户推送的新闻事件中的新闻信息推送给所述用户。
在本发明实施方式的第二方面中,提供了一种信息推送设备,包括:第一确定模块,配置用于依据预先获取的用户对各个新闻事件的关注度,和,各个新闻事件之间的关联程度,确定每个新闻事件对所述用户的推送度;第二确定模块,配置用于依据所述推送度确定需要向所述用户推送的新闻事件;推送模块,配置用于将需要向所述用户推送的新闻事件中的新闻信息推送给所述用户。
根据本发明实施方式的信息推送方法和信息推送设备,可以通过用户对各个新闻事件的关注度和各个新闻事件之间的关联关系,从而计算出各个新闻事件对于用户的推送度,并将推送度高的新闻事件中的新闻信息向用户推送,以使得向用户推送更符合用户阅读需求和兴趣的新闻信息成为可能,从而提升了推送符合用户要求的新闻信息的精确度。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的应用场景架构图;
图2示意性地示出了根据本发明的信息推送方法实施例的流程图;
图3示意性地示出了根据本发明的信息推送设备实施例的结构框图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种信息推送的方法和设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,现有技术因为仅仅区分出了用户喜好的类别,而使得这样的划分过于粗糙,因为用户可能仅仅对某一个类别中的某些新闻信息感兴趣,通常情况下并不是对该类别中的所有新闻信息都感兴趣。因此,如果能够根据用户平时对新闻事件的关注情况,例如是否关注“娱乐”类新闻事件更多一些,并结合各个新闻事件之间的关联情况,来确定出是否向用户推送某个新闻事件。这样就能同时根据用户喜好及新闻事件的特点来向用户推送更符合其兴趣的新闻信息了。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1,用户可以在互联网设备101上浏览各种新闻信息,该互联网设备101可以是台式电脑或者手持的智能设备等,只要该互联网设备101能够通过互联网连接服务器102,就可以接收到服务器102推送的新闻信息以供用户浏览。而互联网设备101上还可以安装各种新闻应用,例如“网易新闻”等,用户也可以通过新闻应用来与服务器102交互并浏览各种新闻信息。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的用于信息推送的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
步骤201:依据预先获取的用户对各个新闻事件的关注度,和,各个新闻事件之间的关联程度,确定每个新闻事件对所述用户的推送度。
在本实施方式中,新闻事件指的是一个具有相关联的多个新闻信息的热点事件,例如“明星XX大婚”,那么在这个新闻事件下可能会有多个“明星XX试穿婚纱”、“明星XX确定某月某日举行婚礼”等多个相关联的且都与该新闻事件有关联的新闻信息。其中,新闻信息可以为一篇属于某个新闻事件的新闻文章,例如“明星XX试穿婚纱”。
在本实施方式中,步骤201中获取各个新闻事件之间的关联程度包括:获取各个新闻事件的关联关系,并计算有关联关系的各个新闻事件之间的关联程度。其中,该关联程度可以表示出每个新闻事件与其他新闻事件的关联关系是近还是远。新闻事件的关联关系可以包括后续关系和侧枝关系,其中,后续关系可以为:一新闻事件与另一新闻事件的主要维度相同且发生时间晚于另一新闻事件,所述主要维度指的是预设的能表示事件关键信息的多个维度(例如2个维度:内容和人物);所述侧枝关系可以为:一新闻事件与另一新闻事件的部分维度相同,例如,一新闻事件的内容与另一新闻事件相同而人物不同。
所述计算有关联关系的各个新闻事件之间的关联程度,包括:依据所述有关联关系的各个新闻事件之间的事件距离和事件热度值确定各个新闻事件之间的关联权重值;所述事件距离可以包括:所述各个新闻事件之间的时间距离和特征距离。
在确定关联权重值的过程中,根据计算好的事件流结构可以构建每个新闻事件的后续事件或侧枝事件的映射模型,称为事件发展关联模型。然后根据事件间的事件距离(包括时间距离和特征距离)和事件热度值,可以赋予每个事件有向关联的边权重作为关联权重值,例如关联的事件A和B的时间距离或特征距离越近,即,A和B发生的时间越近,特征空间的距离越近,则A和B之间的关联权重值就越大。
其中,时间距离的确定方式可以包括如下所示的步骤A1~步骤A2:
步骤A1:从预先建立的事件流结构中获取各个新闻事件的事件热度值和各个新闻事件之间的发生时间关系。
在本实施方式中,可以预先建立事件流结构,该事件流结构表示在时间线上各个新闻事件之间的关系,其中,各个新闻事件都包括表示自己的热门程度的事件热度值。该事件热度值可以通过将用户对新闻事件的用户操作情况进行加权计算得到,其中,用户操作情况可以包括:用户的点击量、用户点击率以及同一个新闻事件中相同的新闻信息的数量,等等。
在建立事件流结构时,可以采用从底向上层次聚类的方式,当两个新闻事件的特征中心很接近时,如果关键词特征在主要维度上很近(例如新闻事件中涉及的人物和内容相同,其他维度发生了变化),而时间是延续向后发展的,那么认为这是两个延续发展的新闻事件,时间在后的新闻事件是前一个新闻事件的后续事件;而如果关键词特征在部分主要维度的距离小于一个较小的阈值(该阈值可以由本领域技术人员设置经验值,例如,距离小于0.2),而某些次要维度上距离超过一个不小的阈值(例如距离超过0.7),即,新闻事件中的人物相同,而内容在变化且时间也是延续的,那么发生时间在后的新闻事件是前一新闻事件的一个侧枝事件(例如可能是对某个新闻事件的一些热点评论)。因此,事件流结构可以表示出各个新闻事件在时间线上的结构,从而可以得到各大新闻事件的时间发展线路,以及相关的侧枝事件。
步骤A2:依据发生时间关系确定各个新闻事件之间的时间距离。
再依据发生时间关系可以确定各个新闻事件之间的时间距离是多少。
其中,在本实施方式中,在向某个用户推送新闻信息的时候,可以预先获取该用户对各个新闻事件的关注度,该关注度可以表示出用户对各个新闻事件感兴趣的程度是大还是小。步骤201中获取用户对各个新闻事件的关注度,具体可以包括:依据用户在预设时间段内浏览过的新闻信息,获取用户对新闻事件的关注度。该步骤在具体实现时,可以包括如下所示的步骤B1~步骤B2:
步骤B1:获取用户在预设时间内浏览过新闻标题和/或新闻正文的已浏览新闻信息。
其中,用户对各个新闻事件的关注度可以通过对该用户近期(例如两个月或者三个月等)有效浏览的新闻信息所属的新闻事件进行统计,例如,可以根据用户对新闻事件中新闻信息的浏览时间、浏览数量以及对新闻信息是否评论等行为加权得到。
获取用户对各个新闻事件的关注度的时候,可以训练一个用户关注度模型。具体在训练用户关注度模型的时候,可以先获取到用户在过去预设时间内,例如三个月内,浏览过的新闻标题或新闻正文,或者同时浏览过新闻标题和新闻正文的已浏览新闻信息。
步骤B2:依据所述已浏览新闻信息的新闻特征确定用户对新闻事件的关注度;其中,所述新闻特征具体可以包括:用户对所述新闻信息的评论信息、用户浏览所述新闻信息的浏览时间和用户浏览新闻信息的类别。
然后根据用户对已浏览新闻信息的评论信息和浏览时间,以及用户浏览新闻信息的新闻类别,将三者进行加权得到用户关注度从而训练出用户关注度模型,继而可以根据已浏览信息的新闻特征来确定某个用户对某个新闻事件的关注度。
具体的,步骤A1中的事件流结构通过以下所示的步骤C1~步骤C4构建:
步骤C1:确定新闻信息所包括的特征词语序列。
首先,确定新闻信息所包括的特征词语序列,可以对新闻信息进行分词和词性标注,得到初始词语序列,并初始词语序列中删除对新闻特征没有影响的词语,以得到特征词语序列。在实施时可以采用通用的文本分词器对新闻信息的标题和正文进行分词和词性标注,并在对词性标注的结果中分析过滤掉特征不明显的词,例如助词、代词、连词、介词和语气词等,这样更加准确的去掉了对新闻特征没有影响的词语。其中,本实施方式中进行分词所采用的分词词典可以包含新词。在实际应用中可以采用新词检测监控算法找出新闻信息中出现的有意义的新词,然后及时加入分词词典中。
步骤C2:依据所述特征词语序列中各个特征词语的词权重值,将每一个新闻信息表示为对应的新闻文档向量和关键词向量。
在特征词语序列中,每个特征词语都有一个词权重值,根据每个特征词语的词权重值,将每个新闻信息分别表示为对应的新闻文档向量和关键词向量。
具体的,所述步骤C2可以包括如下所示的步骤D1~步骤D5:
步骤D1:依据所述特征词语序列中的特征词语的词特征,计算各个特征词语的词权重值;其中,所述词特征包括:词性、词频、词的热度、特征词语是否为新词或专有词和词在新闻信息中的位置。
首先,根据各个特征词语的词特征来计算各个特征词语的词权重值,其中,词特征包括:特征词语的词性、词频、词的热度、特征词语是否为新词或专有词和词在新闻信息中的位置,等等。其中,专有词可以是从新闻信息中采用命名实体识别方法检测出的专有名词,如检测得到人名、地名、公司名或者日期等。命名实体识别方法可以简单的从规则库中匹配,也可以采用更复杂的机器学习的方法识别,例如采用条件随机场算法构建识别模型灯。词频为一个特征词语在某个新闻信息中出现的频率。然后根据词特征可以计算新闻信息中各个特征词语的权重,一般情况下权重高的特征词语的集合往往可以代表这篇新闻信息的中心意思。
其中,词权重计算方法很多,例如简单的可以是基于TF-IDF(term frequency–inverse document frequency,词频和逆文档频率)的加权,如直接根据词特征进行加权得到权重值。另外,可采用更加精确的基于TextRank的权重计算方法,为了更加精确计算权重,可以在TextRank词网络中,对每个词的边设置词网络中的边权重,例如在词网络中位置越远的词的边权重越低,而在词网络中比较靠前的词或标题中的词的边权重较高。
步骤D2:将词权重值超过预设权重阈值的特征词语表示为带词权重值的稀疏向量模式,以得到新闻文档向量。
在得到词权重值后,可以取词权重值超过一个预设权重阈值(例如0.4)的一部分特征词,表示成带权重值的稀疏向量模式从而得到新闻文档向量。例如:{“iPhone”:0.91,“苹果”:0.82,“发布”:0.54,…}。
步骤D3:判断特征词语是否在关键词词库中,如果是,则进入步骤D4。
在本实施方式中可以维护一个关键词词库。具体可以依据分词词典中的词频以及新词词库中词的热度,结合词性和命名实体识别算法可以得到一些权重比较大(例如大于0.4)且能表示新闻事件的含义的一个关键词词库。该关键词词库可以动态更新,可以包括人物、时间、地点、事件等大类,其中的人物往往是命名实体识别的结果,例如“苹果公司”、“google”等。
步骤D4:将词权重值超过预设权重阈值的关键词组合为关键词集合。
如果特征词语是关键词词库中的关键词,并且权重超过一定阈值(例如超过0.5)就将其放入关键词集合中。
步骤D5:将所述关键词集合中的关键词表示为带词权重值的稀疏向量模式,以得到关键词向量。
接着对关键词集合中的词也表示为稀疏向量,并将其作为关键词向量,该关键词向量可以用于后续的新闻事件归为哪一个类别的匹配。
进一步的,在新闻信息表示成对应的新闻文档向量和关键词向量后,可以对新的新闻信息进行去重(即去除重复的新闻信息),并与历史新闻信息进行去重,然后对去重后的新闻信息重新进行分类,例如将其归为“互联网”、“娱乐”或者“要闻”等各大类。
在进行新闻信息去重时,将新闻文档向量之间的距离小于一定阈值(例如,小于0.1)的新闻信息确定为同一篇新闻信息,即两者相似度大于某一阈值则认为这两篇新闻信息是同一个。其中,计算新闻信息的相似度计算公式采用余弦距离,如公式(一)所示:
(一)
其中,S表示新闻信息A和B的相似度,新闻文档向量的长度为稀疏的n维度,n通常取分词词典中分词的数量,该分词词典为步骤D1中得到的分词词典;A和B越相似则S的值越接近1,越不相似就越接近0。
其中,对新闻信息去重后进行分类的分类模型可以是通过机器学习方法对已有标记的新闻信息样本进行训练得到的,例如将新闻文档向量作为特征,用已人工标记好类别的新闻信息作为训练样本,用支持向量机(SVM)的方法构建训练器,然后对新的新闻信息进行分类。其中,对新闻信息进行分类的目的是便于后续新闻事件的准确识别,因为不同类别的新闻信息的关键词的词权重值不同,分类别可以提高新闻事件识别的准确度。
在介绍完如何获取新闻文档向量和关键词向量之后,接着进入步骤C3:依据所述新闻文档向量和关键词向量,为所述新闻信息建立相应的事件库。
在得到新闻信息的新闻文档向量和关键词向量之后,为新闻信息建立相应的事件库。其中,所述步骤C3具体可以包括:首先判断一个新闻信息是否属于事件库中已有的新闻事件,如果是,则将所述新闻信息归类为已有的新闻事件,如果否,则为所述新闻信息建立新的新闻事件,并将所述新的新闻事件保存至事件库中。
在本实施方式中,在已有的新闻事件聚类基础上对新的新闻信息进行比较,若新的新闻事件在老新闻事件的聚簇中,则认为这个新的新闻事件属于老新闻事件。若新的新闻文档向量(结合了关键词向量)在某老新闻事件聚簇的一定方向上(例如某些主要人物和内容的维度不变)的延伸,那么则确定新的新闻事件为老新闻事件的延伸发展。例如对于新闻甲“iPhone 6Plus存新质量问题恐大规模召回”和新闻乙“苹果iPhone 6Plus问题早已存在但召回传闻有误”来讲,这两篇新闻信息的内容均为“iPhone 6Plus存在问题及召回传闻”,因此在主要方向上是一致的,但新闻乙比新闻甲迟一天发布,所以认为新闻乙是新闻甲的延伸发展。
又如果,这个新的新闻事件聚簇的主要方向(例如人物不变)跟老新闻事件相同,且聚簇大,距离近,那么就认为是老新闻事件的新近发展事件。例如早期新闻信息为“明星甲很可能签约乙公司”,而几天后的新闻信息又报道“明星甲签约了丙公司”,则可以认为后面的新闻信息是关于明星甲早期事件的近期发展事件。如果新的新闻事件聚簇离开已有新闻事件聚簇都超过一个较大阈值,那么就为新的新闻事件建立新事件,用该新闻事件的新闻文档向量及关键词向量作为此新新闻事件的特征向量。其中,在比较新的新闻事件是否是新事件或发展事件时,也考虑时间因素,如若认为是同一新闻事件则其发生时间要一致,若是后续发展事件则新的新闻事件的发生时间须迟于老新闻事件的发生时间。
步骤C4:对所述事件库中的新闻事件按照各个新闻事件的发生时间进行排序,并依据事件特征计算各个新闻事件的事件热度值。
在建立或者更新事件库之后,对事件库中的各个新闻事件再按照各个新闻事件的发生时间进行排序,并依据事件特征来计算各个新闻事件的事件热度值。其中,事件特征可以包括:用户对新闻事件中的新闻信息的点击率、点击量和一个新闻事件中相同新闻信息的个数。可以采用加权的方式计算事件热度值。
在介绍完如何从事件流结构中获得事件热度值和发生时间关系之后,依据发生时间关系可以确定出各个新闻事件之间的时间距离。
在本实施方式中,在获取到用户对新闻事件的关注度和关联权重值之后,计算每个新闻事件相对于用户的推送度。可以采用协同过滤算法计算权重,其中,用户对新闻事件的关注度可表示为一个加权向量,例如{“杭州马拉松”:0.62,“卷福订婚”:0.51,…},而每个新闻事件都有对应的相关联的映射事件,那么计算推送度的具体方式表示如公式(二)所示:
(二)
其中,Ri表示新闻事件i对于该用户的推荐度;uj为该用户对新闻事件j的关注度;wij为新闻事件i的关联的第j条新闻事件边的权重。其中,i和j都为大于0的正整数。
在介绍完如何计算推送度的过程之后返回图2,进入步骤202:依据所述推送度确定需要向所述用户推送的新闻事件。
依据每个新闻事件相对于用户的推送度,来确定哪些新闻事件需要推荐给用户。例如,推送度大于0.6的新闻事件中的新闻信息需要推送给用户,则依据每个新闻事件的推送度的值来过滤掉不符合条件的新闻事件。
步骤203:将需要向所述用户推送的新闻事件中的新闻信息推送给所述用户。
那么,在需要向该用户推送的新闻事件中有新的新闻信息发布的时候,就可以将新的新闻信息推送给用户,以便用户方便快捷的浏览到其感兴趣的新闻信息。可以理解的是,在实际应用中,可以先判断一下新的新闻信息用户是否已经浏览过,如果浏览过就不需要重复向用户推送,而如果未浏览过再推送给用户。
可选的,在步骤203之前还可以包括:
步骤200:参考所述新闻信息的来源和质量,对各个新闻事件下的新闻信息在其所属的新闻事件内进行质量排序。
可以理解的是,因为在一个新闻事件中有多个新闻信息,则可以对参考所述新闻信息的来源和质量,对各个新闻事件下的新闻信息在其所属的新闻事件内进行质量排序。其中,新闻信息的来源指的是发布新闻信息的媒体,例如是否是权威媒体等,权威媒体发布的新闻信息可以设置大一点的权重;而新闻信息的质量则考虑如下一些因素,但不仅限于这些:新闻信息的格式及排版、新闻类别、新闻标题和内容正常性、新闻信息中多媒体(如图像、音频或视频等)的来源、数量及位置,以及,新闻信息中是否带有营销广告等。
在对新闻事件中的新闻信息进行质量排序之后,可以筛选出质量较好的新闻信息作为其所属的新闻事件的代表性新闻信息。这样做也能滤去了质量较差的新闻信息,同时也避免了相同新闻事件的不同新闻信息会推荐给同一个用户的情况。
在对新闻事件中的新闻信息进行排序的情况下,步骤203具体可以为:首先,获取推送度大于预设推送阈值的新闻事件,再将所述新闻事件中质量排序满足预设质量要求(例如质量大于0.7)的新闻信息推送给所述用户。
可见在本申请实施方式中,可以通过用户对各个新闻事件的关注度和各个新闻事件之间的关联关系,从而计算出各个新闻事件对于用户的推送度,并将推送度高的新闻事件中的新闻信息向用户推送,以使得向用户推送更符合用户阅读需求和兴趣的新闻信息成为可能,从而提升了推送符合用户要求的新闻信息的精确度。
示例性设备
在介绍了本发明示例性实施方式的方法之后,接下来,参考图3对本发明示例性实施方式的、用于信息推送的设备,
第一确定模块301,配置用于依据预先获取的用户对各个新闻事件的关注度,和,各个新闻事件之间的关联程度,确定每个新闻事件对所述用户的推送度。
其中,所述第一确定模块301获取各个新闻事件之间的关联程度时,具体可以获取各个新闻事件的关联关系,并计算有关联关系的各个新闻事件之间的关联程度,所述新闻事件的关联关系包括后续关系和侧枝关系,所述后续关系为:一新闻事件与另一新闻事件的主要维度相同且发生时间晚于另一新闻事件,所述主要维度为预设的能表示事件关键信息的多个维度;所述侧枝关系为:一新闻事件与另一新闻事件的部分维度相同。
其中,计算有关联关系的各个新闻事件之间的关联程度,包括:依据所述有关联关系的各个新闻事件之间的事件距离和事件热度值确定各个新闻事件之间的关联权重值;所述事件距离包括:所述各个新闻事件之间的时间距离和特征距离。
其中,所述时间距离通过以下方式获取:从预先建立的事件流结构中获取各个新闻事件的事件热度值和各个新闻事件之间的发生时间关系;依据所述发生时间关系确定各个新闻事件之间的时间距离。
其中,所述用户对各个新闻事件的关注度通过以下方式获取:依据用户在预设时间段内浏览过的新闻信息,获取用户对新闻事件的关注度。
其中,所述依据用户在预设时间段内浏览过的新闻信息,获取用户对新闻事件的关注度,包括:获取用户在预设时间内浏览过新闻标题和/或新闻正文的已浏览新闻信息;依据所述已浏览新闻信息的新闻特征确定用户对新闻事件的关注度;其中,所述新闻特征包括:用户对所述新闻信息的评论信息、用户浏览所述新闻信息的浏览时间和用户浏览新闻信息的类别。
其中,所述事件流结构可以通过以下方式构建:
确定新闻信息所包括的特征词语序列;依据所述特征词语序列中各个特征词语的词权重值,将每一个新闻信息表示为对应的新闻文档向量和关键词向量;依据所述新闻文档向量和关键词向量,为所述新闻信息建立相应的事件库;对所述事件库中的新闻事件按照各个新闻事件的发生时间进行排序,并依据事件特征计算各个新闻事件的事件热度值;所述事件特征包括:用户对新闻事件中的新闻信息的点击率、点击量和一个新闻事件中相同新闻信息的个数。
其中,所述确定新闻信息所包括的特征词语序列,可以包括:对新闻信息样本进行分词和词性标注,得到初始词语序列;在所述初始词语序列中删除对新闻特征没有影响的词语,以得到特征词语序列。
其中,所述依据所述特征词语序列中各个特征词语的词权重值,将每一个新闻信息表示为对应的新闻文档向量和关键词向量,包括:依据所述特征词语序列中的特征词语的词特征,计算各个特征词语的词权重值;其中,所述词特征包括:词性、词频、词的热度、特征词语是否为新词或专有词和词所在新闻信息中的位置;将词权重值超过预设权重阈值的特征词语表示为带词权重值的稀疏向量模式,以得到新闻文档向量;判断特征词语是否在关键词词库中,如果是,则将词权重值超过预设权重阈值的关键词组合为关键词集合;将所述关键词集合中的关键词表示为带词权重值的稀疏向量模式,以得到关键词向量。
其中,所述依据所述文档向量和关键词向量,为所述新闻信息建立相应的事件库,可以包括:判断所述新闻信息是否属于事件库中已有的新闻事件,如果是,则将所述新闻信息归类为已有的新闻事件,如果否,则为所述新闻信息建立新的新闻事件,并将所述新的新闻事件保存至事件库中。
第二确定模块302,配置用于依据所述推送度确定需要向所述用户推送的新闻事件。
推送模块303,配置用于将需要向所述用户推送的新闻事件中的新闻信息推送给所述用户。
可选的,还可以包括:排序模块,配置用于参考所述新闻信息的来源和质量,对各个新闻事件下的新闻信息在其所属的新闻事件内进行质量排序。则相应的,所述推送模块303具体可以包括:获取子模块,配置用于获取推送度大于预设推送阈值的新闻事件;和,推送子模块,配置用于将所述新闻事件中质量排序满足预设质量要求的新闻信息推送给所述用户。
在本申请实施方式中,可以通过用户对各个新闻事件的关注度和各个新闻事件之间的关联关系,从而计算出各个新闻事件对于用户的推送度,并将推送度高的新闻事件中的新闻信息向用户推送,以使得向用户推送更符合用户阅读需求和兴趣的新闻信息成为可能,从而提升了推送符合用户要求的新闻信息的精确度。
应当注意,尽管在上文详细描述中提及了信息推送设备的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
应当注意,尽管在上文详细描述中提及了信息推送设备的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (9)

1.一种信息推送方法,包括:
依据预先获取的用户对各个新闻事件的关注度,和,各个新闻事件之间的关联程度,确定每个新闻事件对所述用户的推送度;所述新闻事件为:具有相关联的多个新闻信息的事件,所述新闻信息为:属于某个新闻事件的新闻文章,所述关注度用于表示用户对新闻事件感兴趣的程度,所述关联程度用于表示每个新闻事件与其他新闻事件的关联关系;
依据所述推送度确定需要向所述用户推送的新闻事件;所述需要向所述用户推送的新闻事件为:推送度大于预设推送阈值的新闻事件;
将需要向所述用户推送的新闻事件中的新闻信息推送给所述用户;
其中,所述各个新闻事件之间的关联程度通过以下方式获取:
获取各个新闻事件的关联关系,并计算有关联关系的各个新闻事件之间的关联程度,所述新闻事件的关联关系包括后续关系和侧枝关系,所述后续关系为:一新闻事件与另一新闻事件的主要维度相同且发生时间晚于另一新闻事件,所述主要维度为预设的能表示事件关键信息的多个维度;所述侧枝关系为:一新闻事件与另一新闻事件的部分维度相同;
其中,所述计算有关联关系的各个新闻事件之间的关联程度,包括:
依据所述有关联关系的各个新闻事件之间的事件距离和事件热度值确定各个新闻事件之间的关联权重值;所述事件距离包括:所述各个新闻事件之间的时间距离和特征距离;其中,所述时间距离通过以下方式获取:从预先建立的事件流结构中获取各个新闻事件之间的发生时间关系,以及,依据所述发生时间关系确定各个新闻事件之间的时间距离;
其中,所述事件流结构通过以下方式构建:
确定新闻信息所包括的特征词语序列;依据所述特征词语序列中各个特征词语的词权重值,将每一个新闻信息表示为对应的新闻文档向量和关键词向量;依据所述新闻文档向量和关键词向量,为所述新闻信息建立相应的事件库;以及,对所述事件库中的新闻事件按照各个新闻事件的发生时间进行排序,并依据事件特征计算各个新闻事件的事件热度值;所述事件特征包括:用户对新闻事件中的新闻信息的点击率、点击量和一个新闻事件中相同新闻信息的个数。
2.根据权利要求1所述的方法,所述用户对各个新闻事件的关注度通过以下方式获取:
依据用户在预设时间段内浏览过的新闻信息,获取用户对新闻事件的关注度。
3.根据权利要求2所述的方法,所述依据用户在预设时间段内浏览过的新闻信息,获取用户对新闻事件的关注度,包括:
获取用户在预设时间内浏览过新闻标题和/或新闻正文的已浏览新闻信息;
依据所述已浏览新闻信息的新闻特征确定用户对新闻事件的关注度;其中,所述新闻特征包括:用户对所述新闻信息的评论信息、用户浏览所述新闻信息的浏览时间和用户浏览新闻信息的类别。
4.根据权利要求1所述的方法,所述确定新闻信息所包括的特征词语序列,包括:
对新闻信息样本进行分词和词性标注,得到初始词语序列;
在所述初始词语序列中删除对新闻特征没有影响的词语,以得到特征词语序列。
5.根据权利要求1所述的方法,所述依据所述特征词语序列中各个特征词语的词权重值,将每一个新闻信息表示为对应的新闻文档向量和关键词向量,包括:
依据所述特征词语序列中的特征词语的词特征,计算各个特征词语的词权重值;其中,所述词特征包括:词性、词频、词的热度、特征词语是否为新词或专有词和词所在新闻信息中的位置;
将词权重值超过预设权重阈值的特征词语表示为带词权重值的稀疏向量模式,以得到新闻文档向量;
判断特征词语是否在关键词词库中,如果是,则将词权重值超过预设权重阈值的关键词组合为关键词集合;
将所述关键词集合中的关键词表示为带词权重值的稀疏向量模式,以得到关键词向量。
6.根据权利要求1所述的方法,所述依据所述文档向量和关键词向量,为所述新闻信息建立相应的事件库,包括:
判断所述新闻信息是否属于事件库中已有的新闻事件,如果是,则将所述新闻信息归类为已有的新闻事件,如果否,则为所述新闻信息建立新的新闻事件,并将所述新的新闻事件保存至事件库中。
7.根据权利要求1所述的方法,还包括:
参考所述新闻信息的来源和质量,对各个新闻事件下的新闻信息在其所属的新闻事件内进行质量排序。
8.根据权利要求7所述的方法,所述需要向所述用户推送的新闻事件中的新闻信息推送给所述用户,包括:
获取推送度大于预设推送阈值的新闻事件;
将所获取的新闻事件中质量排序满足预设质量要求的新闻信息推送给所述用户。
9.一种信息推送设备,包括:
第一确定模块,配置用于依据预先获取的用户对各个新闻事件的关注度,和,各个新闻事件之间的关联程度,确定每个新闻事件对所述用户的推送度;所述新闻事件为:具有相关联的多个新闻信息的事件,所述新闻信息为:属于某个新闻事件的新闻文章,所述关注度用于表示用户对新闻事件感兴趣的程度,所述关联程度用于表示每个新闻事件与其他新闻事件的关联关系;
第二确定模块,配置用于依据所述推送度确定需要向所述用户推送的新闻事件;所述需要向所述用户推送的新闻事件为:推送度大于预设推送阈值的新闻事件;
推送模块,配置用于将需要向所述用户推送的新闻事件中的新闻信息推送给所述用户;
其中,所述各个新闻事件之间的关联程度通过以下方式获取:
获取各个新闻事件的关联关系,并计算有关联关系的各个新闻事件之间的关联程度,所述新闻事件的关联关系包括后续关系和侧枝关系,所述后续关系为:一新闻事件与另一新闻事件的主要维度相同且发生时间晚于另一新闻事件,所述主要维度为预设的能表示事件关键信息的多个维度;所述侧枝关系为:一新闻事件与另一新闻事件的部分维度相同;
其中,所述计算有关联关系的各个新闻事件之间的关联程度,包括:
依据所述有关联关系的各个新闻事件之间的事件距离和事件热度值确定各个新闻事件之间的关联权重值;所述事件距离包括:所述各个新闻事件之间的时间距离和特征距离;其中,所述时间距离通过以下方式获取:从预先建立的事件流结构中获取各个新闻事件之间的发生时间关系,以及,依据所述发生时间关系确定各个新闻事件之间的时间距离;
其中,所述事件流结构通过以下方式构建:
确定新闻信息所包括的特征词语序列;依据所述特征词语序列中各个特征词语的词权重值,将每一个新闻信息表示为对应的新闻文档向量和关键词向量;依据所述新闻文档向量和关键词向量,为所述新闻信息建立相应的事件库;以及,对所述事件库中的新闻事件按照各个新闻事件的发生时间进行排序,并依据事件特征计算各个新闻事件的事件热度值;所述事件特征包括:用户对新闻事件中的新闻信息的点击率、点击量和一个新闻事件中相同新闻信息的个数。
CN201510030145.0A 2015-01-21 2015-01-21 一种信息推送方法和设备 Active CN104573054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510030145.0A CN104573054B (zh) 2015-01-21 2015-01-21 一种信息推送方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510030145.0A CN104573054B (zh) 2015-01-21 2015-01-21 一种信息推送方法和设备

Publications (2)

Publication Number Publication Date
CN104573054A CN104573054A (zh) 2015-04-29
CN104573054B true CN104573054B (zh) 2018-06-01

Family

ID=53089116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510030145.0A Active CN104573054B (zh) 2015-01-21 2015-01-21 一种信息推送方法和设备

Country Status (1)

Country Link
CN (1) CN104573054B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105007528A (zh) * 2015-07-06 2015-10-28 无锡天脉聚源传媒科技有限公司 一种视频查找方法及装置
CN106557508A (zh) * 2015-09-28 2017-04-05 北京神州泰岳软件股份有限公司 一种文本关键词提取方法和装置
CN106557513B (zh) * 2015-09-29 2022-05-10 腾讯科技(深圳)有限公司 事件信息推送方法及事件信息推送装置
CN106933878B (zh) * 2015-12-30 2021-02-05 腾讯科技(北京)有限公司 一种信息处理方法及装置
CN106095762A (zh) * 2016-02-05 2016-11-09 中科鼎富(北京)科技发展有限公司 一种基于本体模型库的新闻推荐方法及装置
CN105787049B (zh) * 2016-02-26 2019-07-16 浙江大学 一种基于多源信息融合分析的网络视频热点事件发现方法
CN107402925B (zh) * 2016-05-19 2020-11-20 创新先进技术有限公司 信息推送方法及装置
CN106202501A (zh) * 2016-07-20 2016-12-07 宁波公众信息产业有限公司 一种信息分析系统
CN106202563A (zh) * 2016-08-02 2016-12-07 西南石油大学 一种实时关联事件新闻推荐方法及系统
CN106372113B (zh) * 2016-08-22 2018-03-20 上海壹账通金融科技有限公司 新闻内容的推送方法及系统
CN106407361A (zh) * 2016-09-07 2017-02-15 北京百度网讯科技有限公司 基于人工智能的推送信息的方法和装置
CN108241631B (zh) * 2016-12-23 2022-09-30 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN106951435B (zh) * 2017-02-08 2020-05-22 广州神马移动信息科技有限公司 新闻推荐方法、设备及可编程设备
CN106993030A (zh) * 2017-03-22 2017-07-28 北京百度网讯科技有限公司 基于人工智能的信息推送方法和装置
CN107169012B (zh) * 2017-03-31 2021-03-19 百度在线网络技术(北京)有限公司 Poi推荐方法、装置、设备及计算机可读存储介质
CN108694211B (zh) * 2017-04-11 2023-05-12 腾讯科技(深圳)有限公司 应用分发方法及装置
CN107239537A (zh) * 2017-06-01 2017-10-10 福建中金在线信息科技有限公司 一种文档展示的方法、装置、电子设备及可读存储介质
CN107273355B (zh) * 2017-06-12 2020-07-14 大连理工大学 一种基于字词联合训练的中文词向量生成方法
CN107506367B (zh) * 2017-07-03 2021-12-24 创新先进技术有限公司 确定应用展示内容的方法、装置及服务器
CN107657067B (zh) * 2017-11-14 2021-03-19 国网山东省电力公司电力科学研究院 一种基于余弦距离的前沿科技信息快速推送方法及系统
CN108519980A (zh) * 2018-01-31 2018-09-11 广东易联创富集团有限公司 新闻推送方法、装置、平台、计算机可读存储介质
CN108470046B (zh) * 2018-03-07 2020-12-01 中国科学院自动化研究所 基于新闻事件搜索语句的新闻事件排序方法及系统
CN108563630A (zh) * 2018-03-21 2018-09-21 上海蔚界信息科技有限公司 一种文本分析知识库的构建方法
CN109241277B (zh) * 2018-07-18 2022-05-17 北京航天云路有限公司 基于新闻关键词的文本向量加权的方法及系统
CN110110303A (zh) * 2019-03-28 2019-08-09 苏州八叉树智能科技有限公司 新闻文本生成方法、装置、电子设备和计算机可读介质
CN110335654A (zh) * 2019-07-03 2019-10-15 重庆邮电大学 一种电子病历的信息抽取方法、系统及计算机设备
CN110837609B (zh) * 2019-11-12 2024-08-20 腾讯科技(深圳)有限公司 社交信息处理方法和相关产品
CN110990690A (zh) * 2019-11-12 2020-04-10 上海易点时空网络有限公司 帖子推荐的方法及装置
CN111460289B (zh) * 2020-03-27 2024-03-29 北京百度网讯科技有限公司 新闻资讯的推送方法和装置
CN111966784A (zh) * 2020-07-14 2020-11-20 深圳中泓在线股份有限公司 信息推荐方法、电子设备及存储介质
CN112613317B (zh) * 2020-12-30 2023-12-08 中国农业银行股份有限公司 一种文本数据清洗方法及装置
CN114564675B (zh) * 2022-04-28 2022-07-22 深圳格隆汇信息科技有限公司 一种信息推荐方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN102073631A (zh) * 2009-11-19 2011-05-25 凌坚 利用关联规则技术的视频新闻单元划分方法
CN103226569A (zh) * 2013-03-21 2013-07-31 天脉聚源(北京)传媒科技有限公司 一种视频提供方法、装置和系统
CN103412870A (zh) * 2013-07-09 2013-11-27 北京深思洛克软件技术股份有限公司 一种移动终端设备新闻客户端软件的新闻推送方法
CN104036038A (zh) * 2014-06-30 2014-09-10 北京奇虎科技有限公司 新闻推荐方法和系统
CN104182549A (zh) * 2014-09-15 2014-12-03 中国联合网络通信集团有限公司 一种电子邮件摘要生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174167A1 (en) * 2005-05-20 2007-07-26 Stefano Natella Derivative relationship news event reporting

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN102073631A (zh) * 2009-11-19 2011-05-25 凌坚 利用关联规则技术的视频新闻单元划分方法
CN103226569A (zh) * 2013-03-21 2013-07-31 天脉聚源(北京)传媒科技有限公司 一种视频提供方法、装置和系统
CN103412870A (zh) * 2013-07-09 2013-11-27 北京深思洛克软件技术股份有限公司 一种移动终端设备新闻客户端软件的新闻推送方法
CN104036038A (zh) * 2014-06-30 2014-09-10 北京奇虎科技有限公司 新闻推荐方法和系统
CN104182549A (zh) * 2014-09-15 2014-12-03 中国联合网络通信集团有限公司 一种电子邮件摘要生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于加权关联规则的用户关注项目推荐算法;陈华月 等;《计算机工程》;20060331;第32卷(第6期);第86-88页 *

Also Published As

Publication number Publication date
CN104573054A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104573054B (zh) 一种信息推送方法和设备
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
CN106557513B (zh) 事件信息推送方法及事件信息推送装置
US9495345B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
US9990368B2 (en) System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
Kumar et al. Analyzing Twitter sentiments through big data
CN112148889A (zh) 一种推荐列表的生成方法及设备
US11361030B2 (en) Positive/negative facet identification in similar documents to search context
Dhingra et al. Spam analysis of big reviews dataset using Fuzzy Ranking Evaluation Algorithm and Hadoop
US10002187B2 (en) Method and system for performing topic creation for social data
CN112148702B (zh) 一种文件检索的方法及设备
CN104111925A (zh) 项目推荐方法和装置
CN113688310A (zh) 一种内容推荐方法、装置、设备及存储介质
CN110020132B (zh) 关键词推荐方法、装置、计算设备及存储介质
CN106462588B (zh) 来自所提取的内容的内容创建
CN103412880A (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
CN103425767B (zh) 一种提示数据的确定方法和系统
CN108460131B (zh) 一种分类标签处理方法及装置
CN105512270B (zh) 一种确定相关对象的方法和装置
CN116089732A (zh) 基于广告点击数据的用户偏好识别方法及系统
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
CN111723201A (zh) 一种用于文本数据聚类的方法和装置
CN108520012A (zh) 基于机器学习的移动互联网用户评论挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 310052 Room 301, Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou NetEase Shuzhifan Technology Co.,Ltd.

Address before: 310052 Room 301, Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU LANGHE TECHNOLOGY Ltd.

CP01 Change in the name or title of a patent holder