CN111368063B

CN111368063B - 一种基于机器学习的信息推送方法以及相关装置

Info

Publication number: CN111368063B
Application number: CN202010150943.8A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2023-03-17
Anticipated expiration: 2040-03-06
Also published as: CN111368063A

Abstract

本申请公开了一种基于机器学习的信息推送方法以及相关装置，通过获取至少一个信息源的第一内容信息，然后参照热点信息从第一内容信息中提取至少一个目标话题；接下来根据目标话题挖掘第二内容信息，以生成目标事件；进而基于目标事件进行信息追踪，以得到目标推送信息。从而实现了基于机器学习的信息推送过程，由于推送过程中目标事件会随着用户关注的热点信息进行自动的调整，并挖掘到目标信息进行推送；可以有效避免由于人工运营而造成的信息推送效率低下以及推送不全面的情况，提高信息推送过程的效率以及全面性。

Description

一种基于机器学习的信息推送方法以及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于机器学习的信息推送方法以及相关装置。

背景技术

在互联网快速发展的时代，随着内容生产的门槛降低，现代人普遍信息过载，如何挖掘热点信息以使得用户主动且持续地关注某一社会新闻的进展成为一个亟待解决的问题。

一般对于热点信息的生成会基于新闻资讯热点事件和专题内容生产，很大程度上依赖的是人工运营的筛选和选择，即人为的选择热点事件进行持续追踪，并产出相关的专题内容。

但是，在大量信息源的情况下，仅依靠人工运营进行热点信息的挖掘并推送一方面需要人工凭借自己的经验来挑选事件专题内容，费时费力，影响信息推送的效率；另一方面无法全面的对大部分热点事件进行追踪，可能丢失一些关键内容，影响信息推送内容的全面性。

发明内容

有鉴于此，本申请提供一种信息推送的方法，可以有效避免由于人工运营而造成的信息推送效率低下以及推送不全面的情况，提高信息推送过程的效率以及全面性。

本申请第一方面提供一种信息推送的方法，可以应用于终端设备中包含信息推送功能的系统或程序中，具体包括：获取至少一个信息源的第一内容信息；

根据预设规则从所述第一内容信息中提取至少一个目标话题，所述预设规则基于所述第一内容信息中的热点信息确定，所述热点信息与所述目标话题对应的信息相关；

根据所述目标话题挖掘第二内容信息，以生成目标事件；

基于所述目标事件进行信息追踪，以得到目标推送信息。

可选的，在本申请一些可能的实现方式中，所述热点信息为词组，所述根据预设规则从所述第一内容信息中提取至少一个目标话题，包括：

确定所述第一内容信息中的热词；

基于所述热词确定候选词组；

根据注意力机制提取所述候选词组中的目标词组；

根据所述目标词组确定至少一个所述目标话题。

可选的，在本申请一些可能的实现方式中，所述根据注意力机制提取所述候选词组中的目标词组，包括：

获取所述候选词组在所述第一内容信息中的信息熵，所述信息熵用于指示所述候选词组的信息量大小；

基于所述信息熵分别计算不同所述候选词组之间的互信息；

根据所述互信息确定目标词组；

根据所述目标词组和所述热词确定至少一个所述目标话题。

获取所述候选词组中相邻词汇的信息熵；

若所述相邻词汇的信息熵满足预设条件，则确定所述候选词组为所述目标词组。

确定所述候选词组中的候选词汇；

根据第一预设算法分别计算所述候选词汇的出现频次；

根据所述出现频次提取所述候选词组中的目标词组。

可选的，在本申请一些可能的实现方式中，所述热点信息为文章，所述根据预设规则从所述第一内容信息中提取至少一个目标话题，包括：

确定所述第一内容信息中的热点文章；

将所述热点文章的标题切割为至少两个候选话题；

对所述候选话题进行聚类，以得到判别标识；

根据所述判别标识提取至少一个所述目标话题。

可选的，在本申请一些可能的实现方式中，所述根据所述目标话题挖掘第二内容信息，以生成目标事件，包括：

基于召回规则获取第三内容信息，所述召回规则基于所述目标话题确定；

对所述第三内容信息进行去重；

对去重后的所述第三内容信息进行相似度计算，以确定所述第二内容信息，所述相似度计算基于所述目标话题与所述第三内容信息中的特征信息的相似度进行；

根据所述第二内容信息生成所述目标事件。

可选的，在本申请一些可能的实现方式中，所述基于所述目标事件进行信息追踪，以得到目标推送信息，包括：

基于所述目标事件进行信息追踪，以得到候选信息；

确定所述候选信息中的关键信息，所述关键信息包括所述候选信息与所述目标事件的相似度；

若所述关键信息满足增量条件，则确定为增量信息；

将所述增量信息与所述目标事件中的信息进行合并，以得到目标推送信息。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

确定所述增量信息与所述目标事件中的信息的关联关系；

根据所述关联关系对所述目标推送信息按照脉络规则进行排序，以对所述目标推送信息进行更新。

获取所述目标事件在至少一个参考平台的热度值；

基于所述目标事件的时间信息对所述热度值进行更新；

根据更新后的所述热度值对所述目标推送信息设置推送权重，以推送所述目标推送信息。

对所述目标推送信息中内容信息进行聚类，以得到推送簇；

分别确定所述推送簇中满足推送条件的内容信息，以对所述目标推送信息进行更新，所述推送条件基于所述目标推送信息中内容信息的信息源以及内容版式确定。

可选的，在本申请一些可能的实现方式中，所述信息源为网络资源或本地资源，所述第一内容信息、所述第二内容信息和所述目标推送信息为新闻。

本申请第二方面提供一种信息推送的装置，包括：获取单元，用于获取至少一个信息源的第一内容信息；

提取单元，用于根据预设规则从所述第一内容信息中提取至少一个目标话题，所述预设规则基于所述第一内容信息中的热点信息确定，所述热点信息与所述目标话题对应的信息相关；

生成单元，用于根据所述目标话题挖掘第二内容信息，以生成目标事件；

推送单元，用于基于所述目标事件进行信息追踪，以得到目标推送信息。

可选的，在本申请一些可能的实现方式中，所述热点信息为词组，所述提取单元，具体用于确定所述第一内容信息中的热词；

所述提取单元，具体用于基于所述热词确定候选词组；

所述提取单元，具体用于根据注意力机制提取所述候选词组中的目标词组；

所述提取单元，具体用于根据所述目标词组确定至少一个所述目标话题。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于获取所述候选词组在所述第一内容信息中的信息熵，所述信息熵用于指示所述候选词组的信息量大小；

所述提取单元，具体用于基于所述信息熵分别计算不同所述候选词组之间的互信息；

所述提取单元，具体用于根据所述互信息确定目标词组；

所述提取单元，具体用于根据所述目标词组和所述热词确定至少一个所述目标话题。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于获取所述候选词组中相邻词汇的信息熵；

所述提取单元，具体用于若所述相邻词汇的信息熵满足预设条件，则确定所述候选词组为所述目标词组。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于确定所述候选词组中的候选词汇；

所述提取单元，具体用于根据第一预设算法分别计算所述候选词汇的出现频次；

所述提取单元，具体用于根据所述出现频次提取所述候选词组中的目标词组。

可选的，在本申请一些可能的实现方式中，所述热点信息为文章，所述提取单元，具体用于确定所述第一内容信息中的热点文章；

所述提取单元，具体用于将所述热点文章的标题切割为至少两个候选话题；

所述提取单元，具体用于对所述候选话题进行聚类，以得到判别标识；

所述提取单元，具体用于根据所述判别标识提取至少一个所述目标话题。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于基于召回规则获取第三内容信息，所述召回规则基于所述目标话题确定；

所述提取单元，具体用于对所述第三内容信息进行去重；

所述提取单元，具体用于对去重后的所述第三内容信息进行相似度计算，以确定所述第二内容信息，所述相似度计算基于所述目标话题与所述第三内容信息中的特征信息的相似度进行；

所述提取单元，具体用于根据所述第二内容信息生成所述目标事件。

可选的，在本申请一些可能的实现方式中，所述推送单元，具体用于基于所述目标事件进行信息追踪，以得到候选信息；

所述推送单元，具体用于确定所述候选信息中的关键信息，所述关键信息包括所述候选信息与所述目标事件的相似度；

所述推送单元，具体用于若所述关键信息满足增量条件，则确定为增量信息；

所述推送单元，具体用于将所述增量信息与所述目标事件中的信息进行合并，以得到目标推送信息。

可选的，在本申请一些可能的实现方式中，所述推送单元，还用于确定所述增量信息与所述目标事件中的信息的关联关系；

所述推送单元，还用于根据所述关联关系对所述目标推送信息按照脉络规则进行排序，以对所述目标推送信息进行更新。

可选的，在本申请一些可能的实现方式中，所述推送单元，还用于获取所述目标事件在至少一个参考平台的热度值；

所述推送单元，还用于基于所述目标事件的时间信息对所述热度值进行更新；

所述推送单元，还用于根据更新后的所述热度值对所述目标推送信息设置推送权重，以推送所述目标推送信息。

可选的，在本申请一些可能的实现方式中，所述推送单元，还用于对所述目标推送信息中内容信息进行聚类，以得到推送簇；

所述推送单元，还用于分别确定所述推送簇中满足推送条件的内容信息，以对所述目标推送信息进行更新，所述推送条件基于所述目标推送信息中内容信息的信息源以及内容版式确定。

本申请第三方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的信息推送的方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的信息推送的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取至少一个信息源的第一内容信息，然后根据预设规则从第一内容信息中提取至少一个目标话题，其中预设规则基于第一内容信息中的热点信息确定，热点信息与目标话题对应的信息相关；接下来根据目标话题挖掘第二内容信息，以生成目标事件；进而基于目标事件进行信息追踪，以得到目标推送信息。从而实现了基于机器学习的信息推送过程，由于推送过程中目标事件会随着用户关注的热点信息进行调整，提高了信息推送过程的灵活度，可以有效避免由于人工运营而造成的信息推送效率低下以及推送不全面的情况，提高信息推送过程的效率以及全面性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为信息推送系统运行的网络架构图；

图2为本申请实施例提供的一种信息推送的流程架构图；

图3为本申请实施例提供的一种信息推送的方法的流程图；

图4为本申请实施例提供的一种目标话题的提取方法的示意图；

图5为本申请实施例提供的另一种目标话题的提取方法的示意图；

图6为本申请实施例提供的一种目标事件生成方法的示意图；

图7为本申请实施例提供的另一种信息推送的方法的流程图；

图8为本申请实施例提供的一种信息推送的界面示意图；

图9为本申请实施例提供的一种信息推送的系统流程图；

图10为本申请实施例提供的一种信息推送装置的结构示意图；

图11为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

本申请实施例提供了一种信息推送的方法以及相关装置，可以应用于终端设备中包含信息推送功能的系统或程序中，通过获取至少一个信息源的第一内容信息，然后根据预设规则从第一内容信息中提取至少一个目标话题，其中预设规则基于第一内容信息中的热点信息确定，热点信息与目标话题对应的信息相关；接下来根据目标话题挖掘第二内容信息，以生成目标事件；进而基于目标事件进行信息追踪，以得到目标推送信息。从而实现了基于机器学习的信息推送过程，由于推送过程中目标事件会随着用户关注的热点信息进行调整，提高了信息推送过程的灵活度，可以有效避免由于人工运营而造成的信息推送效率低下以及推送不全面的情况，提高信息推送过程的效率以及全面性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

注意力机制（Attention Mechanism）：源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。

XGBoost：是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型，所以它是将许多树模型集成在一起，形成一个很强的分类器。

PGC（Professional Generated Content）：互联网术语，指专业生产内容（图文网站）、专家生产内容（微博）。用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化；也称为PPC (Professionally-produced Content）。

Feeds：消息来源，又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源；是一种资料格式，网站透过它将最新资讯传播给用户，通常以时间轴方式排列，Timeline 是Feed 最原始最直觉也最基本的展示形式。用户能够订阅网站的先决条件是，网站提供了消息来源。将feed汇流于一处称为聚合（aggregation），而用于聚合的软体称为聚合器（aggregator）。对最终用户而言，聚合器是专门用来订阅网站的软件，一般亦称为RSS阅读器、feed阅读器、新闻阅读器等。

机器学习：(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

互信息(Mutual Information)：一种信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

信息检索（Information Retrieval，IR）：指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分，即从信息集合中找出所需要的信息的过程，也就是我们常说的信息查寻。

TF-IDF：一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

应理解，本申请提供的信息推送方法可以应用于终端设备中包含信息推送功能的系统或程序中，例如新闻推送平台，具体的，信息推送系统可以运行于如图1所示的网络架构中，如图1所示，是信息推送系统运行的网络架构图，如图可知，信息推送系统可以提供与多个信息源的信息推送，终端通过网络建立与服务器的连接，进而接收服务器推送的多个内容，并根据相关逻辑进行排序推荐，或根据服务器发送的排序进行推荐；可以理解的是，图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到信息推送的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多内容应用交互的场景中，具体服务器数量因实际场景而定。

应当注意的是，本实施例提供的信息推送方法也可以离线进行，即不需要服务器的参与，此时终端在本地与其他终端进行连接，进而进行终端之间的信息推送的过程。

可以理解的是，上述信息推送系统可以运行于个人移动终端，例如：作为新闻中心这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供信息推送，以得到信息源的信息推送处理结果；具体的信息推送系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

一般对于热点信息的生成会基于新闻资讯热点事件和专题内容生产，很大程度上依赖的是人工运营的筛选和选择，即人为的选择热点事件进行持续追踪，并产出相关的专题内容。例如社交网络源自网络社交，网络社交的起点是电子邮件。互联网本质上就是计算机之间的联网，早期的E-mail解决了远程的邮件传输的问题，至今它也是互联网上最普及的应用，同时它也是网络社交的起点。BBS则更进了一步，把“群发”和“转发”常态化，理论上实现了向所有人发布信息并讨论话题的功能，进而成为早期的互联网内容自发产生的平台。

但是，在大量信息源的情况下，仅依靠人工运营进行热点信息的挖掘一方面费事费力，影响信息推送的效率；另一方面无法全面的对大部分热点事件进行追踪，可能丢失一些关键内容，影响信息推送的准确性。

为了解决上述问题，本申请提出了一种信息推送的方法，该方法应用于图2所示的信息推送的流程框架中，如图2所示，为本申请实施例提供的一种信息推送的流程架构图，首先从服务器或数据库收集相关的内容信息，以确定热点信息，然后基于热点信息进行话题提取；其中，该提取过程可以基于词组进行也可以基于文章进行；在确定目标话题并生成相关的时间后，对该话题进行持续的追踪并对相应的事件进行更新，从而推送至客户端实现信息挖掘与推送的过程。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种信息推送装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该信息推送装置通过获取至少一个信息源的第一内容信息，然后根据预设规则从第一内容信息中提取至少一个目标话题，其中预设规则基于第一内容信息中的热点信息确定，热点信息与目标话题对应的信息相关；接下来根据目标话题挖掘第二内容信息，以生成目标事件；进而基于目标事件进行信息追踪，以得到目标推送信息。从而实现了基于机器学习的信息推送过程，由于推送过程中目标事件会随着用户关注的热点信息进行调整，提高了信息推送过程的灵活度，可以有效避免由于人工运营而造成的信息推送效率低下以及推送不全面的情况，提高信息推送过程的效率以及全面性。

结合上述流程架构，下面将对本申请中信息推送的方法进行介绍，请参阅图3，图3为本申请实施例提供的一种信息推送的方法的流程图，本申请实施例至少包括以下步骤：

301、获取至少一个信息源的第一内容信息。

本实施例中，信息源可以包括网络侧的服务器，也可以包括本地的数据库；具体的数量可以是一个或多个，例如：分别获取微信、微博、QQ这些应用程序的内容数据。

具体的，第一内容信息可以是实时获取的，也可以是事先获取并存储在本地的内容信息。例如从内容库当中获取平台自身的内容数据和从互联网上爬取相关的热门信息比如百度风云榜，微博热门话题等。

可以理解的是，第一内容信息可以是新闻、小说或其他包含文字的媒体内容，也可以是经过文字或特殊字符进行描述的视频音乐等其他媒体形式，具体的内容信息类型因实际场景而定，此处不做限定。

302、根据预设规则从第一内容信息中提取至少一个目标话题。

本实施例中，预设规则基于第一内容信息中的热点信息确定，热点信息与目标话题对应的信息相关。其中，热点信息可以是通过爬取的海量社交短文本中，自动发现类似于新浪微博里，用户发起的话题；或者是相关人员后台配置的话题。

在一些可能的场景中，在海量的网络资源中，热点信息的来源可以包括内容消费客户端的行为日志，比如用户搜索的查询话题以及话题召回的相关文章数随时间是否有爆发增长，来检测出最近的热搜事件，例如“百度风云榜”的实时热点。另外，还可以包括社交媒体信息源，即通过分析文章的评论转发数、话题引用数是否有突增，来检测出最近的热门关注点，例如微博的“热门微博”和“热门话题”。进一步的，还可以通过分析不同自媒体账号是否对同一事件进行了集中报道，即分析推荐池中相似文章的集中程度，来判断是否有新闻事件，这个平台本身分发的是以PGC自媒体内容为主，通过统计很容易发现。

具体的，通过上述网络资源中的信息源，可以基于热点信息进行进一步的机器学习判断过程，以保证目标话题提取的准确性。下面分别对两种不同的热点信息的形式下对目标话题的提取过程进行说明。

一、基于词组的目标话题提取。

本实施例中，词组即为词汇的组成，例如“巴黎”“巴黎球员”“巴黎比赛”“巴黎足球”“巴黎对巴萨”等都包含同一对象的多个词汇组成为词组；在一些可能的场景中，单个词汇具体很高的特异性，即单个词汇也可很好的代表一件具体的话题时，词组也可以只包含一个词汇，例如“双黄连”。

具体的，基于词组的目标话题提取过程首先需要确定第一内容信息中的热词，该热词可以是通过爬取到的热门内容中提取的热词；然后基于热词确定候选词组；进而根据注意力机制提取候选词组中的目标词组；从而根据目标词组确定至少一个目标话题。通过热词与候选词组的组合可以提高话题的准确度，但数据量较大，可以进行进一步的提取过程。

下面结合附图对本实施例中基于词组的目标话题提取的过程进行说明，如图4所示，为本申请实施例提供的一种目标话题的提取方法的示意图。

首先确定热词401，具体的确定过程参照上述热词的确定过程，此处不做赘述。

然后确定语料集402，即词汇之间的搭配关系以及相关语法结构，语料集402的来源可以是本地存储的，也可以是通过网络实时获取并更新的。

进一步的，基于热词进行候选词组提取403，即选出一些可以与热词进行搭配或存在搜索记录的词汇进行词汇组合。

具体的，对于候选词组的提取过程可以基于信息熵的比较进行，这是由于信息熵可以用来衡量一个随机变量出现的期望值，一个变量的信息熵越大，表示其可能出现的状态越多，越不确定，即信息量越大，从而确定相对稳定的话题。首先获取候选词组在第一内容信息中的信息熵，该获取过程可以通过如下公式计算所得：

其中，H为信息熵；i为当前的词汇标识；n为词组中词汇的数量；p_i为当前的词汇的出现概率。

进一步的，需要计算不同候选词组之间的互信息，以放映话题中不同词汇之间的关系强弱，若关系较强，则说明该词汇组合出现概率较大，即为热门信息的概率较高。具体的，互信息可以通过如下公式计算所得：

可选的，该公式也可以变形为：

其中，I（X;Y）为词汇X与Y之间的互信息；P（X）为词汇X出现的概率；P（Y）为词汇Y出现的概率；P（X,Y）为词汇X与Y同时出现的概率；H(Y)表示Y的不确定度；H(Y│X)表示在已知X的情况下，Y的不确定度，也即已知X时，Y的条件熵。通过上述公式可知I(X;Y)表示由X的引入而使Y的不确定度减小的量。其中，I(X;Y)越大，说明X出现后，Y出现的不确定度减小，即Y很可能也会出现，也就是说X、Y关系越密切；反之亦然。可以理解的是，目标话题可以是一个也可以是更多个，具体的数量因实际场景而定。

在一种可能的场景中，由于信息熵说明了信息量的大小，那么如果一个词组的左右信息熵越大，即词组左右的可能情况越多，左右的搭配越丰富；则说明这个词组在不同的语境里可讨论的事情越多，越可能可以独立说明一个事件。故可以获取候选词组中相邻词汇的信息熵；若相邻词汇的信息熵满足预设条件，则确定候选词组为目标词组。

另外，基于词组的目标话题提取过程还可以通过词组的出现频次进行提取。这是由于对于某一个热词，挑选出来一批候选词组后，每个词组所含的词语不同，包含的信息量也不同。比如对于“巴黎”这个热词，提取出来的候选词组有“巴黎球迷”、“巴黎球员”、“淘汰巴黎”、“心疼巴黎”、“巴萨逆转巴黎”、“法国巴黎”、“巴黎时装周”。但“巴萨球员”、“巴黎球迷”、“淘汰巴黎”、“心疼巴黎”、“法国巴黎”这些词组中，“球员”、“球迷”、“淘汰”、“心疼”这些词语在很多其他的语境中也经常出现，它们的指向性并不明确；“法国巴黎”的信息量甚至只有一个地点。而“巴萨逆转巴黎””、 “巴黎时装周”则还包含了更具体的信息——足球比赛、球队、赛果或者时装秀等，事件的指向更明确。此时需要对候选的话题词组进行筛选。筛选的主要思想和Attention机制是一样的，关键是要找出重要的词语。比如与“巴黎”的搭配，“巴萨”、“逆转”、“时装周”比“球迷”、“球员”、“心疼”、“法国”包含的信息更多，意义更大。可以想到，“巴萨”、“逆转”、“时装周”这些词语在其他无关语料中不常出现，“球迷”、“球员”、“心疼”、“法国”在不同语料中都常会出现，信息不明确。这里通过TF-IDF的思路来确定目标话题。具体说来，就是衡量词组中，各个词语在词组中的特异性。有理由相信，“巴萨”、“逆转”、“时装周”这些词语，在含“巴黎”的相关语料中出现的概率较高。热词w^h的候选词组s的事件或话题表示能力分数可由以下公式求得：

其中，N为候选词组中的词语个数，w_i为候选词组中包含的第i个词语，Corpus (w)表示含有词语w的相关语料。另一方面，也需要考虑词组出现的频次，词组出现的次数越多，说明事件越重要。综上所述，通过候选词组的事件或话题表示能力分数以及出现频次，可以筛选出热词的相关话题作为一个发现来源。

通过上述候选词组的提取过程，可以基于注意力机制选择满足提取条件的词组，即话题筛选404，进而完成话题提取405的过程，从而确定目标话题406。由于词汇的数据占用空间较小，且易于判别，基于词组的目标话题提取过程保证了目标话题提取的效率，且由于词汇之间的关联性筛选，保证了目标话题提取的代表性。

二、基于文章的目标话题提取。

本实施例中，文章可以包含标题、关键词等内容特征元素，即基于抓取的热门文章的内容特征进行相关话题的提取。

下面结合附图对本实施例中基于文章的目标话题提取的过程进行说明，如图5所示，为本申请实施例提供的另一种目标话题的提取方法的示意图，图中包括如下步骤。

501、收集热点文章。

本实施例中，热点文章的来源可以是筛选输入的文章标题，并选择其中高质量文章，通常这些文章来自头部网站和权威优质大号。该过程可以经过相关人员人工检查，将这些站点的新闻作为数据源；也可以根据历史设定的来源信息进行收集。

502、提取话题对。

本实施例中，提取话题对的过程即将输入的文章标题切割成话题对提及话题。如标题是“胡歌发文谈蒋劲夫，林更新孙艺洲娜扎等转发评论”，可被切分成“胡歌发文谈蒋劲夫”，“林更新孙艺洲娜扎等转发评论”两个话题对。

可以理解的是，具体的划分方法可以采用预设的语法分割方法，例如在连续的名词之间进行划分；也可以是基于固定的字符进行划分，例如基于标点进行划分。

503、加载过滤规则。

本实施例中，过滤规则可以包括运营黑名单、话题长度、是否包含命名实体等，具体规则因实际场景而定。

504、话题过滤。

本实施例中，基于上述步骤503中加载的过滤规则，提取出符合过滤规则的话题。

505、标题聚类。

本实施例中，对于上述过滤后的标题进行进行初步聚类。即将相似的标题聚类为同一簇。

506、话题聚类。

本实施例中，通过上述标题聚类的簇进行话题生成，即一个标题簇生成一个话题簇。然后对生成的话题簇进行相似度判断，将相似的话题聚类到一起。

507、事件确定。

本实施例中，对于上述步骤506中聚类后的话题簇进行判别，即判别该话题簇是否是事件。

508、获取检测规则。

本实施例中，判别话题簇的过程采用规则判断方式，即计算权重包括是否包含权威网站文章、命名实体包含情况、特定词性包含情况等。例如若某一话题簇中包含70%的权威网站文章则确定该话题簇对应的话题为目标话题。

509、确定目标话题。

通过提取满足检测规则的话题簇，并将其对应的话题确定为目标话题。由于文章的品质比较稳定，易于进行热点文章的判断，基于文章的目标事件的提取过程可以很好的保证目标事件的准确性。

303、根据目标话题挖掘第二内容信息，以生成目标事件。

本实施例中，根据目标话题挖掘第二内容信息的过程相当于信息召回的过程，即通过目标话题对于内容信息进行二次提取，由于目标话题的指向性强，使得第二内容信息更为具体，更加符合用户的信息推动的需求，从而保证目标事件的准确性。

下面结合附图对本实施例中基于词组的目标话题提取的过程进行说明，如图6所示，为本申请实施例提供的一种目标事件生成方法的示意图，图中包括如下步骤。

601、确定目标话题。

602、信息召回。

本实施例中，利用目标话题进行相关信息召回，例如新闻。具体的，可以采用目标话题命中的文章标题、正文与关键字，对文章进行召回。

可选的，对于召回的信息可以采用倒排索引进行存储，从而提高话题发展的时效性。

603、信息检索。

本实施例中，信息检索的过程需要进行文章去重。即根据网页标题和文章标题去重及正文向量去重，避免完全相同的文章出现在同一事件，保证事件内容丰富性，例如检索到网页的标题与文章的标题相同，则择一进行存储。具体的，为了保证检索效率，对于正文的检索可以采用SimHash向量或者轻量级BERT向量去重。

604、相关性过滤。

本实施例中，即计算召回的信息与目标话题的相关性。在信息召回后，需要进一步判断相关性，以防止事件与文章不相关。

首先对目标话题进行判断，过滤掉不符合条件的目标话题，例如话题表述的语义不清楚。然后，分别计算目标话题中各项与文章命名实体、文章关键词、文章标题和文章正文中中心句的相似度。具体的，可以取上述相似度中的最大值，作为召回的信息与目标话题的相关性。若相关性满足给定阈值，则保留该文章，否则过滤该文章。

可选的，对于保留文章数目少于一定数量的话题，可能没有推送的价值，则该话题不能生成事件，减少后续的事件追踪的处理量，保证信息推送的效率。

605、事件聚类。

本实施例中，在确保目标话题与文章相关的条件下，还需要文章彼此之间的相关；因此，要对文章进行聚类，即将挖掘到的文章聚类到各自所属的话题中，从而保证各个话题内容的准确性。

606、事件去重。

本实施例中，在事件生成后，需要进行事件去重，即如果该事件曾经生成过，则不再重复生成事件，若已存在相关的事件则将检索到的文章加入。

607、确定目标事件。

通过目标事件的确定，使得召回的内容信息进行了良好的分类，各个目标事件下包含了多个与话题强相关的内容，使得信息推送更加便捷，即基于目标事件进行连续的推送，无需对内容信息进行逐一的判定，提高了信息推送的效率。

304、基于目标事件进行信息追踪，以得到目标推送信息。

本实施例中，在生成目标事件后，由于内容信息往往是动态产生的过程，例如新闻就具有很强的事件脉络性；对于确定的目标事件进行持续的内容信息检索过程，以实现对于目标事件进行信息追踪，从而生成动态的目标推送信息。

可选的，由于信息追踪过程中存在信息的先后顺序以及脉络关系，可以基于时序对相关目标事件下的内容进行依次推送，从而提高了目标推送信息推送的连续性，且用户可以很好的对目标事件进行持续关注，提高了用户体验。

在一种可能的场景中对于追踪到的数据可以进行事件的合并过程。首先基于目标事件进行信息追踪，以得到候选信息；然后确定候选信息中的关键信息，关键信息包括候选信息与目标事件的相似度；若关键信息满足增量条件，则确定为增量信息；从而将增量信息与目标事件中的信息进行合并，以得到目标推送信息。

具体的，对于上述合并过程可以利用XGBoost分类模型，即计算增量事件与候选事件的相似度。选择满足阈值且相似度最高的候选事件，从而与该事件合并；若无满足阈值的候选事件，该增量事件为新事件。其中，事件之间的相似度可以包括以下几个维度：（1）事件话题相似度；（2）事件标题中命名实体的相似度、事件关键词相似度；（3）事件包含主要文章标题、关键词、正文的相似度；（4）事件包含文章主题分布的相似度、最大文章发表时间间隔及平均发表时间间隔等。

可选的，上述判断相似度的过程还可以基于关键信息进行判定，即去除冗余特征后判定。对于判断两个事件是否是相同事件来说，是判断两个事件的核心是否一致。在这个前提假设下，只需提取出事件中的核心信息，判断该成分是否相似，非核心信息不必参与计算，否则反而会引入杂质。具体关键信息包括但不限于对事件文章提取摘要，使用出现在摘要中的关键词参与计算等。

结合上述实施例可知，通过获取至少一个信息源的第一内容信息，然后根据预设规则从第一内容信息中提取至少一个目标话题，其中预设规则基于第一内容信息中的热点信息确定，热点信息与目标话题对应的信息相关；接下来根据目标话题挖掘第二内容信息，以生成目标事件；进而基于目标事件进行信息追踪，以得到目标推送信息。从而实现了基于机器学习的信息推送过程，由于推送过程中目标事件会随着用户关注的热点信息进行调整，提高了信息推送过程的灵活度，可以有效避免由于人工运营而造成的信息推送效率低下以及推送不全面的情况，提高信息推送过程的效率以及全面性。

上述实施例介绍了信息推送的过程，但是，在推送过程中还可以对挖掘到的信息进行进一步的热度排序，以保证信息推送的吸引力。下面，结合新闻推送应用作为具体场景进行介绍，请参阅图7，图7为本申请实施例提供的另一种信息推送的方法的流程图，本申请实施例至少包括以下步骤：

701、获取至少一个信息源的第一内容信息；

702、根据预设规则从第一内容信息中提取至少一个目标话题。

703、根据目标话题挖掘第二内容信息，以生成目标事件。

本实施例中，步骤701-步骤703与图3所述实施例中的步骤301-303相似，相关特征描述可以进行参考，此处不做赘述。

704、基于目标事件进行信息追踪，并获取至少一个参考平台的热度值。

本实施例中，由于信息推荐的过程需要考虑到内容的吸引力，故可以基于参考平台的相关吸引力标识，例如热度值，进行目标事件的排序以及推送过程。

可选的，目标事件的热度值的参考平台可以为一个或多个，若为一个，则基于该热度值进行排序即可；若参考平台为多个，则需要进行平均的热度值的获取；例如参考平台可以包括百度热度值，微博热度值与本地平台热度值。其中，百度热度值和微博热度值可以直接通过网络爬取得到，本地平台的热度值可以通过计算相关话题的点击率得到。

可以理解的是，由于一个事件可能包括多个话题，对于本地平台的热度值需要对这些话题基于点击量进行热度的平均，以反映事件的热度，具体的可以采用如下公式进行计算：

其中，Score_qb（e）为事件e在本地平台的热度值；pv（q）为话题q的点击量；Q（e）为事件e包含话题的集合；从而计算得到本地平台的热度值。

705、判断热度值是否更新。

本实施例中，由于话题的热度具有时效性，即热度值会随着时间的推移而变化，故需要对当前话题的更新状态进行判断。若目标话题的热度值依然在更新，则采用最新的热度值；若目标话题的热度值未更新，则需要进行热度值的衰减计算，具体的可以采用如下公式进行：

其中，Score_weibo`为衰减处理后的微博热度值；Score_baidu`为衰减处理后的百度热度值；Score_weibo*为衰减处理前的微博热度值；Score_baidu*为衰减处理前的百度热度值；h为当前时刻；h_e为最后热度值更新的时刻；α为衰减系数，例如取值0.1。

706、根据参考平台的数量进行热度值归一化。

本实施例中，由于有来自不同参考平台的热度值，需要对热度值进行归一化处理，具体的，可以采用如下公式进行：

其中，

为百度事件中的平均热度值；

为信息源归一化后的热度值；

为信息源事件的平均热度值；

为信息源事件的初始热度值。

在一种可能的场景中，若某个信息源的热度值不存在，则为该来源设置一个边界值，在边界值与该来源最小热度值中随机取数，作为该来源的热度值，通常取边界值= 1/2*最小值，从而保证热度值计算的正常进行。

707、基于热度值进行加权并设置排序，以进行信息推送。

本实施例中，除了上述根据热度值进行排序推送以外，还可以基于文章的质量进行排序推送。

下面对文章质量评价进行说明，首先对事件文章进行聚类。具体方法采用层次聚类，从而按文章的转载情况或相似程度，对文章进行簇划分。其中，簇越大，可认为文章转载数或相似的文章数越多，内容也就越权威越好。

然后对每篇文章，计算该文章的来源站点权重、事件文章相关性以及文章内容得分。具体的，来源站点权重一般由人工指定，在给定权重基础上做一个归一化；而事件文章相关性即整个文章标题与事件标题的相似度；文章标题与事件标题的相似度；文章标题中，出现在事件关键词、且被事件名包含的命名实体；另外，文章内容得分基于内容版式确定，包括文章具备合适的图文配比；具有文字强调作用的加粗、斜体、上色等元素；图片清晰度；图片规格混乱度；版式美观度等维度。

通过以上得分加权，计算出每篇文章的得分，在每个簇内，选出得分最高的一篇，作为该簇的文章代表。进而加权计算文章自身得分和文章来源的簇得分，对文章代表们进行排序。从而返回给定篇数的有序文章列表。

最后通过事件专题接口服务提供调度中心，可以供内容出口服务直接对外输出供消费。

在一种可能的场景中，上述信息推送的过程可以通过图8进行显示，如图8所示，是本申请实施例提供的一种信息推送的界面示意图，图中示出了通过上述事件提取的逻辑得到的新闻热度榜，用户可以通过点击想要了解的新闻标题调转至该新闻具体的脉络，例如英国货车事件的因果发展过程，从而提高了用户的使用率，且提升了新闻推送的全面性。

结合上述实施例可见，通过将同一新闻事件的持续进展作为事件的推进依据，按照时间线顺序进行了整理和展示，让用户能够更快、更直观地了解事件的历史和当前的状态，大量节省用户追踪事件进展的精力；且由于可以关注感兴趣的事件，实时抓取并推送相关信息到的信息流中，可以让用户主动在搜索查询跟进热点新闻专题，专题时间内容运营效率和分发效率大幅度提升。

上述实施例介绍了从机器学习的角度说明了具体的信息挖掘以及推送的过程，但是，在具体的推送过程中还会涉及一些其他虚拟流程的进行以及相关系统流程的适配，下面结合一种具体的场景，对本申请实施例的系统流程进行说明，如图9所示，是本申请实施例提供的一种信息推送的系统流程图。图中包括图文内容生产和消费端、接口服务器、内容数据库、调度中心服务、人工审核系统、人工审核系统、事件生成服务、事件发现服务、事件专题数据库、事件聚合服务、事件服务接口服务、图文排重服务以及统计服务器。

下面对各个模块分别进行说明：

一、图文内容生产和消费端

（1）PGC或者UGC（user generate content），MCN内容生产者，通过移动端或者后端接口API系统，提供图文内容，这些都是分发内容的主要内容来源。

（2）通过和上下行内容接口服务的通讯，上传图文内容，通常是一个轻量级发布端和编辑内容。

（3）作为消费者，和上下行内容接口服务器通讯，获取访问图文的索引信息，然后和图文内容存储服务器通讯，获取对应的图文内容包括推荐得到内容，专题订阅的内容，还有就是主动搜索方式获得的内容。

（4）同时将上传和浏览过程当中用户阅读的行为数据，比如搜索词，搜索话题Query结果点击、内容分享、收藏、转发、点赞、UGC平台等上报给统计服务器。

（5）消费端通常通过Feeds流方式浏览图文数据，也可以进入各个内容频道浏览内容和订阅相应的专题内容，通过事件专题的入口查看真个事件的脉络线。

二、上下行内容接口服务器

（1）和内容生产端直接通讯，从前端提交的内容，通常是内容的标题、发布者、摘要、封面图、发布时间，并把文件存入内容数据库。

（2）将图文内容的元信息，比如文件大小，封面图链接，标题，发布时间，作者等信息写入内容数据库。

（3）将上传的文件提交给调度中心服务器，进行后续的内容处理和流转。

三、内容数据库

（1）图文内容的核心数据库，所有生产者发布内容的元信息都保存在这个业务数据库当中，重点是图文内容本身的元信息频文件大小，封面图链接，码率，文件格式，标题，发布时间，作者，是否原创或者首发还包括人工审核过程中对内容的分类（包括一，二，三级别分类和标签信息，比如一篇讲解华为手机的文章，一级分科是科技，二级分类是智能手机，三级分类是国内手机，标签信息是华为，mate30。

（2）人工审核过程当中会会读取内容数据库当中的信息，同时人工审核的结果和状态也会回传进入内容数据库。

（3）调度中心对内容处理主要包括机器处理和人工审核处理，这里机器处理核心就是调用排重服务，排重的结果会写入内容数据库，完全重复一样的内容不会给人工进行重复的二次处理。

（4）事件发现服务获取内部内容数据源主要从这里读取。

四、调度中心服务

（1）负责图文内容流转的整个调度过程，通过上下行内容接口服务器接收入库的图文内容，然后从内数据库中获取图文的元信息。

（2）调度人工审核系统和机器处理系统，控制调度的顺序和优先级。

（3）对于图文内容，先和图文召回检索服务通讯，然后和判重服务通讯，过滤掉不必要的重复相似内容。

（4）没有达到重复过滤的内容，输出内容相似度和相似关系链，供推荐系统打散使用。

（5）最后通过人工审核系统的内容启用通过内容出口分发服务通常是推荐引擎或者搜索引擎或者运营直接的展示页面提供给终端的内容消费者。

（6）和事件专题接口服务通讯，或者最后生成的时间专题信息，可以依据配置需要确定是否需要人工审核还是直接通过内容分发出口分发到消费端。

五、人工审核系统

（1）需要读取内容数据库中图文内容本身的原始信息，通常是一个业务复杂的基于web数据库开发的系统，通过人工来对图文内容是否涉及软色情，赌博，政治敏感的特性内容进行一轮初步过滤，过滤过程当中机器算法可以辅助以低质量和问题提示，让人工效率更好。

六、事件生成服务

（1）按照上面的描述方法，接受事件发现服务的输出，通过召回，去重，聚类，生成事件。

七、事件发现服务

（1）按照上述描述主要采用基于信息熵的候选词组和基于文章2种事件发现机制来发现热门的热词事件。

（2）数据源包括利用内容消费客户端行为日志，爬取的社交媒体信息源，通过统计分析不同自媒体账号是否对同一事件进行了集中报道。

八、事件专题数据库

（1）保存事件聚合服务生成的专题时间列表结果，为事件接口服务提供数据源。

九、事件聚合服务

（1）按照上面描述的方案，负责专题增量事件合并与事件专题发展的脉络计算。

十、事件服务接口服务

（1）读取事件专题数据当中的内容，同时对事件专题进行热度计算，事件文章排序的任务。

（2）和调度中心服务通讯。

十一、图文排重服务

（1）由于同时发布的图文很多，这里主要实现海量图文去重服务的工程并行化能力，主要避免重复的图文内容启用，不是本申请的核心部分，有单独技术方案来保护这里方案细节。

十二、统计服务器

（1）接受内容消费端浏览过程当中用户阅读的行为数据，比如搜索词，搜索Query结果点击、内容分享、收藏、转发、点赞、UGC平台等为后续的事件发现和统计分析提供数据源支持和服务。

通过该信息推送系统可以快速、全面地挖掘互联网中的热点新闻资讯事件，可应用于热榜、搜索、资讯等多种业务场景，缩减乃至替代人工发现与编辑事件的过程，降低运营成本，提高业务响应和改善用户体验。其核心思路是基于机器学习的新闻资讯事件发现，事件生成，事件聚合来管理新闻资讯热点内容的专题时间。整个流程主要包括源数据接入、事件发现、事件生成及事件聚合四个部分。通过本申请将同一新闻事件的持续进展作为事件的推进依据，按照时间线顺序进行了整理和展示，让用户能够更快、更直观地了解事件的历史和当前的状态，大量节省用户追踪事件进展的精力；系统可以关注感兴趣的事件，实时抓取并推送相关信息到的信息流中，也可以让用户主动在搜索查询跟进热点新闻。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图10，图10为本申请实施例提供的一种信息推送装置的结构示意图，信息推送装置1000包括：

获取单元1001，用于获取至少一个信息源的第一内容信息；

提取单元1002，用于根据预设规则从所述第一内容信息中提取至少一个目标话题，所述预设规则基于所述第一内容信息中的热点信息确定，所述热点信息与所述目标话题对应的信息相关；

生成单元1003，用于根据所述目标话题挖掘第二内容信息，以生成目标事件；

推送单元1004，用于基于所述目标事件进行信息追踪，以得到目标推送信息。

可选的，在本申请一些可能的实现方式中，所述热点信息为词组，所述提取单元1002，具体用于确定所述第一内容信息中的热词；

所述提取单元1002，具体用于基于所述热词确定候选词组；

所述提取单元1002，具体用于根据注意力机制提取所述候选词组中的目标词组；

所述提取单元1002，具体用于根据所述目标词组确定至少一个所述目标话题。

可选的，在本申请一些可能的实现方式中，所述提取单元1002，具体用于获取所述候选词组在所述第一内容信息中的信息熵，所述信息熵用于指示所述候选词组的信息量大小；

所述提取单元1002，具体用于基于所述信息熵分别计算不同所述候选词组之间的互信息；

所述提取单元1002，具体用于根据所述互信息确定目标词组；

所述提取单元1002，具体用于根据所述目标词组和所述热词确定至少一个所述目标话题。

可选的，在本申请一些可能的实现方式中，所述提取单元1002，具体用于获取所述候选词组中相邻词汇的信息熵；

所述提取单元1002，具体用于若所述相邻词汇的信息熵满足预设条件，则确定所述候选词组为所述目标词组。

可选的，在本申请一些可能的实现方式中，所述提取单元1002，具体用于确定所述候选词组中的候选词汇；

所述提取单元1002，具体用于根据第一预设算法分别计算所述候选词汇的出现频次；

所述提取单元1002，具体用于根据所述出现频次提取所述候选词组中的目标词组。

可选的，在本申请一些可能的实现方式中，所述热点信息为文章，所述提取单元1002，具体用于确定所述第一内容信息中的热点文章；

所述提取单元1002，具体用于将所述热点文章的标题切割为至少两个候选话题；

所述提取单元1002，具体用于对所述候选话题进行聚类，以得到判别标识；

所述提取单元1002，具体用于根据所述判别标识提取至少一个所述目标话题。

可选的，在本申请一些可能的实现方式中，所述生成单元1003，具体用于基于召回规则获取第三内容信息，所述召回规则基于所述目标话题确定；

所述生成单元1003，具体用于对所述第三内容信息进行去重；

所述生成单元1003，具体用于对去重后的所述第三内容信息进行相似度计算，以确定所述第二内容信息，所述相似度计算基于所述目标话题与所述第三内容信息中的特征信息的相似度进行；

所述生成单元1003，具体用于根据所述第二内容信息生成所述目标事件。

可选的，在本申请一些可能的实现方式中，所述推送单元1004，具体用于基于所述目标事件进行信息追踪，以得到候选信息；

所述推送单元1004，具体用于确定所述候选信息中的关键信息，所述关键信息包括所述候选信息与所述目标事件的相似度；

所述推送单元1004，具体用于若所述关键信息满足增量条件，则确定为增量信息；

所述推送单元1004，具体用于将所述增量信息与所述目标事件中的信息进行合并，以得到目标推送信息。

可选的，在本申请一些可能的实现方式中，所述推送单元1004，还用于确定所述增量信息与所述目标事件中的信息的关联关系；

所述推送单元1004，还用于根据所述关联关系对所述目标推送信息按照脉络规则进行排序，以对所述目标推送信息进行更新。

可选的，在本申请一些可能的实现方式中，所述推送单元1004，还用于获取所述目标事件在至少一个参考平台的热度值；

所述推送单元1004，还用于基于所述目标事件的时间信息对所述热度值进行更新；

所述推送单元1004，还用于根据更新后的所述热度值对所述目标推送信息设置推送权重，以推送所述目标推送信息。

可选的，在本申请一些可能的实现方式中，所述推送单元1004，还用于对所述目标推送信息中内容信息进行聚类，以得到推送簇；

所述推送单元1004，还用于分别确定所述推送簇中满足推送条件的内容信息，以对所述目标推送信息进行更新，所述推送条件基于所述目标推送信息中内容信息的信息源以及内容版式确定。

本申请实施例还提供了一种终端设备，如图11所示，是本申请实施例提供的一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理（personal digital assistant，PDA）、销售终端（point of sales，POS）、车载电脑等任意终端设备，以终端为手机为例：

图11示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图11，手机包括：射频（radio frequency，RF）电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真（wireless fidelity，WiFi）模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对手机的各个构成部件进行具体的介绍：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1180处理；另外，将设计上行的数据发送给基站。通常，RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（low noiseamplifier，LNA）、双工器等。此外，RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（global system of mobile communication，GSM）、通用分组无线服务（general packetradio service，GPRS）、码分多址（codedivision multiple access，CDMA）、宽带码分多址（wideband code division multiple access, WCDMA）、长期演进（long termevolution，LTE）、电子邮件、短消息服务（short messaging service，SMS）等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1130可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作，以及在触控面板1131上一定范围内的隔空触控操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141，可选的，可以采用液晶显示器（liquidcrystal display，LCD）、有机发光二极管（organiclight-emitting diode，OLED）等形式来配置显示面板1141。进一步的，触控面板1131可覆盖显示面板1141，当触控面板1131检测到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中，触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1160、扬声器1161，传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给比如另一手机，或者将音频数据输出至存储器1120以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监测。可选的，处理器1180可包括一个或多个处理单元；可选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

手机还包括给各个部件供电的电源1190（比如电池），可选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1180还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有信息推送指令，当其在计算机上运行时，使得计算机执行如前述图3至图9所示实施例描述的方法中信息推送装置所执行的步骤。

本申请实施例中还提供一种包括信息推送指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图9所示实施例描述的方法中信息推送装置所执行的步骤。

本申请实施例还提供了一种信息推送系统，所述信息推送系统可以包含图10所描述实施例中的信息推送装置，或者图11所描述的终端设备。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，信息推送装置，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-onlymemory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于机器学习的信息推送方法，其特征在于，包括：

获取至少一个信息源的第一内容信息；

根据所述目标话题挖掘第二内容信息，以生成目标事件；

基于所述目标事件进行信息追踪，以得到候选信息；

若所述关键信息满足增量条件，则确定为增量信息；

2.根据权利要求1所述的方法，其特征在于，所述热点信息为词组，所述根据预设规则从所述第一内容信息中提取至少一个目标话题，包括：

确定所述第一内容信息中的热词；

基于所述热词确定候选词组；

根据注意力机制提取所述候选词组中的目标词组；

根据所述目标词组确定至少一个所述目标话题。

3.根据权利要求2所述的方法，其特征在于，所述根据注意力机制提取所述候选词组中的目标词组，包括：

基于所述信息熵分别计算不同所述候选词组之间的互信息；

根据所述互信息确定目标词组；

根据所述目标词组和所述热词确定至少一个所述目标话题。

4.根据权利要求2所述的方法，其特征在于，所述根据注意力机制提取所述候选词组中的目标词组，包括：

获取所述候选词组中相邻词汇的信息熵；

5.根据权利要求2所述的方法，其特征在于，所述根据注意力机制提取所述候选词组中的目标词组，包括：

确定所述候选词组中的候选词汇；

根据第一预设算法分别计算所述候选词汇的出现频次；

根据所述出现频次提取所述候选词组中的目标词组。

6.根据权利要求1所述的方法，其特征在于，所述热点信息为文章，所述根据预设规则从所述第一内容信息中提取至少一个目标话题，包括：

确定所述第一内容信息中的热点文章；

将所述热点文章的标题切割为至少两个候选话题；

对所述候选话题进行聚类，以得到判别标识；

根据所述判别标识提取至少一个所述目标话题。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标话题挖掘第二内容信息，以生成目标事件，包括：

对所述第三内容信息进行去重；

根据所述第二内容信息生成所述目标事件。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述增量信息与所述目标事件中的信息的关联关系；

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标事件在至少一个参考平台的热度值；

基于所述目标事件的时间信息对所述热度值进行更新；

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述目标推送信息中内容信息进行聚类，以得到推送簇；

11.根据权利要求1所述的方法，其特征在于，所述信息源为网络资源或本地资源，所述第一内容信息、所述第二内容信息和所述目标推送信息为新闻。

12.一种基于机器学习的信息推送装置，其特征在于，包括：

获取单元，用于获取至少一个信息源的第一内容信息；

推送单元，用于基于所述目标事件进行信息追踪，以得到候选信息；确定所述候选信息中的关键信息，所述关键信息包括所述候选信息与所述目标事件的相似度；若所述关键信息满足增量条件，则确定为增量信息；将所述增量信息与所述目标事件中的信息进行合并，以得到目标推送信息。

13.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至11任一项所述的基于机器学习的信息推送方法。

14.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至11任一项所述的基于机器学习的信息推送方法。