CN112256970A

CN112256970A - 一种新闻文本推送方法、装置、设备及存储介质

Info

Publication number: CN112256970A
Application number: CN202011176171.1A
Authority: CN
Inventors: 向律山; 陶涛; 车念; 尹东平; 何毅; 赖堃
Original assignee: Sichuan Jinxiongmao New Media Co ltd
Current assignee: Sichuan Jinxiongmao New Media Co ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-22
Anticipated expiration: 2040-10-28
Also published as: CN112256970B

Abstract

本申请提供一种新闻文本推送方法、装置、设备及存储介质，涉及信息检索技术领域。该方法包括：接收用户输入的新闻搜索词；根据该新闻搜索词与待选新闻文本的相关性信息以及该新闻搜索词的权重，得到第一特征；根据该用户的用户画像以及该待选新闻文本的新闻关键信息，得到第二特征；将该待选新闻文本输入预先训练获取的新闻评分模型，得到第三特征；根据该第一特征、该第二特征以及该第三特征，确定该待选新闻文本的推送评分；根据该新闻文本库中各待选新闻文本的推送评分，向该用户推送新闻文本。应用本申请实施例，可以提高推送给用户的新闻文本精确度。

Description

一种新闻文本推送方法、装置、设备及存储介质

技术领域

本申请涉及信息检索技术领域，具体而言，涉及一种新闻文本推送方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，信息量越来越多，特别是当前正处于数据爆炸的时代。在此环境下，各类新闻层出不穷，用于检索各类新闻的应用程序应运而生。

目前，当用户在应用程序的搜索引擎中输入搜索信息后，可计算该搜索信息与各新闻的相关性，并按照相关性从小到大的顺序向用户推送新闻文本。

然而，由于新闻类应用程序只是根据搜索信息与各新闻的相关性参数向用户推送新闻类文本，这样会导致推送给用户的新闻文本精确度较低。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种新闻文本推送方法、装置、设备及存储介质，可以提高推送给用户的新闻文本精确度。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种新闻文本推送方法，所述方法包括：

接收用户输入的新闻搜索词；

根据所述新闻搜索词与待选新闻文本的相关性信息以及所述新闻搜索词的权重，得到第一特征，所述第一特征用于表征所述待选新闻文本与所述新闻搜索词的相关性，所述待选新闻文本为新闻文本库中的任一新闻文本；

根据所述用户的用户画像以及所述待选新闻文本的新闻关键信息，得到第二特征，所述第二特征用于表征所述用户对所述待选新闻文本的兴趣度；

将所述待选新闻文本输入预先训练获取的新闻评分模型，得到第三特征，所述第三特征用于表征所述待选新闻文本的评分；

根据所述第一特征、所述第二特征以及所述第三特征，确定所述待选新闻文本的推送评分；

根据所述新闻文本库中各待选新闻文本的推送评分，向所述用户推送新闻文本。

可选地，所述根据所述第一特征、所述第二特征以及所述第三特征，确定所述待选新闻文本的推送评分，包括：

根据所述第一特征、所述第二特征以及所述第三特征，使用多项式扩展以及最优化线性模型，确定所述待选新闻文本的推送评分。

可选地，所述根据所述第一特征、所述第二特征以及所述第三特征，使用最优化线性模型，确定所述待选新闻文本的推送评分，包括：

以所述第一特征、所述第二特征以及所述第三特征作为参数，建立初始多项式；

对所述初始多项式进行扩展，得到扩展多项式；

基于所述扩展多项式，建立所述最优化线性模型；

求解所述最优化线性模型，得到所述待选新闻文本的推送评分。

可选地，所述根据所述用户的用户画像以及所述待选新闻文本的新闻关键信息，得到第二特征之前，还包括：

获取所述用户的历史浏览数据，所述历史浏览数据包括：所述用户针对新闻文本的操作，所述用户浏览的新闻文本数量；

根据所述用户的历史浏览数据，生成所述用户的行为权重评分；

根据所述行为权重评分、所述用户针对新闻文本的操作、所述用户浏览的新闻文本数量以及单条新闻文本的阅读时长对应的权重，得到所述用户画像，所述用户画像包括所述用户针对每种新闻文本的用户画像评分。

可选地，所述根据所述用户的用户画像以及所述待选新闻文本的新闻关键信息，得到第二特征，包括：

根据所述待选新闻文本的新闻关键信息，确定所述新闻关键信息与所述用户画像的交集结果；

对所述交集结果对应的用户画像评分进行累加，得到所述第二特征。

可选地，所述根据所述新闻搜索词与待选新闻文本的相关性信息以及所述新闻搜索词的权重，得到第一特征，包括：

对所述相关性信息以及所述新闻搜索词的权重进行加权平均处理，得到所述第一特征。

可选地，所述根据所述新闻搜索词与待选新闻文本的相关性信息以及所述新闻搜索词的权重，得到第一特征之前，还包括：

对所述新闻搜索词进行分词处理，得到分词结果；

所述对所述相关性信息以及所述新闻搜索词的权重进行加权平均处理，得到所述第一特征，包括：

对所述分词结果进行关键词提取，并对所述相关性信息以及提取的关键词的权重进行加权平均处理，得到所述第一特征。

第二方面，本申请实施例还提供了一种新闻文本推送装置，所述装置包括：

接收模块，用于接收用户输入的新闻搜索词；

第一计算模块，用于根据所述新闻搜索词与待选新闻文本的相关性信息以及所述新闻搜索词的权重，得到第一特征，所述第一特征用于表征所述待选新闻文本与所述新闻搜索词的相关性，所述待选新闻文本为新闻文本库中的任一新闻文本；

第二计算模块，用于根据所述用户的用户画像以及所述待选新闻文本的新闻关键信息，得到第二特征，所述第二特征用于表征所述用户对所述待选新闻文本的兴趣度；

输入模块，用于将所述待选新闻文本输入预先训练获取的新闻评分模型，得到第三特征，所述第三特征用于表征所述待选新闻文本的评分；

确定模块，用于根据所述第一特征、所述第二特征以及所述第三特征，确定所述待选新闻文本的推送评分；

推送模块，用于根据所述新闻文本库中各待选新闻文本的推送评分，向所述用户推送新闻文本。

可选地，所述确定模块，具体用于根据所述第一特征、所述第二特征以及所述第三特征，使用最优化线性模型，确定所述待选新闻文本的推送评分。

可选地，所述确定模块，还具体用于以所述第一特征、所述第二特征以及所述第三特征作为参数，建立初始多项式；对所述初始多项式进行扩展，得到扩展多项式；基于所述扩展多项式，建立所述最优化线性模型；求解所述最优化线性模型，得到所述待选新闻文本的推送评分。

可选地，所述第二计算模块，还用于获取所述用户的历史浏览数据，所述历史浏览数据包括：所述用户针对新闻文本的操作，所述用户浏览的新闻文本数量；根据所述用户的历史浏览数据，生成所述用户的行为权重评分；根据所述行为权重评分、所述用户针对新闻文本的操作、所述用户浏览的新闻文本数量以及单条新闻文本的阅读时长对应的权重，得到所述用户画像，所述用户画像包括所述用户针对每种新闻文本的用户画像评分。

可选地，所述第二计算模块，还具体用于根据所述待选新闻文本的新闻关键信息，确定所述新闻关键信息与所述用户画像的交集结果；对所述交集结果对应的用户画像评分进行累加，得到所述第二特征。

可选地，所述第一计算模块，具体用于对所述相关性信息以及所述新闻搜索词的权重进行加权平均处理，得到所述第一特征。

可选地，所述第一计算模块，还用于对所述新闻搜索词进行分词处理，得到分词结果；对所述分词结果进行关键词提取，并对所述相关性信息以及提取的关键词的权重进行加权平均处理，得到所述第一特征。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述第一方面的新闻文本推送方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面的新闻文本推送方法的步骤。

本申请的有益效果是：

本申请实施例提供一种新闻文本推送方法、装置、设备及存储介质，该方法包括：接收用户输入的新闻搜索词；根据该新闻搜索词与待选新闻文本的相关性信息以及该新闻搜索词的权重，得到第一特征，该第一特征用于表征该待选新闻文本与该新闻搜索词的相关性，该待选新闻文本为新闻文本库中的任一新闻文本；根据该用户的用户画像以及该待选新闻文本的新闻关键信息，得到第二特征，该第二特征用于表征该用户对该待选新闻文本的兴趣度；将该待选新闻文本输入预先训练获取的新闻评分模型，得到第三特征，该第三特征用于表征该待选新闻文本的评分；根据该第一特征、该第二特征以及该第三特征，确定该待选新闻文本的推送评分；根据该新闻文本库中各待选新闻文本的推送评分，向该用户推送新闻文本。

采用本申请实施例提供的新闻文本推送方法，通过根据用于表征待选新闻文本与用户输入的新闻搜索词之间的相关性的第一特征、用于表征该用户对该待选新闻文本的兴趣度的第二特征以及用于表征该待选新闻文本的评分的第三特征，确定各待选新闻文本的推送评分。待选新闻文本对应的推送评分越高，证明该待选新闻文本越符合用户的期望，进而就会将该待选新闻文本越先推送给用户。也就是说，从多个角度考虑了用户输入的新闻搜索词与各待选新闻文本之间的关联性，这样不仅可以提高推送给用户的新闻文本精确度，而且还可以提高推送给用户的新闻文本质量。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种新闻文本推送方法的流程示意图；

图2为本申请实施例提供的另一种新闻文本推送方法的流程示意图；

图3为本申请实施例提供的又一种新闻文本推送方法的流程示意图；

图4为本申请实施例提供的再一种新闻文本推送方法的流程示意图；

图5为本申请实施例提供的一种新闻文本推送装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1为本申请实施例提供的一种新闻文本推送方法的流程示意图。如图1所示，该方法可以包括：

S101、接收用户输入的新闻搜索词。

可选地，用户可直接在搜索引擎中输入新闻搜索词的文本信息，也可以通过拾音设备输入新闻搜索词的语音信息，然后将该语音信息转换为文本信息，并可将该文本信息显示在搜索引擎中，需要说明的是本申请不对用户输入新闻搜索词的具体方式进行限定。

其中，搜索引擎可以为网站类，也可以为应用程序类，只要用户能够进行搜索新闻文本即可，本申请不对其进行限定。

S102、根据该新闻搜索词与待选新闻文本的相关性信息以及该新闻搜索词的权重，得到第一特征。

其中，该第一特征用于表征该待选新闻文本与该新闻搜索词的相关性，该待选新闻文本为新闻文本库中的任一新闻文本。

该新闻文本库中可预先存储各种类别的新闻文本，每种类别的新闻文本可包括多个，需要说明的是，本申请不对该新闻文本库中存储的新闻文本信息进行限定。可选地，通过相关性算法，可计算该新闻搜索词分别与存储在该新闻文本库中的各个新闻文本的相关性系数，也就是说，存储在该新闻文本库中的各个新闻文本都可以作为待选新闻文本进行处理；或者，首先可根据该新闻搜索词所属的新闻种类(如军事、教育)，从该新闻文本库中选出属于该新闻种类的新闻文本，将该新闻文本作为待选新闻文本，通过相关性算法，可计算该新闻搜索词分别与选出的各个待选新闻文本之间相关性系数。

不管采用上述哪种方式计算相关性系数，都可以结合根据预先设置的关键词权重表得到的该新闻搜索词中每个关键词的权重，确定出该新闻搜索词分别与各个待选新闻文本之间的相关性。举例来说，假设待选新闻文本的个数为3(如新闻1、新闻2、新闻3)，根据相关性算法，可分别计算出这3个新闻文本所对应的第一特征(x₁)，如新闻1对应的x₁为4.07、新闻2对应的x₁为17.52、新闻3对应的x₁为7.6。那么可以看出该用户输入的新闻搜索词与新闻2的相关性最强，如果单独考虑第一特征，将新闻2最先推送给该用户的可能性最大。

S103、根据该用户的用户画像以及该待选新闻文本的新闻关键信息，得到第二特征。

其中，该第二特征用于表征该用户对该待选新闻文本的兴趣度。也就是说，可根据数据挖掘算法，通过利用用户的历史行为数据构建的用户画像以及各个待选新闻文本的新闻关键信息，分析出该用户对每个待选新闻文本的感兴趣程度，其中，该新闻关键信息可包括待选新闻文本对应的新闻种类、关键词和/或新闻长度。继续上述举例来说，利用x₂表示该第二特征的具体数值，新闻1对应的x₂为0.6、新闻2对应的x₂为0.3、新闻3对应的x₂为0.9。那么可以看出，该用户对新闻3的兴趣度最高，如果单独考虑第二特征，将新闻3最先推送给该用户的可能性最大。

S104、将该待选新闻文本输入预先训练获取的新闻评分模型，得到第三特征。

其中，该第三特征用于表征该待选新闻文本的评分，可获取训练初始新闻评分模型的训练样本，该训练样本包括多个新闻文本信息以及各个新闻文本信息对应的评分，其中，该新闻文本信息包括新闻发布的时间、新闻长度以及新闻种类等，本申请不对其进行限定。将该训练样本输入该初始新闻评分模型中，训练得到该新闻评分模型。具体的，该初始新闻评分模型可以为梯度提升树(GBDT，Gradient Boost Decision Tree)回归模型，该梯度提升树回归模型根据该训练样本以及初始化权重系数训练得到一个弱学习器1，然后再根据误差调整权重系数来训练弱学习器2，以此类推，直到弱学习器数达到指定预设的数目T，最后采取集合策略进行整合得到强学习器，即训练得到新闻评分模型。

在获取到该新闻评分模型后，可分别将各个待选新闻文本输入到该新闻评分模型中，该新闻评分模型输出各个待选新闻文本对应的第三特征。

继续上述举例来说，利用x₃表示该第三特征的具体取值，新闻1对应的x₃为4.01、新闻2对应的x₃为3.01、新闻3对应的x₃为1.99。那么可以看出，新闻2的评分最高，即新闻2的质量最好，如果单独考虑第三特征，将新闻2最先推送给该用户的可能性最大。

S105、根据该第一特征、该第二特征以及该第三特征，确定该待选新闻文本的推送评分。

S106、根据该新闻文本库中各待选新闻文本的推送评分，向该用户推送新闻文本。

根据上述描述可知，每个待选新闻文本都对应一个第一特征(x₁)、一个第二特征(x₂)以及一个第三特征(x₃)，可根据预先设置的计算方式，计算得到每个待选新闻文本的推送评分。该预先设置的计算方式可以为求这3个特征的平均值，也可以根据每个特征的权重求这3个特征的加权平均和，或者，可以将这三个特征输入到预先训练好的推送评分模型中，本申请不对其进行限定。不管采用哪种计算方式，都可以得到各个待选新闻文本的推送评分。

举例来说，假设用户输入的新闻搜索词为“成都地铁”，该待选新闻文本包括新闻1、新闻2以及新闻3，根据上述描述的方法可分别得到新闻1、新闻2以及新闻3对应的第一特征(x₁)、第二特征(x₂)以及第三特征(x₃)，具体如表1所示，可采用键值对的存储方式将待选新闻文本的新闻编号以及特征数据存储在存储器中，根据表1中的信息可分别得到新闻1、新闻2以及新闻3对应的推送评分。将这3个待选新闻文本按照推送评分由大到小的顺序进行排列，可将这3个待选新闻文本按照顺序推送给用户，当然，也可只将前面2个待选新闻文本按照顺序推送给用户，本申请不对其进行限定。

表1

新闻编号	x<sub>1</sub>	x<sub>2</sub>	x<sub>3</sub>
				1	4.07	0.6	4.01
2	17.52	0.3	3.01
				3	7.6	0.9	1.99

综上所述，本申请提供的新闻文本推送方法中，该方法包括：接收用户输入的新闻搜索词；根据该新闻搜索词与待选新闻文本的相关性信息以及该新闻搜索词的权重，得到第一特征，该第一特征用于表征该待选新闻文本与该新闻搜索词的相关性，该待选新闻文本为新闻文本库中的任一新闻文本；根据该用户的用户画像以及该待选新闻文本的新闻关键信息，得到第二特征，该第二特征用于表征该用户对该待选新闻文本的兴趣度；将该待选新闻文本输入预先训练获取的新闻评分模型，得到第三特征，该第三特征用于表征该待选新闻文本的评分；根据该第一特征、该第二特征以及该第三特征，确定该待选新闻文本的推送评分；根据该新闻文本库中各待选新闻文本的推送评分，向该用户推送新闻文本。

可选地，上述根据该第一特征、该第二特征以及该第三特征，确定该待选新闻文本的推送评分，包括：根据该第一特征、该第二特征以及该第三特征，使用最优化线性模型，确定该待选新闻文本的推送评分。

可分别根据每个用户对新闻文本的历史检索行为数据得到多个带有标签的特征数据，该特征数据可以是多维的，如该用户检索出的各个新闻文本对应的相关性特征(相当于第一特征)、兴趣度特征(相当于第二特征)、以及评分特征(相当于第三特征)，该标签可以表征为该用户对检索出的各个新闻文本的点击率、点赞率、评论率和/或分享率。根据预先建立的线型模型以及多个带有标签的特征数据组成的训练样本，依据无约束问题最优化方法之导数法，可训练得到各个用户对应的最优化线性模型。其中，该多项式扩展线型模型相当于初始推送评分模型，该最优化线性模型相当于上述提到的预先训练的推送评分模型。需要说明的是，本申请不对该多项式的阶数进行限定。

图2为本申请实施例提供的另一种新闻文本推送方法的流程示意图。如图2所示，可选地，上述根据该第一特征、该第二特征以及该第三特征，使用最优化线性模型，确定该待选新闻文本的推送评分，包括：

S201、以该第一特征、该第二特征以及该第三特征作为参数，建立初始多项式。

可根据多项式拟合的思想构建线型模型，首先可依据用户与新闻文本之间的多个维度关系，将从用户的历史行为数据中获取的第一特征(x₁)、第二特征(x₂)以及第三特征(x₃)构建一阶多项式(初始多项式)，该初始多项式可用如下的公式表示：f(x)＝w₀x₀+w₁x₁+w₂x₂+w₃x₃。

其中，w₀，w₁，w₂，w₃为各特征系数，x₀通常取值为1，f(x)为上述提到的推送评分。需要说明的是，本申请不对构建初始多项式的特征种类进行限定。

S202、对该初始多项式进行扩展，得到扩展多项式。

将该初始多项式进行线性扩展，扩展成多阶的多项式，如对自变量[x₁，x₂，x₃]进行二阶扩展，得到的扩展多项式如下：

f(x)＝w₀x₀+w₁x₁+w₂x₂+w₃x₃+w₄x₁ ²+w₅x₁x₂+w₆x₁x₃+w₇x₂ ²+w₈x₂x₃+w₉x₃ ²

可以看出，f(x)还是一个线性模型，w₀，w₁，w₂…w₉均为各特征系数，将f(x)变形为如下的形式：

f(x)＝w₀z₀+w₁z₁+…+w₉z₉

其中，自变量：z＝[x₁，x₂，x₃，x₁ ²，x₁x₂，x₁x₃，x₂ ²，x₂x₃，x₃ ²]；[x₁ ²，x₁x₂，x₁x₃，x₂ ²，x₂x₃，x₃ ²]可以等价于[x₁，x₂，x₃]×[x₁，x₂，x₃]^T。

可将f(x)＝w₀z₀+w₁z₁+…+w₉z₉采用矩阵的形式进行表示：

h_w(X)＝Xw+b

其中，X输入特征矩阵，w为特征系数矩阵，b为引入的偏倚以作平滑使用。

S203、基于该扩展多项式，训练得到该最优化线性模型。

S204、根据该最优化线性模型，得到该待选新闻文本的推送评分。

根据该扩展多项式建立线型模型，通过向该线型模型中输入训练样本数据训练该线型模型，根据训练停止条件(均方误差达到最小)，可使该线性模型达到最优，进而可以得到稀疏矩阵w。

其中，训练停止条件为：minf(w)＝(Xw-Y)^T(Xw-Y)，Y表示训练样本中的标签数据，具体可以为该用户对检索出的各个新闻文本的点击率、点赞率、评论率和/或分享率。

在训练得到该最优化线性模型后，可将各个待选新闻文本对应的第一特征x₁、第二特征x₂以及第三特征x₃输入到该最优化线性模型中，得到各个待选新闻文本的推送评分y₁。

其中，将该初始多项式进行线性扩展，扩展成多阶的多项式，使该最优化线型模型适用性增强。

举例来说，上述稀疏矩阵w中的各个特征系数：[w₀，w₁，w₂，...，w₉]＝[-180.95579911,48.3271058,59.58436429，-27.63128472，190.18162538-55.21788646，-302.15945825，-50.82226003,203.99552139,249.25586731]

根据该稀疏矩阵w得到的新闻1、新闻2以及新闻3对应的推送评分如表2所示。

表2

新闻编号	x<sub>1</sub>	x<sub>2</sub>	x<sub>3</sub>	y<sub>1</sub>
					1	0.1	0.55	0.7	0.3207
2	1	1	0.4	0.6604
					3	0.9986	1	0.1	0.5299

从表2可以看出，新闻2会最先推送给用户，然后是新闻3，最后是新闻4，也就是说，新闻2中的内容更符合用户的期望。

图3为本申请实施例提供的又一种新闻文本推送方法的流程示意图。如图3所示，可选地，上述根据该用户的用户画像以及该待选新闻文本的新闻关键信息，得到第二特征之前，该方法还包括：

S301、获取该用户的历史浏览数据，该历史浏览数据包括：该用户针对新闻文本的操作，该用户浏览的新闻文本数量。

可获取该用户在预设时间段生成的历史浏览数据，该预设时间段可以为一个月、二个月、半年等，本申请不对其进行限定。统计出该用户在该预设时间段内输入的新闻搜索词，并可获取根据多条新闻搜索词分割出的多个新闻关键词，也可根据该多条新闻搜索词归类出该用户在该预设时间段所关注的多个新闻种类，并且还可以统计出该用户针对新闻文本的点赞、评论以及分享等其他操作行为数据，以及该用户在该预设时间段内浏览的新闻文本数量。

S302、根据该用户的历史浏览数据，生成该用户的行为权重评分。

S303、根据该行为权重评分、该用户针对新闻文本的操作、该用户浏览的新闻文本数量以及单条新闻文本的阅读时长对应的权重，得到该用户画像，该用户画像包括该用户针对每种新闻文本的用户画像评分。

可选地，在一个可实现的实施例中，以上述新闻关键词为基准，可统计出该用户对包含有各个新闻关键词的新闻文本的操作数据。举例来说，统计出的该用户在半年内输入的新闻关键词包括成都、成都地铁……5G、财经以及交通，可根据该用户在半年内浏览过的各个新闻文本与上述各个新闻关键词之间的关系，计算得到上述各个关键词对应的操作数据，该操作数据可包括点赞数量l、评论数量c以及分享数量s。可根据下述两个公式计算出上述新闻关键词对应的各个操作行为权重评分。

其中，L、C、S分别表示点赞、评论以及分享这些操作行为的权重评分，可用向量B表示各个新闻关键词的操作行为权重评分，如B＝[L,C,S]。

也可统计出该用户对包含有各个新闻关键词的新闻文本的阅读时长数据。比如对于新闻关键词-成都来说，该用户浏览过含有“成都”新闻关键词的新闻文本包括新闻1、新闻2、新闻3。根据预先设置的阅读时长和阅读时长权重之间的对应关系：阅读时长

分别对应的阅读时长权重q_t＝[0.2，0.4，0.6，0.8，1]，以及该用户分别阅读新闻1、新闻2、新闻3对应的时间，可以分别确定出新闻1、新闻2、新闻3分别对应的阅读时长权重。具体的，假设该用户对包含关键词“成都”的新闻1阅读时间最短，则新闻1所对应的阅读时长权重为0.2，其他情况类似。

在获取到各个新闻关键词对应的操作行为权重评分信息、新闻文本数量信息以及对各个新闻文本的阅读时长权重信息后，可根据下式求解得到各个新闻关键词的用户画像评分。

其中，V_n表示第n个关键词对应的用户画像评分；m表示第n个关键词对应的新闻文本数量；q_ti表示第i个新闻文本对应的阅读时长权重，B为上述提到的操作行为权重评分，O表示用户对各新闻关键词对应的新闻文本具有哪些操作行为，如O＝[0，1，0]^T时，表示用户对新闻文本进行了评论操作。

举例来说，统计出的该用户在半年内输入的新闻关键词包括成都、成都地铁……5G、财经以及交通，根据V_n公式可求得每个新闻关键词对应的用户画像评分，如表3所示，从表3可以看出，该用户不对与5G和财经的新闻文本感兴趣。

表3

用户

成都

成都地铁

…

5G

财经

交通

ce79a64e

0.5

0.1

…

0

0.3

在另一种可实现的实施例中，以上述新闻种类为基准，可统计出该用户对所属各个新闻种类的新闻文本的操作数据，也可统计出该用户对所属各个新闻种类的新闻文本的阅读时长数据。具体内容和上述描述类似，此处不再进行描述。

通过对用户的历史浏览数据进行统计，可以更深入的了解该用户的潜在信息，最后根据计算得到的第二特征来确定各个待选新闻文本的评分，可以提高推送的新闻文本与用户期望的匹配度。

可选地，根据该用户的用户画像以及该待选新闻文本的新闻关键信息，得到第二特征，包括：根据该待选新闻文本的新闻关键信息，确定该新闻关键信息与该用户画像的交集结果；对该交集结果对应的用户画像评分进行累加，得到该第二特征。

在一种可实现的实施例中，该用户的用户画像以新闻关键词为基准，可根据分词算法对待选新闻文本进行分词处理得到新闻关键信息，即新闻关键词。可根据该待选新闻文本对应的各新闻关键词以及该用户画像中各个新闻关键词对应的用户画像评分，确定出该待选新闻文本中各个新闻关键词对应的用户画像评分，将各个新闻关键词对应的用户画像评分进行累加，就可得到该待选新闻文本的第二特征，其他待选新闻文本的第二特征求解过程可参考上述描述。

在另一种可实现的实施例中，该用户的用户画像以新闻种类为基准，可根据该待选新闻文本对应的新闻种类以及该用户画像中各个新闻种类对应的用户画像评分，确定出该待选新闻文本所属的新闻种类对应的用户画像评分，如果该待选新闻文本属于交叉领域中的新闻，则可将各个新闻种类对应的用户画像评分进行累加，计算得到该待选新闻文本的第二特征，其他待选新闻文本的第二特征求解过程可参考上述描述。

上述两种实施例求解该第二特征的过程可用下式表示：

其中，I表示第二特征，U表示用户画像评分，N表示待选新闻文本对应的新闻关键词、新闻种类。

可选地，根据该新闻搜索词与待选新闻文本的相关性信息以及该新闻搜索词的权重，得到第一特征，包括：对该相关性信息以及该新闻搜索词的权重进行加权平均处理，得到该第一特征。

可根据相关性算法(如BM25算法)分别计算该新闻搜索词与各个待选新闻文本之间的相关信息，即相关系数，通过待选新闻文本的相关系数与该新闻搜索词中的关键词对应的权重进行加权平均，可分别得到各个待选新闻文本的第一特征(x₁)。

图4为本申请实施例提供的再一种新闻文本推送方法的流程示意图。如图4所示，可选地，根据该新闻搜索词与待选新闻文本的相关性信息以及该新闻搜索词的权重，得到第一特征，包括：

S401、对该新闻搜索词进行分词处理，得到分词结果。

S402、对该分词结果进行关键词提取，并对该相关性信息以及提取的关键词的权重进行加权平均处理，得到该第一特征。

根据自然语言处理算法对该新闻搜索词进行分词处理，可得到该新闻搜索词对应的多个分词。将各个分词与关键词库中的内容进行匹配，每个分词都对应有一个匹配度。根据预设要求，可将匹配度大于阈值的分词作为关键词进行提取，并且提取出的各个关键词在每个待选新闻文本中都对应有一个分值。对待选新闻的相关性信息、各个关键词对应的权重以及各个关键词在待选新闻文本的分值进行加权平均处理，得到各个待选新闻文本对应的第一特征(x₁)，其中，各个关键词对应的权重可根据人工维护权重表获取。

图5为本申请实施例提供的一种新闻文本推送装置的结构示意图。如图5所示，该装置可以包括：

接收模块501，用于接收用户输入的新闻搜索词；

第一计算模块502，用于根据该新闻搜索词与待选新闻文本的相关性信息以及该新闻搜索词的权重，得到第一特征；

第二计算模块503，用于根据该用户的用户画像以及该待选新闻文本的新闻关键信息，得到第二特征；

输入模块504，用于将该待选新闻文本输入预先训练获取的新闻评分模型，得到第三特征；

确定模块505，用于根据该第一特征、该第二特征以及该第三特征，确定该待选新闻文本的推送评分；

推送模块506，用于根据该新闻文本库中各待选新闻文本的推送评分，向该用户推送新闻文本。

可选地，确定模块505，具体用于根据该第一特征、该第二特征以及该第三特征，使用最优化线性模型，确定该待选新闻文本的推送评分。

可选地，确定模块505，还具体用于以该第一特征、该第二特征以及该第三特征作为参数，建立初始多项式；对该初始多项式进行扩展，得到扩展多项式；基于该扩展多项式，建立该最优化线性模型；求解该最优化线性模型，得到该待选新闻文本的推送评分。

可选地，第二计算模块503，还用于获取该用户的历史浏览数据，该历史浏览数据包括：该用户针对新闻文本的操作，该用户浏览的新闻文本数量；根据该用户的历史浏览数据，生成该用户的行为权重评分；根据该行为权重评分、该用户针对新闻文本的操作、该用户浏览的新闻文本数量以及单条新闻文本的阅读时长对应的权重，得到该用户画像，该用户画像包括该用户针对每种新闻文本的用户画像评分。

可选地，第二计算模块503，还具体用于根据该待选新闻文本的新闻关键信息，确定该新闻关键信息与该用户画像的交集结果；对该交集结果对应的用户画像评分进行累加，得到该第二特征。

可选地，第一计算模块502，具体用于对该相关性信息以及该新闻搜索词的权重进行加权平均处理，得到该第一特征。

可选地，第一计算模块502，还用于对该新闻搜索词进行分词处理，得到分词结果；对该分词结果进行关键词提取，并对该相关性信息以及提取的关键词的权重进行加权平均处理，得到该第一特征。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Signal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图6为本申请实施例提供的一种电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器601、存储介质602和总线603，存储介质602存储有处理器601可执行的机器可读指令，当该电子设备运行时，处理器601与存储介质602之间通过总线603通信，处理器601执行机器可读指令，以执行上述新闻文本推送方法的步骤。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述新闻文本推送方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种新闻文本推送方法，其特征在于，所述方法包括：

接收用户输入的新闻搜索词；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征、所述第二特征以及所述第三特征，确定所述待选新闻文本的推送评分，包括：

根据所述第一特征、所述第二特征以及所述第三特征，使用最优化线性模型，确定所述待选新闻文本的推送评分。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一特征、所述第二特征以及所述第三特征，使用最优化线性模型，确定所述待选新闻文本的推送评分，包括：

对所述初始多项式进行扩展，得到扩展多项式；

基于所述扩展多项式，训练得到所述最优化线性模型；

根据所述最优化线性模型，得到所述待选新闻文本的推送评分。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述用户的用户画像以及所述待选新闻文本的新闻关键信息，得到第二特征之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述用户的用户画像以及所述待选新闻文本的新闻关键信息，得到第二特征，包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述新闻搜索词与待选新闻文本的相关性信息以及所述新闻搜索词的权重，得到第一特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述新闻搜索词与待选新闻文本的相关性信息以及所述新闻搜索词的权重，得到第一特征之前，还包括：

对所述新闻搜索词进行分词处理，得到分词结果；

8.一种新闻文本推送装置，其特征在于，所述装置包括：

接收模块，用于接收用户输入的新闻搜索词；

9.一种电子设备，特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-7任一所述新闻文本推送方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-7任一所述新闻文本推送方法的步骤。