CN110275943A

CN110275943A - 文章推送方法及装置

Info

Publication number: CN110275943A
Application number: CN201910564117.5A
Authority: CN
Inventors: 熊英超; 孙宏跃; 刘志远
Original assignee: Nanjing Zhongfu Information Technology Co Ltd
Current assignee: Nanjing Zhongfu Information Technology Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-09-24
Anticipated expiration: 2039-06-26
Also published as: CN110275943B

Abstract

本发明提供了一种文章推送方法及装置，涉及文章推送技术领域。该方法由服务器执行，服务器与用户终端通信连接，该方法包括：如果接收到用户终端发送的文章获取请求，判断文章获取请求中是否携带有搜索词；如果文章获取请求中携带有搜索词，则筛选出携带有搜索词的目标文章，并判断用户终端对应的用户账号中是否存在用户词表；用户词表中包括多个词语及每个词语所对应的权重；如果用户终端对应的用户账号中存在用户词表，则基于用户词表对目标文章进行排序，并将排序后的目标文章推送至用户终端。本发明是根据用户词表对目标文章进行排序的，会根据员工的用户词表推送员工想处理的文章，降低了员工重复工作的概率。

Description

文章推送方法及装置

技术领域

本发明涉及文章推送技术领域，尤其是涉及一种文章推送方法及装置。

背景技术

目前的文件处置平台是同关键词的正则匹配，文件的版式分析，相似文章发现等技术来发现需要处置文件，并给发现的文件做相关的标签标记。员工在使用目前的文件处理平台时，文件处理平台的显示的文章是相同的；当员工在现有的文件处理平台使用关键词搜索文章时，也会存在多个员工同时检索一个关键词的情况，这样可能会导致员工处理的文章相同，从而出现员工重复工作的概率较高的问题。

发明内容

本发明实施例的目的在于提供一种文章推送方法及装置，该方法是根据用户词表对目标文章进行排序的，会根据员工的用户词表推送员工想处理的文章，降低了员工重复工作的概率。

第一方面，本发明实施例提供了一种文章推送方法，该方法由服务器执行，所述服务器与用户终端通信连接，所述方法包括：如果接收到用户终端发送的文章获取请求，判断所述文章获取请求中是否携带有搜索词；如果所述文章获取请求中携带有所述搜索词，则筛选出携带有所述搜索词的目标文章，并判断所述用户终端对应的用户账号中是否存在用户词表；所述用户词表中包括多个词语及每个词语所对应的权重；如果所述用户终端对应的用户账号中存在所述用户词表，则基于所述用户词表对所述目标文章进行排序，并将排序后的所述目标文章推送至所述用户终端。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述方法还包括：接收所述用户终端发送的用户指示；其中，所述用户指示是用户在所述用户终端显示排序后的所述目标文章的列表后输入的；所述用户指示包括文章阅读请求和文章需求反馈；根据所述搜索词、所述目标文章的排序结果和所述用户指示对当前存储的所述用户词表进行更新。

结合第一方面或第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述方法还包括：如果所述文章获取请求中没有携带所述搜索词，则基于所述用户词表筛选出所述目标文章，并对所述目标文章进行排序，将排序后的所述目标文章推送至所述用户终端。

结合第一方面或第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述方法还包括：如果所述用户终端对应的用户账号中不存在所述用户词表，则基于公共词表对所述目标文章进行排序，并将排序后的所述目标文章推送至所述用户终端。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述基于所述用户词表对所述目标文章进行排序的步骤，包括：利用BM25算法计算所述用户词表中的预设排名的词语与所述目标文章之间的相关性分数，将所述目标文章按照所述相关性分数由高到低的顺序进行排序；所述用户词表中的所述词语的排名是按照所述词语对应的所述权重由大到小的顺序排列的。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述根据所述搜索词、所述目标文章的排序结果和所述用户指示对当前存储的所述用户词表进行更新的步骤，包括：计算所述搜索词的权重，并判断所述用户词表中是否存在所述词语与所述搜索词相同，如果是，则更新所述用户词表中所述搜索词对应的权重；如果否，将所述搜索词及所述搜索词的权重添加到所述用户词表；计算所述搜索词的权重的算式为：

其中，上述算式中的weight₀(w)为所述搜索词的初始权重，当所述用户词表中存在所述词语与所述搜索词相同时，所述初始权重为所述用户词表中记录的所述搜索词的权重；当所述用户词表中不存在所述词语与所述搜索词相同时，所述搜索词的初始权重为0；a表示奖励值系数，用户可自行设置；page表示页数；如果用户对第一文章输入所述文章阅读请求，利用TFIDF算法计算所述第一文章中全部关键词的重要程度TFIDF(v)，筛选出所述重要程度满足预设条件的所述关键词，并计算所述满足预设条件的所述关键词的权重，将所述关键词及所述关键词的权重添加到所述用户词表；所述第一文章为所述携带有所述搜索词的文章中的任意一篇文章；计算所述关键词的权重的算式为：

weight(v)＝weight₀(v)+TFIDF(v)*p_p

其中，weight₀(v)表示所述关键词的初始权重，当所述用户词表中存在所述词语与所述关键词相同时，所述关键词的初始权重为所述用户词表中记录的所述关键词的权重；当所述用户词表中不存在所述词语与所述关键词相同时，所述关键词的初始权重为0；上式中的rank表示所述第一文章的排序名次，b为常数，用户可自行设置；

如果用户对所述第一文章输入的所述文章需求反馈为符合需求时，计算所述第一文章的所述关键词的权重，并将所述第一文章的所述关键词及所述关键词的权重添加到所述用户词表中，计算所述第一文章的所述关键词的权重的算式为：

weight(v)＝weight₀(v)+c*TFIDF(v)

其中，c为常数，用户可自行设置；如果用户对所述第一文章输入的所述文章需求反馈为不符合需求时，计算所述第一文章的所述关键词的权重，并将所述第一文章的所述关键词及所述关键词的权重添加到所述用户词表中，计算所述第一文章的所述关键词的权重的算式为：

weight(v)＝weight(v)-c*TFIDF(v)。

结合第一方面或第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述方法还包括：所述用户词表中全部所述词语的所述权重根据用户连续两次使用所述用户终端的时间间隔进行衰减更新，所述用户词表中全部所述词语的所述权重的更新算式为：

weight＝weight₀-ηmax(Δt-0.5，0)

其中，上述算式中的weight表示所述用户词表中所述词语更新后的权重，weight₀表示所述用户词表中所述词语的当前权重，Δt表示连续两次使用所述用户终端的时间间隔，max表示取最大值运算，η值为常数，用户可以自行设置；所述用户词表中的所述词语的所述权重的取值范围是0.01～1，当所述词语的所述权重衰减为0.01时，所述词语从所述用户词表中删除。

第二方面，本发明实施例还提供了一种文章推送装置，所述装置设置于服务器，所述服务器与用户终端通信连接，所述装置包括：搜索词判断模块，用于在接收到用户终端发送的文章获取请求时，判断所述文章获取请求中是否携带有搜索词；词表判断模块，用于在所述文章获取请求中携带有所述搜索词时，则筛选出携带有所述搜索词的目标文章，并判断所述用户终端对应的用户账号中是否存在用户词表；所述用户词表中包括多个词语及每个词语所对应的权重；排序模块，用于在所述用户终端对应的用户账号中存在所述用户词表时，则基于所述用户词表对所述目标文章进行排序，并将排序后的所述目标文章推送至所述用户终端。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如第一方面所述的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读介质，其中，所述计算机可读介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器实现如第一方面所述的方法。

本发明实施例提供了一种文章推送方法及装置，该方法由服务器执行，服务器与用户终端通信连接，该方法包括：如果接收到用户终端发送的文章获取请求，判断文章获取请求中是否携带有搜索词；如果文章获取请求中携带有搜索词，则筛选出携带有搜索词的目标文章，并判断用户终端对应的用户账号中是否存在用户词表(用户词表中包括多个词语及每个词语所对应的权重)；如果用户终端对应的用户账号中存在用户词表，则基于用户词表对目标文章进行排序，并将排序后的目标文章推送至用户终端。该方法是根据用户词表对目标文章进行排序的，由于每个员工的用户词表都不会完全相同，即使员工输入相同的搜索词筛选出相同的目标文章，也会根据用户词表得到不同的目标文章排序结果，从而根据员工的用户词表推送员工想处理的文章，降低了员工重复工作的概率。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文章推送方法流程图；

图2为本发明实施例提供的一种文章推送方法流程图；

图3为本发明实施例提供的一种文章推送中的词表更新流程图；

图4为本发明实施例提供的一种文章推送装置结构示意图；

图5为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

员工在使用目前的文件处理平台时，一般文件处理平台显示的文章是相同的；当员工在现有的文件处理平台使用关键词搜索文章时，也会存在多个员工同时检索一个关键词的情况，从而使文件处理平台推送的文章及文章排序相同，这样可能会导致员工处理的文章相同，从而出现员工重复工作的概率较高的问题。

基于此，本发明实施例提供了一种文章推送方法及装置，该方法是根据用户词表对目标文章进行排序的，由于每个员工的用户词表都不会完全相同，即使员工输入相同的搜索词筛选出相同的目标文章，该方法也会根据用户词表得到不同的目标文章排序结果，根据员工的用户词表优先排列员工想处理的文章，降低了员工重复工作的概率。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种文章推送方法进行详细介绍。

实施例一：

本发明实施例提供的一种文章推送方法，参见如图1所示的文章推送方法流程图，该方法由服务器执行，服务器与用户终端通信连接，该方法包括以下步骤：

S102：如果接收到用户终端发送的文章获取请求，判断文章获取请求中是否携带有搜索词。

如果服务器接收到用户终端发送的文章获取请求，会判断该文章获取请求中是否携带有搜索词。其中，该文章获取请求可以是员工登录进入用户终端时，用户终端自动向服务器发出文章获取请求(也就是员工在用户终端输入自己的账号密码登录进入时，用户终端的首页就会显示出向员工推送的文章)；也可以是员工在用户终端输入搜索词进行文章搜索时，用户终端向服务器发送文章获取请求。

S104：如果文章获取请求中携带有搜索词，则筛选出携带有搜索词的目标文章，并判断用户终端对应的用户账号中是否存在用户词表；用户词表中包括多个词语及每个词语所对应的权重。

如果该文章获取请求是员工在用户终端输入搜索词后发出的，则该文章获取请求中携带有搜索词，服务器首先筛选出携带有搜索词的文章作为目标文章，然后判断员工登录的用户账号中是否存在用户词表(若用户已经登录过账号使用过该用户终端，则服务器中存在该用户账号对应的用户词表；若用户为新员工，第一次登录账号使用该用户终端，则服务器中不存在该用户账号对应的用户词表)。用户词表中包括多个词语及每个词语所对应的权重。每个用户都有的一个自己的词表，它实质上是一个词和其权重组成的映射关系表。它会以<用户，时间戳，词表>这样的形式储存在内存数据库中，并会持久化在关系型数据库中，时间戳可以是最近一次更新该用户词表的时间。服务器读取用户词表的时候会优先从内存数据库中读取时间戳最大的词表，也就是获取最新的用户词表。

S106：如果用户终端对应的用户账号中存在用户词表，则基于用户词表对目标文章进行排序，并将排序后的目标文章推送至用户终端。

如果服务器可以获取到用户通过用户终端登录的用户账户中是存在用户词表的，则获取最新的用户词表对上述目标文章进行排序，然后将排序后的目标文章推送至用户终端，使用户终端将完成排序的目标文章列表展示给用户或员工。在基于用户词表对目标文章进行排序时，需要使用推荐算法根据词表给用户推荐文章，或者说，使用推荐算法指定文章排序规则，文章与用户词表中权重高的词语相关度越高，则排名越靠前。

本发明实施例提供了一种文章推送方法，根据用户词表对目标文章进行排序，由于每个员工的用户词表都不会完全相同，即使员工输入相同的搜索词筛选出相同的目标文章，也会根据用户词表得到不同的目标文章排序结果，从而根据员工的用户词表推送员工想处理的文章，降低了员工重复工作的概率。

考虑到员工的用户词表的更新问题，本实施例提供了一种文章推送方法，在上述文章推送方法的基础上，增加了用户词表的更新步骤，参见如图2所示的文章推送方法流程图，该文章推送方法包括以下步骤：

S202：如果接收到用户终端发送的文章获取请求，判断文章获取请求中是否携带有搜索词。

S204：如果文章获取请求中携带有搜索词，则筛选出携带有搜索词的目标文章，并判断用户终端对应的用户账号中是否存在用户词表；用户词表中包括多个词语及每个词语所对应的权重。

S206：如果用户终端对应的用户账号中存在用户词表，则基于用户词表对目标文章进行排序，并将排序后的目标文章推送至用户终端。

S208：接收用户终端发送的用户指示；其中，用户指示是用户在用户终端显示排序后的目标文章的列表后输入的；用户指示包括文章阅读请求和文章需求反馈。

当用户终端将服务器发送的排序后的目标文章的列表显示出来后，用户会根据显示出的目标文章的列表在用户终端输入用户指令，用户终端在接收到用户指令后，会将用户指令发送至服务器，服务器接收用户终端发送的用户指令。具体的，用户指令包括文章阅读请求和文章需求反馈。用户在看到目标文章列表中的文章标题和/或摘要时，如果对文章感兴趣，想要继续阅读，会点击文章标题以打开文章，当用户点击其中一篇目标文章的标题后，用户终端会接收到用户的文章阅读请求，并将文章阅读请求发送至服务器，该文章阅读请求中包括该文章的标题信息。服务器会将该目标文章的全文发送至用户终端以显示该目标文章的全文。用户在看完文章之后可以对阅读过的文章进行反馈，用户终端可以提供“符合需求”、“不符合需求”和“不做评价”的选项供用户选择，也可以是提供对话框接收用户输入的文章需求反馈，并将文章需求反馈发送至服务器，该文章需求反馈包括用户输入的信息和该文章需求反馈对应的目标文章的标题。

S210：根据搜索词、目标文章的排序结果和用户指示对当前存储的用户词表进行更新。

服务器接收到用户指示后，会根据搜索词、目标文章的排序结果和用户指示对服务器中当前存贮的用户词表进行更新，以更新用户词表中的词语和词语对应的权重。

考虑到当文章获取请求中没有携带搜索词的情况，本实施例提供了文章获取请求中没有携带搜索词时的具体实施方式：

如果文章获取请求中没有携带搜索词，则基于用户词表筛选出目标文章，并对目标文章进行排序，将排序后的目标文章推送至用户终端。如果文章获取请求中没有携带搜索词，也就是用户没有在用户终端输入搜索词，则根据最新的用户词表作为搜索条件来查询文章，并使用推荐算法(根据词表给用户推荐文章的算法，或者说，指定文章排序规则的算法，例如BM25(Best Match 25)算法)对目标文章进行排序，然后将排序后的目标文章推送至用户终端，以使用户终端将目标文章的列表显示出来。

考虑到用户终端对应的用户账号中不存在用户词表的情况，本实施例提供了用户账号中不存在用户词表时的具体实施方式：

如果用户终端对应的用户账号中不存在用户词表，则基于公共词表对目标文章进行排序，并将排序后的目标文章推送至用户终端。如果用户终端对应的用户账号中不存在用户词表，也就是用户第一次在用户终端登录自己的用户账号，服务器会根据公共词表对目标文章进行排序，使用推荐算法对目标文章进行排序，并将排序后的目标文章推送至用户终端，以使用户终端将目标文章的列表显示出来。其中，公共词表是所有用户一起维护的词表。公共词表的查询和写入都是和用户词表一样的，这个表值只根据用户指示中的阅读需求反馈更新表中词语的权重。表中词语的权重的取值范围是[-1,1]，也就是有负分的概念。如果说用户词表代表的是微观态上每个员工对于符合需求的文章的理解，也就是符合需求的文章最可能具有的词语的权重。具体的使用方式有两个：一个是为新用户，也就是对于用户词表为空的用户，系统会使用公共词表来给他推荐文章，这样会远远好于用随机推荐的方式。第二个是为之后的机器自动判定提供重要参考依据，因为这个表描述的是所有员工所共同认为的符合需求的文章的状态。

为了使每个员工的目标文章排序结果都不相同，本实施例提供了一种基于用户词表对目标文章进行排序的具体实施方式：

利用BM25算法计算用户词表中的预设排名的词语与目标文章之间的相关性分数，将目标文章按照相关性分数由高到低的顺序进行排序；用户词表中的词语的排名是按照词语对应的权重由大到小的顺序排列的。首先将用户词表中的词语按照其对应权重的由大到小进行排序，然后利用BM25算法计算用户词表中预设排名(例如，可以是前100名)的所有词语与目标文章之间的相关性分数(也就是每一篇目标文章与预设排名词语的相关性分数，其中该相关性分数是一篇目标文章与每一个预设排名词语的相关性分数的累加)，最后将所有的目标文章按照与用户词表中预设排名词语的相关性分数由高到低的次序进行排序。本实施例中使用的服务器可以采用非关系型数据库，可以独自完成维护索引表和倒排索引表，还有包含基于BM25的文件排序打分算法，同时也可以加入词语的自定义权重。

为了保证每个员工的用户词表都不完全相同，本实施例提供了一种根据搜索词、目标文章的排序结果和用户指示对当前存储的用户词表进行更新的具体实施方式：

计算搜索词的权重，并判断用户词表中是否存在词语与搜索词相同，如果是，则更新用户词表中搜索词对应的权重；如果否，将搜索词及搜索词的权重添加到用户词表；计算搜索词的权重的算式为：

其中，上述算式中的weight₀(w)为搜索词的初始权重，当用户词表中存在词语与搜索词相同时，初始权重为用户词表中记录的搜索词的权重(也就是与搜索词相同的词语对应的权重)；当用户词表中不存在词语与搜索词相同时，搜索词的初始权重为0；a表示奖励值系数，用户可自行设置；page表示页数。当用户输入搜索词搜索文章时，该搜索词对应的权重会增加，也称为搜索词奖励，是对每一次搜索行为的奖励，也是增加词语权重的一种方式。用户在搜索框中搜索的词，会加上一个奖励值例如a可以是0.4，由于目标文章的数量可能比较多，会分成多页显示，因为直接搜索的默认显示页数是第一页，所以会加上0.4的奖励(也就是搜索词或与搜索词相同的词语的权重增加0.4)。如果用户翻页到第二页，奖励就变成0.2(也就是搜索词或与搜索词相同的词语的权重增加0.2)，如果用户翻页到第四页，奖励就是0.1(也就是搜索词或与搜索词相同的词语的权重增加0.1)，以此类推。但词语的权重奖励受制于权重的范围大小，当权重的值等于1时，将不再累加奖励。

如果用户对第一文章输入文章阅读请求，利用TFIDF(TermFrequency-InverseDocument Frequency，词频-逆文本频)算法计算第一文章中全部关键词的重要程度TFIDF(v)，筛选出重要程度满足预设条件的关键词(例如，该关键词可以是通过TFIDF算法，从文章中提取的排名前20个TFIDF(v)大于0.1的词语作为关键词。如果满足条件的词小于20个字，则仅提取满足条件的词语作为关键词)，并计算满足预设条件的关键词的权重，将关键词及关键词的权重添加到用户词表；第一文章为携带有搜索词的文章中的任意一篇文章；计算关键词的权重的算式为：

weight(v)＝weight₀(v)+TFIDF(v)*p_p

其中，weight(v)表示更新后的关键词的权重，weight₀(v)表示关键词的初始权重，当用户词表中存在词语与关键词相同时，关键词的初始权重为用户词表中记录的关键词的权重(也就是用户词表中记录的与关键词相同的词语的权重)；当用户词表中不存在词语与关键词相同时，关键词的初始权重为0；上式中的(p_p为惩罚系数)rank表示第一文章的排序名次，b为常数，用户可自行设置，TFIDF(v)为利用TFIDF算法提取并计算的第一文章的关键词的重要程度值。上述更新用户词表的方式也可以称为是排名惩罚，当用户输入文章阅读请求的目标文章的排名越靠前，惩罚越小，只有用户输入文章阅读请求对应的目标文章排名第一的时候，不惩罚。这个惩罚是通过奖励关键词从而惩罚搜索词的。这里认为用户输入文章阅读请求的目标文章排名越靠后，搜索词就越不好，即需要被惩罚。但每一个搜索行为都是需要被奖励的，所以通过奖励文章关键词来惩罚搜索词的相对占比。例如，排名惩罚的系数取值范围可以是(1，2)，计算算式为：

如果一个文件显示在第4页的第10个，而每页显示10个目标文章，那么文件排名就是40。上式中的常数b取值可以为40，表示在第4页的时候(例如每页有十篇目标文章)，惩罚系数是1.5。文件的排名rank表示的是一个文件在页面显示的位置。用户可以根据实际需求设置b值，从而得到不同的惩罚系数。

TFIDF算法是一种通过词频率和逆文本频率来衡量特定文本中每个词重要性的算法。这可以通过维护一个文本词频索引表和一个逆文本频索引表来技术。词频为一个词在一篇文章中出现的频率，文本频表示一个词在文本集中出现的频率(多少文本中包含该词)，逆文本频为文本频率的倒数，一个词语的词频-逆文本频率，可以表示为该词在该文本中的权重。计算算式如下：

tfidf_i，j＝tf_i，j*idf_i

其中，i为词i，j为文章j，D为文本集D，n_i，j为文章j中词i的数量，为包含词i的文章集合。

如果用户对第一文章输入的文章需求反馈为符合需求时，计算第一文章的关键词的权重，并将第一文章的关键词及关键词的权重添加到用户词表中，计算第一文章的关键词的权重的算式为：

weight(v)＝weight₀(v)+c*TFIDF(v)

其中，c为常数，用户可自行设置。其中，这种更新用户词表的方式可以称为正反馈奖励，常数c为奖励系数，例如常数c可以为5。上述第一文章可以为目标文章列表中的任意一篇目标文章。当用户对第一文章输入的文章需求反馈是符合需求时，也就是该目标文章为用户想要搜索并处理的文章，则计算该目标文章的所有关键词的权重，并将第一文章的所有关键词及关键词的权重添加到用户词表中。weight₀(v)表示关键词的初始权重，当用户词表中存在词语与关键词相同时，关键词的初始权重为用户词表中记录的关键词的权重(也就是用户词表中记录的与关键词相同的词语的权重)；当用户词表中不存在词语与关键词相同时，关键词的初始权重为0。当用户词表中存在词语与关键词相同时，则将计算出的关键词的权重，更新用户词表中与关键词相同词语的权重。

如果用户对第一文章输入的文章需求反馈为不符合需求时，计算第一文章的关键词的权重，并将第一文章的关键词及关键词的权重添加到用户词表中，计算第一文章的关键词的权重的算式为：

weight(v)＝weight(v)-c*TFIDF(v)

其中，这种更新用户词表的方式可以称为负反馈惩罚(也就是用户认为其阅读的目标文章不是他所需要的文章)，常数c为奖励系数，例如常数c可以为5。则被输入不符合要求的目标文章的关键词的权重将会减少很多。如果用户输入的文章反馈需求为不做判断，用户词表不做更新处理。

考虑到没有用户指示时，用户词表中权重的更新，本实施例提供了用户词表中的权重根据时间更新的具体实施方式：

用户词表中全部词语的权重根据用户连续两次使用用户终端的时间间隔进行更新，用户词表中全部词语的权重的更新(也称为权重衰减)算式为：

weight＝weight₀-ηmax(Δt-0.5，0)

其中，上述算式中的weight表示用户词表中词语更新后的权重，weight₀表示用户词表中词语的当前权重，Δt表示连续两次使用用户终端的时间间隔，max表示取最大值运算，η值为常数(为权重衰减参数)，用户可以自行设置。用户词表中的词语的权重的取值范围是0.01～1，当词语的权重衰减为0.01时，词语从用户词表中删除。用户词表中所有词语的权重都会在每一次用户操作结束后衰减，即数值变小。衰减的比例跟距离上一次操作的时间差Δt有关，时间差越大，衰减率越大。当衰减到0.01以下的时候，该词语及其权重会被从用户词表中移除。时间差以天为单位并用小数表示，如Δt＝1.5表示时间差为1天半。权重的衰减率由权重衰减参数η决定。上述权重更新的算式设置结合了员工的实际使用情况：当Δt小于等于0.5也就是半天的时候，weight＝weight₀，也就意味着权重不衰减。在实际使用中，如果两次操作的时间间隔小于半天，权重就不会衰减，这样以确保在连续的工作场景下搜索出来的结果不会因为权重的变化而做出过大的变化。而当时间间隔大于0.5天时，也就是员工第二天来上班或者时过完周末或者节假日来上班。用户使用用户终端登录用户账号的操作会激发权重衰减，从而检索出和上一次的目标文章列表不一样的结果，而搜索结果的差异也随着时间差的增大而增大。权重衰减参数η的取值可以取值在0.01左右。也就意味着，如果该员工100天没有进入用户终端登录其用户账号，该员工的用户词表中的所有权重会被衰减为0，也就时该员工的所有操作记录被清除了。在实际情况中，可以认为这个100天没有操作的员工离职了，而这新的一次操作来源于不同的员工。所以这种清除记录的行为也是很符合实际情况。η的取值也可以根据公司的实际规则来规定。

在实际应用中，作为一种可行的实施方式，如图3所示的文章推送中的词表更新流程图，当用户进入系统时，也就是用户再次在用户终端登录其用户账号时，由于距离上次登录是有时间间隔的，因此服务器会根据上述权重衰减算式更新用户词表中的权重，使用户词表发生词表衰减。服务器还会判断用户终端发送的文章获取请求中是否携带有搜索词，如果有，筛选出携带有搜索词的目标文章，还需要进行搜索词奖励的方式(即上述判断用户词表中是否存在词语与搜索词相同，如果是，则计算搜索词的权重，并更新用户词表中搜索词对应的权重的具体过程)更新用户词表；然后判断该用户终端对应的用户账号中是否存在用户词表，如果不存在用户词表则需要调取公共词表，如果存在用户词表，则使用用户词表对目标文章进行排序，并推送到用户终端的推荐系统页面显示目标文章的列表，在用户执行翻页操作时，判断翻页操作是否带有搜索词，如果有则进行搜索词奖励的方式更新用户词表；如果用户点击目标文章中的其中一篇文章(也就是用户输入了文章阅读请求)，则根据用户的文章阅读请求更新用户词表，其中更新方式包括权重衰减、排名惩罚和关键词奖励；当用户输入文章需求反馈时，如果用户输入的文章需求反馈是符合需求(也就是正向判定)，则根据用户输入的文章需求反馈更新用户词表，即对用户词表以正反馈奖励的方式更新词表的权重(图中的词表衰减是指对词表权重的更新)，同时更新公共词表中的词语及权重；如果用户输入的文章需求反馈是不符合需求(也就不是正向判定)，则根据用户输入的文章需求反馈更新用户词表，即对用户词表以负反馈惩罚的方式更新词表的权重(图中的词表衰减是指对词表权重的更新)，同时更新公共词表中的词语及权重。

本发明实施例提供了一种文章推送方法，该方法会根据用户的操作行为来找到用户更想处理到的文章，使每个用户通过用户终端看到的文件都是不同的，从而避免重复劳作；且该用户词表的更新考虑到了时间轴，通过调整权重参数来控制清空词表的时间，也同时随着时间变动用户词表，从而符合日常生活中的推着时间推移的事件变动的情况。

实施例二：

本发明实施例提供了一种文章推送装置，参见如图4所示的一种文章推送装置结构示意图，该装置包括：

搜索词判断模块41，用于在接收到用户终端发送的文章获取请求时，判断文章获取请求中是否携带有搜索词。

词表判断模块42，用于在文章获取请求中携带有搜索词时，则筛选出携带有搜索词的目标文章，并判断用户终端对应的用户账号中是否存在用户词表；用户词表中包括多个词语及每个词语所对应的权重。

排序模块43，用于在用户终端对应的用户账号中存在用户词表时，则基于用户词表对目标文章进行排序，并将排序后的目标文章推送至用户终端。

在一种实施方式中，上述装置还包括：

用户指示模块，用于接收用户终端发送的用户指示；其中，用户指示是用户在用户终端显示排序后的目标文章的列表后输入的；用户指示包括文章阅读请求和文章需求反馈。

在一种实施方式中，上述装置还包括：

词表更新模块，用于根据搜索词、目标文章的排序结果和用户指示对当前存储的用户词表进行更新。

在一种实施方式中，上述装置还包括：

文章筛选模块，用于在文章获取请求中没有携带搜索词时，则基于用户词表筛选出目标文章，并对目标文章进行排序，将排序后的目标文章推送至用户终端。

在一种实施方式中，上述装置还包括：

公共词表模块，用于在用户终端对应的用户账号中不存在用户词表时，则基于公共词表对目标文章进行排序，并将排序后的目标文章推送至用户终端。

在一种实施方式中，上述排序模块43进一步用于利用BM25算法计算用户词表中的预设排名的词语与目标文章之间的相关性分数，将目标文章按照相关性分数由高到低的顺序进行排序；用户词表中的词语的排名是按照词语对应的权重由大到小的顺序排列的。

在一种实施方式中，上述词表更新模块进一步用于计算所述搜索词的权重，并判断所述用户词表中是否存在所述词语与所述搜索词相同，如果是，则更新所述用户词表中所述搜索词对应的权重；如果否，将所述搜索词及所述搜索词的权重添加到所述用户词表；计算搜索词的权重的算式为：

其中，上述算式中的weight₀(w)为搜索词的初始权重，当用户词表中存在词语与搜索词相同时，初始权重为用户词表中记录的搜索词的权重；当用户词表中不存在词语与搜索词相同时，搜索词的初始权重为0；a表示奖励值系数，用户可自行设置；page表示页数。

如果用户对第一文章输入文章阅读请求，利用TFIDF算法计算第一文章中全部关键词的重要程度TFIDF(v)，筛选出重要程度满足预设条件的关键词，并计算满足预设条件的关键词的权重，将关键词及关键词的权重添加到用户词表；第一文章为携带有搜索词的文章中的任意一篇文章；计算关键词的权重的算式为：

weight(v)＝weight₀(v)+TFIDF(v)*p_p

其中，weight₀(v)表示关键词的初始权重，当用户词表中存在词语与关键词相同时，关键词的初始权重为用户词表中记录的关键词的权重；当用户词表中不存在词语与关键词相同时，关键词的初始权重为0；上式中的rank表示第一文章的排序名次，b为常数，用户可自行设置。

weight(v)＝weight₀(v)+c*TFIDF(v)

其中，c为常数，用户可自行设置。

weight(v)＝weight(v)-c*TFIDF(v)。

在一种实施方式中，上述装置还包括：

权重更新模块，用于使用户词表中全部词语的权重根据用户连续两次使用用户终端的时间间隔进行更新，用户词表中全部词语的权重的更新算式为：

weight＝weight₀-ηmax(Δt-0.5，0)

其中，上述算式中的weight表示用户词表中词语更新后的权重，weight₀表示用户词表中词语的当前权重，Δt表示连续两次使用用户终端的时间间隔，max表示取最大值运算，η值为常数(为权重衰减参数)，用户可以自行设置。用户词表中的词语的权重的取值范围是0.01～1，当词语的权重衰减为0.01时，词语从用户词表中删除。

本发明实施例提供了一种文章推送装置，与上述实施例一提供的文章推送方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例三：

本发明实施例提供的一种电子设备，如图5所示，电子设备包括处理器51、存储器52，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例一提供的方法的步骤。

参见图5，电子设备还包括：总线54和通信接口53，处理器51、通信接口53和存储器52通过总线54连接。处理器51用于执行存储器52中存储的可执行模块，例如计算机程序。

其中，存储器52可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线54可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器52用于存储程序，所述处理器51在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器51中，或者由处理器51实现。

处理器51可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等。还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器52，处理器51读取存储器52中的信息，结合其硬件完成上述方法的步骤。

实施例四：

本发明实施例提供的一种计算机可读介质，其中，所述计算机可读介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器实现实施例一所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种文章推送方法，其特征在于，该方法由服务器执行，所述服务器与用户终端通信连接，所述方法包括：

如果接收到用户终端发送的文章获取请求，判断所述文章获取请求中是否携带有搜索词；

如果所述文章获取请求中携带有所述搜索词，则筛选出携带有所述搜索词的目标文章，并判断所述用户终端对应的用户账号中是否存在用户词表；所述用户词表中包括多个词语及每个词语所对应的权重；

如果所述用户终端对应的用户账号中存在所述用户词表，则基于所述用户词表对所述目标文章进行排序，并将排序后的所述目标文章推送至所述用户终端。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收所述用户终端发送的用户指示；其中，所述用户指示是用户在所述用户终端显示排序后的所述目标文章的列表后输入的；所述用户指示包括文章阅读请求和文章需求反馈；

根据所述搜索词、所述目标文章的排序结果和所述用户指示对当前存储的所述用户词表进行更新。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

如果所述文章获取请求中没有携带所述搜索词，则基于所述用户词表筛选出所述目标文章，并对所述目标文章进行排序，将排序后的所述目标文章推送至所述用户终端。

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

如果所述用户终端对应的用户账号中不存在所述用户词表，则基于公共词表对所述目标文章进行排序，并将排序后的所述目标文章推送至所述用户终端。

5.根据权利要求1所述的方法，其特征在于，所述基于所述用户词表对所述目标文章进行排序的步骤，包括：

利用BM25算法计算所述用户词表中的预设排名的词语与所述目标文章之间的相关性分数，将所述目标文章按照所述相关性分数由高到低的顺序进行排序；所述用户词表中的所述词语的排名是按照所述词语对应的所述权重由大到小的顺序排列的。

6.根据权利要求2所述的方法，其特征在于，所述根据所述搜索词、所述目标文章的排序结果和所述用户指示对当前存储的所述用户词表进行更新的步骤，包括：

计算所述搜索词的权重，并判断所述用户词表中是否存在所述词语与所述搜索词相同，如果是，则更新所述用户词表中所述搜索词对应的权重；如果否，将所述搜索词及所述搜索词的权重添加到所述用户词表；计算所述搜索词的权重的算式为：

其中，上述算式中的weight₀(w)为所述搜索词的初始权重，当所述用户词表中存在所述词语与所述搜索词相同时，所述初始权重为所述用户词表中记录的所述搜索词的权重；当所述用户词表中不存在所述词语与所述搜索词相同时，所述搜索词的初始权重为0；a表示奖励值系数，用户可自行设置；page表示页数；

如果用户对第一文章输入所述文章阅读请求，利用TFIDF算法计算所述第一文章中全部关键词的重要程度TFIDF(v)，筛选出所述重要程度满足预设条件的所述关键词，并计算所述满足预设条件的所述关键词的权重，将所述关键词及所述关键词的权重添加到所述用户词表；所述第一文章为所述携带有所述搜索词的文章中的任意一篇文章；计算所述关键词的权重的算式为：

weight(v)＝weight₀(v)+TFIDF(v)*p_p

weight(v)＝weight₀(v)+c*TFIDF(v)

其中，c为常数，用户可自行设置；

如果用户对所述第一文章输入的所述文章需求反馈为不符合需求时，计算所述第一文章的所述关键词的权重，并将所述第一文章的所述关键词及所述关键词的权重添加到所述用户词表中，计算所述第一文章的所述关键词的权重的算式为：

weight(v)＝weight(v)-c*TFIDF(v)。

7.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

所述用户词表中全部所述词语的所述权重根据用户连续两次使用所述用户终端的时间间隔进行更新，所述用户词表中全部所述词语的所述权重的更新算式为：

weight＝weight₀-ηmax(Δt-0.5,0)

其中，上述算式中的weight表示所述用户词表中所述词语更新后的权重，weight₀表示所述用户词表中所述词语的当前权重，Δt表示连续两次使用所述用户终端的时间间隔，max表示取最大值运算，η值为常数，用户可以自行设置；

所述用户词表中的所述词语的所述权重的取值范围是0.01～1，当所述词语的所述权重衰减为0.01时，所述词语从所述用户词表中删除。

8.一种文章推送装置，其特征在于，所述装置设置于服务器，所述服务器与用户终端通信连接，所述装置包括：

搜索词判断模块，用于在接收到用户终端发送的文章获取请求时，判断所述文章获取请求中是否携带有搜索词；

词表判断模块，用于在所述文章获取请求中携带有所述搜索词时，则筛选出携带有所述搜索词的目标文章，并判断所述用户终端对应的用户账号中是否存在用户词表；所述用户词表中包括多个词语及每个词语所对应的权重；

排序模块，用于在所述用户终端对应的用户账号中存在所述用户词表时，则基于所述用户词表对所述目标文章进行排序，并将排序后的所述目标文章推送至所述用户终端。

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读介质，其特征在于，所述计算机可读介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器实现权利要求1至7任一项所述的方法。