CN109376302A - 一种新闻推荐系统和方法 - Google Patents
一种新闻推荐系统和方法 Download PDFInfo
- Publication number
- CN109376302A CN109376302A CN201811196951.5A CN201811196951A CN109376302A CN 109376302 A CN109376302 A CN 109376302A CN 201811196951 A CN201811196951 A CN 201811196951A CN 109376302 A CN109376302 A CN 109376302A
- Authority
- CN
- China
- Prior art keywords
- characteristic
- feature
- information
- value
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种新闻推荐系统及方法,其中新闻推荐系统,包括:通信接口,其经配置以接收来自由客户端中一个或多个特征信息;以及一个或多个处理器,服务器端运行于一个或多个处理器上,其经配置以根据一个或多个特征信息确定推荐的新闻;其中,特征信息包括:静态特征信息和动态特征信息;其中,通信接口进一步经配置以将推荐的新闻发送到客户端。本发明新闻推荐系统实时的获取用户行为,将用户行为反馈到模型中进行训练,并根据训练结果,实时的推荐用户感兴趣的内容。有效的提高了用户阅读体验。
Description
技术领域
本发明涉及移动互联网技术领域,特别地涉及一种新闻推荐系统和方法。
背景技术
随着互联网多元化的发展,用户可以了解到各种各样的信息,但是网上各种信息杂乱无章,也使得用户寻找感兴趣的信息困难,通常需要很长的时间。因此,目前多数的网站和APP都具有推荐系统,通过大量的数据分析的结果对用户进行推荐内容。但是传统的网站或者APP的做法是通过离线的模型训练数据,然后导入到线上使用,这样会导致用户收到想要的内容存在延迟,而现有的技术通常需要延迟几个小时或者几天不等,无法及时的将用户行为反馈到模型中,更加无法及时的推荐分析结果的内容到用户。因此,本领域需要一种新型的推荐系统以及推荐方法。
发明内容
针对现有技术中存在的技术问题,本发明提出了一种新闻推荐系统,包括:通信接口,其经配置以接收来自由客户端中一个或多个特征信息;以及一个或多个处理器,服务器端运行于一个或多个处理器上,其经配置以根据一个或多个特征信息确定推荐的新闻;其中,特征信息包括:静态特征信息和动态特征信息;其中,通信接口进一步经配置以将推荐的新闻发送到客户端。
如上所述的系统,其中每天或者每2天或者以更长时间间隔更新静态特征信息。
如上所述的系统,其中实时更新动态特征信息。
如上所述的系统,其中,静态/动态特征信息还包括:用户静态/动态特征信息和文章静态/动态特征信息。
如上所述的系统,其中,服务器端包括计算核心,其经配置以处理特征信息,根据经处理的特征信息训练模型以及应用模型确定推荐的新闻。
如上所述的系统,其中,计算核心包括:特征处理模块,其接收通信接口收集的特征信息,并对特征信息进行处理;模型训练模块,其接收特征处理模块数据,并对模型进行训练;以及推荐服务模块,其用来计算推荐新闻分值,并按照分值顺序推荐到客户端。
如上所述的系统,其中服务器端包括:特征数据库,其用来存储经特征处理模块处理的特征值,并将特征值数据转发给推荐服务模块。
如上所述的系统,其中服务器端包括:参数数据库,其用来存储模型训练产生的特征参数,并将特征参数转达给推荐服务模块。
如上所述的系统,其中模型训练模块包括:第一计算模块,其用来接收特征处理模块转发的特征数据,调取参数数据库中的特征参数,并计算特征新的权重值(w);第二计算模块,其用来计算第一计算模块多个特征权重值的加和;以及第三计算模块,其用来根据第二计算模块的多个权重值加和计算各特征的权重中间值(z)和迭代次数(n)。
如上所述的系统,其中推荐服务模块包括:第一计算模块,调取特征数据库中的特征数据以及参数数据库中特征参数,并计算特征新的权重值(w);第二计算模块,其用来计算第一计算模块多个特征权重值的加和;第三计算模块,其根据第二计算模块的特征权重值加和计算推荐新闻文章分值;以及推荐模块,其根据第三计算模块文章分值排序推荐给客户端。
根据本发明另一方面,提出了一种新闻推荐方法,包括从客户端收集一个或多个特征信息;利用收集的一个或多个特征信息计算待推荐文章的分值;以及按照文章分值排序向用户推荐一篇或多篇文章;其中,特征信息包括:静态特征信息和动态特征信息。
如上所述的方法,其中利用收集的一个或多个特征信息计算待推荐文章的分值包括:对收集的特征信息进行处理,获得特征值;利用获得的特征值训练模型,获得特征参数;以及存储获得的特征值和特征参数。
如上所述的方法,其中利用对收集的特征信息进行处理的结果训练模型包括:接收对收集的特征信息进行处理获得的特征值;调取现有模型的特征参数;根据现有模型的特征参数和对收集的特征信息进行处理的结果计算新的特征参数;以及将现有模型的特征参数更新为新的特征参数。
如上所述的方法,其中所述特征参数包括:特征权重值(w);特征中间值(z);以及迭代次数(n);计算新的特征参数包括:调取原有特征参数w、z、n;根据z值和n值计算新的w;计算多个特征的w加和;根据多个特征w的加和计算新的z和n;以及更新特征参数w、z、n。
如上所述的方法,其中计算待推荐文章的分值包括:根据更新的特征参数w计算w加和,以及根据w加和计算待推荐文章的分值。
如上所述的方法,将特征值存储于特征数据库,以及更新特征数据库中的特征值。
如上所述的方法,将特征参数存储于参数数据库,以及更新参数数据库中的特征参数。
本发明新闻推荐系统实时的获取用户行为,将用户行为反馈到模型中进行训练,并根据训练结果,实时的推荐用户感兴趣的内容。有效的提高了用户阅读体验。
附图说明
下面,将结合附图对本发明的优选实施方式进行进一步详细的说明,其中:
图1是现有技术的新闻推荐系统示意图;
图2是现有技术的新闻推荐方法示意图;
图3是根据本发明的一个实施例的新闻推荐系统应用环境示意图;
图4是根据本发明一个实施例的新闻推荐服务器的示意图;
图5是根据本发明一个实施例的客户端设备的示意图;
图6是根据本发明一个实施例的新闻推荐系统交互的示意图;
图7是根据本发明一个实施例的计算核心示意图;
图8为根据本发明一个实施例的新闻推荐方法流程图;
图9为根据本发明一个实施例的模型训练方法的流程图;以及
图10为根据本发明一个实施例的推荐服务计算方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的详细描述中,可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中,相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述,使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解,还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。
图1是现有技术的新闻推荐系统示意图。如图所示,新闻推荐系统100包括模型训练模块101、日志存储器102以及通信接口103。其中,日志存储器102用于存储用户日常操作的日志文件,并将日志文件传送到模型训练模块101,或者通过人为导出的方式将日志文件导入到模型训练模块中。模型训练模块可以通过单机或者spark集群对日志文件中的数据进行训练,并得出模型文件。通信接口103可以将模型训练模块的模型文件按照一定时间间隔推送到线上使用,推荐给用户。
图2是现有技术的新闻推荐方法示意图。如图所示,在步骤201,收集日志数据,并将日志数据存储到日志存储器中,日志存储器可以按照一定时间传送给模型训练模块。
在步骤202,模型训练模块接收到日志文件中的数据,对数据进行训练,得到模型文件。由于训练的数据量较大,模型训练模块通过单机或者spark集群训练数据至少需要几个小时的时间。
在步骤203,通信接口可以将模型训练文件按照一定的时间间隔导入到线上使用,将内容推荐给用户。
现有的这种推荐系统以及推荐方法通过存储器存储日常的数据文件,再导入到离线的训练模型对数据进行训练,然后按照一定的时间间隔导入线上使用,这样会导致无法及时的将用户行为反馈到模型判断中,也无法及时的推荐用户感兴趣的内容。
图3是根据本发明的一个实施例的新闻推荐系统应用环境示意图。如图所示,新闻推荐系统应用环境包括一个或多个在通信网络上的客户端设备302、应用服务器304、网页服务器306、服务器负载平衡器308、云负载平衡器310。应用服务器304、网页服务器306、服务器负载平衡器308、云负载平衡器310通信地耦合到一个或多个数据库312。
通信网络能够是覆盖行政区、国家、大陆或其组合的任意多级网络。通信网络的示例能够包括:蜂窝网络,诸如3G网络、4G网络、长期演进(LTE)网络;声波通信网络;卫星网络;广域网,诸如因特网;或它们的组合。应用服务器304、网页服务器306、服务器负载平衡器308、云负载平衡器310能够通过连接被通信地耦合到通信网络。连接能够是有线连接、无线连接或它们的组合。
新闻推荐系统或其中的一部分能够包括由计算云(诸如,阿里云、腾讯云、百度云、Windows AzureTM云、亚马逊弹性计算云(Amazon EC2)TM、Google App EngineTM或它们的组合)作为主机管理(host)的网页和/或移动应用。例如,新闻推荐系统能够包括在一个或多个应用服务器304、网页服务器306或它们的组合作为主机管理的虚拟机器上运行的网页和/或移动应用。在一个实施例中,计算云能够包括一个或多个应用服务器304、网页服务器306、数据库312、服务器负载平衡器308、云负载平衡器310、其中的部分或它们的组合。
云负载平衡器310能够在多个网页服务器306之间提供流量负载平衡和分配客户请求。网页服务器306能够包括HTTP服务器或者依赖计算云来处理HTTP请求。网页服务器306还能够由计算云实例化和管理。
服务器负载平衡器308能够平衡网页服务器306和一个或多个应用服务器304之间的互动。应用服务器304能够处理应用逻辑并且与数据库312互动以存储数据和应用状态。网页服务器306、应用服务器304或它们的组合能够包括机架式服务器、集群服务器、刀片服务器、主机、专用台式电脑或笔记本电脑,或它们的组合。
数据库312能够是一个或多个SQL数据库。应用服务器304能够与管理SQL数据库的一个或多个SQL服务器交互。应用数据和应用状态能够被存储在云管理的SQL数据库中。在另一些实施例中,数据库312能够是面向文档型数据库,包括诸如数据库的NoSQL数据库。
客户端设备302能够包括便携式计算设备,诸如智能手机、平板电脑、笔记本电脑、智能手表、个人娱乐设备或它们的组合。在另一些实施例中,客户端设备302还能够包括台式计算机。
图4是根据本发明一个实施例的新闻推荐服务器400的示意图。如图所示,服务器400能够具有一个或多个处理器402、存储器404和通信接口406。处理器402能够通过高速总线被耦合到存储器404和通信接口406。服务器400能够表示图3中的网页服务器306、应用服务器304或它们的组合中的任意一种。
处理器402能够包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或它们的组合。处理器402能够执行存储在存储器404中的软件或计算机可读指令以执行本文描述的方法或操作。处理器402能够以若干不同的方式来实施。例如,处理器402能够包括一个或多个嵌入式处理器、处理器核心、微型处理器、逻辑电路、硬件有限状态机(FSM)、数字信号处理器(DSP)或它们的组合。例如,处理器402能够是64位处理器。
存储器404能够存储软件、数据、日志或它们的组合。存储器404能够是内部存储器。替代地,存储器404能够是外部存储器,诸如驻留在存储节点、云服务器或存储服务器上的存储器。存储器404能够是易失性存储器或非易失性存储器。例如,存储器404能够是诸如非易失性随机存取存储器(NVRAM)、闪存、磁盘存储器的非易失性存储器,或者是诸如静态随机存取存储器(SRAM)的易失性存储器。存储器404能够是用于服务器400的主存储单元。
通信接口406能够包括一个或多个有线或无线通信接口。例如,通信接口406能够是服务器400的网络接口卡。通信接口406能够是无线调制解调器或有线调制解调器。在一个实施例中,通信接口406能够是WiFi调制解调器。在另一些实施例中,通信接口406能够是3G调制解调器、4G调制解调器、LTE调制解调器、蓝牙组件、射频接收器、天线或它们的组合。服务器400能够使用通信接口406连接到通信网络或者与通信网络通信地耦合。服务器400能够使用通信接口406传输或者接收包或消息。
图5是根据本发明一个实施例的客户端设备的示意图。客户端设备500能够具有客户端处理器512、客户端存储器514、客户端通信单元516、以及显示器518。客户端处理器512能够通过高速总线被耦合到客户端存储器514、和客户端通信单元516。
客户端处理器512能够包括一个或多个CPU、GPU、ASIC、FPGA或它们的组合。客户端处理器512能够执行存储在客户端存储器514中的软件以执行本文描述的方法。客户端处理器512能够以若干不同的方式来实施。例如,客户端处理器512能够是嵌入式处理器、处理器核心、微型处理器、逻辑电路、硬件FSM、DSP或它们的组合。作为一个具体的示例,客户端处理器512能够是32位处理器,诸如处理器。
客户端存储器514能够存储软件、数据、日志或它们的组合。在一个实施例中,客户端存储器514能够是内部存储器。在另一个实施例中,客户端存储器514能够是外部存储单元。客户端存储器514能够是易失性存储器或非易失性存储器。例如,客户端存储器514能够是诸如NVRAM、闪存、磁盘存储器的非易失性存储器,或者是诸如SRAM的易失性存储器。客户端存储器514能够是用于客户端设备500的主存储单元。
客户端通信单元516能够是有线或无线通信接口。例如,客户端通信单元516能够是客户端设备的网络接口卡。客户端通信单元516能够是无线调制解调器或有线调制解调器。在一个实施例中,客户端通信单元516能够是WiFi调制解调器。在另一些实施例中,客户端通信单元516能够是3G调制解调器、4G调制解调器、LTE调制解调器、蓝牙组件、射频接收器、天线或它们的组合。客户端设备能够使用客户端通信单元516连接到通信网络或者与通信网络通信地耦合。客户端设备500能够使用客户端通信单元516传输或者接收包或消息。
显示器518能够是诸如液晶显示器(LCD)的触摸屏显示器、薄膜晶体管(TFT)显示器、有机发光二极管(OLED)显示器或者有源矩阵有机发光二极管(AMOLED)显示器。在某些变型中,显示器518能够是视网膜显示器、触觉触摸屏或它们的组合。例如,当客户端设备500是智能手机时,显示器518能够是智能手机的触摸屏显示器。
客户端设备500通过显示器518展示的图形用户界面(GUI)与用户交互。GUI能够向用户展示内容,用户能够根据展示的内容将用户输入应用到GUI上的按钮、文本框、或链接。响应于将用户输入应用到按钮、文本框、或链接,客户端设备500根据处理器执行的软件或者经过与服务器400通信后向用户展示新的内容。
客户端设备500还可以包括输入装置,例如键盘、触摸屏等。如本领域技术人员所了解的,客户端设备500还可以包括其他功能的装置,以满足客户的需要。
图6是根据本发明一个实施例的新闻推荐系统交互的示意图。如图所示,新闻推荐系统交互过程运行在客户端610和服务器端620。在一些实施例中,客户端610可以运行在客户端设备500上;服务器端620可以运行在服务器400上。本发明的新闻推荐系统可以运行在服务器端620。
在一些实施例中,客户端610包括但不限于运行于IOS系统、Android系统、Window系统或者其他系统的APP、网页(Web)端、微信客户端或微信小程序、嵌入其他第三方应用程序的独立或非独立的程序等。客户端610向用户提供图形交互界面(GUI),从用户获得信息,并向用户展示内容和结果。
如图所示,服务器端620包括应用接口630、计算核心640、特征数据库681和参数数据库682。应用接口630用于服务器端620与客户端610通信。具体而言,应用接口630将来自客户端610的用户特征发送到计算核心640,以及将来自计算核心640的推荐内容发送到客户端610。在一些实施例中,应用接口630具有负载均衡的功能,以保证客户端610与计算核心640之间通信的高效。例如应用接口630可以包括云负载平衡器和一个或多个介入服务器。
计算核心640执行新闻推荐中的计算功能。例如,计算核心640可以包括服务器负载平衡器和一个或多个负载服务器。计算核心640与包括一个或多个数据库的多个存储服务器通信。这些数据库包括但不限于特征数据库681和参数数据库682中的一种或其结合。
在一些实施例中,计算核心640包括推荐服务模块650,其基于特征数据库681提供的特征信息计算推荐给用户的内容。所谓“特征信息”可以包括静态特征信息和动态特征信息。
在一些实施例中,特征信息与用户操作客户端的行为有关。例如:用户静态特征信息:用户年龄、性别、用户ID、手机号、地域、安装APP列表、推广渠道来源等等;或者用户动态特征信息:时间、场景、位置、用户最近阅读信息等等。
在一些实施例中,特征信息与客户端文章信息有关。例如:文章静态特征信息:文章关键词、文章作者、文章长度、发布时间等等;或者文章动态特征信息:文章阅读情况、文章点赞情况、文章评论情况、文章的热度等等。
在一些实施例中,特征数据库681可以分为多个区域,每个区域存储同一类型的特征信息,有利于保证系统的性能,支持不同的更新频次或者关键信息的更新。例如:静态特征信息可以按照固定的时间(例如一天、两天或者更长时间等)更新,而动态特征信息则需要实时进行更新,即可以将静态特征信息存储在一个区域,动态特征信息存储在一个区域。或者还可以将用户静态特征信息、用户动态特征信息、文章静态特征信息以及文章动态特征信息分别存储于不同区域。或者还可以将一些重要的信息单独存储一个区域。
在一些实施例中,推荐服务模块650进一步基于参数数据库682提供的各特征的参数计算推荐给用户内容的分值。在一些实施例中,各特征的参数被定义为各特征的权重值。这样,推荐给用户内容的分值可以符合如下公式:
其中,S(x)表示文章的分值;x表示特征权重值的加和。在一些实施例中,参数数据库采用分布式设计,可支持每秒千万次的读写,连接了模型训练模块和推荐服务模块,保证了训练模型到线上应用的实时性。
在一些实施例中,推荐服务模块650以参数数据库的数据以及特征数据库的数据计算得出特征权重值的加和。例如:计算节点1计算每个特征的权重值,计算节点2将计算节点1的权重值进行加和得出多个权重值的加和。即:
sum(wx)=wx1+wx2+…(3)
其中,wi表示某一特征权重值;zi表示某一特征权重中间值;ni表示某一权重的迭代次数;α、β、λ1、λ2表示为参数因子;sum(wx)表示特征权重加和;wx1、wx2表示每个特征权重。
在一些实施例中,计算核心640进一步包括特征处理模块660。特征处理模块660用于处理收集到的特征信息,在一些实施例中,还可以将处理完的特征信息存储到特征数据库对服务器数据进行更新。在一些实施例中,根据特征的种类不同,可以选用不同的公式处理。这样,特征处理可以符合如下公式:
平均分布公式为:
指数分布公式为:f=Log(value) (5)
其中,f表示特征的特征值;value表示特征;max表示分布区间最大值,min表示分布区间最小值。
在一些实施例中,特征处理模块660可以对特征进行归一化处理,特征信息可以划分区域。例如:用户年龄可以分成多个区间是10岁以下、10-20岁、20-30岁、30-40岁、40-50岁、50-60岁、还是60岁以上。例如一个15岁的用户,如果用平均分布公式处理年龄特征,即value=15;max=20;min=10。可以得出特征值f=1.5;如果用指数分布公式处理年龄特征,即value=15。可以得出特征值f≈1.176。在一些实施例中,不同的特征采用不同的公式处理。或者不同类型的特征采用不同的公式处理。
在一些实施例中,特征处理模块660还可对标签型特征进行依据配置。例如:关键词为篮球、体育、足球等等,可以依据用户的信息配置为用户喜欢篮球、体育或者足球等等。如果喜欢该关键词赋值为1,如果不喜欢该关键词赋值为0。在一些实施例中,特征配置还可以进行交叉、部分交叉或者的方式赋值,例如:关键词为篮球&体育,依据用户的信息配置为用户是否同时喜欢篮球和体育,如果同时喜欢赋值为1,如果不喜欢则赋值为0。在另外一些实施例中,特征处理完毕后,特征处理模块会发送到其他模块使用计算的数据,特征处理模块可以将多个特征处理的结果进行分发,分割为多个map,便于并行同时处理。
在一些实施例中,计算核心640进一步包括模型训练模块670。模型训练模670基于特征处理模块的处理结果进行数据训练,并将训练出的结果存储到参数数据库682更新参数数据库中各特征的参数。
本发明所提出的新闻推荐系统,相对于现有的推荐系统,能够实时处理出具,实时的推荐内容给用户,可以给用户带来更好的阅读体验。
图7是根据本发明一个实施例的计算核心示意图。如图所示,推荐服务模块650、特征处理模块660和模型训练模块670进一步的限定。特征处理莫夸进一步包括特征信息获取子模块661、数据处理子模块662以及分发子模块663。
特征获取子模块661用于从客户端获取特征信息。例如:用户阅读上下文和/或用户注册基础信息(年龄、手机号、性别等)。
数据处理子模块662基于特征获取子模块661获取的特征进行处理,基于不同的特征选用上述不同的处理公式或者处理方法,计算得出特征值f。
分发子模块663基于特征处理子模块662处理的特征值分发到模型训练模块670和特征数据库681,在一些实施例中,分发模块可以控制特征值进入模型训练模块和特征数据库的时间顺序。例如:先将特征值分发到训练模块中,后将特征值存储到特征数据库。
在一些实施例中,特征数据库681用于存储各个类型的特征数据,这些特征数据会不断的根据特征处理模块处理的数据进行调整更新,从而得到适应用户真实的特征信息。其中,静态特征信息可以按照一定时间进行调整更新,动态特征信息可以实时的进行更新,以响应与用户实际情况的变化。
根据本发明一个实施例,模型训练模块670包括第一计算模块661、第二计算模块662以及第三计算模块663。其中:
第一计算模块661基于特征处理模块660处理的数据,调取参数数据库中该特征的参数,并重新计算更新该特征的参数。在一些实施例中,特征的参数可以包括特征权重值(w)、特征权重中间值(z)和计算迭代次数(n),通过调取参数数据库中某一个特征的w、z、n值,通过z和n重新该特征的计算w值。
其中,wi表示某一特征权重值;zi表示某一特征权重中间值;ni表示某一权重的迭代次数;α、β、λ1、λ2表示为参数因子。
进一步地,第二计算模块662基于第一计算模块661计算的各个特征的权重值w,对多个特征的权重值进行加和,得出权重和sum(w)
sum(wx)=wx1+wx2+…(7)
其中,sum(wx)表示特征权重加和;wx1、wx2表示每个特征权重。
进一步地,第三计算模块663基于新的w值预测特征值的变化,并预测出新的z和n的值,将新的w、z、n值存储的参数数据库更新,便于下次计算使用。
zi=zi+gi-σiwi (8)
其中,其中,wi表示某一特征权重值;zi表示某一特征权重中间值;ni表示某一权重的迭代次数;gi表示中间计算梯度;σi表示表示学习率。其中,中间计算梯度gi可以通过计算特征新的权重值进行预测,学习率σi可以根据计算出的梯度gi可以得出。即:
gi=(pt-yt)xi (10)
其中,pt表示预测计算结果;yt表示为参数因子,yt∈{0,1};xi表示标签型依据配置值,xi≠0;σ表示配置参数;ni表示某一特征的迭代次数。其中,预测结果pt根据标签型依据配置值以及重新计算得出的权重值预测得出。即:
pt=σ(xi·w) (12)
根据本发明一个实施例,推荐服务模块650包括:第一计算模块651、第二计算模块652、第三计算模块653和推荐模块654。其中:
第一计算模块651和第二计算模块652与模型训练模块670中第一计算模块和第二计算模块相同,故在此不再赘述。在一些实施例中,推荐服务模块650也可以不包括第一计算模块651和第二计算模块652,直接调取模型训练模块计算的数据。
进一步地,第三计算模块653用于计算文章的分值,利用上述公式1判别函数计算文章分值。
进一步地,推荐模块654根据计算出的文章分值,对文章进行排序,按照排好的顺序推荐到客户端。
图8为根据本发明一个实施例的新闻推荐方法流程图。如图所示,新闻推荐方法800包括如下步骤:在步骤801,收集特征,通过通信接口实施的收集特征信息。根据本发明一个实施例,通信接口可以是kafka通道,有利于将客户端的特征信息实时的传输到计算核心。
在步骤802,计算核心对特征进行处理。如前所述,根据不同的特征可以选用不同的处理方式,即得出每个特征的特征值。具体而言,有可能选用平均分布公式或者指数分布公式计算特征值,也有可能依据用户对不同标签或者标签组进行配置得出特征值。
在步骤803,将处理得到的特征值数据入到训练模型中进行训练,将训练得出的结果存储到推荐系统的参数数据库,并更新参数数据库中相应的参数。
在步骤804,将特征处理的到的特征数据存储到推荐系统的特征数据库,并更新特征数据库中相应的特征值。
在步骤805,调取特征数据库中的特征值以及对应的参数数据库中的参数值,进行推荐计算,得出一系列文章的分值。
在步骤806,对文章分值进行排序,按照排序的顺序推荐给用户。根据本发明一个实施例,可以按照分数从高到低排序,分值越高则认为用户越感兴趣。按照分值由高到低推荐给用户。
图9为根据本发明一个实施例的模型训练方法的流程图。如图所示,模型训练的方法900包括如下步骤:在步骤901,模型训练模块接收特征处理模块处理获得的特征值。
在步骤902,通过接收到的特征值调取参数数据库中各特征值的参数。具体的包括特征权重值(w)、权重中间值(z)和迭代次数(n)。
在步骤903,通过调取的各特征值的参数分别计算每个特征值新的权重值(w)。根据本发明一个实施例,多个特征可以在多台计算机上并行计算,便于加快计算进程。
在步骤904,将多个特征值新的权重值(w)全部相加,得到多个特征权重值的加和。
在步骤905,通过计算出的多个特征权重的加和计算每个特征的权重中间值(z)和迭代次数(n)。
在步骤906,将计算得到的每个特征新的权重值(w)、权重中间值(z)和迭代次数(n)存储到参数数据库。并对参数数据库中相应的参数进行更新。
图10为根据本发明一个实施例的推荐服务计算方法流程图。如图所示,推荐服务计算方法1000包括如下步骤:其中,步骤1001-步骤1004与上述图9实施中步骤901-步骤904类似,故在此不再赘述。如本领域技术人员所述理解,推荐服务计算方法1000可以不包括步骤1001-步骤1004,直接调取模型训练904的计算结果。
在步骤1005,根据计算得出的多个特征值权重的加和计算文章的分数,如上所述,具体的,通过判断函数计算文章的分值。
在步骤1006,根据计算得出各文章的分数,对文章进行排序,按照分数从高到低推荐给用户。根据本发明一个实施例,文章排序还可以对文章进行筛选,例如用户已经读过的文章不管分值多高直接删除,不推荐给用户。
本发明公开的新闻推荐系统以及推荐方法,可以实时的获取用户行为,将用户行为反馈到模型中进行训练,并根据训练结果,实时的推荐用户感兴趣的内容。可以将用户点击率提升10%,使用时长提升3%,有效的改进了用户的体验。
上述实施例仅供说明本发明之用,而并非是对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明范围的情况下,还可以做出各种变化和变型,因此,所有等同的技术方案也应属于本发明公开的范畴。
Claims (17)
1.一种新闻推荐系统,包括:
通信接口,其经配置以接收来自由客户端中一个或多个特征信息;以及
一个或多个处理器,服务器端运行于一个或多个处理器上,其经配置以根据一个或多个特征信息确定推荐的新闻;其中,特征信息包括:静态特征信息和动态特征信息;
其中,通信接口进一步经配置以将推荐的新闻发送到客户端。
2.根据权利要求1所述的系统,其中每天或者每2天或者以更长时间间隔更新静态特征信息。
3.根据权利要求1所述的系统,其中实时更新动态特征信息。
4.根据权利要求1所述的系统,其中,静态/动态特征信息还包括:用户静态/动态特征信息和文章静态/动态特征信息。
5.根据权利要求1所述的系统,其中,服务器端包括计算核心,其经配置以处理特征信息,根据经处理的特征信息训练模型以及应用模型确定推荐的新闻。
6.根据权利要求5所述的系统,其中,计算核心包括:
特征处理模块,其接收通信接口收集的特征信息,并对特征信息进行处理;
模型训练模块,其接收特征处理模块数据,并对模型进行训练;以及
推荐服务模块,其用来计算推荐新闻分值,并按照分值顺序推荐到客户端。
7.根据权利要求5所述的系统,其中服务器端包括:特征数据库,其用来存储经特征处理模块处理的特征值,并将特征值数据转发给推荐服务模块。
8.根据权利要求6所述的系统,其中服务器端包括:参数数据库,其用来存储模型训练产生的特征参数,并将特征参数转达给推荐服务模块。
9.根据权利要求6所述的系统,其中模型训练模块包括:
第一计算模块,其用来接收特征处理模块转发的特征数据,调取参数数据库中的特征参数,并计算特征新的权重值(w);
第二计算模块,其用来计算第一计算模块多个特征权重值的加和;以及
第三计算模块,其用来根据第二计算模块的多个权重值加和计算各特征的权重中间值(z)和迭代次数(n)。
10.根据权利要求9所述的系统,其中推荐服务模块包括:
第一计算模块,调取特征数据库中的特征数据以及参数数据库中特征参数,并计算特征新的权重值(w);
第二计算模块,其用来计算第一计算模块多个特征权重值的加和;
第三计算模块,其根据第二计算模块的特征权重值加和计算推荐新闻文章分值;以及
推荐模块,其根据第三计算模块文章分值排序推荐给客户端。
11.一种新闻推荐方法,包括
从客户端收集一个或多个特征信息;
利用收集的一个或多个特征信息计算待推荐文章的分值;以及
按照文章分值排序向用户推荐一篇或多篇文章;
其中,特征信息包括:静态特征信息和动态特征信息。
12.根据权利要求11所述的方法,其中利用收集的一个或多个特征信息计算待推荐文章的分值包括:
对收集的特征信息进行处理,获得特征值;
利用获得的特征值训练模型,获得特征参数;
存储获得的特征值和特征参数。
13.根据权利要求12所述的方法,其中利用对收集的特征信息进行处理的结果训练模型包括:
接收对收集的特征信息进行处理获得的特征值;
调取现有模型的特征参数;
根据现有模型的特征参数和对收集的特征信息进行处理的结果计算新的特征参数;以及
将现有模型的特征参数更新为新的特征参数。
14.根据权利要求13所述的方法,其中所述特征参数包括:特征权重值(w);特征中间值(z);以及迭代次数(n);计算特征参数包括:
调取原有特征参数w、z、n;
根据z值和n值计算新的w;
计算多个特征的w加和;
根据多个特征w的加和计算新的z和n;以及
更新特征参数w、z、n。
15.根据权利要求13所述的方法,其中计算待推荐文章的分值包括:根据更新的特征参数w计算w加和,以及根据w加和计算待推荐文章的分值。
16.根据权利要求12所述的方法,将特征值存储于特征数据库,以及更新特征数据库中的特征值。
17.根据权利要求12所述的方法,将特征参数存储于参数数据库,以及更新参数数据库中的特征参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811196951.5A CN109376302A (zh) | 2018-10-15 | 2018-10-15 | 一种新闻推荐系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811196951.5A CN109376302A (zh) | 2018-10-15 | 2018-10-15 | 一种新闻推荐系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109376302A true CN109376302A (zh) | 2019-02-22 |
Family
ID=65398475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811196951.5A Pending CN109376302A (zh) | 2018-10-15 | 2018-10-15 | 一种新闻推荐系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109376302A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377723A (zh) * | 2019-06-24 | 2019-10-25 | 北京字节跳动网络技术有限公司 | 文末相关阅读模块个性化方法、装置、介质和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102207972A (zh) * | 2011-06-15 | 2011-10-05 | 中山大学 | 一种数字电视的影视节目推荐方法及其装置 |
CN102611785A (zh) * | 2011-01-20 | 2012-07-25 | 北京邮电大学 | 面向手机的移动用户个性化新闻主动推荐服务系统及方法 |
US20170132230A1 (en) * | 2015-11-09 | 2017-05-11 | WP Company LLC d/b/a The Washington Post | Systems and methods for recommending temporally relevant news content using implicit feedback data |
CN107025310A (zh) * | 2017-05-17 | 2017-08-08 | 长春嘉诚信息技术股份有限公司 | 一种自动实时新闻推荐方法 |
CN107818166A (zh) * | 2017-11-07 | 2018-03-20 | 暴风集团股份有限公司 | 一种资讯推荐方法、装置、服务器及系统 |
-
2018
- 2018-10-15 CN CN201811196951.5A patent/CN109376302A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102611785A (zh) * | 2011-01-20 | 2012-07-25 | 北京邮电大学 | 面向手机的移动用户个性化新闻主动推荐服务系统及方法 |
CN102207972A (zh) * | 2011-06-15 | 2011-10-05 | 中山大学 | 一种数字电视的影视节目推荐方法及其装置 |
US20170132230A1 (en) * | 2015-11-09 | 2017-05-11 | WP Company LLC d/b/a The Washington Post | Systems and methods for recommending temporally relevant news content using implicit feedback data |
CN107025310A (zh) * | 2017-05-17 | 2017-08-08 | 长春嘉诚信息技术股份有限公司 | 一种自动实时新闻推荐方法 |
CN107818166A (zh) * | 2017-11-07 | 2018-03-20 | 暴风集团股份有限公司 | 一种资讯推荐方法、装置、服务器及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377723A (zh) * | 2019-06-24 | 2019-10-25 | 北京字节跳动网络技术有限公司 | 文末相关阅读模块个性化方法、装置、介质和电子设备 |
CN110377723B (zh) * | 2019-06-24 | 2022-04-05 | 北京字节跳动网络技术有限公司 | 文末相关阅读模块个性化方法、装置、介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462593B (zh) | 一种提供用户个性化资源消息推送的方法和装置 | |
US10474974B2 (en) | Reciprocal models for resource allocation | |
JP7194252B2 (ja) | マルチタスクモデルのパラメータ更新方法、装置及び電子機器 | |
CN103380421B (zh) | 用于图形数据的分布式缓存 | |
CN111143686B (zh) | 资源推荐方法及装置 | |
CN109636490A (zh) | 广告转化率的实时预测方法、广告评价方法与系统 | |
CN107273436A (zh) | 一种推荐模型的训练方法和训练装置 | |
Hasija et al. | Scheduling in flowshops to minimize total tardiness of jobs | |
US9875272B1 (en) | Method and system for designing a database system for high event rate, while maintaining predictable query performance | |
US20160171589A1 (en) | Personalized application recommendations | |
CN107622086A (zh) | 一种点击率预估方法和装置 | |
CN108021673A (zh) | 一种用户兴趣模型生成方法、职位推荐方法及计算设备 | |
CN106095842B (zh) | 在线课程搜索方法和装置 | |
WO2020238502A1 (zh) | 物品推荐方法及装置、电子设备及存储介质 | |
CN110347781B (zh) | 文章倒排方法、文章推荐方法、装置、设备及存储介质 | |
CN107229718A (zh) | 处理报表数据的方法和装置 | |
CN112364252B (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
US20160034553A1 (en) | Hybrid aggregation of data sets | |
CN112818230B (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
CN109408714A (zh) | 一种多模型融合的推荐系统和方法 | |
US20200372036A1 (en) | Systems for learning and using one or more sub-population features associated with individuals of one or more sub-populations of a gross population and related methods therefor | |
CN111179007A (zh) | 展示信息的处理方法及装置、电子设备 | |
US10242069B2 (en) | Enhanced template curating | |
CN109376302A (zh) | 一种新闻推荐系统和方法 | |
CN107807940B (zh) | 信息推荐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200311 Address after: 201802 room jt6668, building 2, No. 4268, Zhennan Road, Jiading District, Shanghai Applicant after: Shanghai quyun Network Technology Co., Ltd Address before: 200120 Shanghai Pudong New Area Shenjiang Road 5005 Nongxing Creation Science and Technology Plaza C Building 11 Floors Applicant before: Shanghai Jifen Cultural Communication Co., Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190222 |