CN106202394A

CN106202394A - 文本资讯的推荐方法及系统

Info

Publication number: CN106202394A
Application number: CN201610539075.6A
Authority: CN
Inventors: 史继群
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-07-07
Filing date: 2016-07-07
Publication date: 2016-12-07
Anticipated expiration: 2036-07-07
Also published as: US20180260490A1; CN106202394B; US10783206B2; WO2018006703A1; EP3451194A4; EP3451194A1

Abstract

本发明提供一种文本资讯的推荐方法，包括：建立资讯推荐池；获取需要推荐资讯文章的文本内容；将需要推荐资讯的文章切分为多个词；根据LDA模型库中词的多维topic分布预测需要推荐资讯文章的多维topic分布；计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性；根据资讯相关性的计算结果对资讯推荐池中的相关资讯进行排序；根据排序结果输出推荐资讯。该方法可以解决资讯推荐时相关资讯的语义歧义与语义相关的问题，并考虑了资讯热度和实时性，提升了用户点击率。本发明还提供一种实现上述文本资讯的推荐方法的系统。

Description

文本资讯的推荐方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本资讯的推荐方法及系统。

背景技术

随着互联网的迅猛发展，网络资讯的数量不断增长。这给网络用户获取资讯带来了便利，同时也造成了信息过载的问题。如何在海量信息中快速有效地查找并定位到需要的信息成为当前互联网发展中的突出问题，也是网络信息检索研究的热点。

为解决上述问题，很多新闻网站通过诸如“相关新闻”、“相关阅读”、“更多新闻”、“相关推荐”、以及“延伸阅读”之类的资讯推荐方式向用户推荐与用户终端上当前显示的新闻相关的其他资讯，作为扩展阅读。目前对于资讯的推荐大多是基于文本TAG的推荐方式，通过提取资讯文本的关键词并按照关键词作为索引来聚合文章，进行资讯推荐时根据关键词索引对应的文章，这种推荐方式存在如下问题：

1.无法解决相关资讯的语义歧义与语义相关问题。例如，“富士苹果真好，赶快买”和“苹果iphone6真好，赶快买”，两条资讯虽然在词意上存在相关性，但其语义却并不相关，再例如“如果时间回到2006年，马云和杨致远的手还会握在一起吗”和“阿里巴巴集团和雅虎就股权回购一事签署了最终协议”，两条资讯虽然在词意上并不相关，但其语义却存在相关性。

2.未能考虑资讯热度和实时性，用户体验差。例如，“84岁默多克与59岁前超模订婚”与“普莉希拉效应VS邓文迪法则，一定要有真正的邂逅”以及“资产保全Ι鼎元传承FO揭秘：邓文迪也扳不倒的家族信托”，而后两条资讯在当前情况下明显与“默多克”不相关。

发明内容

有鉴于此，本发明提供一种文本资讯的推荐方法及系统，该方法和系统可以解决资讯推荐时相关资讯的语义歧义与语义相关的问题，并考虑了资讯热度和实时性，提升了用户点击率。

本发明实施例提供的一种文本资讯的推荐方法，包括：建立资讯推荐池；获取需要推荐资讯文章的文本内容；将需要推荐资讯的文章切分为多个词；根据LDA模型库中词的多维topic分布预测需要推荐资讯文章的多维topic分布；计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性；根据资讯相关性的计算结果对资讯推荐池中的相关资讯进行排序；根据排序结果输出推荐资讯。

本发明实施例提供的一种文本资讯的推荐系统，包括：资讯推荐池，其内存储有多篇资讯文本；资讯文本获取模块，用于获取需要推荐资讯文章的文本内容；分词工具，用于将需要推荐资讯的文章切分为多个词；LDA模型库，其内存储有多个词的多维topic分布；LDA预测模块，用于根据文章中词的多维topic分布预测文章的多维topic分布；资讯相关性计算模块，用于根据文章的多维topic分布计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性；资讯排序模块，用于根据资讯相关性的计算结果对资讯推荐池中的相关资讯进行排序；结果输出模块，用于根据排序结果输出推荐资讯。

本发明实施例提供的文本资讯的推荐方法及系统，在计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性时不仅针对文章中的所有关键词，通篇考虑了文章的上下文语境来计算，解决了文章的语义歧义和语义资讯相关性问题，还考虑了资讯热度和实时性对资讯相关性的影响，提升了用户体验，大幅提升了资讯PV转化率，使资讯PV转化率提升了将近200％。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

图1为本发明实施例提供的文本资讯的推荐方法及系统的应用环境图。

图2为图1中的终端设备的一种结构框图。

图3为图1中的服务器的一种结构框图。

图4为本发明第一实施例提供的文本资讯的推荐方法的流程示意图。

图5为图4中步骤S10的主要步骤的流程示意图。

图6为图4中步骤S14的主要步骤的流程示意图。

图7为本发明第二实施例提供的文本资讯的推荐方法的流程示意图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如后。

请参考图1，图1为本发明实施例提供的文本资讯的推荐方法及系统的应用环境图。如图1所示，安装有浏览器客户端的终端设备100与服务器200通过网络连接，服务器200连接数据库300，该数据库300用于存储各种数据，如本发明中的资讯推荐池、LDA模型等，该数据库300可以独立于该服务器200，也可以设置在该服务器200之内。终端设备100可以是各种电子装置，如个人电脑、笔记本电脑、平板电脑、手机等。网络可为但不限于互联网、企业内部网、局域网、移动通信网及其组合。

请参考图2，图2示出了终端设备100的一个实施例的结构框图。如图2所示，终端设备100包括存储器102、存储控制器104，一个或多个(图中仅示出一个)处理器106、外设接口108、射频模块110、定位模块112、摄像模块114、音频模块116、显示模块118以及按键模块120。这些组件通过一条或多条通讯总线/信号线122相互通讯。

可以理解，图2所示的结构仅为示意，终端设备100还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

其中，存储器102可用于存储软件程序以及模块，如本发明实施例中的文本资讯的推荐方法及系统对应的程序指令/模块，处理器106通过运行存储在存储器102内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现本发明实施例中的文本资讯的推荐方法。

存储器102可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储系统、闪存、或者其他非易失性固态存储器。在一些实例中，存储器102可进一步包括相对于处理器106远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。

外设接口108将各种输入/输入装置耦合至处理器106以及存储器102。处理器106运行存储器102内的各种软件、指令以执行终端设备的各种功能以及进行数据处理。

在一些实施例中，外设接口108，处理器106以及存储控制器104可以在单个芯片中实现，在其他一些实例中，也可以分别由独立的芯片实现。

射频模块110用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。射频模块110可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。射频模块110可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for Mobile Communication,GSM)、增强型移动通信技术(Enhanced Data GSM Environment,EDGE),宽带码分多址技术(wideband code divisionmultiple access,W-CDMA)，码分多址技术(Code division access,CDMA)、时分多址技术(time division multiple access,TDMA)，蓝牙，无线保真技术(Wireless,Fidelity，WiFi)(如美国电气和电子工程师协会标准IEEE 802.11a，IEEE802.11b,IEEE802.11g和/或IEEE 802.11n)、网络电话(Voice over internet protocal,VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access，Wi-Max)、其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

定位模块112用于获取终端设备的当前位置。定位模块112的实例包括但不限于全球卫星定位系统(GPS)、基于无线局域网或者移动通信网的定位技术。

摄像模块114用于拍摄照片或者视频。拍摄的照片或者视频可以存储至存储器102内，并可通过射频模块110发送。

音频模块116向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。音频电路从外设接口108处接收声音数据，将声音数据转换为电信息，将电信息传输至扬声器。扬声器将电信息转换为人耳能听到的声波。音频电路还从麦克风处接收电信息，将电信号转换为声音数据，并将声音数据传输至外设接口108中以进行进一步的处理。音频数据可以从存储器102处或者通过射频模块110获取。此外，音频数据也可以存储至存储器102中或者通过射频模块110进行发送。在一些实例中，音频模块116还可包括一个耳机播孔，用于向耳机或者其他设备提供音频接口。

显示屏幕118在终端设备100与用户之间提供一个输出界面。具体地，显示屏幕118向用户显示视频输出，这些视频输出的内容可包括文字、图形、视频、及其任意组合。一些输出结果是对应于一些用户界面对象。进一步地，显示屏幕118还可在终端设备100与用户之间提供一个输入界面，用于接收用户的输入，例如用户的点击、滑动等手势操作，以便用户界面对象对这些用户的输入做出响应。检测用户输入的技术可以是基于电阻式、电容式或者其他任意可能的触控检测技术。显示屏幕118的具体实例包括但并不限于液晶显示器或发光聚合物显示器。

按键模块120同样提供用户向终端设备100进行输入的接口，用户可以通过按下不同的按键以使终端设备执行不同的功能。

图3示出了服务器200的一个实施例的结构框图。如图3所示，服务器200包括：存储器201、处理器202以及网络模块203。

可以理解，图3所示的结构仅为示意，服务器200还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。另外，本发明实施例中的服务器200还可以包括多个具体不同功能的服务器。

存储器201可用于存储软件程序以及模块，如本发明实施例中的文本资讯的推荐方法及系统对应的程序指令/模块，处理器202通过运行存储在存储器201内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现本发明实施例中的文本资讯的推荐方法。存储器201可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器201可进一步包括相对于处理器202远程设置的存储器，这些远程存储器可以通过网络连接至服务器200。进一步地，上述软件程序以及模块还可包括：服务模块221以及操作系统222。其中操作系统222，例如可为LINUX、UNIX、WINDOWS，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通讯，从而提供其他软件组件的运行环境。服务模块221运行在操作系统222的基础上，并通过操作系统222的网络服务监听来自网络的请求，根据请求完成相应的数据处理，并返回处理结果给客户端。也就是说，服务模块221用于向客户端提供网络服务。

网络模块203用于接收以及发送网络信号。上述网络信号可包括无线信号或者有线信号。在一个实例中，上述网络信号为有线网络信号。此时，网络模块203可包括处理器、随机存储器、转换器、晶体振荡器等元件。

以下结合具体的实施例说明本发明提供的文本资讯的推荐方法及系统。

本发明提供的文本资讯的推荐方法及系统可用于QQ手机浏览器的聚合资讯的产品中，例如其可用在今日头条卡片、微信热文卡片、Feeds资讯等场景下。本发明提供的推荐资讯是对用户感兴趣资讯的扩充，相关推荐的场景一般曝光在文章的底部，起到事件聚合、兴趣聚合的作用。

第一实施例

请参考图4，图4为本发明的第一实施例提供的一种文本资讯的推荐方法的流程示意图。如图4所示，本实施例所述的文本资讯的推荐方法包括以下步骤：

步骤S10，建立资讯推荐池；

在本步骤中，资讯推荐池预先存储于数据库300和/或服务器200的缓存中，其内存储有多篇资讯文本。

步骤S11，获取需要推荐资讯文章的文本内容；

在本步骤中，需要推荐资讯的文章可以是用户在终端设备100上通过点击新闻链接所打开的文章，也可以是网站编辑根据当前的热点新闻或微信圈中的热点文章主动推荐给用户的文章。需要推荐资讯文章的文本内容可以根据用户的点击请求由数据库300或服务器200的本地硬盘抓取。在本发明中，“资讯”和“文章”的含义接近，都可以指新闻，但“资讯”除了指新闻内容外还侧重于强调新闻的热度和实时性，“文章”则更侧重于指新闻的文本内容。

步骤S12，将需要推荐资讯的文章切分为多个词；

在本步骤中，可利用分词工具将文章切分为一个一个的关键词，分词时可以采用的算法包括但不限于基于字符串匹配、基于理解、以及基于统计分词。

步骤S13，根据LDA模型库中的词的多维topic分布，预测需要推荐资讯文章的多维topic分布；

在本步骤中，LDA模型库预先存储于数据库300和/或服务器200的缓存中，LDA模型库内存储有多个词的多维topic分布(即LDA模型)。经步骤S12分词后的文章，其每个词都对应一个特定的LDA模型，这些LDA模型根据Gibbs采样的LDA训练算法，通过机器学习的方法得到，并可以根据资讯的更新定期更新。根据LDA模型库中词的多维topic分布预测文章的多维topic分布时，通过将需要推荐资讯文章中出现的词的多维topic分布综合叠加即可预测出需要推荐资讯文章的多维topic分布。

在本实施例中，文章的topic维度优选为500维，该数据的选择综合考虑了topic细粒度划分和计算量，在topic细粒度划分和计算量上做了平衡，即保证了文章具有较高的topic细粒度，又不会涉及太大的计算量，据发明人研究，超过500维并不会明显提高计算结果的准确性但却会大幅增加计算量。

步骤S14，计算需要推荐资讯文章与资讯推荐池中文章的资讯相关性；

在本步骤中，需要推荐资讯的文章与资讯推荐池中文章的资讯相关性以需要推荐资讯的文章与资讯推荐池中的文章在多维topic空间中的余弦距离、资讯推荐池中文章的PV加权和过期惩罚来表示。

文章资讯相关性的计算公式为：

S (x, x^{'}, v, t) = \frac{Σ_{k = 1}^{n} x_{k} {x^{'}}_{k}}{\sqrt{Σ_{k = 1}^{n} x_{k}^{2}} \sqrt{Σ_{k = 1}^{n} {x^{'}}_{k}^{2}}} + λ \frac{\log v}{{(t + b)}^{γ}},

式中x为需要推荐资讯文章的LDA向量，x’为资讯推荐池中文章的LDA向量，k为文章中LDA向量的个数，v为资讯推荐池中资讯的pv热度，即文章点击率，t为资讯过期的时间，即资讯发布的时间和当前时间的时间差，b为资讯过期时间的偏置平滑，γ为资讯过期缩放调节系数，λ为回归系数；

其中，公式第一项是需要推荐资讯文章与资讯推荐池中文章在多维topic空间中的余弦距离，其目的是为了使推荐出的文章与需要推荐资讯的文章在语义上接近，若资讯推荐池中的某篇文章与需要推荐资讯的文章在多维topic空间中的余弦距离越大，则表明该篇文章与需要推荐资讯文章的资讯相关性越高。

公式第二项的分子为资讯的PV加权，其取log是因为资讯文章的点击率与资讯文章的热度呈指数增长，取log后可以作为线性参数，其目的是为了提升资讯热度对文章资讯相关性的影响；

公式第二项是分母是对资讯文章的过期程度进行惩罚和衰减，其目的是为了对旧的资讯文章进行打压，保证推荐给用户的资讯都是比较新的资讯；

式中的b值一方面可以在资讯为最新资讯，即t值为零时防止公式第二项的分母为零，另一方面则可以调整资讯对时间的敏感度，使当天发生的资讯对时间不要太敏感，例如，b值取5时，若t值较小(表示资讯的发布时间距离当前时间很短，即资讯很新)，例如取1(表示资讯已经过期1小时)和2(表示资讯已经过期2小时)，则对文章资讯相关性的影响不大；

式中的λ值可以根据CTR(点击到达率)结果通过线性回归算法得出，在本实施例中，λ的取值为0.25，其目的是为了使公式第一项和第二项的值比较接近，使公式第一项和第二项对文章资讯相关性的影响接近，其主要起平衡作用；

式中的γ可以通过微调取值，通过A/B Test的方法，在A、B两个方案中取CTR收益最大的值，在本实施例中，γ的取值为1.5。

步骤S15，根据资讯相关性的计算结果对资讯推荐池中的相关资讯进行排序；

在本步骤中，根据步骤S15中计算出的S(x,x',v,t)数值按照从大到小的顺序对资讯进行资讯相关性排序，数值越大则表明资讯相关性越高。

步骤S16，根据排序结果输出推荐资讯。

在本步骤中，输出推荐资讯时呈现给用户的资讯并不是推荐资讯序列中的所有资讯，而是根据设定的或者默认的标准呈现出的排序最靠前的几条(例如5条)资讯。

另外，如图5所示，根据本发明的一个较佳实施例，建立资讯推荐池的步骤S10包括：

步骤S101，收集资讯文本，获取资讯文本的内容；

在本步骤中，资讯文本可以为从其它新闻网站爬取的各类新闻，也可以为由腾讯网的服务器200或数据库300直接获取的各类新闻。资讯文本的文本内容可以由其它新闻网站的服务器获取或者是由腾讯网的数据库300或服务器200的本地硬盘直接抓取。

步骤S102，将收集的资讯文本切分为多个词；

步骤S103，根据LDA模型库中词的多维topic分布，预测资讯文本的多维topic分布；

在本步骤中，LDA模型库预先存储于数据库300和/或服务器200的缓存中，LDA模型库内存储有多个词的多维topic分布(即LDA模型)。经步骤S102分词后的资讯文本，其每个词都对应一个特定的LDA模型，这些LDA模型根据Gibbs采样的LDA训练算法，通过机器学习的方法得到，并可以根据资讯的更新定期更新。根据LDA模型库中词的多维topic分布预测资讯文本的多维topic分布时，通过将资讯文本中出现的词的多维topic分布综合叠加即可预测出资讯文本的多维topic分布。在本实施例中，文章的topic维度优选为500维，该数据的选择综合考虑了topic细粒度划分和计算量，在topic细粒度划分和计算量上做了平衡，即保证了文章具有较高的topic细粒度，又不会涉及太大的计算量，据发明人研究，超过500维并不会明显提高计算结果的准确性但却会大幅增加计算量。

步骤S104，将收集的资讯文本按照一定的次序放入资讯推荐池。

在步骤S104中，资讯文本在资讯推荐池中可以按照资讯文本的类别存放，也可以按照资讯文本中词的重复个数存放，还可以按照资讯文本收入时间的先后顺序存放。资讯文本中词的重复个数，指两篇及以上资讯文本中相同词的个数，若不同资讯文本中相同词的个数越多则表明这些资讯文本的类别越接近或相似度越高。

若资讯文本按照文本类别或词的重复个数存放，步骤S14中计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性时可以仅计算与需要推荐资讯文章的类别相近或词的重复个数较多的文章，因此涉及的计算量较小、计算速度较快，可用于在线推荐。若资讯文本按照文本收入时间的先后顺序存放，步骤S14中计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性时需要遍历资讯推荐池中的所有文章计算资讯相关性，因此涉及的计算量较大、计算速度较慢，需要离线计算。

进一步地，在步骤S14中，由于需要推荐资讯的文章与资讯推荐池中文章的资讯相关性以需要推荐资讯的文章与资讯推荐池中的文章在多维topic空间中的余弦距离、资讯推荐池中文章的PV加权和过期惩罚来表示，因此，如图6所示，本发明的文本资讯的推荐方法还包括：

步骤S141，获取资讯推荐池中文章的PV热度；以及

步骤S142，获取资讯推荐池中文章的发布时间；

步骤S143，根据需要推荐资讯的文章与资讯推荐池中文章的多维topic分布和资讯推荐池中文章的PV热度和发布时间计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性。

综上所述，在本实施例中，由于计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性时不仅针对文章中的所有关键词，通篇考虑了文章的上下文语境来计算，解决了文章的语义歧义和语义资讯相关性问题，还考虑了资讯热度和实时性对资讯相关性的影响，提升了用户体验，大幅提升了资讯PV转化率(指点击资讯的PV次数与资讯曝光的PV次数的比值(假定每曝光5条算一次曝光))，使资讯PV转化率提升了将近200％。

例如，一个出现“苹果”词的资讯段落，如果他的上下文中出现“香蕉”等词，那叠加后文章的topic分布会更大概率的倾向于“水果苹果”的topic分布，而不是“手机苹果”的topic分布；再例如，根据LDA的词聚类的特点，“马云”和“阿里巴巴”在topic分布上很相近，因此，可以把出现马云的资讯和出现阿里巴巴的资讯聚合成一类作为相关资讯，作为相关推荐的延伸。又例如，因为计算时考虑了资讯热度和实时性，因此，可以在对“84岁默多克与59岁前超模订婚”进行资讯推荐时自动滤除“普莉希拉效应VS邓文迪法则，一定要有真正的邂逅”以及“资产保全Ι鼎元传承FO揭秘：邓文迪也扳不倒的家族信托”等过期资讯。

第二实施例

第二实施例提供一种文本资讯的推荐系统，用于实现上述实施例中的文本资讯的推荐方法。如图7所示，所述文本资讯的推荐系统包括资讯推荐池400、资讯文本获取模块401、分词工具402、LDA模型库403、LDA预测模块404、资讯热度模块405、资讯相关性计算模块406、资讯排序模块407以及结果输出模块408。

资讯推荐池400预先存储于数据库300和/或服务器200的缓存中，其内存储有多篇资讯文本。资讯推荐池400内存放的资讯文本可以为资讯文本获取模块401从其它新闻网站爬取的各类新闻，也可以为资讯文本获取模块401由腾讯网的服务器200或数据库300中直接获取的各类新闻。资讯文本的文本内容可以由其它新闻网站的服务器获取或者是由腾讯网的数据库300或服务器200的本地硬盘直接抓取。这些资讯文本被抓来之后首先被分词工具402切分为多个词，然后利用LDA预测模块404根据LDA模型库403中词的多维topic分布预测资讯推荐池400中文章的多维topic分布，最后按照一定的次数存放在资讯推荐池400中。收集的资讯文本在资讯推荐池中可以按照资讯文本的类别存放，也可以按照资讯文本中词的重复个数存放，还可以按照资讯文本收入时间的先后顺序存放。资讯文本中词的重复个数，指两篇及以上资讯文本中相同词的个数，若不同资讯文本中相同词的个数越多则表明这些资讯文本的类别越接近或相似度越高。若资讯文本按照文本类别或词的重复个数存放，则计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性时可以仅计算与需要推荐资讯文章的类别相近或词的重复个数较多的文章，因此涉及的计算量较小、计算速度较快，可用于在线推荐。若资讯文本按照文本收入时间的先后顺序存放，则计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性时需要遍历资讯推荐池中的所有文章计算资讯相关性，因此涉及的计算量较大、计算速度较慢，需要离线计算。

资讯文本获取模块401，用于获取文章的文本内容及资讯的发布时间。这些文章可以是需要推荐资讯的文章，也可以是资讯推荐池400中的文章。需要推荐资讯的文章可以是用户在终端设备100上通过点击新闻链接所打开的文章，也可以是网站编辑根据当前的热点新闻或微信圈中的热点文章主动推荐给用户的文章。需要推荐资讯文章的文本内容及发布时间可以根据用户的点击请求由数据库300或服务器200的本地硬盘抓取。

分词工具402，用于将文章切分为多个词，这些文章可以是需要推荐资讯的文章，也可以是资讯推荐池400中的文章。分词时可以采用的算法包括但不限于基于字符串匹配、基于理解、以及基于统计分词。

LDA模型库403预先存储于数据库300和/或服务器200的缓存中，其内存储有多个词的多维topic分布(即LDA模型)。经分词后的文章，其每个词都对应一个特定的LDA模型，这些LDA模型根据Gibbs采样的LDA训练算法，通过机器学习的方法得到，且根据资讯的更新定期更新。

LDA预测模块404，用于根据文章中词的多维topic分布预测文章的多维topic分布。具体地，LDA预测模块404通过将文章中出现的词的多维topic分布综合叠加即可预测出文章的多维topic分布。这些文章可以是需要推荐资讯的文章，也可以是资讯推荐池400中的文章。LDA的topic维度优选为500维，该数据的选择综合考虑了topic细粒度划分和计算量，在topic细粒度划分和计算量上做了平衡，即保证了文章具有较高的topic细粒度，又不会涉及太大的计算量，据发明人的研究，超过500维并不会明显提高计算结果的准确性但却会大幅增加计算量。

资讯热度模块405，用于获取资讯的PV热度。资讯的PV热度即资讯的PV点击量。

资讯相关性计算模块406，用于根据文章的多维topic分布计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性。需要推荐资讯的文章与资讯推荐池中文章的资讯相关性以需要推荐资讯的文章与资讯推荐池中的文章在多维topic空间中的余弦距离、资讯推荐池中文章的PV加权和过期惩罚来表示。资讯相关性计算模块根据需要推荐资讯的文章与资讯推荐池中文章的多维topic分布和资讯推荐池中文章的PV热度以及发布时间来计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性。文章资讯相关性的计算公式为：

S (x, x^{'}) = \frac{Σ_{k = 1}^{n} x_{k} {x^{'}}_{k}}{\sqrt{Σ_{k = 1}^{n} x_{k}^{2}} \sqrt{Σ_{k = 1}^{n} {x^{'}}_{k}^{2}}},

资讯排序模块407用于根据资讯相关性的计算结果对资讯推荐池中的相关资讯进行排序。具体地，资讯排序模块407根据计算出的资讯相关性数值按照从大到小的顺序对资讯进行资讯相关性排序，数值越大则表明资讯相关性越高。

结果输出模块408，用于根据排序结果输出推荐资讯。结果输出模块408输出推荐资讯时呈现给用户的资讯并不是推荐资讯序列中的所有资讯，而是根据设定的或者默认的标准呈现出的排序最靠前的几条(例如5条)资讯。

综上所述，在本实施例中，由于计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性时不仅针对文章中的所有关键词，通篇考虑了文章的上下文语境来计算，解决了文章的语义歧义和语义资讯相关性问题，还考虑了资讯热度和实时性对资讯相关性的影响，提升了用户体验，大幅提升了资讯PV转化率，使资讯PV转化率提升了将近200％。

需要说明的是，本说明书中的各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者系统中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种文本资讯的推荐方法，其特征在于，所述方法包括：

建立资讯推荐池；

获取需要推荐资讯文章的文本内容；

将需要推荐资讯的文章切分为多个词；

根据LDA模型库中词的多维topic分布预测需要推荐资讯文章的多维topic分布；

计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性；

根据资讯相关性的计算结果对资讯推荐池中的相关资讯进行排序；

根据排序结果输出推荐资讯。

2.根据权利要求1所述的文本资讯的推荐方法，其特征在于，需要推荐资讯的文章与资讯推荐池中文章的资讯相关性以需要推荐资讯的文章与资讯推荐池中的文章在多维topic空间中的余弦距离、资讯推荐池中文章的PV加权和过期惩罚来表示。

3.根据权利要求1所述的文本资讯的推荐方法，其特征在于，所述文本资讯的推荐方法还包括：

获取资讯推荐池中文章的PV热度；以及

获取资讯推荐池中文章的发布时间；

所述计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性的步骤指根据需要推荐资讯的文章与资讯推荐池中文章的多维topic分布和资讯推荐池中文章的PV热度和发布时间计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性。

4.根据权利要求1所述的文本资讯的推荐方法，其特征在于，计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性时采用的公式为：

S (x, x^{'}, v, t) = \frac{Σ_{k = 1}^{n} x_{k} {x^{'}}_{k}}{\sqrt{Σ_{k = 1}^{n} x_{k}^{2}} \sqrt{Σ_{k = 1}^{n} {x^{'}}_{k}^{2}}} + λ \frac{\log v}{{(t + b)}^{γ}},

式中x为需要推荐资讯文章的LDA向量，x’为资讯推荐池中文章的LDA向量，k为文章中LDA向量的个数，v为资讯推荐池中资讯的pv热度，t为资讯过期的时间，b为资讯过期时间的偏置平滑，γ为资讯过期缩放调节系数，λ为回归系数。

5.根据权利要求4所述的文本资讯的推荐方法，其特征在于，计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性时采用的公式中λ的取值为0.25，γ的取值为1.5。

6.根据权利要求1所述的文本资讯的推荐方法，其特征在于，所述建立资讯推荐池的步骤包括：

收集资讯文本，获取资讯文本的内容；

将收集的资讯文本切分为多个词；

根据LDA模型库中词的多维topic分布预测资讯文本的多维topic分布；以及

将收集的资讯文本按照一定的次序放入资讯推荐池。

7.一种文本资讯的推荐系统，其特征在于，其包括：

资讯推荐池，其内存储有多篇资讯文本；

资讯文本获取模块，用于获取需要推荐资讯文章的文本内容；

分词工具，用于将需要推荐资讯的文章切分为多个词；

LDA模型库，其内存储有多个词的多维topic分布；

LDA预测模块，用于根据文章中词的多维topic分布预测文章的多维topic分布；

资讯相关性计算模块，用于根据文章的多维topic分布计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性；

资讯排序模块，用于根据资讯相关性的计算结果对资讯推荐池中的相关资讯进行排序；

结果输出模块，用于根据排序结果输出推荐资讯。

8.根据权利要求7所述的文本资讯的推荐系统，其特征在于，所述文本资讯的推荐系统还包括资讯热度模块，所述资讯热度模块用于获取资讯的PV热度，所述资讯文本获取模块还用于获取资讯发布的时间，所述资讯相关性计算模块根据需要推荐资讯的文章与资讯推荐池中文章的多维topic分布和资讯推荐池中文章的PV热度和发布时间计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性。

9.根据权利要求7所述的文本资讯的推荐系统，其特征在于，需要推荐资讯的文章与资讯推荐池中文章的资讯相关性以需要推荐资讯的文章与资讯推荐池中的文章在多维topic空间中的余弦距离、资讯推荐池中文章的PV加权及过期惩罚来表示。

10.根据权利要求1所述的文本资讯的推荐系统，其特征在于，计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性时采用的公式为：

S (x, x^{'}, v, t) = \frac{Σ_{k = 1}^{n} x_{k} {x^{'}}_{k}}{\sqrt{Σ_{k = 1}^{n} x_{k}^{2}} \sqrt{Σ_{k = 1}^{n} {x^{'}}_{k}^{2}}} + λ \frac{\log v}{{(t + b)}^{γ}},

11.根据权利要求10所述的文本资讯的推荐系统，其特征在于，计算需要推荐资讯的文章与资讯推荐池中文章的资讯相关性时采用的公式中λ的取值为0.25，γ的取值为1.5。

12.根据权利要求7所述的文本资讯的推荐系统，其特征在于，所述资讯文本获取模块还用于收集资讯文本的文本内容，所述分词工具还用于将收集的资讯文本切分为多个词，所述LDA预测模块还用于根据收集的资讯文本中词的多维topic分布预测资讯文本的多维topic分布，所述资讯推荐池中的资讯文本按照一定的次序存放。