CN111078994A

CN111078994A - 基于画像的医学科普文章推荐方法及系统

Info

Publication number: CN111078994A
Application number: CN201911076021.0A
Authority: CN
Inventors: 李冬; 周杰
Original assignee: Zhuhai Health Cloud Technology Co ltd
Current assignee: Zhuhai Health Cloud Technology Co ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-04-28
Anticipated expiration: 2039-11-06
Also published as: CN111078994B

Abstract

本发明公开了一种基于画像的医学科普文章推荐方法及系统，该方法包括以下步骤：通过日志打点记录客户端或者服务端的行为日志，所述行为日志的记录内容包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志；日志队列对所述行为日志进行数据统计，提取特征数据，处理生成用户画像和文章画像；接收对医学科普文章的请求，根据所述的用户画像和所述的文章画像通过机器学习算法生成相应的推荐文件列表。本发明的实施例至少有如下有益效果：通过对于用户操作行为的分析，对后续的文章推送内容进行持续性优化，提高推送的速度与质量，提升文章的点击率，满足用户对信息的需求。

Description

基于画像的医学科普文章推荐方法及系统

技术领域

本发明涉及互联网文章推荐技术领域，特别涉及一种基于画像的医学科普文章推荐方法及系统。

背景技术

互联网的出现和普及给用户带来了大量的信息，满足了用户在信息时代对于信息的需求，但随着快速发展的网络，信息量也随着大幅增长，使得用户面对海量信息时无法从中获取对自己真正有用的信息。

在医学科普文章领域，存在着用户体量巨大，偏好差异大，现有的推荐系统多采用协同过滤算法，很难查找到偏好相似的用户，也就难以进而获取相关医学科普文件的推荐列表。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于画像的医学科普文章推荐方法，能够较为准确地找到用户偏好的医学科普文件。

根据本发明的第一方面实施例的基于画像的医学科普文章推荐方法，包括以下步骤：S100，通过打点日志记录客户端或者服务端的行为日志，所述行为日志的记录内容包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志；S200，通过日志队列对所述用户行为日志进行数据统计，提取特征数据，处理生成用户画像和文章画像；S300，接收对医学科普文章的请求，根据所述的用户画像和所述的文章画像通过机器学习算法生成相应的推荐文件列表。

根据本发明实施例的基于画像的医学科普文章推荐方法，至少具有如下有益效果：通过对于用户操作行为的分析，对后续的文章推送内容进行优化，可以提升文章的点击率，满足用户对信息的需求，提高用户粘着度；两方面画像特征数据的建立，可以建立用户特征与文章特征间的联系，提高信息检出的速度与质量；机器学习算法有利于根据用户行为持续性优化推送内容。

根据本发明的一些实施例，所述步骤S200包括：S210，提取所述行为日志中编辑人员新增修改的文章，通过自然语言处理，分词、关键词抽取、主体分析及实体词抽取处理，生成或更新所述文章画像；S220，提取所述用户行为日志中用户的行为轨迹，包括文章的阅读、文章的收藏、文章的评论、文章的点赞、搜索记录、咨询购买记录及用户登录记录信息，结合用户的注册信息，统计分析用户偏好的所述文章画像，生成或更新所述用户画像。从医学科普文章的作者与读者两方面入手，多方面提取特征数据并更新特征数据，更好地提高文章推送的精准度。

根据本发明的一些实施例，所述步骤S300包括：S310，接收用户对医学科普文章的请求，通过若干个召回策略进行召回，获得相应的粗选的文章集合；S320,从所述粗选的文章集合中，按照预设的比例提取排行前列的若干篇文章，合并去重，并根据需要按一定规则进行补充，获得待选文章集；S330，，通过多个特征维度的模型算法，对所述待选文章集的文件来预测点击率，根据所述点击率的预测值进行排序推送。多召回策略，更好地保证能获取粗选结果；合并去重补充，优化推送文章内容，确定一定有推送内容；多维度对预测点击率进行评估，获得更好的推送效果。

根据本发明的一些实施例，所述召回策略包括：Tag召回、Word2Vec召回、热门召回及FP-group召回；所述特征维度包括：LR模型算法、XGBoost+LR模型算法、FM模型算法及Wide&Deep模型算法。多角度通过召回策略可以获取较多的粗粒度筛选文件；多特征维度对文件的预测点击率进行评估，更为合理，精细地对文件排序进行推送，获得较优的推送效果，进而增加用户的粘着度。

根据本发明的一些实施例，所述合并去重，包括：从合并后的所述医学科普文章中，去除重复的所述医学科普文章及用户最近看过的所述医学科普文章。优化推送内容，使用户能获取到新鲜的推送内容，防止用户因看到重复文章后丧失粘着度。

根据本发明的一些实施例，所述文章画像的属性包括：发布时间，编辑人员，语义标签、协同特征、热度、时空属性及质量属性；其中，语义标签包括：文章的类别、主题分布、关键词及实体词。发布时间可以确定文章的时效性，编辑人员相应的文章可能有一定的风格影响到用户的偏好；在医学科普文献领域，文章数量相对于用户群体总量不高，使用协同特征查找相似文件能简化操作更为高效。

根据本发明的一些实施例，所述用户画像的属性包括：基础人口特征信息，包括性别、年龄及地理信息；行为特征信息，包括关注的科室、文章关键字、文章类别分布、文章主题分布、日均阅读时长、日均阅读文章数目及月均阅读文章数目；文章偏好属性，根据用户访问的文章记录对应的文章画像属性得到。用户的基础人口特征及行为特征信息，都有可能影响用户的偏好，采集这些数据能优化推送内容。

根据本发明的第二方面实施例的基于画像的医学科普文章推荐系统，包括：日志处理模块，用于接收所述用户行为日志，获取所述用户行为日志中记录的包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志的样本数据，统计数据，提取特征数据，生成所述的用户画像及所述的文章画像；文章推荐模块，用于接收对医学科普文章的请求，根据所述的用户画像和所述的文章画像，生成相应的推荐文件列表；数据存储模块，用于存储用户原始日志，样本数据，特征数据，画像数据及报表数据。

根据本发明实施例的基于画像的医学科普文章推荐系统，至少具有如下有益效果：通过对于用户操作行为的分析，对后续的文章推送内容进行优化，可以提升文章的点击率，满足用户对信息的需求，提高用户粘着度；两方面画像特征数据的建立，可以建立用户特征与文章特征间的联系，提高信息检出的速度与质量；机器学习算法有利于根据用户行为持续性优化推送内容。

根据本发明的一些实施例，所述文章推荐模块包括：粗排召回模块，用于通过若干个召回策略，获得相应的召回结果，即粗选出的所述医学科普文章；规则模块，用于分别从所述策略对应的所述召回结果中，按照预设的比例提取若干篇排行前列的所述医学科普文章，合并去重，并根据需要按一定规则进行补充，获得待排序的所述医学科普文章；文章精排模块，用于通过多个特征维度的模型算法对所述待选文件集合中文件预测点击率，并按照所述点击率的预测评估值排序推送。通过初选，处理，精准排序来推送，优化了推送的质量同时也能一定程度上提高推送的速度。

根据本发明的一些实施例，还包括：入口模块，用于提供接口接收文章推荐请求，并根据用户身份标识号码分流用户进行AB测试；特征处理模块，根据输入特征按一定的模型算法获取相应的所述医学科普文章；模型训练模块，用于根据所述样本数据，通过机器学习，更新所述文章精排模块中的所述模型算法及所述特征处理模块中的所述模型算法。分流进行AB测试是为排序算法和策略制作两个或多个版本，在同一时间维度，分别让组成成分相同或相似的访客群组随机访问这些版本，收集各群组用户的体验数据和业务数据，进行评估分析，确定更好的版本，有利于持续进行优化。特征处理模块可专注于根据输入特征进行检索，不会被上层算法干扰；模型训练模块则通过机器学习对模型持续优化达到持续优化推送质量的目的。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的方法步骤流程示意图；

图2为本发明实施例的方法详细步骤流程图；

图3为本发明实施例的系统示意框图；

图4为本发明实施例的系统交互示意图。

附图标记：

日志处理模块100、文章推荐模块200、数据存储模块300、粗排召回模块210、规则处理模块220、文章精排模块230、入口模块400、特征处理模块500、模型训练模块600。

具体实施方式

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

名词解释：

打点日志：是指用于数据统计的日志。

协同过滤算法：Collaborative Filtering，简称CF，主要思想是：利用已有的用户群过去的行为或者意见预测当前用户最可能喜欢哪些东西或者对哪些东西感兴趣。

Spark：Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark Streaming：许多应用需要即时处理收到的数据，Spark Streaming是Spark为这种应用而设计的模型，他允许用户使用一套和批处理非常接近的API来编写流失计算应用，这样就可以大量重用批处理应用的技术。

HDFS：Hadoop Distributed File System,Hadoop分布式文件系统。

HBase：一个分布式的、面向列的开源数据库。

MapReduce：一种编程模型，用于大规模数据集(大于1TB)的并行运算。

Kafka：由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。

Tag：标签。

Word2vec：群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。

XGBoost：eXtreme Gradient Boosting，极端梯度提升，大规模并行开源bo ostedtree的工具包。XGBoost所应用的算法就是GBDT(gradient boosting de cision tree)的改进，既可以用于分类也可以用于回归问题中。

FM模型：Factorization Machine，一种组合特征计算模型。

Wide&Deep模型:TensorFlow在2016年6月左右发布的一类用于分类和回归的模型，并应用到了Google Play的应用推荐中。

FP-group：Frequent Pattern，是频繁模式挖掘。

LR：Logistic Regression，逻辑回归模型是传统机器学习中的一种分类模型，具有简单、高效、易于并行且在线学习(动态扩展)的特点。

词袋：在自然语言处理和文本分析的问题中的常用模型之一，将文本看作是一系列词的集合。

LDA：一种典型的词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。

AB测试：为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本，在同一时间维度，分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本，收集各群组的用户体验数据和业务数据，最后分析、评估出最好版本，正式采用。

残差：残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。

参照图1，本发明的实施例的主要方法步骤为：S100，通过打点日志记录客户端或者服务端的行为日志，记录内容包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志；S200，通过日志队列对所述行为日志进行数据统计，提取特征数据，处理生成用户画像和文章画像；S300，接收对医学科普文章的请求，根据用户画像和文章画像通过机器学习算法生成相应的推荐文件列表。

参照图2，本发明的一些实施例，步骤S200包括：S210，提取行为日志中编辑人员新增修改的文章，通过自然语言处理，分词、关键词抽取、主体分析及实体词抽取处理，生成或更新文章画像；S220，提取行为日志中用户的行为轨迹，包括文章的阅读、文章的收藏、文章的评论、文章的点赞、搜索记录、咨询购买记录及用户登录记录信息，结合用户的注册信息，统计分析用户偏好的文章画像，生成或更新用户画像。

本发明的一些实施例中，步骤S300包括：S310，接收用户对医学科普文章的请求，通过若干个召回策略进行召回，获得相应的粗选的文章集合；S320,从粗选的文章集合中，按照预设的比例提取排行前列的若干篇文章，合并去重，并根据需要按一定规则进行补充，获得待选的文章集；S330，通过多个特征维度的模型算法，对待选文章集中的文件预测点击率，根据所述点击率的预测值进行排序推送。

可以理解的是，在本发明的某一些实施例中，可以仅使用一个召回策略，在召回的同时即完成文章的精排。

在本发明的一些实施例中，参照图3，系统中主要包括：日志处理模块，用于接收行为日志，获取行为日志中记录的包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志的样本数据，统计数据，提取特征数据，生成用户画像及文章画像；文章推荐模块，用于接收对医学科普文章的请求，根据用户画像和文章画像，生成相应的推荐文件列表；数据存储模块，用于存储用户原始日志，样本数据，特征数据，画像数据及报表数据。其中数据存储模块可以是数据库。

参照图3，在本发明的一些实施例中，文章推荐模块包括：粗排召回模块，用于通过若干个召回策略获得相应的粗选文章集合；规则处理模块，用于从粗选文章集合中，按照预设的比例提取若干篇排行前列的文章，合并去重，并根据需要按一定规则进行补充，获得待选文章集合；文章精排模块，用于通过多个特征维度的模型算法对待选文章集合的文件预测点击率，进一步按照预测点击率的评估值进行排序推送。

参照图4，在本发明的一些实施例中，还包括：入口模块，用于提供接口接收文章推荐请求，并根据用户身份标识号码分流用户进行AB测试；特征处理模块，根据输入特征按一定的模型算法获取相应的医学科普文章；模型训练模块，用于根据样本数据，通过机器学习，更新文章精排模块中的模型算法及特征处理模块中的模型算法。可以理解的是，在本发明的某一些实施例中可以不必包含入口模块。

用户与系统的交互过程参见图4。首先，在在用户请求APP或者网站的一些内容过程中打点生成行为日志，打点对象客户端与服务端。客户端记录并上传用户的行为日志，服务端则上传服务端的请求和推送日志。所有日志都通过日志队列，提取特征，生成文章画像和用户画像。并将相关数据存入数据模块。用户对服务器发起文章请求后，服务端先通过若干种召回策略根据用户画像和文章画像获取粗选文章集合。接着，规则处理模块按一定的规则将粗选文章集合内的文件进行筛选合并，去重和补充之后，得到待选文章集合。文章精排模块预测文章的点击率，将待选文章按预测点击率进行排序后对用户推送。

在本发明的实施例中，参照图4，首先，在用户请求APP或者网站的一些内容过程中打点生成行为日志，例如在客户端及服务端的接口处进行打点。行为日志中记录的内容包括科普文章相关日志、用户搜索日志、用户提问日志、登录日志。

接着，统一由日志队列对行为日志进行接收并做下一步的处理。参照图4，本实施例中，使用Kafka做为日志队列的服务器，它是一种高吞吐的分布式发布订阅消息系统，非常适合作为日志队列使用。行为日志将会参与样本构建、特征提取、用户画像提取、文章画像提取及报表统计等工作。日志队列里的消息最终交由Spark处理，包括实时计算与离线计算。系统将每一天的日志存储于分布式存储系统HDFS上，以便进行一些离线特征、报表数据、样本拼接的处理。Spark接收行为日志进行处理，将处理结果更新到两个画像：用户画像和文章画像，也进行数据统计工作与特征数据处理。

其中，文章画像数据根据编辑人员新增、修改的文章，通过自然语言处理，分词、关键词抽取、主体分析、实体词抽取等步骤，更新至HBase存储。文章画像包括如下属性：发布时间属性，表明文章的时效性，此属性可用于后续的排序，将最新的文章排序权重提高；编辑人员属性，表明文章的来源，被用于预测用户可能喜欢的编辑人员的写作风格；语义标签，表明文章的内容特征；协同特征，表明相似的文章；热度属性，包括有全局热度、分类热度、主题热度、关键词热度等，通过实时统计点击获得，表明文章是否热门；时空属性，包括文章发生的地点、文章内容里相关的时间；质量属性。可以理解的是，本发明的某些实施例中，上述文章画像的属性可以根据需要进行增加删减。

语义标签包括文章的类别、主题分布、关键词、实体词等。文章类别由编辑人员设置的，准确率较高，可直接拿来作为预测用户喜欢类别的标签。主题分布是通过采用词袋的方法，将每一篇文档转成一个词频向量，通过学习，计算并更新出文档属于某个主题时文档中出现某个单词的概率，模型不断重复，最终得到收敛，则完成了LDA的模型训练。核心公式如下：

p(w|d)＝p(w|t)*p(t|d)，

其中d表示文档，w表示单词，t表示主题，p(w|d)表示一个文档d中的一个单词w对于主题t的概率。p(w|t)表示词w出现在主题t中的概率，p(t|d)表示主题t出现在文档d中的概率。

关键词是通过自然语言分词后，根据关键词词库，从文章的分词中抽取出关键词序列，可作为预测用户喜欢标签的特征。

实体词同关键词类似，都是通过自然语言处理抽取出实体词，包括疾病、症状、检查、药品、生理、手术等，同样作为预测用户喜欢标签的特征。

协同特征，通过协同矩阵计算出相似的文章作为协同特征。不同于用户画像，文章画像在本场景下总量并不高，适合使用协同过滤来查找相似的文章。通过分析用户的点击，在推荐列表及推送文章采集用户的正负反馈，用户点击文章即为正反馈，否则为负反馈，积累了大量数据进行协同过滤算法的计算。结合用户浏览时长作为评分，构造多维坐标系，采用欧几里德距离作为相似度计算算法，计算最为相似的若干文章。欧几里德距离计算公式为：

其中，X、Y为需要计算相似度的文章，x_i为文章X的第i维评分，y_i为文章Y的第i维评分。

文章的时空属性，包括文章发生的地点、文章内容里相关的时间。文章发生的地点通过实体识别技术从文章内容中识别出关于地点的实体，然后将发生地存储至文章画像，当规则系统需要推送地域相关文章时可以从此属性计算得到。文章内容里相关的时间通过正则匹配方式，得出相关日期，作为文章发布日期的另一个补充。因为有时文章内容的热点信息可能要提前于发布日期，当规则系统需要某时间段的相关文章时，除了匹配发布日期外，也匹配文章内容里的时间，从而更能提供准确的文章列表。

文章的质量属性，采用文章的编辑人员历史文章平均访问量作为评估，经过统计后得出的数值作为质量的评判标准。

上述文章画像的各属性，会间接作用于用户画像，因为用户画像的兴趣标签信息多数来自于文章画像。可以理解的是，本发明的某些实施例中，上述用户画像的属性可以根据需要进行增加删减。

用户画像则根据用户的行为轨迹，包括文章的阅读、文章的收藏、文章的评论、文章的点赞、搜索记录、咨询购买记录、用户登录记录等，结合用户的一些固定信息(例如：用户注册信息)，通过统计以及文章画像，分析并生成用户画像，存储于HBase中。用户画像包括如下属性：基础人口特征信息、行为特征信息和兴趣标签信息。

基础人口特征信息，包括性别、年龄等注册是用户填写的信息，通过APP定位或者IP获得的地理位置信息。排序模型加入用户的年龄、性别及地理信息特征，有利于推荐更适合用户的文章列表。

行为特征信息，包括关注的科室、文章关键字、文章类别分布、文章主题分布、日均阅读时长、日均阅读文章数目、月均阅读文章数目等属性。关注的科室通过搜索记录及咨询购买记录获得。其中，根据搜索记录获取对应的科室，结合本身的咨询购买记录里带有的科室信息，得出用户较为感兴趣的科室列表。

用户的文章偏好属性则通过用户对文章访问记录结合文章已有画像，统计得到。可以理解的是，当有多个子项时统计时可采用加权取前N位的方式获取用户的文章偏好属性。

本发明的实施例中，通过上述步骤利用行为日志构建了数据层基础的两个画像，文章画像与用户画像。基于画像的数据，用于构建后续的文章推荐模块。

参照图4，当用户请求文章时，通过服务器的入口模块请求推荐入口，通过推荐入口对医学科普文献进行请求，然后通过粗排召回模块生成候选文章列表，再经过规则模块进行去重与补充得到较为完整的候选文章列表，最后由步骤4的机器学习模型进行排序并输出。

入口模块，该模块主要功能是提供接口接收文章推荐请求，并且根据用户的uuid进行分流，以便测试不同的排序算法或者召回策略的优劣。分流进行AB测试是为排序算法和策略制作两个或多个版本，在同一时间维度，分别让组成成分相同或相似的访客群组随机访问这些版本，收集各群组用户的体验数据和业务数据，最后分析，评估出最好的版本，正式采用最优版本。

粗排召回模块，该模块主要功能是为用户粗选一批待排序的文章，相当于粗排序。召回模块共采用了4种召回方法，分别是Tag召回、Word2Vec召回、热门召回、FP-group召回。

Tag召回主要是根据用户阅读的历史日志得到文章关键词标签，从文章库里召回匹配度较高的文章，这个召回策略主要兼顾用户的历史兴趣，对有文章阅读历史行为的用户生效。

Word2Vec召回，Tag召回是粗粒度，无语义区分，通过Word2Vec召回可以把Tag不同但语义相近的文章召回，提高召回命中率。同时这个策略也能够解决部分文章冷启动的问题。

热门召回，对于没有用户历史行为的用户，通过热门召回可以解决用户冷启动的问题。

FP-group召回，频繁项发觉策略可以根据用户的历史浏览轨迹，挖掘到用户可能感兴趣的文章，可以增加推荐系统的新颖程序，避免越推荐越窄。

规则处理模块，负责接收上述4种召回算法召回的所有文章，然后进行融合、去重、补充。融合是指从各个策略召回的结果中，按照系统预设的比例提取前N(N≥1)篇文章，然后合并所有策略的结果交由去重。去重对融合后的文章候选集进行遍历，检查是否存在重复的文章和去掉用户最近看过的文章。补充是在推荐文章候选集数量较小的情况下，通过预先指定的规则进行文章补充，以求用户每次请求都有合适的文章返回。现有规则是用热门的文章进行补充。

文章精排模块接收到经过规则模块处理后的文章候选集，再通过多个排序模型综合进行排序。粗排召回模块因兼顾效率在召回时使用的特征维度较粗，可快速从大量文章中初步筛选出用户可能感兴趣的文章，但预测度上不够精确。而精排模块由于需要预测的文章数据较少，可以使用更多的特征维度来对文章的点击率进行预估。精排模块使用如下4种模型算法：LR、XGBoost+LR、FM、Wide&Deep。

LR模型，即线性回归中的逻辑回归模型，线性回归利用数理统计中回归分析，来确定多种变量之间相互依赖的定量关系的一种分析方法。具体公式如下：

f(x)＝w^Tx+b

x代表多个变量，即多个特征，b为偏移量，通过梯度下降求得w^T和b，从而确定模型。

逻辑回归是一个被Sigmoid函数归一化后的线性回归模型，它的公式如下：

P(y＝1|x；θ)＝sigmoid(θ^Tx)

其中P(y＝1|x；θ)表示预测成1的(此处1表示会点击科普文章)的概率，具体表达的意思是在给定x的条件下，事件y发生的概率，而θ是该条件概率的参数。最后可通过梯度下降求出具体的θ值从而确定模型。

XGBoost+LR模型，通过训练不断地进行特征分裂来生成一颗树，每一轮学习拟合上一轮模型的预测值与实际值之间的残差，当训练完成得到K(K≥1)颗树。要预测样本分数时，根据这个样本特征，K颗树会落到对应的K个叶子节点，每个叶子节点对应一个分数，累加后即得到这个样本的预测值。预测值的公式如下：

其中y为最终所求预测值得分，x_i为样本特征，K为训练的树的总量，f(x_i)为回归树得分。

本实施例中，采用XGBoost+LR模型融合方法，先用已有特征训练XGBoo st模型，然后利用XGBoost模型学习到的树来构造新特征，最后把这些新特征结合原始特征用来训练LR模型。构造的新特征向量是取值0或1的，向量的每个元素对应与XGBoost模型中树的叶子节点。

本实施例中，为了解决稀疏数据的问题，引入了FM模型。FM的优点在于其可以提取用户与文章的交叉特征，由于在提取特征的时候采用的是类似矩阵分解的方法，可通过控制特征的维数k来保持模型的泛化能力，避免过拟合的问题。FM模型的核心是通过特征组合学习来提高模型的准确度。具体公式如下：

其中n代表样本的特征数量，x_i是第i个特征，w₀、w_i、w_ij都是模型参数，前半部是普通的线性组合，后半部门即是特征组合。组合特征的参数共有n(n-1)/2个，通过矩阵分解将其拆分成两个二维矩阵之后，采用随机梯度训练模型。

Wide&Deep模型，结合线性模型的记忆力和DNN模型的泛化能力，从而提升整体模型性能。Wide&Deep模型采用了两个模型，分别是Wide模型与Deep模型。Wide模型使用LR，模型输入为one-hot编码，样本拥有本特征时，特征的值就设置为1，否则为0。公式如下：

其中y是Wide模型所求的概率值，

是模型所求参数，{x,φ(x)}表示特征包括原始的输入特征与交叉特征，b为偏置常量。本实施例中，交叉特征由于维度关系，并没有将所有的特征都进行叉乘，而是采用人工组合方式，定义了几种特征之间的互相组合。

Deep模型采用深度神经网络，将输入的特征首先转换成一个低维的且密集的实数向量。这些向量使用随机的方法进行初始化，目的是将向量初始化到一个量级，在训练过程中通过最小化损失函数来优化模型。然后将这些低维向量转入神经网络的隐层中去，每个隐层做如下计算：

a^(l+1)＝f(W^(l)a^(l)+b^(l))

其中l表示的是层数，f表示激活函数，本实施例中使用的是ReLU函数作为激活函数，b为偏置常量，a为神经网络的节点输出值。

最后Wide&Deep模型采用联合训练的形式，训练的时候共用一个损失函数，然后同时更新各个部分的参数。

本实施例中，先分别通过以上4个算法计算得到文章被点击的概率，最后通过概率相乘的方式获得最终得分，并按最终得分进行排序，进行分页处理后将数据输出到前端，从而完成整个推荐过程。可以理解的是，在本发明的某一些实施例，可以只包括上述部分算法计算文章被点击的概率，最终得分也可以通过各概率加权后相加给出；也可以包含更多的算法模型来预测文章被点击的概率。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所述技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于画像的医学科普文章推荐方法，其特征在于，包括以下步骤：

S100，通过打点日志记录客户端或者服务端的行为日志，所述行为日志的记录内容包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志；

S200，通过日志队列对所述行为日志进行数据统计，提取特征数据，处理生成用户画像和文章画像；

S300，接收对医学科普文章的请求，根据所述的用户画像和所述的文章画像通过机器学习算法生成相应的推荐文件列表。

2.根据权利要求1所述的基于画像的医学科普文章推荐方法，其特征在于，所述步骤S200包括：

S210，提取所述行为日志中编辑人员新增修改的文章，通过自然语言处理，分词、关键词抽取、主体分析及实体词抽取处理，生成或更新所述文章画像；

S220，提取所述行为日志中用户的行为轨迹，包括文章的阅读、文章的收藏、文章的评论、文章的点赞、搜索记录、咨询购买记录及用户登录记录信息，结合用户的注册信息，统计分析用户偏好的所述文章画像，生成或更新所述用户画像。

3.根据权利要求1所述的基于画像的医学科普文章推荐方法，其特征在于，所述步骤S300包括：

S310，接收用户对医学科普文章的请求，通过若干个召回策略进行召回，获得相应的粗选文章集合；

S320,从所述粗选的文章集合中，按照预设的比例提取排行前列的若干篇文章，合并去重，并根据需要按一定规则进行补充，获得待选文章集；

S330，通过多个特征维度的模型算法，对所述待选文章集的文件预测点击率，根据所述点击率的预测值进行排序推送。

4.根据权利要求3所述的基于画像的医学科普文章推荐方法，其特征在于，所述召回策略包括：Tag召回、Word2Vec召回、热门召回及FP-group召回；所述特征维度的模型算法包括：LR模型算法、XGBoost+LR模型算法、FM模型算法及Wide&Deep模型算法。

5.根据权利要求3所述的基于画像的医学科普文章推荐方法，其特征在于，所述合并去重，包括：从合并后的所述医学科普文章中，去除重复的所述医学科普文章及用户最近看过的所述医学科普文章。

6.根据权利要求1所述的基于画像的医学科普文章推荐方法，其特征在于，所述文章画像的属性包括：发布时间，编辑人员，语义标签、协同特征、热度、时空属性及质量属性；其中，语义标签包括：文章的类别、主题分布、关键词及实体词。

7.根据权利要求1所述的基于画像的医学科普文章推荐方法，其特征在于，所述用户画像的属性包括：

基础人口特征信息，包括性别、年龄及地理信息；

行为特征信息，包括关注的科室、文章关键字、文章类别分布、文章主题分布、日均阅读时长、日均阅读文章数目及月均阅读文章数目；

文章偏好属性，根据用户访问的文章记录对应的文章画像属性得到。

8.一种基于画像的医学科普文章推荐系统，使用权利要求1-7中任一项的方法，其特征在于，包括：

日志处理模块，用于接收所述行为日志，获取所述行为日志中记录的包括医学科普文章相关日志、用户搜索日志、用户提问日志及登录日志的样本数据，统计数据，提取特征数据，生成所述的用户画像及所述的文章画像；

文章推荐模块，用于接收对医学科普文章的请求，根据所述的用户画像和所述的文章画像，生成相应的推荐文件列表；

数据存储模块，用于存储用户原始日志，样本数据，特征数据，画像数据及报表数据。

9.根据权利要求8所述的医学科普文章推荐系统，其特征在于，所述文章推荐模块包括：

粗排召回模块，用于通过若干个召回策略获得相应的粗选文章集合；

规则处理模块，用于从所述粗选文章集合中，按照预设的比例提取若干篇排行前列的文章，合并去重，并根据需要按一定规则进行补充，获得待选文章集合；

文章精排模块，用于通过多个特征维度的模型算法对所述待选文章集合中的文章预测点击率，并按照所述点击率的预测值进行排序推送。

10.根据权利要求8所述的医学科普文章推荐系统，其特征在于，还包括：

入口模块，用于提供接口接收文章推荐请求，根据用户身份标识码分流用户进行AB测试；

特征处理模块，根据输入特征按一定的模型算法获取相应的所述医学科普文章；

模型训练模块，用于根据所述样本数据，通过机器学习，更新所述文章精排模块中的所述模型算法及所述特征处理模块中的所述模型算法。