CN115712777A - 一种基于逻辑回归的文献推荐系统的排序方法 - Google Patents

一种基于逻辑回归的文献推荐系统的排序方法 Download PDF

Info

Publication number
CN115712777A
CN115712777A CN202211504259.0A CN202211504259A CN115712777A CN 115712777 A CN115712777 A CN 115712777A CN 202211504259 A CN202211504259 A CN 202211504259A CN 115712777 A CN115712777 A CN 115712777A
Authority
CN
China
Prior art keywords
document
logistic regression
data
sample
recommendation system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211504259.0A
Other languages
English (en)
Inventor
张良
江程
肖银涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN202211504259.0A priority Critical patent/CN115712777A/zh
Publication of CN115712777A publication Critical patent/CN115712777A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于逻辑回归的文献推荐系统的排序方法,包括分析推荐应用场景,确立学习目标;分析用户日志分布,试验并确定采样方案;获取特征数据,构建特征数据集合;分析文献侧、机构侧、作者侧以及交互特征,进行特征筛选;将文献推荐作为分类问题,采用逻辑回归模型训练;划分同等流量,将训练好的模型进行线上评估。本发明能够利用文献、用户、上下文等多种不同特征,通过预测正样本的概率对文献进行个性化排序;具有可解释性强和数学含义支撑,效果显著并且训练和工程开销小等优点,是一种投入小、见效快的方案。

Description

一种基于逻辑回归的文献推荐系统的排序方法
技术领域
本发明涉及个性化推荐技术领域,尤其涉及一种基于逻辑回归的文献推荐系统的排序方法。
背景技术
从知识服务平台上阅读、下载文献是各大学术研究人员获取知识的重要途径。知识服务平台上有海量的文献,这些数据具有丰富的发掘价值和预测潜力;但面对大量的文献,用户筛选出匹配的信息所花费的成本更高了。应用数据挖掘技术发掘文献特征和用户兴趣特点,使用机器学习技术推荐文献,能快速从纷繁复杂的文献中获取有效的信息,让用户在搜索和分类结果之外发现更感兴趣、更个性化的文献补充。通过系统引导用户发现信息,让用户发现一些新颖和令人惊喜的内容;靠知识内容留人,提升用户粘性;合理利用流量,提升平台收益。
现有知识服务平台上的文献推荐打分策略,特征简单,过于依靠人工策略,缺少数学依据。而深度学习模型虽然在较多领域效果显著,但需新增过多的工程设计和代码,才能上线部署,还会增加较多线上延时,无法迅速迭代。逻辑回归模型结构简单,采用梯度下降的方式寻求最优解,效果显著并且训练和工程开销小。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于逻辑回归的文献推荐系统的排序方法。
本发明的目的通过以下的技术方案来实现:
一种基于逻辑回归的文献推荐系统的排序方法,包括:
步骤A分析推荐应用场景,确立学习目标;
步骤B分析用户日志分布,试验并确定采样方案;
步骤C获取特征数据,构建特征数据集合;
步骤D分析文献侧、机构侧、作者侧以及交互特征,进行特征筛选;
步骤E将文献推荐作为分类问题,采用逻辑回归模型训练;
步骤F 划分同等流量,将训练好的模型进行线上评估。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
1、对文献信息和用户行为进行详细地特征相关性分析,构建能提升文献推荐效果的有效特征。
2、采用文献侧、学者侧、机构侧以及上下文等多个维度数据,构建丰富的特征体系;采用实时画像,及时捕捉用户偏好。更能代表用户兴趣,使得推荐列表更准确。
3、将逻辑回归用于文献推荐系统,模型简单并且训练开销小,易于工程化和并行化,能迅速迭代并获得线上效果。
附图说明
图1是基于逻辑回归的文献推荐系统的排序方法流程图;
图2是基于逻辑回归的文献推荐系统的排序方法示意图;
图3是部分特征相关性分析示例图;
图4是逻辑回归模型的计算逻辑图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于逻辑回归的文献推荐系统的排序方法,包括:
1)分析推荐应用场景,确立学习目标
用户在使用学术类数字资源平台时,对于曝光的文献列表中感兴趣的内容,可能产生点击、下载、收藏和关注等行为。在平台上下载文献会带来一定的经济收益,而现在的页面设计,下载行为是基于点击行为的,用户产生点击后才会下载,当点击量提升后下载量才有提升的可能;另外下载行为非常稀疏,数据噪声大,容易过拟合。因此将点击行为作为正样本,仅曝光的文献作为负样本,使用模型拟合点击率。
2)分析用户日志分布,实验并确定采样方案
获取用户行为日志并清洗,分析样本数据分布。从推荐日志中直接获取的数据,用户的点击文献数量相比于曝光给用户的文献数量是较为稀疏的,导致正负样本比例失衡,正样本数量过少,很容易导致模型过拟合,利用失衡的数据训练即便离线评估表现优异,但上线后实际效果并不理想。所以在采样获取训练样本时,正样本全部保留,负样本只取有点击行为的用户产生的曝光数据,舍弃无点击行为用户的所有行为日志数据。
3)获取文献、机构、作者以及用户数据,构建特征数据集合
文献数据包含文献发表时间、下载量、被引量、相关度、影响因子等信息;机构数据包含机构专业领域、发文量、下载量(排名)、被引量(排名)、项目数量、科研人员数量等信息;作者数据包含作者发文总量、核心期刊发文量、被引量、H指数、G指数等信息;用户数据包含兴趣爱好等基本信息以及操作文献、操作时间等行为日志信息;构建特征数据集合包括:对文献、机构、作者、用户基本信息建模得到单边特征,对用户行为日志建模得到双边特征。
数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近这个上限而已,所以丰富的特征在排序系统中至关重要。获取丰富的特征数据的步骤如下:
第一步获取文献侧特征
文献侧特征包含基础特征、统计特征和类别特征。文献基础特征包含发表时间、下载量、被引量、相关度、影响因子等,统计特征包含一段时间内推荐侧(推荐系统中文献)的浏览率、下载率、收藏率等,类别特征包含文献类型、行业类型、学科类型等。
第二步获取学者侧和机构侧特征
学者侧特征包含发文总量、核心期刊论文数、被引量、作者指数等属性。通过将文献的第一作者与学者库中的相应字段关联,获取学者侧多个特征。机构侧特征包含各专业领域发文量、下载量(排名)、被引量(排名)、项目数量、科研人员数量等属性。通过将文献所属的机构和学科类型,与机构库中的相应字段关联,获取机构侧各专业领域的多个属性;一篇文献属于多个机构的多个学科时,取第一个机构,机构下各个学科的属性平均值,作为特征。例如:文献i属于d1、d2两所机构,同时文献i又是s1、s2两个学科相关的文献,第一个机构d1中学科s1和学科s2对应的下载量分别是n1和n2,则取(n1+n2)/2作为机构下载量特征值。
第三步获取交互类特征
用户和文献的交互类特征是最能反映用户个性化的特征,包含用户对行业、学科、期刊、文献的偏好。基于多个时间窗口构建用户和文献交互类特征,例如构造用户近三个月浏览是否核心期刊的交互特征的步骤为:首先,获取用户近三个月浏览核心期刊的次数和非核心期刊的次数,如果浏览核心刊的数量大于浏览非核心刊,则认为用户对核心刊更感兴趣,将用户对核心刊的偏好存入用户画像中;其次,对于召回集合中的文献,是核心刊则该特征为1,是非核心刊则为0,非期刊文献则为缺失值。当窗口较小时、用户重复率低时,效果不明显;采用最近三个月的偏好,效果较好。说明在一定时间范围内,用户兴趣累积越丰富推荐依据越强效果越好。当然最近一周、一个月等的偏好也会被考虑在内作为近期或长期偏好特征,由模型学习这些偏好的重要程度生成模型参数。
处理获取到的特征,包含数值特征的归一化,例如将下载量、被引量等归一化到0-1之间;分类特征的编码,例如将是否核心期刊等进行哑编码;以及缺失值填充,例如用0填充缺失数据等。将以上处理后的特征构建为特征数据集合,作为特征分析和构建训练数据的基础。
4)分析文献侧、机构侧、作者侧以及交互特征,进行特征筛选
特征的相关性分析是为了获取更好训练数据特征的一种典型方法。首先对收集到的三类特征数据进行预处理,主要是去除异常值、去除远离数据分布的噪声数据等;其次,对于连续性特征,例如下载量、被引量等连续数值数据,计算特征与正负样本标签之间的皮尔逊相关系数,目的是问了通过相关系数值,分析特征与拟合目标之间的相关性;结果如图3所示,是部分数值特征相关性分析示例图,例如更新时间、下载量、被引量、相关度等相关性高的特征保留作为排序特征进行训练。
两个变量X、Y之间的皮尔逊相关系数为两个变量之间的协方差和标准差的商,公式如下:
Figure BDA0003968515880000051
通过估算实际特征和标签样本的协方差和标准差,可得到样本的相关系数,上式可以表示如下。其中n为样本量,
Figure BDA0003968515880000052
Figure BDA0003968515880000053
分别为特征样本和标签样本的均值,分子为两个样本的协方差,分母为样本标准差的乘积。
Figure BDA0003968515880000054
对于无序分类特征,例如文献类型、行业类型、兴趣词等类别数据,采用卡方检验方法。基于卡方分布的假设检验的方法,是根据样本数据推断总体分布与期望分布是否有显著差异,或推断两个分类变量是否相关或相互独立。在本案例中,使用卡方检验方法来计算分类特征样本和标签样本之间的相关性,统计量计算公式如下:
Figure BDA0003968515880000055
其中,r为分类的个数,例如对于是否核心期刊特征r即为2;mi为实验出现的次数,即每种分类实际观测的点击频数,例如核心期刊被点击的次数;ni为每种分类的样本量,例如核心期刊被曝光的次数,nip为根据理论概率值计算出来的点击次数,即期望点击频数,p可以由样本整体点击率计算得到。假设H0:特征与点击行为之间无相关性;当χ2值过大,就认为原假设H0不为真;给定显著水平α=0.05,当χ2大于
Figure BDA0003968515880000056
时,拒绝原假设,认为特征与标签具有相关性。
5)将文献推荐作为分类问题,采用逻辑回归模型训练
筛选出相关性高的特征,将特征数据集,和采样得到的正负标签样本关联。根据时间划分训练集、测试集和验证集,例如使用最近一个月的数据作为训练集,最近两天的数据分别做验证集和测试集,得到最终的训练数据,作为逻辑回归模型的输入。
逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,达到将数据分类的目的。基于逻辑回归的推荐过程如图4所示。
第一步:将处理好的特征向量(x1,x2,...,xn)输入逻辑回归模型,其中xi为特征值,例如下载量等。通过乘以不同的权重(w1,w2,...,wn),来表示各特征的重要性程度,对各特征加权求和后,输入Sigmoid函数,得到用户点击物品的概率如下。
Figure BDA0003968515880000061
第二步:确定逻辑回归的优化目标,引入损失函数去评价模型的好坏;根据梯度下降算法找到损失函数的最小值,损失函数取得最小时的权重w即为我们需要的参数。
第三步:对于候选文献集,经过逻辑回归的推断,得到预测的点击概率P,利用概率值进行排序,得到文献推荐列表,对于特征x、权重w和正负样本标签y,预测的点击概率可以表示为:
P(y|x;w)=(fw(x))y(1-fw(x))1-y
在本案例中,训练部分采用Sklearn学习库中的LogisticRegression类实现,对数据进行学习拟合。根据正负样本比例,调节损失函数权重,例如正负样本比例为1:10,则计算正样本的损失时乘以权重10。当负样本比例很高时,适当调高学习正样本时损失函数的权重,可以使得当正样本预测错误时,会产生一个比较大的损失值,从而导致模型参数往让正样本预测正确的方向偏,提高模型学习准确率。使用l2正则化结合坐标轴下降法优化器来迭代优化损失函数,通过控制最大迭代次数1000和误差范围小于1e-10时,判断是否收敛并停止训练。
6)公平划分线上流量,将模型上线评估
将训练好的模型进行评估,离线测试主要采用ROC(Receiver OperatingCharacteristic Curve)曲线下面积AUC(Area Under Curve)和平均倒数秩MRR(MeanReciprocal Rank)进行评估。计算公式为:
AUC=P(P正样本>P负样本)
Figure BDA0003968515880000062
AUC表示分类器对随机抽出的样本,预测得到正样本的概率大于负样本概率的概率。MRR中N表示推荐文献个数,ranki表示用户真实点击文献的位置。
线上评估采用小流量实验的方式,将用户公平的哈希分为多组流量,一部分流量作为实验组,划分同等的流量作为对照组,通过两组实验的人均点击率和人均转化率等指标评价模型好坏。当离线评估有提升时,上线小流量实验。2021年底在个人知网网页推荐平台,相同特征情况下,使用逻辑回归模型的人均点击率,相对于原排序方法显著提升大于30%。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种基于逻辑回归的文献推荐系统的排序方法,其特征在于,包括以下步骤:
步骤A分析推荐应用场景,确立学习目标;
步骤B分析用户日志分布,试验并确定采样方案;
步骤C获取特征数据,构建特征数据集合;
步骤D分析文献侧、机构侧、作者侧以及交互特征,进行特征筛选;
步骤E将文献推荐作为分类问题,采用逻辑回归模型训练;
步骤F划分同等流量,将训练好的模型进行线上评估。
2.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述步骤B包括:获取用户行为日志并清洗,分析样本数据分布;在采样获取训练样本时,采用有点击行为用户的相关数据,包括所有曝光文献数据和用户行为日志。
3.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述步骤C中特征数据包括文献侧、机构侧、作者侧及用户数据;其中,文献侧包含文献发表时间、下载量、被引量、相关度、影响因子;机构侧包含机构专业领域、发文量、下载量、被引量、项目数量、科研人员数量;作者侧包含作者发文总量、核心期刊发文量、被引量、H指数、G指数;用户数据信息包含兴趣爱好以及操作文献、操作时间;
构建特征数据集合是指对文献、机构、作者、用户基本信息建模得到单边特征,对用户行为日志建模得到双边特征。
4.如权利要求3所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,获取特征数据的步骤包括:
C1获取文献侧特征;
C2获取学者侧和机构侧特征;
C3基于多个时间窗口构建用户和文献交互类特征。
5.如权利要求2所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述C1中:
文献侧特征包含基础特征、统计特征和类别特征,其中,文献基础特征包含发表时间、下载量、被引量、相关度、影响因子;统计特征包含一段时间内推荐侧的浏览率、下载率、收藏率;类别特征包含文献类型、行业类型、学科类型。
6.如权利要求2所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述C2中:
通过将文献的第一作者与学者库中的相应字段关联,获取学者侧多个特征,学者侧特征包含发文总量、核心期刊论文数、被引量、作者指数;
通过将文献所属的机构和学科类型,与机构侧中的相应字段关联,获取机构侧各专业领域的多个特征;机构侧特征包含各专业领域发文量、下载量被引量、项目数量、科研人员数量。
7.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述D包括:
对收集到的三类特征数据进行预处理,包括去除异常值、去除远离数据分布的噪声数据;所述三类特征数据包括文献侧特征数据、机构侧特征数据和作者侧特征数据;
对于连续性特征,计算特征向量与正负样本标签向量之间的皮尔逊相关参数,分析特征与拟合目标之间的相关性。
8.如权利要求6所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,特征向量X和标签向量Y之间的皮尔逊相关系数为两个变量之间的协方差和标准差的商,计算公式为:
Figure FDA0003968515870000021
通过估算实际特征和标签样本的协方差和标准差,可得到样本的相关系数,上式可以表示如下,其中n为样本量,
Figure FDA0003968515870000022
Figure FDA0003968515870000023
分别为特征样本和标签样本的均值,分子为两个样本的协方差,分母为样本标准差的乘积:
Figure FDA0003968515870000024
对无序分类特征,该分类特征包括文献类型、行业类型、兴趣词类别数据采用卡方检验方法;通过卡方检验方法计算分类特征样本和标签样本之间的相关性,统计量计算公式如下:
Figure FDA0003968515870000031
其中,r为分类的个数,核心期刊特征r;mi为实验出现的次数,即每种分类实际观测的点击频数,ni为每种分类的样本量,nip为根据理论概率值计算出来的点击次数,即期望点击频数,p可以由样本整体点击率计算得到;
假设H0:特征与点击行为之间无相关性;当χ2值过大,就认为原假设H0不为真;给定显著水平α=0.05,当χ2大于
Figure FDA0003968515870000032
时,拒绝原假设,认为特征与标签具有相关性。
9.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述E具体包括:
E1将处理好的特征向量(x1,x2,...,xn)输入逻辑回归模型,其中xi为特征值;通过乘以不同的权重(w1,w2,...,wn),来表示各特征的重要性程度,对各特征加权求和后,输入Sigmoid函数,得到用户点击物品的概率:
Figure FDA0003968515870000033
E2确定逻辑回归的优化目标,引入损失函数去评价模型的好坏;根据梯度下降算法找到损失函数的最小值,损失函数取得最小时的权重w即为需要的函数;
E3对于候选文献集,经过逻辑回归的推断,得到预测的点击概率P,利用概率值进行排序,得到文献推荐列表,对于特征x、权重w和正负样本标签y,预测的点击概率可以表示为:
P(y|x;w)=(fw(x))y(1-fw(x))1-y
10.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述F包括:将训练好的模型进行评估,通过离线测试采用ROC曲线下面积AUC和平均倒数秩MRR进行评估;计算公式为:
AUC=P(P正样本>P负样本)
Figure FDA0003968515870000034
AUC表示分类器对随机抽出的样本,预测得到正样本的概率大于负样本概率的概率;MRR中N表示推荐文献个数,ranki表示用户真实点击文献的位置。
CN202211504259.0A 2022-11-29 2022-11-29 一种基于逻辑回归的文献推荐系统的排序方法 Pending CN115712777A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211504259.0A CN115712777A (zh) 2022-11-29 2022-11-29 一种基于逻辑回归的文献推荐系统的排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211504259.0A CN115712777A (zh) 2022-11-29 2022-11-29 一种基于逻辑回归的文献推荐系统的排序方法

Publications (1)

Publication Number Publication Date
CN115712777A true CN115712777A (zh) 2023-02-24

Family

ID=85235224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211504259.0A Pending CN115712777A (zh) 2022-11-29 2022-11-29 一种基于逻辑回归的文献推荐系统的排序方法

Country Status (1)

Country Link
CN (1) CN115712777A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116346697A (zh) * 2023-05-30 2023-06-27 亚信科技(中国)有限公司 业务质量评测方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116346697A (zh) * 2023-05-30 2023-06-27 亚信科技(中国)有限公司 业务质量评测方法、装置及电子设备
CN116346697B (zh) * 2023-05-30 2023-09-19 亚信科技(中国)有限公司 通信业务质量评测方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN107423442B (zh) 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
Sulistiani et al. Implementation of Dynamic Mutual Information and Support Vector Machine for Customer Loyalty Classification
CN108073568B (zh) 关键词提取方法和装置
Gu et al. Learning global term weights for content-based recommender systems
Utari et al. Implementation of data mining for drop-out prediction using random forest method
CN111738532B (zh) 一种事件对对象影响度的获取方法和系统
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN113962294B (zh) 多类型事件预测模型
Törnblom et al. An abstraction-refinement approach to formal verification of tree ensembles
CN117151870B (zh) 一种基于客群画像行为分析方法及系统
CN113553831A (zh) 基于bagcnn模型的方面级别情感分析方法和系统
CN115712777A (zh) 一种基于逻辑回归的文献推荐系统的排序方法
CN111612519A (zh) 一种识别金融产品潜在客户的方法、装置及存储介质
Darena et al. Machine learning-based analysis of the association between online texts and stock price movements
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
Cao et al. User online purchase behavior prediction based on fusion model of CatBoost and Logit
CN117372144A (zh) 应用于小样本场景的风控策略智能化方法及系统
CN111310048A (zh) 基于多层感知机的新闻推荐方法
CN111507528A (zh) 一种基于cnn-lstm的股票长期趋势预测方法
Wei et al. Sequential recommendation based on long-term and short-term user behavior with self-attention
CN113342964B (zh) 一种基于移动业务的推荐类型确定方法及系统
CN112559905A (zh) 一种基于双模式注意力机制和社交相似度的会话推荐方法
Leegwater et al. From data to a validated score-based LR system: a practitioner’s guide
Zhang et al. Forecast the price of chemical products with multivariate data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination