CN112989207A - 一种信息推荐方法及装置、电子设备、存储介质 - Google Patents
一种信息推荐方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN112989207A CN112989207A CN202110459109.1A CN202110459109A CN112989207A CN 112989207 A CN112989207 A CN 112989207A CN 202110459109 A CN202110459109 A CN 202110459109A CN 112989207 A CN112989207 A CN 112989207A
- Authority
- CN
- China
- Prior art keywords
- information
- cluster
- sub
- sample
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 74
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 230000015572 biosynthetic process Effects 0.000 claims description 22
- 238000003786 synthesis reaction Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012952 Resampling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 16
- 239000000047 product Substances 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007087 memory ability Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息推荐方法及装置、电子设备、存储介质,其中,所述方法包括:确定信息推荐模型;所述信息推荐模型包括级联的词向量模型和径向基神经网络;将第一向量和至少一个第二向量输入至所述信息推荐模型,得到至少一个待推荐信息中的各个待推荐信息的评分,所述第一向量用于表征目标用户的历史消费信息,所述至少一个第二向量中的每个第二向量用于表征一个待推荐信息;将所述至少一个待推荐信息中的各个待推荐信息的评分进行排序,并按照排序结果向所述目标用户进行信息推荐。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种信息推荐方法及装置、电子设备、存储介质。
背景技术
用户在终端进行信息浏览时,通常需要对用户的行为进行预测,以向用户推荐符合用户行为的信息,现有技术中,通常采用基于反向传播(BP,Back Propagation)的神经网络算法来对用户行为进行预测,并对用户进行信息的推荐。但是,基于BP神经网络方法的训练方法较为复杂,本质上为梯度下降法,算法容易陷入局部极值,且效率不高,且BP网络的预测能力(泛化能力)与训练能力(逼近能力)存在矛盾,会出现“过拟合现象”。因此,这种基于BP神经网络的用户行为预测方法不能充分学习用户行为分布的规律,对网络用户行为预测存在一定的片面性,不适合直接应用于需要对用户行为进行预测的场景中。
发明内容
为解决上述技术问题,本申请实施例提供了一种一种信息推荐方法及装置、电子设备、存储介质。
本申请实施例提供了一种信息推荐方法,所述方法包括:
确定信息推荐模型;所述信息推荐模型包括级联的词向量模型和径向基神经网络;
将第一向量和至少一个第二向量输入至所述信息推荐模型,得到至少一个待推荐信息中的各个待推荐信息的评分,所述第一向量用于表征目标用户的历史消费信息,所述至少一个第二向量中的每个第二向量用于表征一个待推荐信息;
将所述至少一个待推荐信息中的各个待推荐信息的评分进行排序,并按照排序结果向所述目标用户进行信息推荐。
本申请一可选实施方式中,所述确定信息推荐模型,包括:
获得评语数据集;
利用所述评语数据集对待训练的信息推荐模型进行训练,得到所述信息推荐模型。
本申请一可选实施方式中,所述获得评语数据集,包括:
对不平衡评语数据集进行重采样,得到评语数据集。
本申请一可选实施方式中,所述对不平衡评语数据集进行重采样,得到评语数据集,包括:
将不平衡数据集分为少数类和多数类;
对所述少数类进行聚类得到至少一个子簇,确定所述至少一个子簇中的各个子簇中参与样本合成的第一样本;
针对各个子簇,将各个子簇中选择的参与样本合成的第一样本与对应的子簇的簇心进行双线性差值得到与各子簇对应的第二样本;
将所述各子簇对应的第二样本、各子簇的簇心以及所述少数类和多数类相结合得到评语数据集。
本申请一可选实施方式中,所述确定所述至少一个子簇中的各个子簇中参与样本合成的第一样本,包括:
针对所述至少一个子簇中的每个子簇,在该子簇中随机选择第三样本,并基于所述第三样本与该子簇对应的簇心的距离判断所述第三样本是否可以参与样本的合成,若可以,则将该第三样本确定为第一样本。
本申请一可选实施方式中,所述第一向量为所述目标用户的历史消费信息向量的均值。
本申请一可选实施方式中,所述方法还包括:
针对推荐给目标用户的信息,获得用户对该信息的评语,并将用户对该信息的评语补充至所述评语数据集中,得到更新的评语数据集;
利用所述更新的评语数据集对所述信息推荐模型进行训练,得到更新的信息推荐模型。
本申请实施例还提供了一种信息推荐装置,所述装置包括:
确定单元,用于确定信息推荐模型;所述信息推荐模型包括级联的词向量模型和径向基神经网络;
第一处理单元,用于将第一向量和至少一个第二向量输入至所述信息推荐模型,得到至少一个待推荐信息中的各个待推荐信息的评分,所述第一向量用于表征目标用户的历史消费信息,所述至少一个第二向量中的每个第二向量用于表征一个待推荐信息;
推荐单元,用于将所述至少一个待推荐信息的各个待推荐信息的评分进行排序,并按照排序结果向所述目标用户进行信息推荐。
本申请一可选实施方式中,所述确定单元,具体用于:
获得评语数据集;
利用所述评语数据集对待训练的信息推荐模型进行训练,得到所述信息推荐模型。
本申请一可选实施方式中,所述确定单元,具体用于:
对不平衡评语数据集进行重采样,得到评语数据集。
本申请一可选实施方式中,所述确定单元,具体用于:
将不平衡数据集分为少数类和多数类;
对所述少数类进行聚类得到至少一个子簇,确定所述至少一个子簇中的各个子簇中参与样本合成的第一样本;
针对各个子簇,将各个子簇中选择的参与样本合成的第一样本与对应的子簇的簇心进行双线性差值得到与各子簇对应的第二样本;
将所述各子簇对应的第二样本、各子簇的簇心以及所述少数类和多数类相结合得到评语数据集。
本申请一可选实施方式中,所述确定单元,具体用于:
针对所述至少一个子簇中的每个子簇,在该子簇中随机选择第三样本,并基于所述第三样本与该子簇对应的簇心的距离判断所述第三样本是否可以参与样本的合成,若可以,则将该第三样本确定为第一样本。
本申请一可选实施方式中,所述第一向量为所述目标用户的历史消费信息向量的均值。
本申请一可选实施方式中,所述装置还包括:
获得单元,用于针对推荐给目标用户的信息,获得用户对该信息的评语,并将用户对该信息的评语补充至所述评语数据集中,得到更新的评语数据集;
第二处理单元,用于利用所述更新的评语数据集对所述信息推荐模型进行训练,得到更新的信息推荐模型。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行上述实施例所述的信息推荐方法。
本申请实施例还提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行上述实施例所述的信息推荐方法。
本申请实施例的技术方案,通过确定信息推荐模型;所述信息推荐模型包括级联的词向量模型和径向基神经网络将第一向量和至少一个第二向量输入至所述信息推荐模型,得到至少一个待推荐信息中的各个待推荐信息的评分,所述第一向量用于表征目标用户的历史消费信息,所述至少一个第二向量中的每个第二向量用于表征一个待推荐信息;将所述至少一个待推荐信息中的各个待推荐信息的评分进行排序,并按照排序结果向所述目标用户进行信息推荐。如此,能够较好的对用户行为进行预测,从而给用户推荐与用户关联性更强,用户更倾向于获取的信息,提高用户的使用体验。
附图说明
图1为本申请实施例提供的信息推荐方法的流程示意图;
图2为本申请实施例提供的对不平衡评语数据集进行重采样的原理过程图;
图3为本申请实施例提供的信息推荐装置的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
用户在终端进行信息的浏览时,终端需要能够对用户行为、偏好等进行合理的预测,从而能够向用户推荐用户会感兴趣的信息,本申请实施例中的信息包括多种类型,能够应用于各种类型的需要向用户进行信息推荐的场景中,例如,本申请实施例的信息可以是商品信息,通过对用户的行为进行预测,能够为用户推荐用户感兴趣的商品;再例如,本申请实施例的信息还可以是话题信息,通过对用户的行为进行预测,能够向用户推送用户感兴趣的话题。可以理解的是,本申请实施例的信息的内容不限于上述两种形式,还可以是图片、视频、音频等类型的内容信息。
在一种方案中,可以通过确定预测模型相应的参数集;确定网络用户行为训练数据集;再根据所确定的参数集建立神经网络预测模型的层次结构,建立输入权重矩阵、反馈权重矩阵、动态池内部连接权重矩阵;利用训练数据集对该预测模型进行训练,经计算得到预测模型的输出权重矩阵,调整预测模型的输入,该预测模型将给出相应的预测结果。
上述方案中的预测模型为BP神经网络模型,这种BP神经网络方法的训练方法较为复杂,本质上为梯度下降法,算法容易陷入局部极值,且效率不高。BP网络的预测能力(泛化能力)与训练能力(逼近能力)存在矛盾,会出现“过拟合现象”。因此,这种基于BP神经网络的用户行为预测方法不能充分学习网络用户行为分布的规律,对网络用户行为预测存在一定的片面性。另一方面,BP神经网络的学习算法的易实现性、预测精度、容错能力等性能指标都不易实现,不适合直接应用于需要对用户行为进行预测的场景中。
为了克服上述技术方案存在的问题,更好的对用户行为进行预测,并基于预测结果对用户进行信息的推荐,提出以下本申请实施例的技术方案。本申请实施例的技术方案以所要推荐的信息为商品来说明本申请实现信息推荐的各步骤。需要说明的是,本申请实施例的方案并不仅限于对商品这一信息类型的推荐,还可以是其他属性的信息。
图1为本申请实施例提供的信息推荐方法的流程示意图,如图1所示,本申请实施例提供的信息推荐方法包括如下步骤:
步骤101:确定信息推荐模型;所述信息推荐模型包括级联的词向量模型和径向基神经网络。
本申请实施例中,词向量模型可以具体为Word2Vec推荐模型,该Word2Vec推荐模型包括统计语言模型、汉语语言模型(即N-gram)、神经网络语言模型(NNLM,NeuralNetwork Language Model)和Word2Vec共四个模型。
在Word2Vec推荐模型中,将用户的购物行为看作一篇文章,商品看作词,作为词向量模型的输入。用户的购物行为包括点击、购买、加购、收藏、推荐商品;商品看成词,词的种类有女装、男装、鞋靴、童装、玩具、美妆、美食、游戏、生鲜、家具、珠宝、数码等等。
对于表示用户购物行为的语句,若该句子由T个词组成,则表示一个句子。对于语句:“A B C D E”,该语句的词之间假设用空格分割,那么对于这个语句,假设w表示语句中的词,那么前n-1个词记为Content(w),得到训练样本为Content(w),w。使用用户行为文章作为语料,设为语料E,同时有词向量长度为m,那么NNLM模型框架为:
上述NNLM框架中,第一行的公式为NNLM模型的隐藏层,隐藏层通过加激活函数tanh等进行非线性映射;第二行的公式为NNLM模型的输入层,输入层为经过投影矩阵映射后的词向量的拼接, 输入向量大小为窗口上下文词的数量乘以定义的词向量的长度;第二行的公式为NNLM模型的输出层,输出层利用Softmax函数做归一化操作,保证模型输出的概率的和为1。
本申请实施例中词向量模型与径向基神经网络(即RBF-NN)之间是全连接的,RBF-NN算法的优点是非线性拟合能力强,全局最优逼近;局部接受特性使得决策时含有距离的概念,学习规则简单、拓扑结构紧凑、结构参数可实现分离学习,收敛速度快,便于计算机实现;稳定性、泛化能力、记忆能力强,具有强大的自学习能力等。
本申请一可选实施方式中,对于步骤101可具体通过如下方式实现:
获得评语数据集;
利用所述评语数据集对待训练的信息推荐模型进行训练,得到所述信息推荐模型。
具体的,在一种可选的实施方式中,可通过如下方式获得评语数据集:
若评语数据集为对不平衡评语数据集进行重采样,得到评语数据集。
在机器学习过程中,一般将数据集中关于类别分布的不均衡问题称为数据集的不均衡问题,体现在样本的数量差异较大。这里,以对用户行为预测具体为对用户的购物行为进行预测,并对用户进行商品的推荐为例,上述评语数据集和不平衡评语数据集分别为针对商品的商品评语数据集合对商品的不平衡商品评语数据集。
一般情况下,不平衡商品评语数据集中好评差评数量差异较大,为了提高样本的质量,使得利用数据集样本对推荐模型进行训练后得到的推荐模型的预测结果更为准确,需要对不平衡商品评语数据集进行过采样获得数据样本较为平衡的商品评语数据集。
作为一种具体的实施方式,对不平衡评语数据集进行重采样,得到评语数据集的过程为:
将不平衡数据集分为少数类和多数类;
对所述少数类进行聚类得到至少一个子簇,确定所述至少一个子簇中的各个子簇中参与样本合成的第一样本;
针对各个子簇,将各个子簇中选择的参与样本合成的第一样本与对应的子簇的簇心进行双线性差值得到与各子簇对应的第二样本;
将所述各子簇对应的第二样本、各子簇的簇心以及所述少数类和多数类相结合得到评语数据集。
这里,作为一种具体的实施方式,确定所述至少一个子簇中的各个子簇中参与样本合成的第一样本的具体方式为:
针对所述至少一个子簇中的每个子簇,在该子簇中随机选择第三样本,并基于所述第三样本与该子簇对应的簇心的距离判断所述第三样本是否可以参与样本的合成,若可以,则将该第三样本确定为第一样本。
具体的,对于不平衡商品评语数据集过抽样算法,合成少数类过采样算法(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,本申请实施例结合聚类算法提出了改进算法CGESMOTE算法。该算法的具体实现过程如图2所示。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行双线性插值合成新样本,并且对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。CGESMOTE算法具有更高的分类性能,可以有效解决数据集中样本分布不平衡的问题。
如图2所示,CGESMOTE算法的基本思想:首先将不均衡的评语数据集分为少数类和多数类,在少数类上使用DBSCAN算法聚类得到多个子簇。依次在每个子簇中进行过抽样,在子簇中随机选择参与合成的样本,并根据所选样本与对应簇心的马氏距离D判断其是否可以参与合成;然后,将簇心与所选样本进行双线性插值获得新样本,最后将合成的新样本、簇心以及原少数类样本以及多数类相结合获得均衡的评语数据集。
具体思想为:对于子簇中的一个少数样本A,计算少数样本与其对应簇的中心点B的马氏距离D,如果不存在某个多数类样本C与中心点B的距离小于D,则使用少数样本A和中心点B进行双线性插值生成新的少数类样本,否则放弃使用样本A。
本申请实施例中在得到平衡的评语数据集后,可以将评语数据集划分为训练集和验证集两部分;训练集用于对信息推荐模型进行训练,验证集用于验证信息推荐模型的推荐的准确性。
步骤102:将第一向量和至少一个第二向量输入至所述信息推荐模型,得到至少一个待推荐信息中的各个待推荐信息的评分。
本申请实施例中,所述第一向量用于表征目标用户的历史消费信息,所述至少一个第二向量中的每个第二向量用于表征一个待推荐信息。
本申请一可选实施方式中,所述第一向量为所述目标用户的历史消费信息向量的均值。
这里,目标用户的历史消费信息可以具体为用户的历史购物信息,相应的,目标用户的历史消费信息的均值为用户历史购买商品的向量的均值。
本申请实施例中,在得到信息推荐模型后,利用信息推荐模型进行商品推荐时,该信息推荐模型的输入有两个,一个是用户历史购买商品的向量的均值,另一个是待推荐商品的各个待推荐商品的向量;信息推荐模型的输出为待推荐商品的信息列表。
本申请实施例中,将输入的用户行为向量具体为用户行为的均值向量,使用均值向量可以更好地表现出用户购物行为中的每一个词的信息,不仅提高了准确率,也减少了输入节点。由于词向量模型和是RBF-NN是全连接的,模型输入的减少,能够使得模型的计算规模大幅度降低。
步骤103:将所述至少一个待推荐信息中的各个待推荐信息的评分进行排序,并按照排序结果向所述目标用户进行信息推荐。
这里,通过信息推荐模型得到推荐商品A的得分,对推荐商品B做同样的处理,最后按照多个待推荐商品的评分的排序,得到给用户推荐的商品的列表。
这里,通过信息推荐模型计算各个待推荐商品得分,输入用户W及一个推荐商品A,模型的输入层为用户W历史购买商品的向量均值及推荐的商品A的向量,通过推荐算法得到推荐商品A的得分。推荐商品B做同样的处理。最后按照评分排序,得到针对目标用户的商品推荐列表。
本申请一可选实施方式中,在将待推荐信息推荐给目标用户后,针对推荐给目标用户的信息,获得用户对该信息的评语,并将用户对该信息的评语补充至所述评语数据集中,得到更新的评语数据集;利用所述更新的评语数据集对所述信息推荐模型进行训练,得到更新的信息推荐模型。
具体的,在将商品推荐给用户后,根据用户对推荐的商品的反馈信息,具体为对商品的评语,将对评语的反馈再返回到商品评语数据集,并利用更新的商品评语数据集进一步对信息推荐模型进行训练,得到更新的信息推荐模型,在进一步利用更新的信息推荐模型进行商品的推荐,能够形成一条不断流通、更新的闭环,防止用户对产品失去兴趣,丧失购买力。
本申请实施例的技术方案,通过基于RBF-NN算法的Word2Vec推荐模型应用其中,提供技术支持和整合的作用,能够较好的对用户行为进行预测,从而给用户推荐与用户关联性更强,用户更倾向于获取的信息,提高用户的使用体验。
图3为本申请实施例提供的信息推荐装置的结构组成示意图,如图3所示,本申请实施例的信息推荐装置,包括:
确定单元301,用于确定信息推荐模型;所述信息推荐模型包括级联的词向量模型和径向基神经网络;
第一处理单元302,用于将第一向量和至少一个第二向量输入至所述信息推荐模型,得到至少一个待推荐信息中的各个待推荐信息的评分,所述第一向量用于表征目标用户的历史消费信息,所述至少一个第二向量中的每个第二向量用于表征一个待推荐信息;
推荐单元303,用于将所述至少一个待推荐信息的各个待推荐信息的评分进行排序,并按照排序结果向所述目标用户进行信息推荐。
本申请一可选实施方式中,所述确定单元301,具体用于:
获得评语数据集;
利用所述评语数据集对待训练的信息推荐模型进行训练,得到所述信息推荐模型。
本申请一可选实施方式中,所述确定单元301,具体用于:
对不平衡评语数据集进行重采样,得到评语数据集。
本申请一可选实施方式中,所述确定单元301,具体用于:
将不平衡数据集分为少数类和多数类;
对所述少数类进行聚类得到至少一个子簇,确定所述至少一个子簇中的各个子簇中参与样本合成的第一样本;
针对各个子簇,将各个子簇中选择的参与样本合成的第一样本与对应的子簇的簇心进行双线性差值得到与各子簇对应的第二样本;
将所述各子簇对应的第二样本、各子簇的簇心以及所述少数类和多数类相结合得到评语数据集。
本申请一可选实施方式中,所述确定单元301,具体用于:
针对所述至少一个子簇中的每个子簇,在该子簇中随机选择第三样本,并基于所述第三样本与该子簇对应的簇心的距离判断所述第三样本是否可以参与样本的合成,若可以,则将该第三样本确定为第一样本。
本申请一可选实施方式中,所述第一向量为所述目标用户的历史消费信息向量的均值。
本申请一可选实施方式中,所述装置还包括:
获得单元304,用于针对推荐给目标用户的信息,获得用户对该信息的评语,并将用户对该信息的评语补充至所述评语数据集中,得到更新的评语数据集;
第二处理单元305,用于利用所述更新的评语数据集对所述信息推荐模型进行训练,得到更新的信息推荐模型。
本领域技术人员应当理解,图3所示的信息推荐装置中的各单元的实现功能可参照前述信息推荐方法的相关描述而理解。图3所示的信息推荐装置中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行上述实施例所述的信息推荐方法。
本申请实施例还提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行上述实施例所述的信息推荐方法。
本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种信息推荐方法,其特征在于,所述方法包括:
确定信息推荐模型;所述信息推荐模型包括级联的词向量模型和径向基神经网络;
将第一向量和至少一个第二向量输入至所述信息推荐模型,得到至少一个待推荐信息中的各个待推荐信息的评分,所述第一向量用于表征目标用户的历史消费信息,所述至少一个第二向量中的每个第二向量用于表征一个待推荐信息;
将所述至少一个待推荐信息中的各个待推荐信息的评分进行排序,并按照排序结果向所述目标用户进行信息推荐。
2.根据权利要求1所述的方法,其特征在于,所述确定信息推荐模型,包括:
获得评语数据集;
利用所述评语数据集对待训练的信息推荐模型进行训练,得到所述信息推荐模型。
3.根据权利要求2所述的方法,其特征在于,所述获得评语数据集,包括:
对不平衡评语数据集进行重采样,得到评语数据集。
4.根据权利要求3所述的方法,其特征在于,所述对不平衡评语数据集进行重采样,得到评语数据集,包括:
将不平衡数据集分为少数类和多数类;
对所述少数类进行聚类得到至少一个子簇,确定所述至少一个子簇中的各个子簇中参与样本合成的第一样本;
针对各个子簇,将各个子簇中选择的参与样本合成的第一样本与对应的子簇的簇心进行双线性差值得到与各子簇对应的第二样本;
将所述各子簇对应的第二样本、各子簇的簇心以及所述少数类和多数类相结合得到评语数据集。
5.根据权利要求4所述的方法,其特征在于,所述确定所述至少一个子簇中的各个子簇中参与样本合成的第一样本,包括:
针对所述至少一个子簇中的每个子簇,在该子簇中随机选择第三样本,并基于所述第三样本与该子簇对应的簇心的距离判断所述第三样本是否可以参与样本的合成,若可以,则将该第三样本确定为第一样本。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述第一向量为所述目标用户的历史消费信息向量的均值。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
针对推荐给目标用户的信息,获得用户对该信息的评语,并将用户对该信息的评语补充至所述评语数据集中,得到更新的评语数据集;
利用所述更新的评语数据集对所述信息推荐模型进行训练,得到更新的信息推荐模型。
8.一种信息推荐装置,其特征在于,所述装置包括:
确定单元,用于确定信息推荐模型;所述信息推荐模型包括级联的词向量模型和径向基神经网络;
第一处理单元,用于将第一向量和至少一个第二向量输入至所述信息推荐模型,得到至少一个待推荐信息中的各个待推荐信息的评分,所述第一向量用于表征目标用户的历史消费信息,所述至少一个第二向量中的每个第二向量用于表征一个待推荐信息;
推荐单元,用于将所述至少一个待推荐信息的各个待推荐信息的评分进行排序,并按照排序结果向所述目标用户进行信息推荐。
9.一种电子设备,其特征在于,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110459109.1A CN112989207B (zh) | 2021-04-27 | 2021-04-27 | 一种信息推荐方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110459109.1A CN112989207B (zh) | 2021-04-27 | 2021-04-27 | 一种信息推荐方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989207A true CN112989207A (zh) | 2021-06-18 |
CN112989207B CN112989207B (zh) | 2021-08-27 |
Family
ID=76340391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110459109.1A Active CN112989207B (zh) | 2021-04-27 | 2021-04-27 | 一种信息推荐方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989207B (zh) |
Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923545A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种个性化信息推荐的方法 |
CN102495901A (zh) * | 2011-12-16 | 2012-06-13 | 山东师范大学 | 通过局部均值保持实现类数据平衡的方法 |
CN103593470A (zh) * | 2013-11-29 | 2014-02-19 | 河南大学 | 一种双度集成的不均衡数据流分类算法 |
CN103886330A (zh) * | 2014-03-27 | 2014-06-25 | 西安电子科技大学 | 基于半监督svm集成学习的分类方法 |
US20150178265A1 (en) * | 2013-12-20 | 2015-06-25 | Google Inc. | Content Recommendation System using a Neural Network Language Model |
CN104951809A (zh) * | 2015-07-14 | 2015-09-30 | 西安电子科技大学 | 基于不平衡分类指标与集成学习的不平衡数据分类方法 |
CN105241524A (zh) * | 2015-10-26 | 2016-01-13 | 河海大学常州校区 | 一种基于径向基函数神经网络模型的城市洪水预警系统及其方法 |
CN105678590A (zh) * | 2016-02-07 | 2016-06-15 | 重庆邮电大学 | 一种面向社交网络基于云模型的topN推荐方法 |
CN105868317A (zh) * | 2016-03-25 | 2016-08-17 | 华中师范大学 | 一种数字教育资源推荐方法及系统 |
CN106227792A (zh) * | 2016-07-20 | 2016-12-14 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN106897363A (zh) * | 2017-01-11 | 2017-06-27 | 同济大学 | 基于眼动追踪的文本推荐方法 |
CN107707657A (zh) * | 2017-09-30 | 2018-02-16 | 苏州涟漪信息科技有限公司 | 基于多传感器的安全监护系统 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108053328A (zh) * | 2017-12-13 | 2018-05-18 | 广州市景心科技股份有限公司 | 一种主叫号码对碎屏险业务需求的检测方法 |
CN108875783A (zh) * | 2018-05-09 | 2018-11-23 | 西安工程大学 | 一种面向不平衡数据集的极限学习机变压器故障诊断方法 |
CN109614556A (zh) * | 2018-10-31 | 2019-04-12 | 拉卡拉支付股份有限公司 | 访问路径预测、信息推送方法及装置 |
US10262107B1 (en) * | 2013-03-15 | 2019-04-16 | Bao Tran | Pharmacogenetic drug interaction management system |
CN109785064A (zh) * | 2019-01-14 | 2019-05-21 | 南京信息工程大学 | 一种基于多源信息融合的移动电子商务推荐方法和系统 |
US20190228025A1 (en) * | 2018-01-19 | 2019-07-25 | Hyperdyne, Inc. | Decentralized latent semantic index using distributed average consensus |
CN110398650A (zh) * | 2019-08-05 | 2019-11-01 | 国网河北省电力有限公司电力科学研究院 | 基于k-邻近SMOTE和深度学习的变压器故障诊断方法 |
CN110532462A (zh) * | 2019-07-25 | 2019-12-03 | 北京三快在线科技有限公司 | 一种推荐方法、装置、设备及可读存储介质 |
CN110942153A (zh) * | 2019-11-11 | 2020-03-31 | 西北工业大学 | 基于重复编辑最近邻与聚类过采样的数据重采样方法 |
US10630840B1 (en) * | 2019-05-22 | 2020-04-21 | Capital One Services, Llc | Systems for transitioning telephony-based and in-person servicing interactions to and from an artificial intelligence (AI) chat session |
US10664504B2 (en) * | 2017-05-22 | 2020-05-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Interaction method and apparatus based on artificial intelligence |
CN111737978A (zh) * | 2020-07-02 | 2020-10-02 | 武汉卓尔数字传媒科技有限公司 | 一种购物评价情感分析的方法、装置及电子设备 |
CN111882409A (zh) * | 2020-09-28 | 2020-11-03 | 武汉卓尔数字传媒科技有限公司 | 一种推荐主体的方法、装置及电子设备 |
-
2021
- 2021-04-27 CN CN202110459109.1A patent/CN112989207B/zh active Active
Patent Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923545A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种个性化信息推荐的方法 |
CN102495901A (zh) * | 2011-12-16 | 2012-06-13 | 山东师范大学 | 通过局部均值保持实现类数据平衡的方法 |
US10262107B1 (en) * | 2013-03-15 | 2019-04-16 | Bao Tran | Pharmacogenetic drug interaction management system |
CN103593470A (zh) * | 2013-11-29 | 2014-02-19 | 河南大学 | 一种双度集成的不均衡数据流分类算法 |
US20150178265A1 (en) * | 2013-12-20 | 2015-06-25 | Google Inc. | Content Recommendation System using a Neural Network Language Model |
CN103886330A (zh) * | 2014-03-27 | 2014-06-25 | 西安电子科技大学 | 基于半监督svm集成学习的分类方法 |
CN104951809A (zh) * | 2015-07-14 | 2015-09-30 | 西安电子科技大学 | 基于不平衡分类指标与集成学习的不平衡数据分类方法 |
CN105241524A (zh) * | 2015-10-26 | 2016-01-13 | 河海大学常州校区 | 一种基于径向基函数神经网络模型的城市洪水预警系统及其方法 |
CN105678590A (zh) * | 2016-02-07 | 2016-06-15 | 重庆邮电大学 | 一种面向社交网络基于云模型的topN推荐方法 |
CN105868317A (zh) * | 2016-03-25 | 2016-08-17 | 华中师范大学 | 一种数字教育资源推荐方法及系统 |
CN106227792A (zh) * | 2016-07-20 | 2016-12-14 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN106897363A (zh) * | 2017-01-11 | 2017-06-27 | 同济大学 | 基于眼动追踪的文本推荐方法 |
US10664504B2 (en) * | 2017-05-22 | 2020-05-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Interaction method and apparatus based on artificial intelligence |
CN107707657A (zh) * | 2017-09-30 | 2018-02-16 | 苏州涟漪信息科技有限公司 | 基于多传感器的安全监护系统 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108053328A (zh) * | 2017-12-13 | 2018-05-18 | 广州市景心科技股份有限公司 | 一种主叫号码对碎屏险业务需求的检测方法 |
US20190228025A1 (en) * | 2018-01-19 | 2019-07-25 | Hyperdyne, Inc. | Decentralized latent semantic index using distributed average consensus |
CN108875783A (zh) * | 2018-05-09 | 2018-11-23 | 西安工程大学 | 一种面向不平衡数据集的极限学习机变压器故障诊断方法 |
CN109614556A (zh) * | 2018-10-31 | 2019-04-12 | 拉卡拉支付股份有限公司 | 访问路径预测、信息推送方法及装置 |
CN109785064A (zh) * | 2019-01-14 | 2019-05-21 | 南京信息工程大学 | 一种基于多源信息融合的移动电子商务推荐方法和系统 |
US10630840B1 (en) * | 2019-05-22 | 2020-04-21 | Capital One Services, Llc | Systems for transitioning telephony-based and in-person servicing interactions to and from an artificial intelligence (AI) chat session |
CN110532462A (zh) * | 2019-07-25 | 2019-12-03 | 北京三快在线科技有限公司 | 一种推荐方法、装置、设备及可读存储介质 |
CN110398650A (zh) * | 2019-08-05 | 2019-11-01 | 国网河北省电力有限公司电力科学研究院 | 基于k-邻近SMOTE和深度学习的变压器故障诊断方法 |
CN110942153A (zh) * | 2019-11-11 | 2020-03-31 | 西北工业大学 | 基于重复编辑最近邻与聚类过采样的数据重采样方法 |
CN111737978A (zh) * | 2020-07-02 | 2020-10-02 | 武汉卓尔数字传媒科技有限公司 | 一种购物评价情感分析的方法、装置及电子设备 |
CN111882409A (zh) * | 2020-09-28 | 2020-11-03 | 武汉卓尔数字传媒科技有限公司 | 一种推荐主体的方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
李洁琼: "基于用户画像与RBF的移动广告精准推送研究", 《自动化与仪器仪表》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112989207B (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Campos et al. | Combining content-based and collaborative recommendations: A hybrid approach based on Bayesian networks | |
Lee et al. | Scalable deep learning-based recommendation systems | |
CN111881363B (zh) | 一种基于图交互网络的推荐方法 | |
CN109903103B (zh) | 一种推荐物品的方法和装置 | |
CN112085615A (zh) | 图神经网络的训练方法及装置 | |
CN109933678B (zh) | 艺术品推荐方法、装置、可读介质及电子设备 | |
CN112396492A (zh) | 基于图注意力网络和双向长短期记忆网络的会话推荐方法 | |
WO2024041483A1 (zh) | 一种推荐方法及相关装置 | |
CN117009650A (zh) | 一种推荐方法以及装置 | |
US20240037133A1 (en) | Method and apparatus for recommending cold start object, computer device, and storage medium | |
CN116910373B (zh) | 房源推荐方法、装置、电子设备及存储介质 | |
Saifudin et al. | Systematic Literature Review on Recommender System: Approach, Problem, Evaluation Techniques, Datasets | |
CN112989182A (zh) | 信息处理方法、装置、信息处理设备及存储介质 | |
CN112989207B (zh) | 一种信息推荐方法及装置、电子设备、存储介质 | |
Babeetha et al. | An enhanced kernel weighted collaborative recommended system to alleviate sparsity | |
CN115809374B (zh) | 纠正推荐系统主流偏差的方法、系统、设备及存储介质 | |
CN116910357A (zh) | 一种数据处理方法及相关装置 | |
CN116843022A (zh) | 一种数据处理方法及相关装置 | |
CN116843376A (zh) | 一种营销效果预判方法、装置、存储介质及设备 | |
CN114842247B (zh) | 基于特征累加的图卷积网络半监督节点分类方法 | |
CN116204709A (zh) | 一种数据处理方法及相关装置 | |
CN114611015A (zh) | 交互信息处理方法、装置和云服务器 | |
CN115545738A (zh) | 一种推荐方法及相关装置 | |
CN113704471A (zh) | 语句的分类方法、装置、设备和存储介质 | |
Oshnoudi et al. | Improving recommender systems performances using user dimension expansion by movies’ genres and voting-based ensemble machine learning technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231222 Address after: 430000, 14th Floor, Mingfeng Building, No. 355 Guanshan Avenue, Guandong Street, Donghu New Technology Development Zone, Wuhan City, Hubei Province Patentee after: Wuhan Zhuoer Digital Information Technology Co.,Ltd. Address before: Room 02, 411-417, building a, Huazhong Shuguang Software Park, No.1 Guanshan Road, Donghu New Technology Development Zone, Wuhan City, Hubei Province, 430000 Patentee before: Wuhan Zhuoer Digital Media Technology Co.,Ltd. |