CN107729488A - 一种信息推荐方法及装置 - Google Patents

一种信息推荐方法及装置 Download PDF

Info

Publication number
CN107729488A
CN107729488A CN201710966262.7A CN201710966262A CN107729488A CN 107729488 A CN107729488 A CN 107729488A CN 201710966262 A CN201710966262 A CN 201710966262A CN 107729488 A CN107729488 A CN 107729488A
Authority
CN
China
Prior art keywords
user
information
recommended
keyword
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710966262.7A
Other languages
English (en)
Inventor
张蓓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN201710966262.7A priority Critical patent/CN107729488A/zh
Publication of CN107729488A publication Critical patent/CN107729488A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种信息推荐方法及装置,获得待推荐信息后,提取该待推荐信息的信息特征向量,同时,获取待推荐用户的用户特征向量;然后,利用预先训练好的基于因子分解机的推荐算法模型,对待推荐信息的信息特征向量和各个用户特征向量进行拟合,得到与待推荐信息相匹配的用户信息,即得到可能对该待推荐信息感兴趣的用户群。由于基于因子分解机的推荐算法模型在计算时会考虑特征之间的关联,因此,该信息推荐方法的推荐结果更准确。

Description

一种信息推荐方法及装置
技术领域
本发明属于计算机技术领域,尤其涉及一种信息推荐方法及装置。
背景技术
互联网给用户带来大量信息,满足了用户在信息时代对信息的需求,但也使用户在面对大量信息时无法快速从中获得对自己真正有用的信息,因此,信息的使用效率反而降低了。
推荐系统能有效帮助用户快速发现感兴趣和高质量的信息,提升用户体验,增加用户使用产品时间,并有效减少用户浏览到重复或不喜欢的信息带来的不利影响。通常推荐系统越精准,用户体验越好。推荐算法是推荐系统的核心。在推荐算法方面,有很多成熟的算法,点击率(ClickThroughRate,CTR)预估的算法中,使用较为普遍的是逻辑回归(Logistic Regression,LR)算法,由于实现简单、计算不复杂、可解释性强,理论依据比较充足,同时效果也不错这些优点,LR算法一直处于不可替代的地位。伴随着深度学习的热潮,DNN、CNN等深度学习算法也开始应用于推荐系统中,这些算法相对于传统机器学习算法而言,效果相当引人注目。
但是,上述这些算法仍有一些不足,LR算法因为过于简单效果有待提升;深度学习算法效果较好,但是解释性很差,调试难度大。
发明内容
有鉴于此,本发明的目的在于提供一种信息推荐方法及装置,以提升推荐算法的准确率,其技术方案如下:
第一方面,本申请提供了一种信息推荐方法,其特征在于,包括:
获取待推荐信息;
获取所述待推荐信息的信息特征向量,所述信息特征向量至少包括所述待推荐信息的关键词信息和所属类型,所述关键词信息包括标题关键词和全文关键词聚类簇标识;
获取待推荐用户的用户特征向量,所述用户特征向量包括用户行为关键词信息,所述用户行为关键词信息包括用户喜欢的关键词聚类簇标识;
利用预先训练得到的基于因子分解机的推荐算法模型,根据所述信息特征向量和所述用户特征向量,得到与所述待推荐信息相匹配的目标用户,并将所述待推荐信息推荐给所述目标用户。
可选地,所述获取所述待推荐信息的信息特征向量,包括:
获取所述待推荐信息所属的类型;
获取所述待推荐信息的标题关键词;
获取所述待推荐信息的全文关键词;
根据所述全文关键词对多条所述待推荐信息进行聚类,得到关键词聚类簇及所述关键词聚类簇标识。
可选地,所述获取待推荐用户的用户特征向量,包括:
获取用户历史行为数据,所述用户历史行为数据包括用户标识、信息标题、信息全文,以及,用户对信息的行为;
从所述用户历史行为数据中获取用户标识;
获取所述用户历史行为数据所包含信息的全文关键词;
根据所述用户对信息的行为,获得用户喜欢的全文关键词;
对所述用户喜欢的全文关键词进行聚类,得到用户喜爱关键词的聚类簇及用户喜爱关键词聚类簇标识。
可选地,所述获取待推荐用户的用户特征向量还包括:
根据用户历史行为数据,获取用户所喜爱的信息类型;
根据所述信息类型对用户进行聚类,得到用户聚类簇及用户聚类簇标识,其中,属于同一个用户聚类簇的用户喜欢查看相同类型的信息。
可选地,还包括:
获取训练样本数据,所述训练样本数据是用户历史行为数据;
利用基于因子分解机的推荐算法模型对所述训练样本数据进行训练,得到所述基于因子分解机的推荐算法模型的模型参数。
可选地,所述利用预先训练得到的基于因子分解机的推荐算法模型,根据所述信息特征向量和所述用户特征向量,得到与所述待推荐信息相匹配的目标用户,包括:
利用所述推荐算法模型,根据所述信息特征向量和所述用户特征向量,得到所述用户特征向量对应用户点击所述信息特征向量对应信息的概率值;
确定所述概率值大于等于预设值的用户特征向量对应用户是与所述信息特征向量对应信息相匹配的目标用户。
第二方面,本申请还提供了一种信息推荐装置,包括:
第一获取单元,用于获取待推荐信息;
第二获取单元,用于获取所述待推荐信息的信息特征向量,所述信息特征向量至少包括所述待推荐信息的关键词信息和所属类型,所述关键词信息包括标题关键词和全文关键词聚类簇标识;
第三获取单元,用于获取待推荐用户的用户特征向量,所述用户特征向量包括用户行为关键词信息,所述用户行为关键词信息包括用户喜欢的关键词聚类簇标识;
推荐单元,用于利用预先训练得到的基于因子分解机的推荐算法模型,根据所述信息特征向量和所述用户特征向量,得到与所述待推荐信息相匹配的目标用户,并将所述待推荐信息推荐给所述目标用户。
可选地,所述第二获取单元,包括:
第一获取子单元,用于获取所述待推荐信息所属的类型;
第二获取子单元,用于获取所述待推荐信息的标题关键词;
第三获取子单元,用于获取所述待推荐信息的全文关键词;
第一聚类子单元,用于根据所述全文关键词对多条所述待推荐信息进行聚类,得到关键词聚类簇及所述关键词聚类簇标识。
可选地,所述第三获取单元,包括:
第四获取子单元,用于获取用户历史行为数据,所述用户历史行为数据包括用户标识、信息标题、信息全文,以及,用户对信息的行为;
第五获取子单元,用于从所述用户历史行为数据中获取用户标识;
第六获取子单元,用于获取所述用户历史行为数据所包含信息的全文关键词;
第七获取子单元,用于根据所述用户对信息的行为,获得用户喜欢的全文关键词聚类簇。
可选地,所述第三获取单元还包括:
第八获取子单元,用于根据用户历史行为数据,获取用户所喜爱的信息类型;
第二聚类子单元,用于根据所述信息类型对用户进行聚类,得到用户聚类簇,其中,属于同一个用户聚类簇的用户喜欢查看相同类型的信息。
本实施例提供的信息推荐方法,获得待推荐信息后,提取该待推荐信息的信息特征向量,同时,获取待推荐用户的用户特征向量;然后,利用预先训练好的基于因子分解机的推荐算法模型,对待推荐信息的信息特征向量和各个用户特征向量进行拟合,得到与待推荐信息相匹配的用户信息,即得到可能对该待推荐信息感兴趣的用户群。由于基于因子分解机的推荐算法模型在计算时会考虑特征之间的关联,因此,该信息推荐方法的推荐结果更准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例一种信息推荐方法的流程图;
图2示出了本申请实施例一种获取待推荐信息的信息特征向量过程的流程图;
图3示出了本申请实施例一种训练推荐算法模型过程的流程图;
图4示出了本申请实施例一种获取用户特征向量过程的流程图;
图5示出了本申请实施例一种信息推荐装置的框图;
图6示出了本申请实施例一种第二获取单元的框图;
图7示出了本申请实施例一种第三获取单元的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,示出了本申请实施例一种信息推荐方法的流程图,该方法应用于服务器中,本文以待推荐的信息是新闻为例进行说明。如图1所示,该方法可以包括:
S110,获取待推荐信息。
在本申请的一个实施例中,待推荐信息可以是新闻,例如,文字类新闻或视频类新闻;当然,在其他实施例中,可以是其它信息。而且,待推荐信息可以是一条或多条。
S120,获取待推荐信息的信息特征向量。
其中,信息特征向量包括待推荐信息的关键词信息和所属类型;所述关键词信息包括标题关键词和全文关键词聚类簇标识。
通常,用户在使用新闻客户端时,选择新闻的第一印象是新闻标题,判断新闻标题中是否有感兴趣的词语;其次,判断新闻的类型是不是自己感兴趣的类型,然后决定是否阅读该条新闻,因此,提取待推荐新闻的特征向量时,除了以新闻的基本类型为特征之外,新增了新闻的标题关键词作为特征。
新闻的特征提取需要耗费一定的时间,因此,接收到新入库的新闻之后,并非线上实时提取新闻特征,而是,按照预设时间间隔或者接收到预设数量个新闻后,提取这些新闻的新闻特征向量,并将新闻特征向量与用户特征向量存储到数据库中,当对待推荐的新闻进行推荐时,可以直接从数据库中读取该新闻的新闻特征向量,以及读取用户特征向量,实时计算出该新闻所要推荐的用户群。提前提取新闻的新闻特征向量,后续预测时直接读取该新闻特征向量即可,缩短了新闻预测阶段等待的时间,提高了预测过程的计算效率。
如图2所示,在本申请的一个实施例中,获取待推荐信息的信息特征向量的过程可以包括:
S121,获取所述待推荐信息的所属类型。
例如,当待推荐信息是新闻信息时,待推荐信息的所属类型即新闻信息的新闻类型,例如,社会、娱乐、体育、军事、科技、汽车、财经等等。
S122,获取待推荐信息的标题关键词。
以新闻的标题关键词作为特征向量,要求作为标题关键词的词语具有可区分性,不能选择大众均感兴趣的词语,也不能使用停用词、无意义词。停用词是没有具体语义的词。无意义词通常是语气词、量词、连词等,例如,“啊”、“一个”、“但是”等等都是停用词。
在本申请的一个实施例中,利用TF-IDF算法从信息标题中筛选出关键词、排除无意义词、中性词等;然后,再通过对用户历史行为数据进行统计得到用户普遍都喜好的词语列表,作为关键词表;再将新闻标题进行分词,只保留关键词表中的分词。
S123,获取所述待推荐信息的全文关键词。
从待推荐新闻的全文信息中提取出全文关键词,同样,可以利用TF-IDF算法提取全文关键词。
S124,根据全文关键词对多条待推荐信息进行聚类,得到关键词聚类簇。
获得新闻的全文关键词之后,根据全文关键词对多条新闻进行聚类(例如,可以通过Kmeans聚类算法实现),得到关键词聚类簇。最终得到的关键词聚类簇的结果包括每一条新闻所属的聚类簇及对应的概率值。然后,可以利用聚类簇来代表该簇所包含的新闻,从而实现一次对多条新闻的推荐计算。
S130,获取待推荐用户的用户特征向量。
用户特征向量包括用户行为关键词信息,用户行为关键词信息主要包括用户喜欢的关键词聚类簇标识。
需要说明的是,用户特征向量在训练推荐算法模型时已经获得了,此步骤中,直接从数据库或存储空间中获取用户特征向量即可。
S140,利用预先训练得到的基于因子分解机的推荐算法模型,根据信息特征向量和用户特征向量,得到与待推荐信息相匹配的目标用户,并将待推荐信息推荐给该目标用户。
将上述步骤获得的新闻特征向量和各个用户特征向量输入到预选训练得到的推荐算法模型之后,该推荐算法模型将输出与对该待推荐的新闻感兴趣的用户,以及该用户可能点击该新闻的概率值。当概率值大于或等于预设值时,确定该用户是与待推荐的新闻相匹配的目标用户。
其中,推荐算法模型采用了基于因子分解机(Factorization Machine,FM)的算法模型,此种算法模型在计算输出结果时,需要计算特征之间两两乘积,表示两种特征同时出现对结果造成的影响,强化了特征之间的关联属性。即,该算法模型在计算输出结果时会考虑特征之间的关联特性。
本实施例提供的信息推荐方法,获得待推荐信息后,提取该待推荐信息的信息特征向量,同时,获取待推荐用户的用户特征向量;然后,利用预先训练好的基于因子分解机的推荐算法模型,对待推荐信息的信息特征向量和各个用户特征向量进行拟合,得到与待推荐信息相匹配的目标用户,最后,将待推荐信息推荐给目标用户。由于基于因子分解机的推荐算法模型在计算时会考虑特征之间的关联,因此,该信息推荐方法的推荐结果更准确。
请参见图3,示出了本申请实施例一种训练推荐算法模型过程的流程图,如图3所示,该训练过程可以包括以下步骤:
S210,获取用户历史行为数据。
所述用户历史行为数据包括用户标识、信息标题、信息全文,以及,用户对信息的行为。
例如,如果待推荐的信息是新闻,则用户历史行为数据包括用户ID、新闻标题、新闻全文,以及用户对该新闻的操作行为(例如,点击与曝光)等。
S220,从用户历史行为数据中获取信息特征向量。
在本申请的一个实施例中,待推荐的信息是新闻,则信息特征向量包括新闻类型、新闻标题关键词和新闻的全文关键词聚类簇;
由于新闻数量比较多,获取新闻的全文关键词,并对多条新闻的全文关键词进行聚类,得到关键词聚类簇,然后,再计算得到与各条新闻最相关的关键词聚类簇,并用该关键词聚类簇来表征该新闻。关键词簇的数量远远小于新闻的数量,因此,利用关键词簇代表新闻大大减少了新闻的数量,也较少了新闻对应的特征向量的数量。
从用户历史行为数据中获取信息特征向量的过程与上述的获取待推荐信息的信息特征向量的过程相同,此处不再赘述。
S230,从用户历史行为数据中获取用户特征向量。
其中,用户特征向量可以包括用户喜欢的关键词聚类簇;在本申请的其他实施例中,用户特征向量中还可以包括用户聚类簇。
请如图4所示,S230可以包括以下步骤:
S231,从用户历史行为数据中获取用户标识。
用户历史行为数据中包含用户对某一条新闻的行为,为了区分用户是否喜欢该新闻,必然要包含用户的唯一标识,该唯一标识可以是用户在新闻客户端注册的账户,或者,用户所使用的终端设备的唯一标识。
S232,根据所述用户历史行为数据中的用户历史行为,获得用户喜爱的关键词簇。
在本申请的一种应用场景下,在获取新闻的特征向量时没有对新闻的全文关键词进行聚类;此种应用场景下,需要先获取用户历史行为数据中新闻的全文关键词,然后,根据对全文关键词进行聚类,得到全文关键词聚类簇。并标识各个关键词聚类簇。最后,根据用户历史行为数据计算得到用户喜爱的关键词聚类簇。
在本申请的另一种应用场景下,在获得用户历史行为数据中的新闻特征向量时已经对新闻的全文关键词进行了聚类得到了关键词聚类簇。此种应用场景下,可以直接根据用户历史行为数据计算得到用户喜爱的关键词聚类簇。
在本申请的另一个实施例中,如果用户的数量巨大,获取用户特征向量的计算时间长,且得到的用户特征向量占用空间大,为了避免上述的问题,可以将用户进行聚类,从而减少用户特征的数量。
S233,根据用户历史行为数据,获取用户喜爱的信息类型。
S234,根据所述信息类型对用户进行聚类,得到用户聚类簇及用户聚类簇标识,其中,属于同一个用户聚类簇的用户喜欢查看相同类型的信息。
例如,上亿个用户聚类后得到2500个用户聚类簇,每个用户聚类用唯一的标识(Identification,ID)来标识每个簇。
S240,根据用户历史行为数据的信息特征向量及用户特征向量,得到训练样本。
从用户历史行为数据中得到的信息特征向量和用户特征向量,作为训练推荐算法模型的训练样本提供给推荐算法模型。其中,某一条用户历史行为数据中的用户行为是用户点击了该新闻,则该用户历史行为数据为正样本;如果该用户历史行为数据中的用户行为是用户未点击该新闻,则该用户历史行为数据为负样本。
S250,利用所述训练样本对基于因子分解机的推荐算法模型进行训练,得到推荐算法模型的模型参数。
对训练样本以编码形式表示出来,用TensorFlow进行FM模型的程序编写,对用户历史行为数据形成的训练样本进行训练,用随机梯度下降法进行优化计算,学习率指数衰减,得到FM模型。
其中,Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。利用TensorFlow来构建FM模型训练程序,能够提高大规模数据并行训练的速度。TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统。
训练推荐算法模型时,将上述的训练样本输入到推荐算法模型中,其中,通过对训练样本的训练得到合适的权重系数,这些权重系数能够很好地拟合训练样本。得到推荐算法模型后,利用该推荐算法模型可以得到待推荐新闻对应的感兴趣用户簇,最终将该待推荐新闻推荐给用户簇中的各个用户。
本实施例提供的信息推荐方法,通过对用户历史行为数据进行训练得到推荐算法模型,训练过程中,将用户进行聚类得到用户聚类簇,从而减少了用户特征向量的数量,同时,大大减少了计算量。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
相应于上述的信息推荐方法实施例,本申请还提供了信息推荐装置实施例。
请参见图5,示出了本申请实施例一种信息推荐装置的框图,该装置应用于服务器中,本实施例以待推荐的信息是新闻为例进行说明。如图5所示,该装置可以包括:第一获取单元110、第二获取单元120、第三获取单元130和推荐单元140。
第一获取单元110,用于获取待推荐信息。
待推荐信息可以是新闻,例如,文字类新闻或视频类新闻;当然,在其他实施例中,可以是其它信息。而且,待推荐信息可以是一条或多条。
第二获取单元120,用于获取待推荐信息的信息特征向量。
该信息特征向量至少包括所述待推荐信息的关键词信息和所属类型,所述关键词信息包括标题关键词和全文关键词聚类簇标识。
在本申请的一个实施例中,如图6所示,所述第二获取单元120包括:第一获取子单元121、第二获取子单元122、第三获取子单元123和第一聚类子单元124。
第一获取子单元121,用于获取所述待推荐信息所属的类型。
当待推荐信息是新闻信息时,待推荐信息的所属类型即新闻信息的新闻类型,例如,社会、娱乐、体育、军事、科技、汽车、财经等等。
第二获取子单元122,用于获取所述待推荐信息的标题关键词。
以新闻的标题关键词作为特征向量,要求作为标题关键词的词语具有可区分性,不能选择大众均感兴趣的词语,也不能使用停用词、无意义词。停用词是没有具体语义的词。无意义词通常是语气词、量词、连词等,例如,“啊”、“一个”、“但是”等等都是停用词。
在本申请的一个实施例中,利用TF-IDF算法从信息标题中筛选出关键词、排除无意义词、中性词等;然后,再通过对用户历史行为数据进行统计得到用户普遍都喜好的词语列表,作为关键词表;再将新闻标题进行分词,只保留关键词表中的分词。
第三获取子单元123,用于获取所述待推荐信息的全文关键词。
第一聚类子单元124,用于根据所述全文关键词对多条所述待推荐信息进行聚类,得到关键词聚类簇及所述关键词聚类簇标识。
获得新闻的全文关键词之后,根据全文关键词对多条新闻进行聚类(例如,可以通过Kmeans聚类算法实现),得到关键词聚类簇。最终得到的关键词聚类簇的结果包括每一条新闻所属的聚类簇及对应的概率值。然后,可以利用聚类簇来代表该簇所包含的新闻,从而实现一次对多条新闻的推荐计算。
第三获取单元130,用于获取待推荐用户的用户特征向量。
所述用户特征向量包括用户行为关键词信息,所述用户行为关键词信息包括用户喜欢的关键词聚类簇标识。
用户特征向量在训练推荐算法模型时已经获得了,此步骤中,直接从数据库或存储空间中获取用户特征向量即可。
如图7所示,在训练推荐算法模型的过程中,第三获取单元130可以包括:第四获取子单元131、第五获取子单元132、第六获取子单元133、第七获取子单元134。
第四获取子单元131,用于获取用户历史行为数据。
用户历史行为数据包括用户标识、信息标题、信息全文,以及,用户对信息的行为(例如,点击和曝光)。其中,用户标识可以是用户在新闻客户端注册的账户,或者,用户所使用的终端设备的唯一标识。
第五获取子单元132,用于从所述用户历史行为数据中获取用户标识。
第六获取子单元133,用于获取所述用户历史行为数据所包含信息的全文关键词。
在本申请的一个实施例中,可以利用TF-IDF算法从新闻的全文信息中提取获得全文关键词。
第七获取子单元134,用于根据所述用户对信息的行为,获得用户喜欢的全文关键词聚类簇。
获得历史行为数据的全文关键词后,对全文关键词进行聚类,得到全文关键词聚类簇,并标识各个关键词聚类簇。最后,根据用户历史行为数据计算得到用户喜欢的关键词聚类簇。
在本申请的另一个实施例中,如果用户的数量巨大,获取用户特征向量的计算时间长,且得到的用户特征向量占用空间大,为了避免上述的问题,可以将用户进行聚类,从而减少用户特征的数量。如图7所示,第三获取单元还包括:第八获取子单元135和第二聚类子单元136。
第八获取子单元135,用于根据用户历史行为数据,获取用户所喜爱的信息类型。
第二聚类子单元136,用于根据所述信息类型对用户进行聚类,得到用户聚类簇及用户聚类簇标识,其中,属于同一个用户聚类簇的用户喜欢查看相同类型的信息。
例如,上亿个用户聚类后得到2500个用户聚类簇,每个用户聚类用唯一的标识来标识每个簇。
推荐单元140,用于利用预先训练得到的基于因子分解机的推荐算法模型,根据所述信息特征向量和所述用户特征向量,得到与所述待推荐信息相匹配的目标用户,并将待推荐信息推荐给所述目标用户。
将上述步骤获得的新闻特征向量和各个用户特征向量输入到预选训练得到的推荐算法模型之后,该推荐算法模型将输出与对该待推荐的新闻感兴趣的用户,以及该用户可能点击该新闻的概率值。当概率值大于或等于预设值时,确定该用户是与待推荐的新闻相匹配的目标用户。
其中,推荐算法模型采用了基于因子分解机(Factorization Machine,FM)的算法模型,此种算法模型在计算输出结果时,需要计算特征之间两两乘积,表示两种特征同时出现对结果造成的影响,强化了特征之间的关联属性。即,该算法模型在计算输出结果时会考虑特征之间的关联特性。
在本申请的另一个实施例中,预先训练推荐算法模型的过程如下:
从用户历史行为数据中得到的信息特征向量和用户特征向量,作为训练推荐算法模型的训练样本提供给推荐算法模型。其中,某一条用户历史行为数据中的用户行为是用户点击了该新闻,则该用户历史行为数据为正样本;如果该用户历史行为数据中的用户行为是用户未点击该新闻,则该用户历史行为数据为负样本。然后,对训练样本以编码(例如,one-hot编码)形式表示出来,用TensorFlow进行FM模型的程序编写,对用户历史行为数据形成的训练样本进行训练,用随机梯度下降法进行优化计算,学习率指数衰减,得到FM模型。训练推荐算法模型时,将上述的训练样本输入到推荐算法模型中,其中,通过对训练样本的训练得到合适的权重系数,这些权重系数能够很好地拟合训练样本。得到推荐算法模型后,利用该推荐算法模型可以得到待推荐新闻对应的感兴趣用户簇,最终将该待推荐新闻推荐给用户簇中的各个用户。
本实施例提供的信息推荐方法,获得待推荐信息后,提取该待推荐信息的信息特征向量,同时,获取待推荐用户的用户特征向量;然后,利用预先训练好的基于因子分解机的推荐算法模型,对待推荐信息的信息特征向量和各个用户特征向量进行拟合,得到与待推荐信息相匹配的目标用户,最后,将待推荐信息推荐给目标用户。由于基于因子分解机的推荐算法模型在计算时会考虑特征之间的关联,因此,该信息推荐方法的推荐结果更准确。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种信息推荐方法,其特征在于,包括:
获取待推荐信息;
获取所述待推荐信息的信息特征向量,所述信息特征向量至少包括所述待推荐信息的关键词信息和所属类型,所述关键词信息包括标题关键词和全文关键词聚类簇标识;
获取待推荐用户的用户特征向量,所述用户特征向量包括用户行为关键词信息,所述用户行为关键词信息包括用户喜欢的关键词聚类簇标识;
利用预先训练得到的基于因子分解机的推荐算法模型,根据所述信息特征向量和所述用户特征向量,得到与所述待推荐信息相匹配的目标用户,并将所述待推荐信息推荐给所述目标用户。
2.根据权利要求1所述的方法,其特征在于,所述获取所述待推荐信息的信息特征向量,包括:
获取所述待推荐信息所属的类型;
获取所述待推荐信息的标题关键词;
获取所述待推荐信息的全文关键词;
根据所述全文关键词对多条所述待推荐信息进行聚类,得到关键词聚类簇及所述关键词聚类簇标识。
3.根据权利要求1所述的方法,其特征在于,所述获取待推荐用户的用户特征向量,包括:
获取用户历史行为数据,所述用户历史行为数据包括用户标识、信息标题、信息全文,以及,用户对信息的行为;
从所述用户历史行为数据中获取用户标识;
获取所述用户历史行为数据所包含信息的全文关键词;
根据所述用户对信息的行为,获得用户喜欢的全文关键词;
对所述用户喜欢的全文关键词进行聚类,得到用户喜爱关键词的聚类簇及用户喜爱关键词聚类簇标识。
4.根据权利要求3所述的方法,其特征在于,所述获取待推荐用户的用户特征向量还包括:
根据用户历史行为数据,获取用户所喜爱的信息类型;
根据所述信息类型对用户进行聚类,得到用户聚类簇及用户聚类簇标识,其中,属于同一个用户聚类簇的用户喜欢查看相同类型的信息。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取训练样本数据,所述训练样本数据是用户历史行为数据;
利用基于因子分解机的推荐算法模型对所述训练样本数据进行训练,得到所述基于因子分解机的推荐算法模型的模型参数。
6.根据权利要求1所述的方法,其特征在于,所述利用预先训练得到的基于因子分解机的推荐算法模型,根据所述信息特征向量和所述用户特征向量,得到与所述待推荐信息相匹配的目标用户,包括:
利用所述推荐算法模型,根据所述信息特征向量和所述用户特征向量,得到所述用户特征向量对应用户点击所述信息特征向量对应信息的概率值;
确定所述概率值大于等于预设值的用户特征向量对应用户是与所述信息特征向量对应信息相匹配的目标用户。
7.一种信息推荐装置,其特征在于,包括:
第一获取单元,用于获取待推荐信息;
第二获取单元,用于获取所述待推荐信息的信息特征向量,所述信息特征向量至少包括所述待推荐信息的关键词信息和所属类型,所述关键词信息包括标题关键词和全文关键词聚类簇标识;
第三获取单元,用于获取待推荐用户的用户特征向量,所述用户特征向量包括用户行为关键词信息,所述用户行为关键词信息包括用户喜欢的关键词聚类簇标识;
推荐单元,用于利用预先训练得到的基于因子分解机的推荐算法模型,根据所述信息特征向量和所述用户特征向量,得到与所述待推荐信息相匹配的目标用户,并将所述待推荐信息推荐给所述目标用户。
8.根据权利要求7所述的装置,其特征在于,所述第二获取单元,包括:
第一获取子单元,用于获取所述待推荐信息所属的类型;
第二获取子单元,用于获取所述待推荐信息的标题关键词;
第三获取子单元,用于获取所述待推荐信息的全文关键词;
第一聚类子单元,用于根据所述全文关键词对多条所述待推荐信息进行聚类,得到关键词聚类簇及所述关键词聚类簇标识。
9.根据权利要求7所述的装置,其特征在于,所述第三获取单元,包括:
第四获取子单元,用于获取用户历史行为数据,所述用户历史行为数据包括用户标识、信息标题、信息全文,以及,用户对信息的行为;
第五获取子单元,用于从所述用户历史行为数据中获取用户标识;
第六获取子单元,用于获取所述用户历史行为数据所包含信息的全文关键词;
第七获取子单元,用于根据所述用户对信息的行为,获得用户喜欢的全文关键词聚类簇。
10.根据权利要求9所述的装置,其特征在于,所述第三获取单元还包括:
第八获取子单元,用于根据用户历史行为数据,获取用户所喜爱的信息类型;
第二聚类子单元,用于根据所述信息类型对用户进行聚类,得到用户聚类簇,其中,属于同一个用户聚类簇的用户喜欢查看相同类型的信息。
CN201710966262.7A 2017-10-17 2017-10-17 一种信息推荐方法及装置 Pending CN107729488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710966262.7A CN107729488A (zh) 2017-10-17 2017-10-17 一种信息推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710966262.7A CN107729488A (zh) 2017-10-17 2017-10-17 一种信息推荐方法及装置

Publications (1)

Publication Number Publication Date
CN107729488A true CN107729488A (zh) 2018-02-23

Family

ID=61211631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710966262.7A Pending CN107729488A (zh) 2017-10-17 2017-10-17 一种信息推荐方法及装置

Country Status (1)

Country Link
CN (1) CN107729488A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874906A (zh) * 2018-05-25 2018-11-23 维沃移动通信有限公司 一种信息推荐方法及终端
CN109033460A (zh) * 2018-08-30 2018-12-18 优视科技新加坡有限公司 一种信息流中的排序方法、装置和设备/终端/服务器
CN109376947A (zh) * 2018-11-16 2019-02-22 叶金华 资源共享疗养管理系统
CN109388731A (zh) * 2018-08-31 2019-02-26 昆明理工大学 一种基于深度神经网络的音乐推荐方法
CN109408729A (zh) * 2018-12-05 2019-03-01 广州市百果园信息技术有限公司 推荐物料确定方法、装置、存储介质和计算机设备
CN110413946A (zh) * 2018-04-26 2019-11-05 奥多比公司 使用交替最小二乘优化来在线训练和更新因子分解机
CN110543598A (zh) * 2019-09-06 2019-12-06 腾讯科技(深圳)有限公司 信息推荐方法、装置及终端
CN110581802A (zh) * 2019-08-27 2019-12-17 北京邮电大学 基于深度信念网络的全自主智能路由方法及装置
CN110990711A (zh) * 2019-05-13 2020-04-10 国家计算机网络与信息安全管理中心 基于机器学习的微信公众号推荐算法及系统
CN111010595A (zh) * 2019-12-25 2020-04-14 广州欢聊网络科技有限公司 一种新节目推荐的方法及装置
CN111125544A (zh) * 2019-12-20 2020-05-08 腾讯数码(天津)有限公司 用户推荐方法及装置
CN111310047A (zh) * 2020-02-20 2020-06-19 深圳前海微众银行股份有限公司 基于fm模型的信息推荐方法、装置、设备及存储介质
WO2020244152A1 (zh) * 2019-06-05 2020-12-10 平安科技(深圳)有限公司 数据推送方法、装置、计算机设备和存储介质
CN112667252A (zh) * 2020-12-30 2021-04-16 瀚云科技有限公司 数据处理方法和装置、服务器及存储介质
WO2021081914A1 (zh) * 2019-10-31 2021-05-06 深圳市欢太科技有限公司 推送对象确定方法、装置、终端设备及存储介质
CN112784142A (zh) * 2019-10-24 2021-05-11 北京搜狗科技发展有限公司 一种信息推荐方法及装置
CN113449195A (zh) * 2021-07-15 2021-09-28 安徽商信政通信息技术股份有限公司 一种智能知识推送方法及系统
CN113761364A (zh) * 2021-08-17 2021-12-07 武汉卓尔数字传媒科技有限公司 多媒体数据推送方法及装置
EP3893154A4 (en) * 2018-12-29 2022-01-26 Huawei Technologies Co., Ltd. RECOMMENDATION MODEL TRAINING PROCEDURE AND RELATED DEVICE
WO2022126931A1 (zh) * 2020-12-18 2022-06-23 平安科技(深圳)有限公司 商品推荐方法、装置、计算机设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014186607A (ja) * 2013-03-25 2014-10-02 Tokyo Gas Co Ltd 文献検索装置、文献検索方法、プログラム、および文献検索システム
US20170004559A1 (en) * 2007-11-09 2017-01-05 Skyword Inc. Computer method and system for recommending content in a computer network
CN106910135A (zh) * 2017-01-25 2017-06-30 百度在线网络技术(北京)有限公司 用户推荐方法及装置
CN106997549A (zh) * 2017-02-14 2017-08-01 火烈鸟网络(广州)股份有限公司 一种广告信息的推送方法及系统
CN107103049A (zh) * 2017-03-31 2017-08-29 努比亚技术有限公司 一种推荐方法及网络设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170004559A1 (en) * 2007-11-09 2017-01-05 Skyword Inc. Computer method and system for recommending content in a computer network
JP2014186607A (ja) * 2013-03-25 2014-10-02 Tokyo Gas Co Ltd 文献検索装置、文献検索方法、プログラム、および文献検索システム
CN106910135A (zh) * 2017-01-25 2017-06-30 百度在线网络技术(北京)有限公司 用户推荐方法及装置
CN106997549A (zh) * 2017-02-14 2017-08-01 火烈鸟网络(广州)股份有限公司 一种广告信息的推送方法及系统
CN107103049A (zh) * 2017-03-31 2017-08-29 努比亚技术有限公司 一种推荐方法及网络设备

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413946A (zh) * 2018-04-26 2019-11-05 奥多比公司 使用交替最小二乘优化来在线训练和更新因子分解机
CN108874906A (zh) * 2018-05-25 2018-11-23 维沃移动通信有限公司 一种信息推荐方法及终端
CN108874906B (zh) * 2018-05-25 2021-05-28 维沃移动通信有限公司 一种信息推荐方法及终端
CN109033460A (zh) * 2018-08-30 2018-12-18 优视科技新加坡有限公司 一种信息流中的排序方法、装置和设备/终端/服务器
WO2020044098A3 (zh) * 2018-08-30 2020-08-13 阿里巴巴集团控股有限公司 一种信息流中的排序方法、装置和设备/终端/服务器
CN109388731A (zh) * 2018-08-31 2019-02-26 昆明理工大学 一种基于深度神经网络的音乐推荐方法
CN109376947A (zh) * 2018-11-16 2019-02-22 叶金华 资源共享疗养管理系统
CN109408729B (zh) * 2018-12-05 2022-02-08 广州市百果园信息技术有限公司 推荐物料确定方法、装置、存储介质和计算机设备
CN109408729A (zh) * 2018-12-05 2019-03-01 广州市百果园信息技术有限公司 推荐物料确定方法、装置、存储介质和计算机设备
EP3893154A4 (en) * 2018-12-29 2022-01-26 Huawei Technologies Co., Ltd. RECOMMENDATION MODEL TRAINING PROCEDURE AND RELATED DEVICE
CN110990711A (zh) * 2019-05-13 2020-04-10 国家计算机网络与信息安全管理中心 基于机器学习的微信公众号推荐算法及系统
CN110990711B (zh) * 2019-05-13 2023-05-12 国家计算机网络与信息安全管理中心 基于机器学习的微信公众号推荐方法及系统
WO2020244152A1 (zh) * 2019-06-05 2020-12-10 平安科技(深圳)有限公司 数据推送方法、装置、计算机设备和存储介质
CN110581802A (zh) * 2019-08-27 2019-12-17 北京邮电大学 基于深度信念网络的全自主智能路由方法及装置
CN110543598A (zh) * 2019-09-06 2019-12-06 腾讯科技(深圳)有限公司 信息推荐方法、装置及终端
CN112784142A (zh) * 2019-10-24 2021-05-11 北京搜狗科技发展有限公司 一种信息推荐方法及装置
CN114223012A (zh) * 2019-10-31 2022-03-22 深圳市欢太科技有限公司 推送对象确定方法、装置、终端设备及存储介质
WO2021081914A1 (zh) * 2019-10-31 2021-05-06 深圳市欢太科技有限公司 推送对象确定方法、装置、终端设备及存储介质
CN111125544A (zh) * 2019-12-20 2020-05-08 腾讯数码(天津)有限公司 用户推荐方法及装置
CN111010595A (zh) * 2019-12-25 2020-04-14 广州欢聊网络科技有限公司 一种新节目推荐的方法及装置
CN111310047A (zh) * 2020-02-20 2020-06-19 深圳前海微众银行股份有限公司 基于fm模型的信息推荐方法、装置、设备及存储介质
CN111310047B (zh) * 2020-02-20 2021-04-23 深圳前海微众银行股份有限公司 基于fm模型的信息推荐方法、装置、设备及存储介质
WO2022126931A1 (zh) * 2020-12-18 2022-06-23 平安科技(深圳)有限公司 商品推荐方法、装置、计算机设备及介质
CN112667252A (zh) * 2020-12-30 2021-04-16 瀚云科技有限公司 数据处理方法和装置、服务器及存储介质
CN113449195A (zh) * 2021-07-15 2021-09-28 安徽商信政通信息技术股份有限公司 一种智能知识推送方法及系统
CN113449195B (zh) * 2021-07-15 2023-09-19 安徽商信政通信息技术股份有限公司 一种智能知识推送方法及系统
CN113761364A (zh) * 2021-08-17 2021-12-07 武汉卓尔数字传媒科技有限公司 多媒体数据推送方法及装置
CN113761364B (zh) * 2021-08-17 2024-02-09 武汉卓尔数字传媒科技有限公司 多媒体数据推送方法及装置

Similar Documents

Publication Publication Date Title
CN107729488A (zh) 一种信息推荐方法及装置
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN110046304B (zh) 一种用户推荐方法和装置
CN109492157B (zh) 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN112214685B (zh) 一种基于知识图谱的个性化推荐方法
CN107330049B (zh) 一种新闻热度预估方法及系统
CN110442790A (zh) 推荐多媒体数据的方法、装置、服务器和存储介质
WO2022033199A1 (zh) 一种获得用户画像的方法及相关装置
CN106021364A (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN103678431A (zh) 一种基于标准标签和项目评分的推荐方法
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN107526819A (zh) 一种面向短文本主题模型的大数据舆情分析方法
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN113590965B (zh) 一种融合知识图谱与情感分析的视频推荐方法
CN110659411A (zh) 一种基于神经注意力自编码器的个性化推荐方法
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN109190109A (zh) 融合用户信息生成评论摘要的方法及装置
CN118193683B (zh) 一种基于语言大模型的文本推荐方法及系统
CN117972206A (zh) 一种基于人工智能的内容推荐系统、电子设备及存储介质
CN113239143A (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
CN115840853A (zh) 一种基于知识图谱和图注意力网络的课程推荐系统
CN115098786A (zh) 一种基于门控多头自我关注的新闻推荐方法及系统
CN117436446B (zh) 基于弱监督的农业社会化销售服务用户评价数据分析方法
Saaki et al. Value-wise convnet for transformer models: an infinite time-aware recommender system
CN114329051A (zh) 数据信息识别方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180223