CN112860992B - 基于网站内容数据推荐的特征优化预训练方法 - Google Patents

基于网站内容数据推荐的特征优化预训练方法 Download PDF

Info

Publication number
CN112860992B
CN112860992B CN202110096637.5A CN202110096637A CN112860992B CN 112860992 B CN112860992 B CN 112860992B CN 202110096637 A CN202110096637 A CN 202110096637A CN 112860992 B CN112860992 B CN 112860992B
Authority
CN
China
Prior art keywords
user
article
vector
matrix
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110096637.5A
Other languages
English (en)
Other versions
CN112860992A (zh
Inventor
李传咏
陈宁
刘睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Webber Software Co ltd
Original Assignee
Xi'an Webber Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Webber Software Co ltd filed Critical Xi'an Webber Software Co ltd
Priority to CN202110096637.5A priority Critical patent/CN112860992B/zh
Publication of CN112860992A publication Critical patent/CN112860992A/zh
Application granted granted Critical
Publication of CN112860992B publication Critical patent/CN112860992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于网站内容数据推荐的特征优化预训练方法,包括具体方法步骤如下:S10、对于指定的文章以及喜欢文章的用户进行预处理,构建出用户和文章的初始评分矩阵,S20、依次使用矩阵分解的方法,对初始的评分矩阵分解成为两个小的矩阵,得到低纬度的矩阵P和Q,即用户矩阵P和文章矩阵Q,S30、利用用户矩阵P和文章数据预训练用户模型,S40、根据S30中,从P中得到的用户向量p,以及用户的文章向量,S50、与S30相同的模式,抽取出文章的向量q,以及文章向量={c1,c2,…,cn},S60、基于S40训练的分类模型,对从S30得到的数据重新进行相似与不相似划分。本发明解决用户冷启动,减少计算的复杂程序,并最终给用户带来惊喜。

Description

基于网站内容数据推荐的特征优化预训练方法
技术领域
本发明涉及网站内容数据处理技术领域,尤其涉及基于网站内容数据推荐的特征优化预训练方法。
背景技术
内容推荐是将互联网中的信息推荐给用户,互联网内容信息的载体主要分为以下几种:文章、图片、视频、音频等。内容推荐是一种计算机能够自动对文本的内容进行分析,提取出用户喜爱的内容,从而将该内容推荐给相应的用户。随着大数据、云计算和互联网的发展,网络上的文本数据日益庞大,使用传统的机器学习方法来进行内容推荐的代价极大。因此,内容推荐的价值巨大。随着将技术的不断进步,智能问答系统在各种场景下发挥着重大的作用,而内容推荐在智能问答系统中扮演者重要的角色。
传统的机器学习方法包含协同过滤和基于内容的两大方法,协同过滤的方法存在冷启动的问题,很难找到相似的用户,以及内容越多协同过滤也就越复杂,则计算推荐则越复杂。而基于内容的推荐方法是对内容的分析不够透彻,并且存在用户冷启动的问题,不能给用户带来惊喜,只能推荐到内容相似的给用户。基于上述两种不同方法的缺点,因此,如何提供一种基于网站内容数据推荐的特征优化预训练方法是本领域技术人员亟需解决的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出基于网站内容数据推荐的特征优化预训练方法,本发明设计的特征优化预训练方法,解决用户冷启动,减少计算的复杂程序,并最终给用户带来惊喜。
根据本发明实施例的一种基于网站内容数据推荐的特征优化预训练方法,包括具体方法步骤如下:
S10、对于指定的文章以及喜欢文章的用户进行预处理,构建出用户和文章的初始评分矩阵;
S20、依次使用矩阵分解的方法,对初始的评分矩阵分解成为两个小的矩阵,得到低纬度的矩阵P和Q,即用户矩阵P和文章矩阵Q;
S30、利用用户矩阵P和文章数据预训练用户模型;
S40、根据S30中,从P中得到的用户向量p,以及用户的文章向量;
训练基于用户的BERT预训练模型时,同时喜欢一定数量A的文章作为相似的用户,另外随机从剩下的不相似用户中随机按照一定比例B的大小抽取一定数量C的用户作为不相似用户;
S50、与S30相同的模式,抽取出文章的向量q,以及文章向量={c 1 ,c 2 ,…,c n };
S60、基于S40训练的分类模型,对从S30得到的数据重新进行相似与不相似划分,对于相似的用户,假设喜欢的文章也相似,按照S40的数据划分方式,对所有的文章数据也进行划分;
将两两文章数据输入到BERT模型中,相似的文章标签为True,不相似的文章标签为False,来预训练文章的BERT模型。
优选的,所述S30具体方法步骤包括:
S301、矩阵P的每一行代表一个用户的向量p;
S302、对于所有的文章切割成为指定长度的文本w 1 ,w 2 ,…,w n
S303、根据词向量将每个字转换成为向量:c 1 ,c 2 ,…,c n
S304、对于每个用户喜欢的文章,将相应的文章的向量相加,从而得到该用户的文章向量u n ={c 1 ,c 2 ,…,c n }。
优选的,对于S30中的文章数据预处理时,需要对异常的字符进行清理和去除。
优选的,所述S40中分别将两两用户输入到BERT模型中,相似的用户标签为True,不相似的用户标签为False,来预训练用户BERT模型。
优选的,所述初始评分矩阵在初始情况下为稀疏矩阵。
优选的,所述S40和S60中的BERT模型的输入,每次使用两两作为输入,会有两个p向量和两个u n 向量,将两个p向量相加一个向量p=[p 1 +p 1 ,p 2 +p 2 ,…,p n +p n ],作为BERT的[CLS]输入,剩下的两个向量u n ,作为输入的前半部分和后半部分。
优选的,所述S40和S60中的A、B、C,分别使用15%、5%、10%来确定。
与现有技术相比,本发明的有益效果是:
本发明与传统的机器学习方法相比,解决了冷启动的问题,并降低了后期模型计算的复杂度。这种特征优化的方法可以显著的提升推荐的准确性,以及开发用户新的推荐需求。因为也加入了用户评分矩阵的存在,对于后期用户不断的使用时,丰富了用户评分矩阵。从而可以持续不断的提升推荐文章的可行性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的基于网站内容数据推荐的特征优化预训练方法的流程图;
图2为本发明提出的基于网站内容数据推荐的特征优化预训练方法的关系图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1-2,一种基于网站内容数据推荐的特征优化预训练方法,包括具体方法步骤如下:
S10、对于指定的文章以及喜欢文章的用户进行预处理,构建出用户和文章的初始评分矩阵;
S20、依次使用矩阵分解的方法,所述初始评分矩阵在初始情况下为稀疏矩阵,对初始的评分矩阵分解成为两个小的矩阵,得到低纬度的矩阵P和Q,即用户矩阵P和文章矩阵Q;
S30、利用用户矩阵P和文章数据预训练用户模型;
S301、矩阵P的每一行代表一个用户的向量p;
S302、对于所有的文章切割成为指定长度的文本w 1 ,w 2 ,…,w n
S303、根据词向量将每个字转换成为向量:c 1 ,c 2 ,…,c n
S304、对于每个用户喜欢的文章,将相应的文章的向量相加,从而得到该用户的文章向量u n ={c 1 ,c 2 ,…,c n }。
对于S30中的文章数据预处理时,需要对异常的字符进行清理和去除。
S40、根据S30中,从P中得到的用户向量p,以及用户的文章向量;
训练基于用户的BERT预训练模型时,同时喜欢一定数量A的文章作为相似的用户,另外随机从剩下的不相似用户中随机按照一定比例B的大小抽取一定数量C的用户作为不相似用户;
所述S40中分别将两两用户输入到BERT模型中,相似的用户标签为True,不相似的用户标签为False,来预训练用户BERT模型。
S50、与S30相同的模式,抽取出文章的向量q,以及文章向量={c 1 ,c 2 ,…,c n };
S60、基于S40训练的分类模型,对从S30得到的数据重新进行相似与不相似划分,对于相似的用户,假设喜欢的文章也相似,按照S40的数据划分方式,对所有的文章数据也进行划分;
将两两文章数据输入到BERT模型中,相似的文章标签为True,不相似的文章标签为False,来预训练文章的BERT模型。
当前基于内容的推荐算法中,需要大量的人工特征选择,基于BERT的新的预训练算法则可减少这一部分的操作。
所述S40和S60中的BERT模型的输入,每次使用两两作为输入,会有两个p向量和两个u n 向量,将两个p向量相加一个向量p=[p 1 +p 1 ,p 2 +p 2 ,…,p n +p n ],作为BERT的[CLS]输入,剩下的两个向量u n ,作为输入的前半部分和后半部分。
所述S40和S60中的A、B、C,分别使用15%、5%、10%来确定。
在实际使用的场景是,对于文章的推荐,使用用户已经访问过的部分文章,计算得出该文章的向量D n ,然后将该向量与原始库当中存在的文章计算之前的相似度,将相似的文章推荐给用户。同样的是对于推荐用户时,使用类似S40的方式计算出用户之前的相似程度,得出相似的用户。
实施例1:
实验当中选取了两个不同的数据集,其中第一个数据集包含了5000个用户以及30000个物品,另一个数据集包含了3000个用户以及20000个物品,第一个数据集作为预训练基于用户和物品的模型,第二个作为测试预训练的效果。
基于第一个数据集中的用户,首先先将用户根据是否同时购买过5个以上的物品然后划分为相似用户和不相似用户群体,将每个用户购买过的物品的描述信息作为预训练Bert模型的输入,这里将描述信息拆分为单个的字作为输入,然后准备相似用户的训练数据与不相似用户的训练数据,不相似用户按照随机选取不相似总数的15%中选择10个用户作为训练数据。依照这样的方式预训练基于用户的Bert模型。模型预训练好了之后,根据Bert模型得出的结果,重新划分相似的用户。这里假设相似的用户中物品都基本是相似的,然后对于每个相似的物品,预训练基于物品的Bert模型。预训练的方式与之前预训练基于用户的方式类似。同样会随机选取15%的不相似物品中选取10个物品作为训练数据,最终预训练出基于物品的模型。这样子基于用户和基于物品的预训练模型已经训练完成,这个时候利用第二个数据集来测试模型的效果。
首先将该预训练的模型应用在网站群上,基于预训练好的模型对网站群上的文章和用户分别计算得出相似性,将相似的用户归类在一起。当用户搜索文章或者用户时,基于搜索引擎和推荐的结果返回给用户,从提升用户在搜索中的体验。另外的使用场景在内容咨询端,用户想要找到与当前文章相似的文章中,则可以使用该预训练的模型。
本发明与传统的机器学习方法相比,解决了冷启动的问题,并降低了后期模型计算的复杂度。这种特征优化的方法可以显著的提升推荐的准确性,以及开发用户新的推荐需求。因为也加入了用户评分矩阵的存在,对于后期用户不断的使用时,丰富了用户评分矩阵。从而可以持续不断的提升推荐文章的可行性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于网站内容数据推荐的特征优化预训练方法,其特征在于,包括具体方法步骤如下:
S10、对于指定的文章以及喜欢文章的用户进行预处理,构建出用户和文章的初始评分矩阵;
S20、依次使用矩阵分解的方法,对初始的评分矩阵分解成为两个小的矩阵,得到低纬度的矩阵P和Q,即用户矩阵P和文章矩阵Q;
S30、利用用户矩阵P和文章数据预训练用户模型;
所述S30具体方法步骤包括:
S301、矩阵P的每一行代表一个用户的向量p;
S302、对于所有的文章切割成为指定长度的文本w1,w2,…,wn
S303、根据词向量将每个字转换成为向量:c1,c2,…,cn
S304、对于每个用户喜欢的文章,将相应的文章的向量相加,从而得到该用户的文章向量un={c1,c2,…,cn};
S40、根据S30中,从P中得到的用户向量p,以及用户的文章向量;
训练基于用户的BERT预训练模型时,同时喜欢一定数量A的文章作为相似的用户,另外随机从剩下的不相似用户中随机按照一定比例B的大小抽取一定数量C的用户作为不相似用户;
S50、与S30相同的模式,抽取出文章的向量q,以及文章向量={c1,c2,…,cn};
S60、基于S40训练的分类模型,对从S30得到的数据重新进行相似与不相似划分,对于相似的用户,假设喜欢的文章也相似,按照S40的数据划分方式,对所有的文章数据也进行划分;
将两两文章数据输入到BERT模型中,相似的文章标签为True,不相似的文章标签为False,来预训练文章的BERT模型。
2.根据权利要求1所述的基于网站内容数据推荐的特征优化预训练方法,其特征在于,对于S30中的文章数据预处理时,需要对异常的字符进行清理和去除。
3.根据权利要求1所述的基于网站内容数据推荐的特征优化预训练方法,其特征在于,所述S40中分别将两两用户输入到BERT模型中,相似的用户标签为True,不相似的用户标签为False,来预训练用户BERT模型。
4.根据权利要求1所述的基于网站内容数据推荐的特征优化预训练方法,其特征在于,所述初始评分矩阵在初始情况下为稀疏矩阵。
5.根据权利要求1所述的基于网站内容数据推荐的特征优化预训练方法,其特征在于,所述S40和S60中的BERT模型的输入,每次使用两两作为输入,会有两个p向量和两个un向量,将两个p向量相加一个向量p=[p1+p1,p2+p2,…,pn+pn],作为BERT的[CLS]输入,剩下的两个向量un,作为输入的前半部分和后半部分。
6.根据权利要求1所述的基于网站内容数据推荐的特征优化预训练方法,其特征在于,所述S40和S60中的A、B、C,分别使用15%、5%、10%来确定。
CN202110096637.5A 2021-01-25 2021-01-25 基于网站内容数据推荐的特征优化预训练方法 Active CN112860992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110096637.5A CN112860992B (zh) 2021-01-25 2021-01-25 基于网站内容数据推荐的特征优化预训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110096637.5A CN112860992B (zh) 2021-01-25 2021-01-25 基于网站内容数据推荐的特征优化预训练方法

Publications (2)

Publication Number Publication Date
CN112860992A CN112860992A (zh) 2021-05-28
CN112860992B true CN112860992B (zh) 2023-03-24

Family

ID=76008467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110096637.5A Active CN112860992B (zh) 2021-01-25 2021-01-25 基于网站内容数据推荐的特征优化预训练方法

Country Status (1)

Country Link
CN (1) CN112860992B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536856A (zh) * 2018-04-17 2018-09-14 重庆邮电大学 基于双边网络结构的混合协同过滤电影推荐模型
CN108596774A (zh) * 2018-04-24 2018-09-28 山东师范大学 基于深层次网络嵌入特征的社会化信息推荐算法及系统
CN109635291A (zh) * 2018-12-04 2019-04-16 重庆理工大学 一种基于协同训练的融合评分信息和物品内容的推荐方法
CN110134885A (zh) * 2019-05-22 2019-08-16 广东工业大学 一种兴趣点推荐方法、装置、设备以及计算机存储介质
CN111125525A (zh) * 2019-12-24 2020-05-08 山东大学 一种面向服刑人员的个性化改造矫正策略推荐系统及其运行方法
CN111177569A (zh) * 2020-01-07 2020-05-19 腾讯科技(深圳)有限公司 基于人工智能的推荐处理方法、装置及设备
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090093B (zh) * 2016-11-22 2021-02-09 华为技术有限公司 生成推荐结果的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536856A (zh) * 2018-04-17 2018-09-14 重庆邮电大学 基于双边网络结构的混合协同过滤电影推荐模型
CN108596774A (zh) * 2018-04-24 2018-09-28 山东师范大学 基于深层次网络嵌入特征的社会化信息推荐算法及系统
CN109635291A (zh) * 2018-12-04 2019-04-16 重庆理工大学 一种基于协同训练的融合评分信息和物品内容的推荐方法
CN110134885A (zh) * 2019-05-22 2019-08-16 广东工业大学 一种兴趣点推荐方法、装置、设备以及计算机存储介质
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN111125525A (zh) * 2019-12-24 2020-05-08 山东大学 一种面向服刑人员的个性化改造矫正策略推荐系统及其运行方法
CN111177569A (zh) * 2020-01-07 2020-05-19 腾讯科技(深圳)有限公司 基于人工智能的推荐处理方法、装置及设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Joint Deep Modeling of Users and Items Using Reviews for Recommendation";Lei Z;《Proceedings of the Tenth ACM International Conference on Web Search and Data Mining,2017》;20171231;第425-434页 *
"基于偏好度特征构造的个性化推荐算法";黄金超;《上海交通大学学报》;20180731;第770-776页 *
基于协同表示学习的个性化新闻推荐;梁仕威等;《中文信息学报》;20181115(第11期);第77-83页 *
基于矩阵分解模型的协同推荐过滤算法研究;韦智勇;《企业科技与发展》;20181010(第10期);第75-78+83页 *
基于评分矩阵与评论文本的深度推荐模型;冯兴杰等;《计算机学报》;20201231(第05期);第132-148页 *

Also Published As

Publication number Publication date
CN112860992A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN107704563B (zh) 一种问句推荐方法及系统
CN111008278B (zh) 内容推荐方法及装置
CN109101479A (zh) 一种用于中文语句的聚类方法及装置
CN106570708A (zh) 一种智能客服知识库的管理方法及系统
CN110297893B (zh) 自然语言问答方法、装置、计算机装置及存储介质
CN106354818B (zh) 基于社交媒体的动态用户属性提取方法
CN107301199A (zh) 一种数据标签生成方法和装置
Kanoje et al. User profiling for university recommender system using automatic information retrieval
CN111460145A (zh) 一种学习资源推荐方法、设备及存储介质
Zubiaga et al. Content-based clustering for tag cloud visualization
CN110737805A (zh) 图模型数据的处理方法、装置和终端设备
KR20180096341A (ko) 소셜 플랫폼상에서 mooc와 플립드러닝을 지원하는 온톨로지 기반 교육 콘텐츠 소셜 큐레이터 구현 시스템 및 그 방법
CN117093699B (zh) 智能问答方法、装置、设备及介质
CN111104583A (zh) 一种直播间推荐方法、存储介质、电子设备及系统
CN112860992B (zh) 基于网站内容数据推荐的特征优化预训练方法
Sunny et al. Evaluating the effectiveness of thesauri in digital information retrieval systems
Zhu A book recommendation algorithm based on collaborative filtering
CN116362331A (zh) 一种基于人机协同构建知识图谱的知识点填充方法
Banouar et al. Enriching SPARQL queries by user preferences for results adaptation
Kong et al. Application Research of Personalized Recommendation Technology in College English Teaching Reform under The Background of Big Data
Wibawa et al. Classification Analysis of MotoGP Comments on Media Social Twitter Using Algorithm Support Vector Machine and Naive Bayes
Angdresey et al. Classification and Sentiment Analysis on Tweets of the Ministry of Health Republic of Indonesia
CN113239140A (zh) 复杂信息分析引擎架构
Estivill-Castro et al. Towards the Ranking of Web-pages for Educational Purposes.
Rizun et al. Knowledge graph development for app store data modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant