CN112860992B

CN112860992B - 基于网站内容数据推荐的特征优化预训练方法

Info

Publication number: CN112860992B
Application number: CN202110096637.5A
Authority: CN
Inventors: 李传咏; 陈宁; 刘睿
Original assignee: Xi'an Webber Software Co ltd
Current assignee: Xi'an Webber Software Co ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2023-03-24
Anticipated expiration: 2041-01-25
Also published as: CN112860992A

Abstract

本发明公开了一种基于网站内容数据推荐的特征优化预训练方法，包括具体方法步骤如下：S10、对于指定的文章以及喜欢文章的用户进行预处理，构建出用户和文章的初始评分矩阵，S20、依次使用矩阵分解的方法，对初始的评分矩阵分解成为两个小的矩阵，得到低纬度的矩阵P和Q，即用户矩阵P和文章矩阵Q，S30、利用用户矩阵P和文章数据预训练用户模型，S40、根据S30中，从P中得到的用户向量p，以及用户的文章向量，S50、与S30相同的模式，抽取出文章的向量q，以及文章向量={c1，c2，…，cn}，S60、基于S40训练的分类模型，对从S30得到的数据重新进行相似与不相似划分。本发明解决用户冷启动，减少计算的复杂程序，并最终给用户带来惊喜。

Description

基于网站内容数据推荐的特征优化预训练方法

技术领域

本发明涉及网站内容数据处理技术领域，尤其涉及基于网站内容数据推荐的特征优化预训练方法。

背景技术

内容推荐是将互联网中的信息推荐给用户，互联网内容信息的载体主要分为以下几种：文章、图片、视频、音频等。内容推荐是一种计算机能够自动对文本的内容进行分析，提取出用户喜爱的内容，从而将该内容推荐给相应的用户。随着大数据、云计算和互联网的发展，网络上的文本数据日益庞大，使用传统的机器学习方法来进行内容推荐的代价极大。因此，内容推荐的价值巨大。随着将技术的不断进步，智能问答系统在各种场景下发挥着重大的作用，而内容推荐在智能问答系统中扮演者重要的角色。

传统的机器学习方法包含协同过滤和基于内容的两大方法，协同过滤的方法存在冷启动的问题，很难找到相似的用户，以及内容越多协同过滤也就越复杂，则计算推荐则越复杂。而基于内容的推荐方法是对内容的分析不够透彻，并且存在用户冷启动的问题，不能给用户带来惊喜，只能推荐到内容相似的给用户。基于上述两种不同方法的缺点，因此，如何提供一种基于网站内容数据推荐的特征优化预训练方法是本领域技术人员亟需解决的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出基于网站内容数据推荐的特征优化预训练方法，本发明设计的特征优化预训练方法，解决用户冷启动，减少计算的复杂程序，并最终给用户带来惊喜。

根据本发明实施例的一种基于网站内容数据推荐的特征优化预训练方法，包括具体方法步骤如下：

S10、对于指定的文章以及喜欢文章的用户进行预处理，构建出用户和文章的初始评分矩阵；

S20、依次使用矩阵分解的方法，对初始的评分矩阵分解成为两个小的矩阵，得到低纬度的矩阵P和Q，即用户矩阵P和文章矩阵Q；

S30、利用用户矩阵P和文章数据预训练用户模型；

S40、根据S30中，从P中得到的用户向量p，以及用户的文章向量；

训练基于用户的BERT预训练模型时，同时喜欢一定数量A的文章作为相似的用户，另外随机从剩下的不相似用户中随机按照一定比例B的大小抽取一定数量C的用户作为不相似用户；

S50、与S30相同的模式，抽取出文章的向量q，以及文章向量={c₁，c₂，…，c_n}；

S60、基于S40训练的分类模型，对从S30得到的数据重新进行相似与不相似划分，对于相似的用户，假设喜欢的文章也相似，按照S40的数据划分方式，对所有的文章数据也进行划分；

将两两文章数据输入到BERT模型中，相似的文章标签为True，不相似的文章标签为False，来预训练文章的BERT模型。

优选的，所述S30具体方法步骤包括：

S301、矩阵P的每一行代表一个用户的向量p；

S302、对于所有的文章切割成为指定长度的文本w₁，w₂，…，w_n；

S303、根据词向量将每个字转换成为向量：c₁，c₂，…，c_n；

S304、对于每个用户喜欢的文章，将相应的文章的向量相加，从而得到该用户的文章向量u_n={c₁，c₂，…，c_n}。

优选的，对于S30中的文章数据预处理时，需要对异常的字符进行清理和去除。

优选的，所述S40中分别将两两用户输入到BERT模型中，相似的用户标签为True，不相似的用户标签为False，来预训练用户BERT模型。

优选的，所述初始评分矩阵在初始情况下为稀疏矩阵。

优选的，所述S40和S60中的BERT模型的输入，每次使用两两作为输入，会有两个p向量和两个u_n向量，将两个p向量相加一个向量p=[p₁+p₁，p₂+p₂，…，p_n+p_n]，作为BERT的[CLS]输入，剩下的两个向量u_n，作为输入的前半部分和后半部分。

优选的，所述S40和S60中的A、B、C，分别使用15%、5%、10%来确定。

与现有技术相比，本发明的有益效果是：

本发明与传统的机器学习方法相比，解决了冷启动的问题，并降低了后期模型计算的复杂度。这种特征优化的方法可以显著的提升推荐的准确性，以及开发用户新的推荐需求。因为也加入了用户评分矩阵的存在，对于后期用户不断的使用时，丰富了用户评分矩阵。从而可以持续不断的提升推荐文章的可行性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的基于网站内容数据推荐的特征优化预训练方法的流程图；

图2为本发明提出的基于网站内容数据推荐的特征优化预训练方法的关系图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

参考图1-2，一种基于网站内容数据推荐的特征优化预训练方法，包括具体方法步骤如下：

S20、依次使用矩阵分解的方法，所述初始评分矩阵在初始情况下为稀疏矩阵，对初始的评分矩阵分解成为两个小的矩阵，得到低纬度的矩阵P和Q，即用户矩阵P和文章矩阵Q；

S30、利用用户矩阵P和文章数据预训练用户模型；

S301、矩阵P的每一行代表一个用户的向量p；

对于S30中的文章数据预处理时，需要对异常的字符进行清理和去除。

所述S40中分别将两两用户输入到BERT模型中，相似的用户标签为True，不相似的用户标签为False，来预训练用户BERT模型。

当前基于内容的推荐算法中，需要大量的人工特征选择，基于BERT的新的预训练算法则可减少这一部分的操作。

所述S40和S60中的BERT模型的输入，每次使用两两作为输入，会有两个p向量和两个u_n向量，将两个p向量相加一个向量p=[p₁+p₁，p₂+p₂，…，p_n+p_n]，作为BERT的[CLS]输入，剩下的两个向量u_n，作为输入的前半部分和后半部分。

所述S40和S60中的A、B、C，分别使用15%、5%、10%来确定。

在实际使用的场景是，对于文章的推荐，使用用户已经访问过的部分文章，计算得出该文章的向量D_n，然后将该向量与原始库当中存在的文章计算之前的相似度，将相似的文章推荐给用户。同样的是对于推荐用户时，使用类似S40的方式计算出用户之前的相似程度，得出相似的用户。

实施例1：

实验当中选取了两个不同的数据集，其中第一个数据集包含了5000个用户以及30000个物品，另一个数据集包含了3000个用户以及20000个物品，第一个数据集作为预训练基于用户和物品的模型，第二个作为测试预训练的效果。

基于第一个数据集中的用户，首先先将用户根据是否同时购买过5个以上的物品然后划分为相似用户和不相似用户群体，将每个用户购买过的物品的描述信息作为预训练Bert模型的输入，这里将描述信息拆分为单个的字作为输入，然后准备相似用户的训练数据与不相似用户的训练数据，不相似用户按照随机选取不相似总数的15%中选择10个用户作为训练数据。依照这样的方式预训练基于用户的Bert模型。模型预训练好了之后，根据Bert模型得出的结果，重新划分相似的用户。这里假设相似的用户中物品都基本是相似的，然后对于每个相似的物品，预训练基于物品的Bert模型。预训练的方式与之前预训练基于用户的方式类似。同样会随机选取15%的不相似物品中选取10个物品作为训练数据，最终预训练出基于物品的模型。这样子基于用户和基于物品的预训练模型已经训练完成，这个时候利用第二个数据集来测试模型的效果。

首先将该预训练的模型应用在网站群上，基于预训练好的模型对网站群上的文章和用户分别计算得出相似性，将相似的用户归类在一起。当用户搜索文章或者用户时，基于搜索引擎和推荐的结果返回给用户，从提升用户在搜索中的体验。另外的使用场景在内容咨询端，用户想要找到与当前文章相似的文章中，则可以使用该预训练的模型。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于网站内容数据推荐的特征优化预训练方法，其特征在于，包括具体方法步骤如下：

S30、利用用户矩阵P和文章数据预训练用户模型；

所述S30具体方法步骤包括：

S301、矩阵P的每一行代表一个用户的向量p；

S304、对于每个用户喜欢的文章，将相应的文章的向量相加，从而得到该用户的文章向量u_n＝{c₁，c₂，…，c_n}；

S50、与S30相同的模式，抽取出文章的向量q，以及文章向量＝{c₁，c₂，…，c_n}；

2.根据权利要求1所述的基于网站内容数据推荐的特征优化预训练方法，其特征在于，对于S30中的文章数据预处理时，需要对异常的字符进行清理和去除。

3.根据权利要求1所述的基于网站内容数据推荐的特征优化预训练方法，其特征在于，所述S40中分别将两两用户输入到BERT模型中，相似的用户标签为True，不相似的用户标签为False，来预训练用户BERT模型。

4.根据权利要求1所述的基于网站内容数据推荐的特征优化预训练方法，其特征在于，所述初始评分矩阵在初始情况下为稀疏矩阵。

5.根据权利要求1所述的基于网站内容数据推荐的特征优化预训练方法，其特征在于，所述S40和S60中的BERT模型的输入，每次使用两两作为输入，会有两个p向量和两个u_n向量，将两个p向量相加一个向量p＝[p₁+p₁，p₂+p₂，…，p_n+p_n]，作为BERT的[CLS]输入，剩下的两个向量u_n，作为输入的前半部分和后半部分。

6.根据权利要求1所述的基于网站内容数据推荐的特征优化预训练方法，其特征在于，所述S40和S60中的A、B、C，分别使用15％、5％、10％来确定。