CN113254788B

CN113254788B - 一种基于大数据的推荐方法、系统及可读存储介质

Info

Publication number: CN113254788B
Application number: CN202110695334.5A
Authority: CN
Inventors: 洪丽凤; 刘立斌
Original assignee: Foshan Menassen Intelligent Technology Co ltd
Current assignee: Miyuan (Guangzhou) New Media Technology Co.,Ltd.
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-09-24
Anticipated expiration: 2041-06-23
Also published as: CN113254788A

Abstract

本发明公开了一种基于大数据的推荐方法、系统及可读存储介质，包括：获取目标用户的属性信息，基于目标用户的属性信息建立用户异质信息网络；同时建立项目异质信息网络，运用交互算法关联所述用户异质信息网络和项目异质信息网络；基于上下文感知建立节点嵌入模型，使不同信息对齐到同一空间；通过对目标用户和项目的低维嵌入表示计算得分生成排序结果，根据所述排序结果对目标用户的喜好进行预测推荐。

Description

一种基于大数据的推荐方法、系统及可读存储介质

技术领域

本发明涉及一种推荐方法，更具体的，涉及一种基于大数据的推荐方法、系统及可读存储介质。

背景技术

随着信息技术及智能技术的迅猛发展,人类已经从IT时代走向DT时代。以互联网为载体,全球大数据如今进入加速发展时期,数据总量每年增长50%，互联网中不同类型数据实体相互作用、相互影响,交织构成了复杂庞大的异质信息网络。现实生活中的异质信息网络随处可见,如电子商务网络、社交媒体网络、移动通信网络、交通运输网络、科学引文网络、医疗卫生网络等。同时网络技术的发展推动了各行业信息化平台的产生,大数据和云计算技术的普遍应用使得互联网平台用户及项目数据量急剧增长。推荐系统作为缓解“信息过载”问题的重要工具,帮助用户从海量信息中获取感兴趣的内容,成为互联网应用不可或缺的重要角色。

为了能够通过目标用户的喜好更好的进行推荐，需要开发一款基于大数据的推荐系统进行匹配，该系统通过获取目标用户的属性信息，基于目标用户的属性信息建立用户异质信息网络；同时建立项目异质信息网络，运用交互算法关联所述用户异质信息网络和项目异质信息网络；基于上下文感知建立节点嵌入模型；通过对目标用户和项目的低维嵌入表示计算得分生成排序结果，根据所述排序结果对目标用户的喜好进行预测推荐。在系统的实现过程中如何基于上下文感知建立节点嵌入模型以及如何通过对目标用户和项目的低维嵌入表示并计算得分生成排序结果都是亟不可待需要解决的问题。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种基于大数据的推荐方法、系统及可读存储介质。

本发明第一方面提供了一种基于大数据的推荐方法，包括：

获取目标用户的属性信息，基于所述目标用户的属性信息建立用户异质信息网络；

同时建立项目异质信息网络，运用交互算法关联所述用户异质信息网络和项目异质信息网络；

基于上下文感知建立节点嵌入模型，使不同信息对齐到同一空间；

通过对目标用户和项目的低维嵌入表示计算得分生成排序结果，根据所述排序结果对目标用户的喜好进行预测推荐。

本方案中，所述的基于上下文感知建立节点嵌入模型，使不同信息对齐到同一空间，具体为：

获取目标用户及项目的属性信息，从所述属性信息中进行特征提取，构建异质信息网络；

选取异质信息网络中第i节点，将第i节点作为中心词，第i节点的邻居节点作为相应上下文；

进行多种类型上下文的抽样，根据所述中心词进行相应上下文出现概率的预测；

计算用户异质信息网络及项目异质信息网络的损失函数；

通过协同过滤的方法对所述损失函数进行对齐，完成模型的参数优化；

通过所述节点嵌入模型实现目标用户及项目的低维嵌入表达，将不同的信息实现在同一空间的对齐。

本方案中，所述的多种类型上下文的抽样基于用户异质信息网络和项目异质信息网络的交互网络实现，根据所述中心词进行相应上下文出现概率的预测计算公式具体为：

其中，

表示节点的特征，

为项目的低维度向量表示形式，

为用户集合，

表示当节点

是节点

的上下文时的低维低维度向量表示形式，

表示噪声函数。

本方案中，所述的通过对目标用户和项目的低维嵌入表示计算得分生成排序结果，具体为：

将目标用户和项目进行嵌入对齐连接，获取目标用户和项目之间的数据关联；

提取所述数据关联的特征值、上下文出现概率预测结果数据，将提取到的数据进行预处理；

根据所述特征值及上下文出现概率预测结果数据生成权重信息，通过权重比例计算出目标用户与项目之间的相关性得分；

按所述相关性得分将目标用户与项目的相关性进行倒序排序，根据所述排序结果对目标用户的喜好进行预测推荐。

本方案中，所述的根据上下文出现概率预测结果数据生成权重信息，则所述权重信息的计算公式具体为：

其中，

表示所求权重信息，

表示项目系数，

表示上下文出现概率预测结果数据，

表示特征值项数，

表述数据关联项数。

本方案中，还包括：建立神经网络模型对预测信息进行误差补偿及修正，具体为：

建立初始神经网络模型，选取相关数据作为训练集对所述初始神经网络模型进行训练；

设定神经网络模型误差阈值，测试模型误差值，将测量所得误差值与阈值进行比较；

若小于，则证明所述神经网络模型训练完毕，得到训练后神经网络模型；

将预测信息导入训练后神经网络模型，生成所述预测信息的误差补偿信息；

将所述预测信息的误差补偿信息反馈到节点嵌入模型，对预测信息进行误差补偿及修正。

本发明第二方面还提供了一种基于大数据的推荐系统，该系统包括：存储器、处理器，所述存储器中包括一种基于大数据的推荐方法程序，所述一种一种基于大数据的推荐方法程序被所述处理器执行时实现如下步骤：

计算用户异质信息网络及项目异质信息网络的损失函数；

其中，

表示节点的特征，

为项目的低维度向量表示形式，

为用户集合，

表示当节点

是节点

的上下文时的低维低维度向量表示形式，

表示噪声函数。

其中，

表示所求权重信息，

表示项目系数，

表示上下文出现概率预测结果数据，

表示特征值项数，

表述数据关联项数。

本发明第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质中包括一种基于大数据的推荐方法程序，所述一种基于大数据的推荐方法程序被处理器执行时，实现如上述任一项所述的一种基于大数据的推荐方法的步骤。

本发明公开了一种基于大数据的推荐方法、系统及可读存储介质，包括：获取目标用户的属性信息，基于目标用户的属性信息建立用户异质信息网络；同时建立项目异质信息网络，运用交互算法关联所述用户异质信息网络和项目异质信息网络；基于上下文感知建立节点嵌入模型，使不同信息对齐到同一空间；通过对目标用户和项目的低维嵌入表示计算得分生成排序结果，根据所述排序结果对目标用户的喜好进行预测推荐。本发明将目标用户和项目分为不同类型的数据节点，并通过目标用户和项目所附带的属性信息构建所述数据节点信息的关联信息，根据所述关联信息构建异构信息网络，能够有效融合多种不同类型的上下文信息，实现更好的表示目标用户及项目的属性信息并提高推荐的效果，确保了推荐的稳定性，有利于提高推荐性能。

附图说明

图1示出了本发明一种基于大数据的推荐方法的流程图；

图2示出了本发明根据低维嵌入表示计算得分生成排序结果方法流程图；

图3示出了本发明建立神经网络模型对预测信息进行误差补偿及修正方法流程图；

图4示出了本发明一种基于大数据的推荐系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于大数据的推荐方法的流程图。

如图1所示，本发明第一方面提供了一种基于大数据的推荐方法，包括：

S102，获取目标用户的属性信息，基于所述目标用户的属性信息建立用户异质信息网络；

S104，同时建立项目异质信息网络，运用交互算法关联所述用户异质信息网络和项目异质信息网络；

S106，基于上下文感知建立节点嵌入模型，使不同信息对齐到同一空间；

S108，通过对目标用户和项目的低维嵌入表示计算得分生成排序结果，根据所述排序结果对目标用户的喜好进行预测推荐。

需要说明的是，所述的基于上下文感知建立节点嵌入模型，使不同信息对齐到同一空间，具体为：

计算用户异质信息网络及项目异质信息网络的损失函数；

需要说明的是，获取目标用户及项目的属性信息，从所述属性信息中进行特征提取，当所述属性信息中的信息类型为文本信息时可以使用潜在语义分析模型进行提取，具体为：当属性信息中含有

个文本信息，在每个文本信息中含有

个词，预设主题数为

，提取第

个文本中对应的第

个词的特征值，通过奇异值分解方法计算得到文本

、词

与预设主题

和语义之间的的相关度，根据LSI算法得到文本主题矩阵，使用余弦相似度计算完成文本的相似度的计算，实现文本信息的提取。

需要说明的是，所述的多种类型上下文的抽样基于用户异质信息网络和项目异质信息网络的交互网络实现，根据所述中心词进行相应上下文出现概率的预测计算公式具体为：

其中，

表示节点的特征，

为项目的低维度向量表示形式，

为用户集合，

表示当节点

是节点

的上下文时的低维低维度向量表示形式，

表示噪声函数。

图2示出了本发明根据低维嵌入表示计算得分生成排序结果方法流程图。

根据本发明实施例，所述的通过对目标用户和项目的低维嵌入表示计算得分生成排序结果，具体为：

S202，将目标用户和项目进行嵌入对齐连接，获取目标用户和项目之间的数据关联；

S204，提取所述数据关联的特征值、上下文出现概率预测结果数据，将提取到的数据进行预处理；

S206，根据所述特征值及上下文出现概率预测结果数据生成权重信息，通过权重比例计算出目标用户与项目之间的相关性得分；

S208，按所述相关性得分将目标用户与项目的相关性进行倒序排序，根据所述排序结果对目标用户的喜好进行预测推荐。

需要说明的是，所述的根据上下文出现概率预测结果数据生成权重信息，则所述权重信息的计算公式具体为：

其中，

表示所求权重信息，

表示项目系数，

表示上下文出现概率预测结果数据，

表示特征值项数，

表述数据关联项数。

根据本发明实施例，本方案中还包括建立神经网络模型对预测信息进行误差补偿及修正，具体为：

S302，建立初始神经网络模型，选取相关数据作为训练集对所述初始神经网络模型进行训练；

S304，设定神经网络模型误差阈值，测试模型误差值，将测量所得误差值与阈值进行比较；

S306，若小于，则证明所述神经网络模型训练完毕，得到训练后神经网络模型；

S308，将预测信息导入训练后神经网络模型，生成所述预测信息的误差补偿信息；

S310，将所述预测信息的误差补偿信息反馈到节点嵌入模型，对预测信息进行误差补偿及修正。

需要说明的是，建立初始神经网络模型，选取相关数据作为训练集对所述初始神经网络模型进行训练，具体为：获取相关信息，或直接连接相关数据库，将获取的训练信息进行整理分类、数据分析等预处理，将初始训练信息进行分组，得到若干个训练信息数据集，将若干个数据集导入初始神经网络模型生成第一次学习后的输出结果，根据得到的第一次输出结果进行分析计算出每组训练集的初始学习率，初始学习率与离散系数成正比，将第一次学习后的输出结果再次导入神经网络模型，继续进行N次学习，在每次学习的过程中使得若干组训练信息数据集的损失函数保持线性相关，输出初始神经网络模型进行N次学习后的输出结果，设定神经网络模型误差阈值，比较计算若干组训练信息数据集的输出结果得到误差值，判断误差值是否小于预设误差阈值，若所述误差值小于预设误差阈值，则证明神经网络训练完毕，得到训练后神经网络模型。

根据本发明实施例，本发明还包括，通过目标用户及项目的属性信息提取特征构建异质信息网络，根据节点之间的相对关系对目标用户的多种行为进行反馈，通过反馈数据对目标用户实现推荐，具体为：

获取目标用户及项目的属性信息，获取目标用户的多种行为记录；

构建目标用户异质信息网络、项目异质信息网络以及目标用户与项目多种行为记录异质信息网络；

根据异质信息网络中节点的跳转获取目标用户与项目的联系以及不同类型的反馈信息，并将所述反馈信息分为正反馈信息与负反馈信息；

预设所述正反馈信息与负反馈信息的权重，进行多种类型反馈信息的抽样；

通过自注意力方法实现权重的自适应变化；

根据对反馈信息进行表示学习及对齐，完成对目标用户的喜爱推荐。

根据本发明实施例，本发明，还包括：根据目标用户反馈信息重新推荐项目内容，具体为：

完成对目标用户的项目推荐后，获取目标用户和项目的交互信息；

将所述交互信息转换为异质信息网络中节点数据关联的交互特征值；

当所述交互特征值小于预设阈值时，生成目标用户反馈信息

图4示出了本发明一种基于大数据的推荐系统的框图。

本发明第二方面还提供了一种基于大数据的推荐系统4，该系统包括：存储器41、处理器42，所述存储器中包括一种基于大数据的推荐方法程序，所述一种基于大数据的推荐方法程序被所述处理器执行时实现如下步骤：

计算用户异质信息网络及项目异质信息网络的损失函数；

个文本信息，在每个文本信息中含有

个词，预设主题数为

，提取第

个文本中对应的第

个词的特征值，通过奇异值分解方法计算得到文本

、词

与预设主题

其中，

表示节点的特征，

为项目的低维度向量表示形式，

为用户集合，

表示当节点

是节点

的上下文时的低维低维度向量表示形式，

表示噪声函数。

其中，

表示所求权重信息，

表示项目系数，

表示上下文出现概率预测结果数据，

表示特征值项数，

表述数据关联项数。

根据本发明实施例，还包括：建立神经网络模型对预测信息进行误差补偿及修正，具体为：

通过自注意力方法实现权重的自适应变化；

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。