CN109447698B

CN109447698B - 一种基于神经网络的推荐方法

Info

Publication number: CN109447698B
Application number: CN201811215216.4A
Authority: CN
Inventors: 周曦; 张竹昕
Original assignee: Guangzhou Cloudwalk Artificial Intelligence Technology Co ltd
Current assignee: Guangzhou Cloudwalk Artificial Intelligence Technology Co ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2021-01-29
Anticipated expiration: 2038-10-18
Also published as: CN109447698A

Abstract

一种基于神经网络的推荐方法，采用以下步骤，S1：从底层模块中提取结构化数据，将结构化数据添加到数据集中，将数据集中用户信息输入到用户处理模块，将数据集中商业信息输入到广告处理模块；S2：对数据集中的特征进行清洗，对于数据集中含有的缺失值，可以根据缺失的具体的类型使用均值填充、众数填充、随机森林填充、猜测矩阵填充方式，将缺失值补齐；对于缺失比例超过30％的特征予以剔除，用箱型图和统计学异常值判断的方法剔除异常值并填补正常值。针对某大数据应用场景，多级异构深度大数据神经网络的第一级神经网络，在AI建模完成后，对大数据进行多维度融合和挖掘，其输出结果代表了神经网络对该应用场景的判断。

Description

一种基于神经网络的推荐方法

技术领域

本发明涉及机器学习领域，具体涉及一种基于神经网络的推荐方法。

背景技术

大多数广告推荐用的协同过滤技术，通过相似用户聚类的方法给剩余的用户匹配相似客户，在根据这个相似客户推荐可能喜爱的产品。

此种技术的缺点是：1.无法利用交叉利用多重特征；2.必须要有初始的打分项；3.通过相似用户的判断到喜爱产品的推荐，误差较大；4.学习深度不够，无法深度挖掘客户和产品之间的内在联系。

发明内容

本发明针对现有技术的不足，提出一种基于神经网络的推荐方法，具体技术方案如下：

一种基于神经网络的推荐方法，其特征在于：

采用以下步骤，

S1：从底层模块中提取结构化数据，将结构化数据添加到数据集中，将数据集中用户信息输入到用户处理模块，将数据集中商业信息输入到广告处理模块；

S2：对数据集中的特征进行清洗，对于数据集中含有的缺失值，可以根据缺失的具体的类型使用均值填充、众数填充、随机森林填充、猜测矩阵填充方式，将缺失值补齐；

对于缺失比例超过30％的特征予以剔除，用箱型图和统计学异常值判断的方法剔除异常值并填补正常值；

S3：对特征进行判断，如果特征是连续型的称之为密集特征，则按照步骤S4处理，如果特征是离散型的，则按照步骤S5处理；

S4：直接归一化后放入神经网络或者用分箱操作将特征进行分类，转化为离散型特征；

S5：采用独热编码的方式使这些特征变成稀疏特征，利用神经网络进行特征重组，使特征维度增加；

S6：采用训练集训练神经网络模型，根据用户曾经消费最多的商户给训练数据的用户打标签，作为训练集的目标集；

训练集为用户或商户的各项特征，目标集为用户和商户的标签；

设置神经网络的参数，包括神经网络的层数、激励函数和每一层产生的节点；

将重组后的特征作为输入，输入设置好维度的神经网络张量中，得到用户和用户标签的匹配；

S7：采用混淆矩阵对训练完成的神经网络模型进行评估，计算每个标签的精准度和召回率，并且得到AUC值，判断神经网络模型是否能准确评估客户和商户的标签；

S8：对特征向量提取，最后的特征处理成为一个embedding层，embedding层定义为从一个矩阵中选择一行，一行对应着一个离散的新的特征，将两个神经网络模型的低维向量提取之后，进行存储；

S9：对点乘进行评估，将用户处理模块对应的输出向量和广告处理模块对应的输出向量两两点乘，得到其在向量空间中的大小，点乘的最终向量大小与客户和广告的匹配度为正相关；

S10：针对每一个客户，对应生成一个由点乘向量组成的目标向量集合，对目标向量集合内的点乘向量按从大到小进行排序，按照从大到小的顺序选取前x个点乘向量给用户做推荐，x为正整数，且x＞1。

进一步地：所述步骤S6中，设置神经网络参数包括神经网络的层数、激励函数和每一层产生的节点。

本发明的有益效果为：针对某大数据应用场景(比如精准营销、理财产品推荐等)，多级异构深度大数据神经网络的第一级神经网络，在AI建模完成后，对大数据进行多维度融合和挖掘，其输出结果代表了神经网络对该应用场景的判断。

神经网络具备强大的运算处理能力，能够根据具体应用场景有针对性得从海量数据里提取出信息，但它不受限于特征所能提供的信息。它能同时对两个维度进行匹配，将看似不相关的客户和广告联系起来。

神经网络可以使用用户处理模块和广告处理模块，深度挖掘用户和广告/理财产品之间的联系，从而协助银行打通销售渠道、精准定位客户并合理推荐产品。不但能节省银行的广告和宣传成本，而且可以提升用户对银行产品的体验。

附图说明

图1为本发明的工作流程图；

图2为独热编码对应表格；

图3为AUC是一个模型评价指标图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

如图1所示：一种基于神经网络的推荐方法，

采用以下步骤，

具体为，特征检索和加载从底层设计的Kafka、HBASE等平台中提取出结构化的数据，用NLP或CNN从非结构化数据中提出处理后的结构化特征向量，共同放入数据集中。根据用户id和商户或者广告id进行特征检索，筛选出适用于用户处理模块的记录和广告处理模块的记录。

将以用户id为核心的记录放入用户处理模块中，用众数、均值等方式以单一用户为核心进行特征归纳，以类似的方式以商户/广告id位核心放入广告处理模块中。

S2：对数据集中的特征进行清洗，对于数据集中含有的缺失值，可以根据缺失的具体的类型使用均值填充、众数填充、随机森林填充、猜测矩阵填充等方式，将缺失值补齐；

具体为，假设有一列特征集是Q＝{s1，s2，Nan，s4，s5，……sn}，那么其中的Nan就是空，是一个缺失值。如果这一列特征是连续性变量，那么可以采用均值、随机森林等方法。如果这一列特征值是分类特征，那么可以采用众数、猜测矩阵等。

S5：采用独热编码的方式使这些特征变成稀疏特征，利用神经网络进行特征重组，使特征维度增加，具体为，如图2所示，例如学历特征有三类：中学、本科、研究生，采用独热编码的方式使这些特征变成稀疏特征，也就是把每一个职业变成一个特征列，用户针对这个特征列只有是或者否两种结果，从而把多分类的离散型特征转化为稀疏特征，这是一个二分类的特征且多数用户在这个特征列的取值为0。

将特征进行密集和稀疏处理后，可以用神经网络进行特征重组，比如将年龄段、性别、消费类型等多个特征进行组合，可以使特征维度从几十维上升至几百维甚至上千维，从而神经网络更容易深度挖掘这些特征之间的内在联系；

S6：训练神经网络模型，根据用户曾经消费最多的商户给训练数据的用户打标签，作为训练集的目标集；

设置神经网络的参数，包括神经网络的层数、激励函数和每一层产生的节点。神经网络的层数控制神经网络的训练深度，一般用户设置2-5左右。训练的层数越多，模型越复杂，挖掘的程度越细，训练的时间越长，可以根据模型运行的周期来选择层数。

激励函数是给变量设置一个通过方式，在层数较少的情况下使用tanh或者relu都没有太大的影响，但是对于层数较多的神经网络，如果没有选择合适的参数，可能会导致梯度消失或梯度爆炸。每一层产生的节点决定了每一层的产出结果，影响每一层的训练方式。将重组后的特征作为输入，放入设置好维度的神经网络张量中。在此基础上训练模型，就能得到用户和用户标签的匹配。

具体为，如图3所示，AUC是一个模型评价指标，用于二分类模型的评价。AUC是“Area under Curve(曲线下的面积)”的英文缩写，而这条“Curve(曲线)”就是ROC曲线。

模型对于客户或商户是否是指定标签的预测结果大多是概率，即属于某个类别的概率，如果计算准确率的话，就要把概率转化为类别，这就需要设定一个阈值，概率大于某个阈值的属于一类，概率小于某个阈值的属于另一类，而阈值的设定直接影响了准确率的计算。使用AUC可以解决这个问题，接下来详细介绍AUC的计算。

例如，我们的数据集一共有5个样本，真实类别为(1，0，0，1，0)；二分类机器学习模型，得到的预测结果为(0.5，0.6，0.4，0.7，0.3)。将预测结果转化为类别——预测结果降序排列，以每个预测值(概率值)作为阈值，即可得到类别。计算每个阈值下的“TruePositiveRate”、“False Positive Rate”。以“True Positive Rate”作为纵轴，以“FalsePositiveRate”作为横轴，画出ROC曲线，ROC曲线下的面积，即为AUC的值。

然后，我们计算两个指标的值：

True Positive Rate＝(TP/(TP+FN))

False Positive Rate＝(FP/(FP+TN))

接着，我们以“True Positive Rate”作为纵轴，以“False Positive Rate”作为横轴，画出ROC曲线，ROC曲线下的面积，即为AUC的值。类似图3：

Precision、Recall、F-measure、Accuracy的计算

精确率(Precision)：Precision＝(TP/(TP+FP))

召回率(Recall)：Recall＝(TP/(TP+FN))

F值(F-measure)：F-measure＝2*Precision*Recall/(Precision+Recall)

准确率(Accuracy)：Accuracy＝((TP+TN)/(TP+TN+FP+FN))

综合考量AUC、precision和recall，在AUC保持稳定的情况下，尽量让precision和recall变高。我们通常可以采用f1来综合评估。

S8：对特征向量提取，最后的特征会处理成一个embedding层，embedding层定义为从一个矩阵中选择一行，一行对应着一个离散的新的特征表达；相比于之前成千上百的维度，这个向量的维度会大大降低。将用户处理模块和广告处理模块的低维向量提取之后，进行存储；

具体为Embedding层可以理解为嵌入向量层，假设有m个客户，每个客户有自己独有的一系列特征，最终形成一个集合，那么把这个高维的特征线性映射到的标准基中，就可以视为一种低维空间的嵌入。每一个集合的矩阵都定义了到的一个线性映射。当是一个标准基向量的时候，对应矩阵中的一列，这就是对应一个客户的向量表示。

Claims

1.一种基于神经网络的推荐方法，其特征在于：

采用以下步骤，

训练集为用户和商户的各项特征，目标集为用户和商户的标签；

设置神经网络的参数，将重组后的特征作为输入，输入设置好维度的神经网络张量中，得到用户和用户标签的匹配；

2.根据权利要求1所述一种基于神经网络的推荐方法，其特征在于：所述步骤S6中，设置神经网络参数包括神经网络的层数、激励函数和每一层产生的节点。