CN109447698B - 一种基于神经网络的推荐方法 - Google Patents

一种基于神经网络的推荐方法 Download PDF

Info

Publication number
CN109447698B
CN109447698B CN201811215216.4A CN201811215216A CN109447698B CN 109447698 B CN109447698 B CN 109447698B CN 201811215216 A CN201811215216 A CN 201811215216A CN 109447698 B CN109447698 B CN 109447698B
Authority
CN
China
Prior art keywords
neural network
user
filling
data set
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811215216.4A
Other languages
English (en)
Other versions
CN109447698A (zh
Inventor
周曦
张竹昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Cloudwalk Artificial Intelligence Technology Co ltd
Original Assignee
Guangzhou Cloudwalk Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Cloudwalk Artificial Intelligence Technology Co ltd filed Critical Guangzhou Cloudwalk Artificial Intelligence Technology Co ltd
Priority to CN201811215216.4A priority Critical patent/CN109447698B/zh
Publication of CN109447698A publication Critical patent/CN109447698A/zh
Application granted granted Critical
Publication of CN109447698B publication Critical patent/CN109447698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement

Abstract

一种基于神经网络的推荐方法,采用以下步骤,S1:从底层模块中提取结构化数据,将结构化数据添加到数据集中,将数据集中用户信息输入到用户处理模块,将数据集中商业信息输入到广告处理模块;S2:对数据集中的特征进行清洗,对于数据集中含有的缺失值,可以根据缺失的具体的类型使用均值填充、众数填充、随机森林填充、猜测矩阵填充方式,将缺失值补齐;对于缺失比例超过30%的特征予以剔除,用箱型图和统计学异常值判断的方法剔除异常值并填补正常值。针对某大数据应用场景,多级异构深度大数据神经网络的第一级神经网络,在AI建模完成后,对大数据进行多维度融合和挖掘,其输出结果代表了神经网络对该应用场景的判断。

Description

一种基于神经网络的推荐方法
技术领域
本发明涉及机器学习领域,具体涉及一种基于神经网络的推荐方法。
背景技术
大多数广告推荐用的协同过滤技术,通过相似用户聚类的方法给剩余的用户匹配相似客户,在根据这个相似客户推荐可能喜爱的产品。
此种技术的缺点是:1.无法利用交叉利用多重特征;2.必须要有初始的打分项;3.通过相似用户的判断到喜爱产品的推荐,误差较大;4.学习深度不够,无法深度挖掘客户和产品之间的内在联系。
发明内容
本发明针对现有技术的不足,提出一种基于神经网络的推荐方法,具体技术方案如下:
一种基于神经网络的推荐方法,其特征在于:
采用以下步骤,
S1:从底层模块中提取结构化数据,将结构化数据添加到数据集中,将数据集中用户信息输入到用户处理模块,将数据集中商业信息输入到广告处理模块;
S2:对数据集中的特征进行清洗,对于数据集中含有的缺失值,可以根据缺失的具体的类型使用均值填充、众数填充、随机森林填充、猜测矩阵填充方式,将缺失值补齐;
对于缺失比例超过30%的特征予以剔除,用箱型图和统计学异常值判断的方法剔除异常值并填补正常值;
S3:对特征进行判断,如果特征是连续型的称之为密集特征,则按照步骤S4处理,如果特征是离散型的,则按照步骤S5处理;
S4:直接归一化后放入神经网络或者用分箱操作将特征进行分类,转化为离散型特征;
S5:采用独热编码的方式使这些特征变成稀疏特征,利用神经网络进行特征重组,使特征维度增加;
S6:采用训练集训练神经网络模型,根据用户曾经消费最多的商户给训练数据的用户打标签,作为训练集的目标集;
训练集为用户或商户的各项特征,目标集为用户和商户的标签;
设置神经网络的参数,包括神经网络的层数、激励函数和每一层产生的节点;
将重组后的特征作为输入,输入设置好维度的神经网络张量中,得到用户和用户标签的匹配;
S7:采用混淆矩阵对训练完成的神经网络模型进行评估,计算每个标签的精准度和召回率,并且得到AUC值,判断神经网络模型是否能准确评估客户和商户的标签;
S8:对特征向量提取,最后的特征处理成为一个embedding层,embedding层定义为从一个矩阵中选择一行,一行对应着一个离散的新的特征,将两个神经网络模型的低维向量提取之后,进行存储;
S9:对点乘进行评估,将用户处理模块对应的输出向量和广告处理模块对应的输出向量两两点乘,得到其在向量空间中的大小,点乘的最终向量大小与客户和广告的匹配度为正相关;
S10:针对每一个客户,对应生成一个由点乘向量组成的目标向量集合,对目标向量集合内的点乘向量按从大到小进行排序,按照从大到小的顺序选取前x个点乘向量给用户做推荐,x为正整数,且x>1。
进一步地:所述步骤S6中,设置神经网络参数包括神经网络的层数、激励函数和每一层产生的节点。
本发明的有益效果为:针对某大数据应用场景(比如精准营销、理财产品推荐等),多级异构深度大数据神经网络的第一级神经网络,在AI建模完成后,对大数据进行多维度融合和挖掘,其输出结果代表了神经网络对该应用场景的判断。
神经网络具备强大的运算处理能力,能够根据具体应用场景有针对性得从海量数据里提取出信息,但它不受限于特征所能提供的信息。它能同时对两个维度进行匹配,将看似不相关的客户和广告联系起来。
神经网络可以使用用户处理模块和广告处理模块,深度挖掘用户和广告/理财产品之间的联系,从而协助银行打通销售渠道、精准定位客户并合理推荐产品。不但能节省银行的广告和宣传成本,而且可以提升用户对银行产品的体验。
附图说明
图1为本发明的工作流程图;
图2为独热编码对应表格;
图3为AUC是一个模型评价指标图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图1所示:一种基于神经网络的推荐方法,
采用以下步骤,
S1:从底层模块中提取结构化数据,将结构化数据添加到数据集中,将数据集中用户信息输入到用户处理模块,将数据集中商业信息输入到广告处理模块;
具体为,特征检索和加载从底层设计的Kafka、HBASE等平台中提取出结构化的数据,用NLP或CNN从非结构化数据中提出处理后的结构化特征向量,共同放入数据集中。根据用户id和商户或者广告id进行特征检索,筛选出适用于用户处理模块的记录和广告处理模块的记录。
将以用户id为核心的记录放入用户处理模块中,用众数、均值等方式以单一用户为核心进行特征归纳,以类似的方式以商户/广告id位核心放入广告处理模块中。
S2:对数据集中的特征进行清洗,对于数据集中含有的缺失值,可以根据缺失的具体的类型使用均值填充、众数填充、随机森林填充、猜测矩阵填充等方式,将缺失值补齐;
对于缺失比例超过30%的特征予以剔除,用箱型图和统计学异常值判断的方法剔除异常值并填补正常值;
具体为,假设有一列特征集是Q={s1,s2,Nan,s4,s5,……sn},那么其中的Nan就是空,是一个缺失值。如果这一列特征是连续性变量,那么可以采用均值、随机森林等方法。如果这一列特征值是分类特征,那么可以采用众数、猜测矩阵等。
S3:对特征进行判断,如果特征是连续型的称之为密集特征,则按照步骤S4处理,如果特征是离散型的,则按照步骤S5处理;
S4:直接归一化后放入神经网络或者用分箱操作将特征进行分类,转化为离散型特征;
S5:采用独热编码的方式使这些特征变成稀疏特征,利用神经网络进行特征重组,使特征维度增加,具体为,如图2所示,例如学历特征有三类:中学、本科、研究生,采用独热编码的方式使这些特征变成稀疏特征,也就是把每一个职业变成一个特征列,用户针对这个特征列只有是或者否两种结果,从而把多分类的离散型特征转化为稀疏特征,这是一个二分类的特征且多数用户在这个特征列的取值为0。
将特征进行密集和稀疏处理后,可以用神经网络进行特征重组,比如将年龄段、性别、消费类型等多个特征进行组合,可以使特征维度从几十维上升至几百维甚至上千维,从而神经网络更容易深度挖掘这些特征之间的内在联系;
S6:训练神经网络模型,根据用户曾经消费最多的商户给训练数据的用户打标签,作为训练集的目标集;
设置神经网络的参数,包括神经网络的层数、激励函数和每一层产生的节点;
将重组后的特征作为输入,输入设置好维度的神经网络张量中,得到用户和用户标签的匹配;
设置神经网络的参数,包括神经网络的层数、激励函数和每一层产生的节点。神经网络的层数控制神经网络的训练深度,一般用户设置2-5左右。训练的层数越多,模型越复杂,挖掘的程度越细,训练的时间越长,可以根据模型运行的周期来选择层数。
激励函数是给变量设置一个通过方式,在层数较少的情况下使用tanh或者relu都没有太大的影响,但是对于层数较多的神经网络,如果没有选择合适的参数,可能会导致梯度消失或梯度爆炸。每一层产生的节点决定了每一层的产出结果,影响每一层的训练方式。将重组后的特征作为输入,放入设置好维度的神经网络张量中。在此基础上训练模型,就能得到用户和用户标签的匹配。
S7:采用混淆矩阵对训练完成的神经网络模型进行评估,计算每个标签的精准度和召回率,并且得到AUC值,判断神经网络模型是否能准确评估客户和商户的标签;
具体为,如图3所示,AUC是一个模型评价指标,用于二分类模型的评价。AUC是“Area under Curve(曲线下的面积)”的英文缩写,而这条“Curve(曲线)”就是ROC曲线。
模型对于客户或商户是否是指定标签的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。使用AUC可以解决这个问题,接下来详细介绍AUC的计算。
例如,我们的数据集一共有5个样本,真实类别为(1,0,0,1,0);二分类机器学习模型,得到的预测结果为(0.5,0.6,0.4,0.7,0.3)。将预测结果转化为类别——预测结果降序排列,以每个预测值(概率值)作为阈值,即可得到类别。计算每个阈值下的“TruePositiveRate”、“False Positive Rate”。以“True Positive Rate”作为纵轴,以“FalsePositiveRate”作为横轴,画出ROC曲线,ROC曲线下的面积,即为AUC的值。
然后,我们计算两个指标的值:
True Positive Rate=(TP/(TP+FN))
False Positive Rate=(FP/(FP+TN))
接着,我们以“True Positive Rate”作为纵轴,以“False Positive Rate”作为横轴,画出ROC曲线,ROC曲线下的面积,即为AUC的值。类似图3:
Precision、Recall、F-measure、Accuracy的计算
精确率(Precision):Precision=(TP/(TP+FP))
召回率(Recall):Recall=(TP/(TP+FN))
F值(F-measure):F-measure=2*Precision*Recall/(Precision+Recall)
准确率(Accuracy):Accuracy=((TP+TN)/(TP+TN+FP+FN))
综合考量AUC、precision和recall,在AUC保持稳定的情况下,尽量让precision和recall变高。我们通常可以采用f1来综合评估。
S8:对特征向量提取,最后的特征会处理成一个embedding层,embedding层定义为从一个矩阵中选择一行,一行对应着一个离散的新的特征表达;相比于之前成千上百的维度,这个向量的维度会大大降低。将用户处理模块和广告处理模块的低维向量提取之后,进行存储;
具体为Embedding层可以理解为嵌入向量层,假设有m个客户,每个客户有自己独有的一系列特征,最终形成一个集合,那么把这个高维的特征线性映射到的标准基中,就可以视为一种低维空间的嵌入。每一个集合的矩阵都定义了到的一个线性映射。当是一个标准基向量的时候,对应矩阵中的一列,这就是对应一个客户的向量表示。
S9:对点乘进行评估,将用户处理模块对应的输出向量和广告处理模块对应的输出向量两两点乘,得到其在向量空间中的大小,点乘的最终向量大小与客户和广告的匹配度为正相关;
S10:针对每一个客户,对应生成一个由点乘向量组成的目标向量集合,对目标向量集合内的点乘向量按从大到小进行排序,按照从大到小的顺序选取前x个点乘向量给用户做推荐,x为正整数,且x>1。

Claims (2)

1.一种基于神经网络的推荐方法,其特征在于:
采用以下步骤,
S1:从底层模块中提取结构化数据,将结构化数据添加到数据集中,将数据集中用户信息输入到用户处理模块,将数据集中商业信息输入到广告处理模块;
S2:对数据集中的特征进行清洗,对于数据集中含有的缺失值,可以根据缺失的具体的类型使用均值填充、众数填充、随机森林填充、猜测矩阵填充方式,将缺失值补齐;
对于缺失比例超过30%的特征予以剔除,用箱型图和统计学异常值判断的方法剔除异常值并填补正常值;
S3:对特征进行判断,如果特征是连续型的称之为密集特征,则按照步骤S4处理,如果特征是离散型的,则按照步骤S5处理;
S4:直接归一化后放入神经网络或者用分箱操作将特征进行分类,转化为离散型特征;
S5:采用独热编码的方式使这些特征变成稀疏特征,利用神经网络进行特征重组,使特征维度增加;
S6:采用训练集训练神经网络模型,根据用户曾经消费最多的商户给训练数据的用户打标签,作为训练集的目标集;
训练集为用户和商户的各项特征,目标集为用户和商户的标签;
设置神经网络的参数,将重组后的特征作为输入,输入设置好维度的神经网络张量中,得到用户和用户标签的匹配;
S7:采用混淆矩阵对训练完成的神经网络模型进行评估,计算每个标签的精准度和召回率,并且得到AUC值,判断神经网络模型是否能准确评估客户和商户的标签;
S8:对特征向量提取,最后的特征处理成为一个embedding层,embedding层定义为从一个矩阵中选择一行,一行对应着一个离散的新的特征,将两个神经网络模型的低维向量提取之后,进行存储;
S9:对点乘进行评估,将用户处理模块对应的输出向量和广告处理模块对应的输出向量两两点乘,得到其在向量空间中的大小,点乘的最终向量大小与客户和广告的匹配度为正相关;
S10:针对每一个客户,对应生成一个由点乘向量组成的目标向量集合,对目标向量集合内的点乘向量按从大到小进行排序,按照从大到小的顺序选取前x个点乘向量给用户做推荐,x为正整数,且x>1。
2.根据权利要求1所述一种基于神经网络的推荐方法,其特征在于:所述步骤S6中,设置神经网络参数包括神经网络的层数、激励函数和每一层产生的节点。
CN201811215216.4A 2018-10-18 2018-10-18 一种基于神经网络的推荐方法 Active CN109447698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811215216.4A CN109447698B (zh) 2018-10-18 2018-10-18 一种基于神经网络的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811215216.4A CN109447698B (zh) 2018-10-18 2018-10-18 一种基于神经网络的推荐方法

Publications (2)

Publication Number Publication Date
CN109447698A CN109447698A (zh) 2019-03-08
CN109447698B true CN109447698B (zh) 2021-01-29

Family

ID=65546751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811215216.4A Active CN109447698B (zh) 2018-10-18 2018-10-18 一种基于神经网络的推荐方法

Country Status (1)

Country Link
CN (1) CN109447698B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572403A (zh) * 2019-09-12 2019-12-13 海南电网有限责任公司信息通信分公司 一种web安全监测系统及其方法
CN111062738A (zh) * 2019-11-11 2020-04-24 广州荔支网络技术有限公司 一种基于大数据及人工智能的音频平台推广广告题材生成方法
CN111461874A (zh) * 2020-04-13 2020-07-28 浙江大学 一种基于联邦模式的信贷风险控制系统及方法
CN111639972A (zh) * 2020-05-29 2020-09-08 中国联合网络通信集团有限公司 多媒体数据投放方法及设备
CN111881358B (zh) * 2020-07-31 2021-08-03 北京达佳互联信息技术有限公司 一种对象推荐系统、方法、装置、电子设备和存储介质
CN114531696A (zh) * 2020-11-23 2022-05-24 维沃移动通信有限公司 Ai网络部分输入缺失的处理方法和设备
CN112700008B (zh) * 2021-01-06 2022-06-28 青岛弯弓信息技术有限公司 一种云组态平台的模型匹配处理方法及系统
CN113033758A (zh) * 2021-03-24 2021-06-25 北京航空航天大学 针对ct图像分类的神经网络性能评价方法及系统
CN113872185A (zh) * 2021-09-06 2021-12-31 广西电网有限责任公司电力科学研究院 基于模仿学习的微电网控制策略推荐模型训练方法
CN113837483A (zh) * 2021-09-29 2021-12-24 深圳市易平方网络科技有限公司 基于无线接收装置的广告流量预估处理方法、装置、终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787770A (zh) * 2016-04-27 2016-07-20 上海遥薇(集团)有限公司 一种基于nmf算法的大数据商品及服务推荐方法及系统
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法
CN106599226A (zh) * 2016-12-19 2017-04-26 深圳大学 一种内容推荐方法及内容推荐系统
CN107909433A (zh) * 2017-11-14 2018-04-13 重庆邮电大学 一种基于大数据移动电子商务的商品推荐方法
CN107943897A (zh) * 2017-11-17 2018-04-20 东北师范大学 一种用户推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI612488B (zh) * 2016-12-05 2018-01-21 財團法人資訊工業策進會 用於預測商品的市場需求的計算機裝置與方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787770A (zh) * 2016-04-27 2016-07-20 上海遥薇(集团)有限公司 一种基于nmf算法的大数据商品及服务推荐方法及系统
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法
CN106599226A (zh) * 2016-12-19 2017-04-26 深圳大学 一种内容推荐方法及内容推荐系统
CN107909433A (zh) * 2017-11-14 2018-04-13 重庆邮电大学 一种基于大数据移动电子商务的商品推荐方法
CN107943897A (zh) * 2017-11-17 2018-04-20 东北师范大学 一种用户推荐方法

Also Published As

Publication number Publication date
CN109447698A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109447698B (zh) 一种基于神经网络的推荐方法
CN108920720B (zh) 基于深度哈希和gpu加速的大规模图像检索方法
US8645291B2 (en) Encoding of data for processing in a spatial and temporal memory system
CN104615779B (zh) 一种Web文本个性化推荐方法
CN111737474A (zh) 业务模型的训练和确定文本分类类别的方法及装置
CN112417306B (zh) 基于知识图谱的推荐算法性能优化的方法
Maharjan et al. A multi-task approach to predict likability of books
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN111666496B (zh) 一种基于评论文本的组推荐方法
CN111209386A (zh) 一种基于深度学习的个性化文本推荐方法
CN104298787A (zh) 一种基于融合策略的个性化推荐方法及装置
Tamilselvi et al. An overview of data mining techniques and applications
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN111428007B (zh) 基于跨平台的同步推送反馈方法
CN113239264A (zh) 基于元路径网络表示学习的个性化推荐方法及系统
Gupta et al. Impact of encoding of high cardinality categorical data to solve prediction problems
CN115239429A (zh) 属性信息编码方法及其装置、设备、介质、产品
CN113159892B (zh) 一种基于多模态商品特征融合的商品推荐方法
CN110443290A (zh) 一种基于大数据的产品竞争关系量化生成方法及装置
CN108491477B (zh) 基于多维云和用户动态兴趣的神经网络推荐方法
CN113326432A (zh) 一种基于决策树与推荐方法的模型优选方法
CN113962160A (zh) 基于用户画像的互联网卡用户流失预测方法及系统
CN116629258A (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
Bhargavi et al. Comparative study of consumer purchasing and decision pattern analysis using pincer search based data mining method
CN109583712B (zh) 一种数据指标分析方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant