CN106897913B - 一种精确的注塑机选型方法 - Google Patents

一种精确的注塑机选型方法 Download PDF

Info

Publication number
CN106897913B
CN106897913B CN201710053083.4A CN201710053083A CN106897913B CN 106897913 B CN106897913 B CN 106897913B CN 201710053083 A CN201710053083 A CN 201710053083A CN 106897913 B CN106897913 B CN 106897913B
Authority
CN
China
Prior art keywords
injection molding
molding machine
model selection
user
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710053083.4A
Other languages
English (en)
Other versions
CN106897913A (zh
Inventor
向友君
何家成
吴宗泽
谢胜利
张勰
苏春晨
何煦
张莉婷
李凯鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Guangdong University of Technology
Original Assignee
South China University of Technology SCUT
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Guangdong University of Technology filed Critical South China University of Technology SCUT
Priority to CN201710053083.4A priority Critical patent/CN106897913B/zh
Publication of CN106897913A publication Critical patent/CN106897913A/zh
Application granted granted Critical
Publication of CN106897913B publication Critical patent/CN106897913B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0621Item configuration or customization

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Injection Moulding Of Plastics Or The Like (AREA)

Abstract

本发明公开了一种精确的注塑机选型方法,包括将终端采集的用户的大量关于注塑机选型和购买行为和数据发送至服务器端;将采集到的数据进行除噪过滤、归一化处理和注塑机用户的特征提取;在服务器端执行基于皮尔逊相关系数和最小二乘法的注塑机选型算法,从用户的大量关于注塑机选型和购买行为和数据中计算用户对于注塑机的选型偏好,进行注塑机的个性化选型;从服务器端返回注塑机选型结果至终端并显示。相较于传统的注塑机选型方法,本发明公开的注塑机选型方法根据不同用户在注塑机选型和电商平台上的的历史行为数据进行个性化的注塑机选型,充分体现了在大数据时代中智能化推荐引擎在传统行业改造中的作用。

Description

一种精确的注塑机选型方法
技术领域
本发明涉及大数据信息推荐领域,尤其涉及到注塑机电商平台中的信息流推荐方法和注塑机选型服务平台的选型方法,具体涉及一种精确的注塑机选型方法。
背景技术
塑料超过了钢铁,成为全世界的第一大工业材料,而我国如今成为全球塑料消费量级最大的国家,规模达2.6万亿。但是,由于注塑机器械的智能化正处于起步阶段,整个注塑行业的信息化水平较低和行业资源缺乏统一的规划,导致注塑机上下游产业出现人力成本高、效率低、产品附加值低等问题,严重制约了中国制造2025的整体发展。
当前,传统注塑行业对注塑机的选型还停留在人工主观分析,即消耗人员和技术人员当面和客户沟通,根据客户需求通过人为的经验和主观分析从而给客户进行注塑机的选型并进行销售。
这样的注塑机选型方式不仅效率低、耗费大量的资源(人力、物力和时间资源),同时没办法根据用户的个性化需求进行个性化注塑机的选型,严重制约了传统注塑行业和中国制造2025的整体发展。
发明内容
本发明的目的是为了解决在传统注塑行业在注塑机选型上现有技术中的上述缺陷,提供一种精确的注塑机选型方法。
本发明的目的可以通过采取如下技术方案达到:
一种精确的注塑机选型方法,所述方法包括以下步骤:
将终端采集的用户的大量关于注塑机选型和购买行为和数据发送至服务器端;
将采集到的注塑机用户数据进行除噪、过滤;
将采集到的注塑机用户数据进行归一化处理;
对注塑机用户数据进行选型特征偏好提取;
在服务器端通过基于Spark大数据平台执行基于皮尔逊相关系数和最小二乘法的注塑机选型方法进行个性化的注塑机选型;
从服务器端返回注塑机选型结果至终端并显示。
进一步地,所述的将采集到的注塑机用户数据进行除噪、过滤的具体过程包括:
以注塑机用户为键,对应用户关于注塑机选型系统和商城行为记录数为值,进行统计;
将注塑机用户提取出来,利用Spark Mllib的user.filter(line=>line.contains(u))函数方法将原始数据中的所有关于注塑机用户u的记录筛选出来,并构造关于用户u的键值对;
移除注塑机行为数据记录中的噪声数据,所述噪声数据包括用户的恶意刷单、失误操作。
进一步地,所述的将采集到的注塑机用户数据进行归一化处理额具体过程包括:
采用Z-score标准化方法对不同注塑机选型行为和注塑机商城购买行为的数值取值进行归一化处理,具体方法为:
Figure GDA0002607658380000031
其中,v为所有样本数据的均值,σ为所有样本数据的标准差。
进一步地,所述的对注塑机用户数据进行选型特征偏好提取的具体过程包括:
将原始数据中的所有关于用户u的注塑机行为记录筛选出来,并构造关于用户u的键值对;
将用户选型参数中选择、浏览、收藏、加购物车、与购买的基础评分分别设置为1、2、3、4、5;
对用户的关于注塑机行为基础评分分别在其基础上加上不同适当权值分数加成,最后得到所有与用户u相关注塑机商品的评价;
循环上述步骤流程,将其他剩余用户的内容提取出来。
进一步地,所述的在服务器端通过基于Spark大数据平台执行基于皮尔逊相关系数和最小二乘法的注塑机选型方法进行个性化的注塑机选型的具体过程包括:
采用皮尔逊相关系数计算注塑机用户之间的相似度;
描述用户对注塑机选型需求问题;
采用交替最小二乘法预测用户的注塑机选型需求;
在Spark大数据平台实现基于采用交替最小二乘法预测用户的注塑机选型需求。
进一步地,所述的采用皮尔逊相关系数计算注塑机用户之间的相似度的具体过程如下:
利用两个注塑机用户之间的协方差和标准差计算皮尔逊相关系数:
Figure GDA0002607658380000041
其中,Cov(Xuser1,Xuser2)代表两个注塑机用户之间的协方差,σXuser1和σXuser2分别代表两个注塑机用户的标准差;
若需要对样本的协方差和标准差进行估算,可得到样本相关系数,即样本皮尔逊系数:
Figure GDA0002607658380000042
其中:
Figure GDA0002607658380000043
是Xi样本的标准分数,
Figure GDA0002607658380000044
是Yi样本的标准分数;
Figure GDA0002607658380000045
是Xi的样本平均数,
Figure GDA0002607658380000046
是Yi的样本平均数;
σx是Xi的样本标准差,σy是Yi的样本标准差。
进一步地,所述的描述用户对注塑机选型需求问题的具体过程如下:
用户u对商品i的兴趣偏好可以表示为:
Figure GDA0002607658380000047
其中Xu,k是用户u的兴趣和第k个隐类的关系,而Yi,k是第i个物品和第k个隐类直接的关系;
求解X和Y的过程可以转化为求损失函数最小的问题:
Figure GDA0002607658380000048
其中λ是正则化项的系数,式中右边两项的引入是为了防止过拟合。
进一步地,所述的采用交替最小二乘法预测用户的注塑机选型需求的具体过程如下:
利用最小二乘法求解X,然后固定X,求解Y,如此交替往复直至收敛,即所谓交替最小二乘法;
先固定Y,将Y带入损失函数L(X,Y)并对Xu求偏导,令导数=0,得到:
Xu=(YTY+λI)-1YTru
同理固定X,可得:
Yu=(XTX+λI)-1XTri
迭代步骤,首先随机选取Y,利用固定Y的公式更新得到X,然后利用固定X的公式更新Y,直到均方根误差很小或达到迭代次数:
Figure GDA0002607658380000051
进一步地,所述的在Spark大数据平台实现基于采用交替最小二乘法预测用户的注塑机选型需求具体过程如下:
定义参数rank:模型中隐语义因子的个数;
定义参数iterations:迭代的次数,所述参数iterations的取值范围为:10-20;
定义参数lambda:惩罚函数的因数,是ALS的正则化参数,所述参数lambda的取值范围为:0.005-0.02;
通过调整上述参数,从而优化注塑机商品的选型算法,使注塑机选型结果的均方差逐渐变小。
进一步地,所述的在Spark大数据平台实现基于采用交替最小二乘法预测用户的注塑机选型需求在Spark MLlib中实现步骤如下:
使用ALS训练的注塑机行为数据通过函数方法ALS.train()建立注塑机选型模型;
通过model.predict()方法使用注塑机选型模型对用户对注塑机进行预测评分,得到预测评分的数据集;
使用ratings.map{case Rating(user,item,rate)}方法将真实注塑机评分数据集与注塑机预测评分数据集进行合并;
利用ratesAndPreds.map()计算均方差;
注塑机选型的结果可以以用户id为key,结果为value存入hbase中;
使用predictions.collect.sortB()对注塑机预测选型的结果按预测的评分排序;
对注塑机预测结果按用户进行分组,然后合并选型结果。
本发明相对于现有技术具有如下的优点及效果:
1、本发明运用皮尔逊相关系数聚类算法计算用户的相似度,有效提高了用户相似度的准确性,同时用户的注塑机需求挖掘能力强,不但保留了用户的感兴趣的注塑机,还能通过用户在注塑选型和注塑商城过程中产生的行为数据挖掘潜在注塑机需求。
2、本发明运用交替最小二乘法计算用户对注塑机的评分和最小均方误差,从而对注塑机选型进行有效的预测,大大提高的预测的准确性和有效性。
3、本发明结合运用Spark并行计算框架,结合当前大数据趋势与技术特点,大大提高注塑机选型的选型效率。
附图说明
图1是本发明公开的精确的注塑机选型方法的原理图;
图2是本发明公开的精确的注塑机选型方法的流程步骤图;
图3是本发明中基于皮尔逊相关系数和最小二乘法的注塑机选型算法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例公开了一种基于皮尔逊系数和最小二乘法的精确的注塑机选型方法,流程步骤图参照附图2所示,由附图2可知,该精确的注塑机选型方法具体包括以下步骤:
S1、将终端采集的用户的大量关于注塑机选型和购买的行为数据发送至服务器端;
S2、将采集到的注塑机用户数据中噪声数据进行除噪、过滤;
具体实施方式中,所述的将采集到的注塑机用户数据进行除噪、过滤具体为:
以注塑机用户为键,对应用户关于注塑机选型系统和商城行为记录数为值,进行统计;将注塑机用户提取出来;利用user.filter(line=>line.contains(u))函数方法将原始数据中的所有关于注塑机用户u的记录筛选出来,并构造关于用户u的键值对;
用户的个人数据和行为数据是在用户使用注塑选型系统和注塑商城的过程中产生的,可能包含大量噪声数据,比如用户的恶意刷单、失误操作等,通过注塑机行为数据记录中的噪声数据进行移除,可以使我们的分析更加精确,避免受到注塑机行为数据噪声的干扰。经过实验分析,将除噪的阈值设为50。
S3、将采集到的注塑机用户数据进行归一化处理;
具体实施方式中,所述的将采集到的注塑机用户数据进行归一化处理具体为:
采用Z-score标准化方法对不同注塑机选型行为和注塑机商城购买行为的数值取值进行归一化处理,具体方法为:
Figure GDA0002607658380000081
其中,v为所有样本数据的均值,σ为所有样本数据的标准差。
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,能有效将不同注塑机选型行为和注塑机商城购买行为的数据进行归一化。
S4、对注塑机用户数据进行选型特征偏好提取;
具体实施方式中,所述的对注塑机用户数据进行选型特征偏好提取具体为:
将原始数据中的所有关于用户u的注塑机行为记录筛选出来,并构造关于用户a的键值对;
将用户选型参数中选择、浏览、收藏、加购物车、与购买的基础评分分别设置为1、2、3、4、5;
对用户的关于注塑机行为基础评分分别在其基础上加上不同适当权值分数加成,最后得到所有与用户u相关注塑机商品的评价(喜好程度);
循环上述步骤流程,将其他剩余用户的内容提取出来。
S5、在服务端的Spark大数据平台执行基于皮尔逊相关系数和最小二乘法的注塑机选型算法;
具体实施方式中,所述的在服务端的Spark大数据平台执行基于皮尔逊相关系数和最小二乘法的注塑机选型算法包括:
S501、采用皮尔逊相关系数计算注塑机用户之间的相似度。
为了更好的度量两个随机变量的相关程度,引入了皮尔逊相关系数:利用两个注塑机用户之间的协方差和标准差计算皮尔逊系数:
Figure GDA0002607658380000091
其中,Cov(Xuser1,Xuser2)代表两个注塑机用户之间的协方差,σXuser1和σXuser2分别代表两个注塑机用户的标准差。
容易得出,皮尔逊系数是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。
若需要对样本的协方差和标准差进行估算,可得到样本相关系数,即样本皮尔逊系数:
Figure GDA0002607658380000092
其中:
Figure GDA0002607658380000093
是Xi样本的标准分数,
Figure GDA0002607658380000094
是Yi样本的标准分数;
Figure GDA0002607658380000095
是Xi的样本平均数,
Figure GDA0002607658380000096
是Yi的样本平均数;
σx是Xi的样本标准差,σy是Yi的样本标准差。
S502、描述用户对注塑机选型需求问题:用户u对注塑机i的兴趣偏好可以表示为:
Figure GDA0002607658380000101
其中Xu,k是用户u的兴趣和第k个隐类的关系,而Yi,j是第i个物品和第k个隐类直接的关系。
求解X和Y的过程可以转化为求损失函数最小的问题:
Figure GDA0002607658380000102
其中λ是正则化项的系数,式中右边两项的引入是为了防止过拟合。
S503、采用交替最小二乘法预测用户的注塑机选型需求,具体为:利用最小二乘法求解X,然后固定X,求解Y,如此交替往复直至收敛,即所谓交替最小二乘法。
先固定Y,将Y带入损失函数L(X,Y)并对Xu求偏导,令导数=0,得到:
Xu=(YTY+λI)-1YTru
同理固定X,可得:
Yu=(XTX+λI)-1XTri
迭代步骤,首先随机选取Y,利用固定Y的公式更新得到X,然后利用固定X的公式更新Y,直到均方根误差很小或达到迭代次数:
Figure GDA0002607658380000103
S504、在Spark大数据平台实现基于采用交替最小二乘法预测用户的注塑机选型需求:
rank:模型中隐语义因子的个数;
iterations:迭代的次数,推荐值:10-20;
lambda:惩罚函数的因数,是ALS的正则化参数,推荐值:0.01。
通过调整上述参数,从而优化注塑机商品的选型算法,使注塑机选型结果的均方差逐渐变小。在Spark MLlib中实现步骤如下:
使用ALS训练的注塑机行为数据通过函数方法ALS.train()建立注塑机选型模型;
通过model.predict()方法使用注塑机选型模型对用户对注塑机进行预测评分,得到预测评分的数据集;
使用ratings.map{case Rating(user,item,rate)}方法将真实注塑机评分数据集与注塑机预测评分数据集进行合并;
利用ratesAndPreds.map()计算均方差;
注塑机选型的结果可以以用户id为key,结果为value存入hbase中;
使用predictions.collect.sortB()对注塑机预测选型的结果按预测的评分排序
对注塑机预测结果按用户进行分组,然后合并选型结果。
S6、从服务器端返回注塑机选型结果至终端并显示。
实施例二
本实施例将一种基于皮尔逊相关系数和最小二乘法的精确注塑机选型方法应用于具体注塑机选型系统。用Android设备采集用户在使用注塑机时的行为数据和个人信息数据。
附图2给出了该注塑机选型方法进行注塑机选型的流程图,说明整个注塑机选型过程的步骤,而附图3是本发明提出的注塑机选型方法的算法流程图,为了具体介绍整个定位实施通过以下实现进行描述:
步骤S1、将Andorid终端采集到的用户关于注塑机选型行为和个人信息数据发送至服务器端。
S2、将采集到的注塑机用户数据进行除噪、过滤;
S3、将采集到的注塑机用户数据进行归一化处理;
S4、对注塑机用户数据进行选型特征偏好提取;
S5、在服务器端通过基于Spark大数据平台执行基于皮尔逊相关系数和最小二乘法的注塑机选型方法进行个性化的注塑机选型;
S501、采用皮尔逊相关系数计算注塑机用户之间的相似度。
为了更好的度量两个随机变量的相关程度,引入了皮尔逊相关系数:利用两个注塑机用户之间的协方差和标准差计算皮尔逊系数:
Figure GDA0002607658380000121
其中,Cov(Xuser1,Xuser2)代表两个注塑机用户之间的协方差,σXuser1和σXuser2分别代表两个注塑机用户的标准差。
容易得出,皮尔逊系数是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。
若需要对样本的协方差和标准差进行估算,可得到样本相关系数,即样本皮尔逊系数:
Figure GDA0002607658380000131
其中:
Figure GDA0002607658380000132
是Xi样本的标准分数,
Figure GDA0002607658380000133
是Yi样本的标准分数;
Figure GDA0002607658380000134
是Xi的样本平均数,
Figure GDA0002607658380000135
是Yi的样本平均数;
σx是Xi的样本标准差,σy是Yi的样本标准差。
S502、描述用户对注塑机选型需求问题:用户u对注塑机i的兴趣偏好可以表示为:
Figure GDA0002607658380000136
其中Xu,k是用户u的兴趣和第k个隐类的关系,而Yi,k是第i个物品和第k个隐类直接的关系。
求解X和Y的过程可以转化为求损失函数最小的问题:
Figure GDA0002607658380000137
其中λ是正则化项的系数,式中右边两项的引入是为了防止过拟合。
S503、采用交替最小二乘法预测用户的注塑机选型需求,具体为:利用最小二乘法求解X,然后固定X,求解Y,如此交替往复直至收敛,即所谓交替最小二乘法。
先固定Y,将Y带入损失函数L(X,Y)并对Xu求偏导,令导数=0,得到:
Xu=(YTY+λI)-1YTru
同理固定X,可得:
Yu=(XTX+λI)-1XTri
迭代步骤,首先随机选取Y,利用固定Y的公式更新得到X,然后利用固定X的公式更新Y,直到均方根误差很小或达到迭代次数:
Figure GDA0002607658380000141
S504、在Spark大数据平台实现基于采用交替最小二乘法预测用户的注塑机选型需求:
rank:模型中隐语义因子的个数;
iterations:迭代的次数,推荐值:10-20;
lambda:惩罚函数的因数,是ALS的正则化参数,推荐值:0.01。
通过调整上述参数,从而优化注塑机商品的选型算法,使注塑机选型结果的均方差逐渐变小。在Spark MLlib中实现步骤如下:
使用ALS训练的注塑机行为数据通过函数方法ALS.train()建立注塑机选型模型;
通过model.predict()方法使用注塑机选型模型对用户对注塑机进行预测评分,得到预测评分的数据集;
使用ratings.map{case Rating(user,item,rate)}方法将真实注塑机评分数据集与注塑机预测评分数据集进行合并;
利用ratesAndPreds.map()计算均方差;
注塑机选型的结果可以以用户id为key,结果为value存入hbase中;
使用predictions.collect.sortB()对注塑机预测选型的结果按预测的评分排序
对注塑机预测结果按用户进行分组,然后合并选型结果。
S6、从服务器端返回注塑机选型结果至Android终端并显示。
至此实现了注塑机选型的整个过程。
综上所述,该实施例是采用注塑机选型系统工作流程和基于皮尔逊相关系数和最小二乘法的注塑机选型算法执行流程结合的方式全面地描述实施例中注塑机选型的过程。该方法利用皮尔逊相关系数和最小二乘法对注塑机选型进行精确的个性化选型,不仅提高了注塑机选型的匹配效率、节省选型成本,同时实现了根据不同用户对注塑机的不同需求进行个性化注塑机选型。将传统注塑行业与当今互联网和大数据紧密联系在一起,为传统注塑机下游企业在销售、采购、交易决策、后续增值服务等整个产业链条方面提供了有力的支持。同时基于皮尔逊系数和最小二乘法的大数据注塑机选型方法将会使整个注塑行业从产品制造往产品服务转型,提升行业的信息化智能化水平,为注塑机制造行业提供了新的发展点。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种精确的注塑机选型方法,其特征在于,所述方法包括以下步骤:
将终端采集的用户的大量关于注塑机选型和购买行为和数据发送至服务器端;
将采集到的注塑机用户数据进行除噪、过滤;
将采集到的注塑机用户数据进行归一化处理,过程如下:
采用Z-score标准化方法对不同注塑机选型行为和注塑机商城购买行为的数值取值进行归一化处理,具体方法为:
Figure FDA0002607658370000011
其中,v为所有样本数据的均值,σ为所有样本数据的标准差;
对注塑机用户数据进行选型特征偏好提取;
在服务器端通过基于Spark大数据平台执行基于皮尔逊相关系数和最小二乘法的注塑机选型方法进行个性化的注塑机选型,过程包括:
采用皮尔逊相关系数计算注塑机用户之间的相似度;
描述用户对注塑机选型需求问题,其中,所述的描述用户对注塑机选型需求问题的具体过程如下:
用户u对商品i的兴趣偏好表示为:
Figure FDA0002607658370000012
其中Xu,k是用户u的兴趣和第k个隐类的关系,而Yi,k是第i个物品和第k个隐类直接的关系;
求解X和Y的过程转化为求损失函数最小的问题:
Figure FDA0002607658370000021
其中λ是正则化项的系数,式中右边两项的引入是为了防止过拟合;
采用交替最小二乘法预测用户的注塑机选型需求,具体过程如下:
利用最小二乘法求解X,然后固定X,求解Y,如此交替往复直至收敛;
先固定Y,将Y带入损失函数L(X,Y)并对Xu求偏导,令导数=0,得到:
Xu=(YTY+λI)-1YTru
同理固定X,可得:
Yu=(XTX+λI)-1XTri
迭代步骤,首先随机选取Y,利用固定Y的公式更新得到X,然后利用固定X的公式更新Y,直到均方根误差很小或达到迭代次数:
Figure FDA0002607658370000022
在Spark大数据平台实现基于采用交替最小二乘法预测用户的注塑机选型需求;
从服务器端返回注塑机选型结果至终端并显示。
2.根据权利要求1所述的一种精确的注塑机选型方法,其特征在于,所述的将采集到的注塑机用户数据进行除噪、过滤的具体过程包括:
以注塑机用户为键,对应用户关于注塑机选型系统和商城行为记录数为值,进行统计;
将注塑机用户提取出来,利用Spark Mllib的user.filter(line=>line.contains(u))函数方法将原始数据中的所有关于注塑机用户u的记录筛选出来,并构造关于用户u的键值对;
移除注塑机行为数据记录中的噪声数据,所述噪声数据包括用户的恶意刷单、失误操作。
3.根据权利要求1所述的一种精确的注塑机选型方法,其特征在于,所述的对注塑机用户数据进行选型特征偏好提取的具体过程包括:
将原始数据中的所有关于用户u的注塑机行为记录筛选出来,并构造关于用户u的键值对;
将用户选型参数中选择、浏览、收藏、加购物车、与购买的基础评分分别设置为1、2、3、4、5;
对用户的关于注塑机行为基础评分分别在其基础上加上不同适当权值分数加成,最后得到所有与用户u相关注塑机商品的评价;
循环上述步骤流程,将其他剩余用户的内容提取出来。
4.根据权利要求1所述的一种精确的注塑机选型方法,其特征在于,所述的采用皮尔逊相关系数计算注塑机用户之间的相似度的具体过程如下:
利用两个注塑机用户之间的协方差和标准差计算皮尔逊相关系数:
Figure FDA0002607658370000031
其中,Cov(Xuser1,Xuser2)代表两个注塑机用户之间的协方差,σXuser1和σXuser2分别代表两个注塑机用户的标准差;
若需要对样本的协方差和标准差进行估算,可得到样本相关系数,即样本皮尔逊系数:
Figure FDA0002607658370000032
其中:
Figure FDA0002607658370000041
是Xi样本的标准分数,
Figure FDA0002607658370000042
是Yi样本的标准分数;
Figure FDA0002607658370000043
是Xi的样本平均数,
Figure FDA0002607658370000044
是Yi的样本平均数;
σx是Xi的样本标准差,σy是Yi的样本标准差。
5.根据权利要求1所述的一种精确的注塑机选型方法,其特征在于,所述的在Spark大数据平台实现基于采用交替最小二乘法预测用户的注塑机选型需求具体过程如下:
定义参数rank:模型中隐语义因子的个数;
定义参数iterations:迭代的次数,所述参数iterations的取值范围为:10-20;
定义参数lambda:惩罚函数的因数,是ALS的正则化参数,所述参数lambda的取值范围为:0.005-0.02;
通过调整上述参数,从而优化注塑机商品的选型算法,使注塑机选型结果的均方差逐渐变小。
6.根据权利要求5所述的一种精确的注塑机选型方法,其特征在于,所述的在Spark大数据平台实现基于采用交替最小二乘法预测用户的注塑机选型需求在Spark MLlib中实现步骤如下:
使用ALS训练的注塑机行为数据通过函数方法ALS.train()建立注塑机选型模型;
通过model.predict()方法使用注塑机选型模型对用户对注塑机进行预测评分,得到预测评分的数据集;
使用ratings.map{case Rating(user,item,rate)}方法将真实注塑机评分数据集与注塑机预测评分数据集进行合并;
利用ratesAndPreds.map()计算均方差;
注塑机选型的结果以用户id为key,结果为value存入hbase中;
使用predictions.collect.sortB()对注塑机预测选型的结果按预测的评分排序;
对注塑机预测结果按用户进行分组,然后合并选型结果。
CN201710053083.4A 2017-01-22 2017-01-22 一种精确的注塑机选型方法 Expired - Fee Related CN106897913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710053083.4A CN106897913B (zh) 2017-01-22 2017-01-22 一种精确的注塑机选型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710053083.4A CN106897913B (zh) 2017-01-22 2017-01-22 一种精确的注塑机选型方法

Publications (2)

Publication Number Publication Date
CN106897913A CN106897913A (zh) 2017-06-27
CN106897913B true CN106897913B (zh) 2020-10-27

Family

ID=59198638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710053083.4A Expired - Fee Related CN106897913B (zh) 2017-01-22 2017-01-22 一种精确的注塑机选型方法

Country Status (1)

Country Link
CN (1) CN106897913B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093376A (zh) * 2013-01-16 2013-05-08 北京邮电大学 基于奇异值分解算法的聚类协同过滤推荐系统
CN103136694A (zh) * 2013-03-20 2013-06-05 焦点科技股份有限公司 基于搜索行为感知的协同过滤推荐方法
CN103377250A (zh) * 2012-04-27 2013-10-30 杭州载言网络技术有限公司 基于邻域的top-k推荐方法
CN104331411A (zh) * 2014-09-19 2015-02-04 华为技术有限公司 推荐项目的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9465911B2 (en) * 2010-11-17 2016-10-11 Pioneer Hi-Bred International, Inc. Prediction of phenotypes and traits based on the metabolome

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377250A (zh) * 2012-04-27 2013-10-30 杭州载言网络技术有限公司 基于邻域的top-k推荐方法
CN103093376A (zh) * 2013-01-16 2013-05-08 北京邮电大学 基于奇异值分解算法的聚类协同过滤推荐系统
CN103136694A (zh) * 2013-03-20 2013-06-05 焦点科技股份有限公司 基于搜索行为感知的协同过滤推荐方法
CN104331411A (zh) * 2014-09-19 2015-02-04 华为技术有限公司 推荐项目的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Spark平台的协同过滤推荐算法的研究与实现;张明敏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215;第I138-2005页 *

Also Published As

Publication number Publication date
CN106897913A (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
CN111008858B (zh) 一种商品销量预测方法及系统
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN108875776B (zh) 模型训练方法和装置、业务推荐的方法和装置、电子设备
CN105701191B (zh) 一种推送信息点击率估计方法和装置
CN107146089B (zh) 一种刷单识别方法及装置,电子设备
CN108427891B (zh) 基于差分隐私保护的邻域推荐方法
CN103164540B (zh) 一种专利热点发现与趋势分析方法
CN106776897B (zh) 一种用户画像标签确定方法及装置
TW201626310A (zh) 用戶興趣資料分析和收集系統及其方法
CN110019943B (zh) 视频推荐方法、装置、电子设备和存储介质
TW201514889A (zh) 顧客資料解析系統
CN106372956B (zh) 一种基于用户搜索日志进行意图实体识别的方法和系统
CN103886486A (zh) 一种基于支持向量机svm的电子商务推荐方法
CN110570233A (zh) 用于电商平台的用户回购时间预测方法及装置
CN113239264A (zh) 基于元路径网络表示学习的个性化推荐方法及系统
CN103136694A (zh) 基于搜索行为感知的协同过滤推荐方法
JPWO2018142753A1 (ja) ディープラーニングを用いる情報処理装置、情報処理方法及び情報処理プログラム
CN110956278A (zh) 重新训练机器学习模型的方法和系统
CN113543117B (zh) 携号转网用户的预测方法、装置及计算设备
CN113205403A (zh) 一种企业信用等级的计算方法、装置、存储介质及终端
CN114637920A (zh) 对象推荐方法以及装置
CN104572623B (zh) 一种在线lda模型的高效数据总结分析方法
Mei et al. Research on e-commerce coupon user behavior prediction technology based on decision tree algorithm
CN113095723A (zh) 优惠券的推荐方法及装置
CN112232388A (zh) 基于elm-rfe的购物意图关键因素识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201027

CF01 Termination of patent right due to non-payment of annual fee