CN116680320A - 一种基于大数据的混合匹配方法 - Google Patents
一种基于大数据的混合匹配方法 Download PDFInfo
- Publication number
- CN116680320A CN116680320A CN202310696465.4A CN202310696465A CN116680320A CN 116680320 A CN116680320 A CN 116680320A CN 202310696465 A CN202310696465 A CN 202310696465A CN 116680320 A CN116680320 A CN 116680320A
- Authority
- CN
- China
- Prior art keywords
- matching
- matching side
- matrix
- data
- preference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000011159 matrix material Substances 0.000 claims abstract description 124
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000002159 abnormal effect Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000011156 evaluation Methods 0.000 claims description 21
- 239000000178 monomer Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000009469 supplementation Effects 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012163 sequencing technique Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 34
- 238000005516 engineering process Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Algebra (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Automation & Control Theory (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据的混合匹配方法,属于数据处理技术领域,首先利用偏好优化函数对评分矩阵和匹配侧特征矩阵进行处理,生成偏好矩阵,同时引入时间衰减公式和稀疏信息补充规则,解决兴趣的时间影响与稀疏特性;然后结合匹配侧特征矩阵、评分矩阵,利用聚类算法划分匹配侧类簇,并获取匹配侧一类簇对应的评分矩阵;接着基于模糊层次分析法剔除异常数据,保证匹配数据的可信度;之后采用交替最小二乘法与基于物品的协同过滤法对数据进行筛选;最后从高到低对匹配侧的预测评分向量进行排序,产生匹配列表。本发明提供的一种基于大数据的混合匹配方法作用效果显著,适于广泛推广。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及,一种基于大数据的混合匹配方法。
背景技术
互联网的快速发展产生了海量数据信息,导致人们从中选择自己需要的信息变得非常困难。因此,推荐系统应运而生,能够解决信息过载问题,已被广泛应用于电影、音乐、新闻、图书、车货匹配等领域。推荐算法通过用户之间或物品之间的相似性,对用户喜好的物品进行预测与推荐。但是现有的推荐算法仅使用自身的历史数据,且热门数据与大量数据相似,具有很强的头部效应,从而产生匹配不准确,难以兼顾用户冷启动、数据高维稀疏、算法准确性与可扩展性等方面的问题;同时由于时间的推移,人们对对应数据的看法或兴趣度会发生变化,现有技术普遍存在由于时间原因产生的数据稀疏与准确度低的问题。
发明内容
针对上述缺陷,本发明解决的技术问题在于,提供一种基于大数据的混合匹配方法,以解决现在技术所存在的由于时间原因产生的数据稀疏与准确度低;难以兼顾用户冷启动、数据高维稀疏、算法准确性与可扩展性的问题。
本发明提供了一种基于大数据的混合匹配方法,包括:
步骤1、通过埋点法对匹配侧行为产生的数据进行采集,创建数据仓库的运营层,所述运营层用于存储匹配侧原始行为数据,其中匹配侧包括匹配侧一、匹配侧二;
步骤2、基于数据仓库的明细层和服务层,结合数据仓库内的多元数据获取与匹配侧一对应的对匹配侧二的评分矩阵,所述明细层用于将匹配侧原始行为进行归一后按权重进行计算后存储,所述服务层用于将匹配侧行为评分进行标准化生成匹配侧评分矩阵;
步骤3、在匹配侧评分矩阵的基础上,基于模糊层次分析法,获取匹配侧的可信度评估结果,根据可信度评估结果剔除异常数据;
步骤4、采用交替最小二乘法与基于物品的协同过滤法,对剔除异常数据后的数据进行初步筛选,得到初始匹配列表;
步骤5、采用基于逻辑回归的排序法对初始匹配列表中的数据进行打分排序,生成针对对应匹配侧的匹配列表。
优选地,所述步骤2的具体步骤包括:
步骤2.1、基于时间衰减函数,对运营层的多源数据进行预处理,得到匹配侧一矩阵W;
步骤2.2、采用基于多源数据的聚类算法对匹配侧一矩阵W进行处理,得到k个匹配侧一类簇对应的对匹配侧二的评分矩阵R={R1,R2,...,Rk};
步骤2.3、若匹配侧一为已有数据,则找到已有数据所在匹配侧一类簇对应的评分矩阵Rc,若匹配侧一为新数据,则根据余弦相似度函数将新数据逐一与各匹配侧一类簇的质心计算相似度,找到与新数据相似度最大的质心,得到相似度最大的质心所在匹配侧一类簇对应的评分矩阵Rc。
优选地,所述步骤3的具体步骤包括:
步骤3.1、采用模糊层次分析法,获取匹配侧二各个指标的标准化偏好权重及标准化权重矩阵;
步骤3.2、结合各个指标的标准化偏好权重与匹配侧二对应指标的评分矩阵获取各个指标的一级指标模糊综合评分;
步骤3.3、根据各个指标的一级指标模糊综合评分构造准则层评分矩阵;
步骤3.4、结合准则层评分矩阵与标准化权重矩阵获取二级指标综合评分;
步骤3.5、根据二级指标综合评分结果,得出可信度评价值,将可信度评价值与预设的可信度参考值比较,获取可信度评估结果;
步骤3.6、根据可信度评估结果剔除可信度低的异常数据,并更新服务层的匹配侧评分矩阵。
优选地,所述步骤4的具体步骤包括:
步骤4.1、基于更新后的匹配侧评分矩阵,进行交替最小二乘模型的训练,采用训练好的交替最小二乘模型获取匹配侧特征矩阵及基于交替最小二乘模型的初级推荐列表;
步骤4.2、基于获取的匹配侧特征矩阵,通过余弦相似度计算得到匹配侧相似度矩阵,基于匹配侧评分矩阵与匹配侧相似度矩阵,得出采用基于物品的协同过滤法获取的中级推荐列表;
步骤4.3、将获取的初级推荐列表与中级推荐列表进行存储并取交集,得到初始匹配列表。
优选地,所述步骤2.3中匹配侧ux和匹配侧uy之间的余弦相似度函数表示为:其中/>分别表示匹配侧ux、匹配侧uy在特征pz上的取值,pz表示第z个对应的特征,s、n、t分别表示不同特征对应的数值。
优选地,所述步骤2.1的具体步骤包括:
步骤2.1.1、对匹配侧一特征数据、对匹配侧二的评分数据、匹配侧二特征数据进行以特征工程为主的数据预处理,得到匹配侧一特征矩阵A,对匹配侧二的评分矩阵R和匹配侧二特征矩阵B;
步骤2.1.2、对评分矩阵R进行统计处理得到对匹配侧二的使用矩阵R′,结合匹配侧二特征矩阵B并利用偏好优化函数进行处理得到对匹配侧二的偏好矩阵H;
步骤2.1.3、基于时间衰减函数,对偏好矩阵H进行优化,将A、R和优化后的H合并得到匹配侧一矩阵W。
优选地,所述步骤2.2的具体步骤包括:
步骤2.2.1、在W中随机选取k个匹配侧一单体作为初始质心;
步骤2.2.2、根据余弦相似度函数计算W中剩余匹配侧一单体和每个质心的余弦相似度并将匹配侧一单体全部划分到/>最大的匹配侧一类簇中;
步骤2.2.3、求取各匹配侧一类簇中所有匹配侧一单体的均值,并将均值作为新的质心;
步骤2.2.4、重复获取质心的余弦相似度并在余弦相似度的基础上获取新的质心,直至不再改变或达到设定的参数值,得到k个匹配侧一类簇对应的对匹配侧二的评分矩阵R={R1,R2,…,Rk}。
优选地,所述步骤2.1.3中偏好矩阵H优化的具体步骤包括:
所述步骤2.1.3.1、将时间衰减函数代入偏好矩阵H中,得到关于时间衰减的偏好矩阵,其中时间衰减函数表示为λ表示衰减因数;tu,i表示匹配侧一对匹配侧二的特征i的评分时间,tnow表示当前时间,u表示匹配侧一做出评分的对应单体,/>表示匹配侧一评分的最小值,/>表示匹配侧一评分的最大值;
所述步骤2.1.3.2、在时间衰减的偏好矩阵基础上,采用补充函数完成稀疏信息的补充,其中补充函数表示为I表示经过评价的特征集;/>表示匹配侧一对匹配侧二中属性c的评分均值;zu,c表示匹配侧一对属性c的兴趣度向量,su,j表示匹配侧一对稀疏项属性j的评分。
优选地,所述步骤2.1.2中偏好优化函数表示为:
其中t为匹配侧一对匹配侧二的评论d中的某一词条,TFt,d为词条t在评论d中出现的频率,nt,d为词条t在评论d中出现的次数,∑tnt,d表示评论d的总词数,IDFt为词条t在评论总集中的逆评论频率,即词条t的普遍程度,D为评论总集中的评论总个数,Dt为评论总集中包含词条t的文档个数,TF-IDFt,d为词条t的词频-逆评论频率。
优选地,所述步骤3.2的具体步骤包括:
步骤3.2.1、采用模糊层次分析法,建立模糊两两比较矩阵;
步骤3.2.2、计算模糊两两比较矩阵中每一行元素的模糊几何平均值,计算得到的平均值组成向量r=(r1,r2,r3,…,rn)T;
步骤3.2.3、对向量r=(r1,r2,r3,…,rn)T进行归一化处理,得到每个指标的模糊偏好权重;
步骤3.2.4、使用平均权重标准对模糊偏好权重进行去模糊化,获得清晰的偏好权重;
步骤3.2.5、对清晰的偏好权重进行归一化处理,得到每个指标的标准化偏好权重及匹配侧标准化权重矩阵。
由上述方案可知,本发明提供的一种基于大数据的混合匹配方法通过基于多元数据聚类、交替最小二乘法、基于物品的协同过滤法的混合匹配算法,解决传统单一推荐算法难以兼顾用户冷启动、数据高维稀疏、算法准确性与可扩展性等方面的问题;通过结合余弦相似度函数与时间衰减函数及补充函数解决现有的大数据推荐算法普遍存在由于时间原因产生的数据稀疏与准确度低的问题。本发明解决现在技术所存在的由于时间原因产生的数据稀疏与准确度低;难以兼顾用户冷启动、数据高维稀疏、算法准确性与可扩展性的问题,作用效果显著,适于广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于大数据的混合匹配方法的过程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,现对本发明提供的一种基于大数据的混合匹配方法的一种具体实施方式进行说明。该种基于大数据的混合匹配方法的具体步骤包括:
S1、通过埋点法对匹配侧行为产生的数据进行采集,创建数据仓库的运营层,运营层用于存储匹配侧原始行为数据,其中匹配侧包括匹配侧一、匹配侧二;
通过客户端页面埋点技术来记录用户浏览、点击、关注等行为以及页面停留时长等数据,通过大数据相关组件与技术完成数据采集相关操作。当用户发生点击、浏览、收藏等行为时,通过埋点技术,系统将用该部分数据记录在服务器的日志文件中。通过flume组件,将用户行为数据采集到hadoop集群中的HDFS中,采取两个节点的flume组件,完成数据采集。
S2、基于数据仓库的明细层和服务层,结合数据仓库内的多元数据获取与匹配侧一对应的对匹配侧二的评分矩阵,所述明细层用于将匹配侧原始行为进行归一后按权重进行计算后存储,所述服务层用于将匹配侧行为评分进行标准化生成匹配侧评分矩阵;
S2的具体步骤包括:
S2.1、基于时间衰减函数,对运营层的多源数据进行预处理,得到匹配侧一矩阵W;
S2.1的具体步骤包括:
S2.1.1、对匹配侧一特征数据、对匹配侧二的评分数据、匹配侧二特征数据进行以特征工程为主的数据预处理,得到匹配侧一特征矩阵A,对匹配侧二的评分矩阵R和匹配侧二特征矩阵B;
S2.1.2、对评分矩阵R进行统计处理得到对匹配侧二的使用矩阵R′,结合匹配侧二特征矩阵B并利用偏好优化函数进行处理得到对匹配侧二的偏好矩阵H;
S2.1.2中偏好优化函数表示为:
其中t为匹配侧一对匹配侧二的评论d中的某一词条,TFt,d为词条t在评论d中出现的频率,nt,d为词条t在评论d中出现的次数,∑tnt,d表示评论d的总词数,IDFt为词条t在评论总集中的逆评论频率,即词条t的普遍程度,D为评论总集中的评论总个数,Dt为评论总集中包含词条t的文档个数,TF-IDFt,d为词条t的词频-逆评论频率。
S2.1.3、基于时间衰减函数,对偏好矩阵H进行优化,将A、R和优化后的H合并得到匹配侧一矩阵W。
匹配侧的行为和兴趣都是会随时间改变的,很多传统推荐算法缺乏对时间因素的分析,时间间隔越久的数据,对兴趣度的参考性越小。基于时间衰减函数的优化方法可以有效的改善由于时间原因导致的数据准确度低的问题。
S2.1.3中偏好矩阵H优化的具体步骤包括:
S2.1.3.1、将时间衰减函数代入偏好矩阵H中,得到关于时间衰减的偏好矩阵,其中时间衰减函数表示为λ表示衰减因数;tu,i表示匹配侧一对匹配侧二的特征i的评分时间,tnow表示当前时间,u表示匹配侧一做出评分的对应单体,/>表示匹配侧一评分的最小值,/>表示匹配侧一评分的最大值;
评分的时间间隔越小,那么A(u,i)结果就会越大,即说明评分i对兴趣判断的影响程度越大。
S2.1.3.2、在时间衰减的偏好矩阵基础上,采用补充函数完成稀疏信息的补充,其中补充函数表示为I表示经过评价的特征集;表示匹配侧一对匹配侧二中属性c的评分均值;zu,c表示匹配侧一对属性c的兴趣度向量,su,j表示匹配侧一对稀疏项属性j的评分。
S2.2、采用基于多源数据的聚类算法对匹配侧一矩阵W进行处理,得到k个匹配侧一类簇对应的对匹配侧二的评分矩阵R={R1,R2,…,Rk};
S2.2的具体步骤包括:
S2.2.1、在W中随机选取k个匹配侧一单体作为初始质心;
S2.2.2、根据余弦相似度函数计算W中剩余匹配侧一单体和每个质心的余弦相似度并将匹配侧一单体全部划分到/>最大的匹配侧一类簇中;
S2.2.3、求取各匹配侧一类簇中所有匹配侧一单体的均值,并将均值作为新的质心;
S2.2.4、重复获取质心的余弦相似度并在余弦相似度的基础上获取新的质心,直至不再改变或达到设定的参数值,得到k个匹配侧一类簇对应的对匹配侧二的评分矩阵R={R1,R2,…,Rk}。
S2.3、若匹配侧一为已有数据,则找到已有数据所在匹配侧一类簇对应的评分矩阵Rc,若匹配侧一为新数据,则根据余弦相似度函数将新数据逐一与各匹配侧一类簇的质心计算相似度,找到与新数据相似度最大的质心,得到相似度最大的质心所在匹配侧一类簇对应的评分矩阵Rc。
S2.3中匹配侧ux和匹配侧uy之间的余弦相似度函数表示为:
其中/>分别表示匹配侧ux、匹配侧uy在特征pz上的取值,pz表示第z个对应的特征,s、n、t分别表示不同特征对应的数值。
S3、在匹配侧评分矩阵的基础上,基于模糊层次分析法,获取匹配侧的可信度评估结果,根据可信度评估结果剔除异常数据;
S3.1、采用模糊层次分析法,获取匹配侧二各个指标的标准化偏好权重及标准化权重矩阵;
S3.2、结合各个指标的标准化偏好权重与匹配侧二对应指标的评分矩阵获取各个指标的一级指标模糊综合评分;
S3.2的具体步骤包括:
S3.2.1、采用模糊层次分析法,建立模糊两两比较矩阵,比较矩阵表示为:
其中,lij表示第i个标准相对于第j个标准的重要性;
S3.2.2、计算模糊两两比较矩阵中每一行元素的模糊几何平均值,计算得到的平均值组成向量r=(r1,r2,r3,…,rn)T,其中模糊几何平均值的函数表示为:ri是第i行元素的模糊几何平均值,lij是一组决策者关于第i个标准与第j个标准的模糊比较值;
S3.2.3、对向量r=(r1,r2,r3,…,rn)T进行归一化处理,得到每个指标的模糊偏好权重,模糊偏好权重的函数表示为:其中Wi是第i个标准的模糊偏好权重;
S3.2.4、使用平均权重标准对模糊偏好权重进行去模糊化,获得清晰的偏好权重,平均权重标准函数表示为:其中wi是第i个标准的模糊权重,表示为wi=(lwi,mwi,uwi),lwi、mwi、uwi分别是wi的下界、中界和上界;
S3.2.5、对清晰的偏好权重进行归一化处理,得到每个指标Si的标准化偏好权重及匹配侧标准化权重矩阵,标准化偏好权重表示为:
S3.3、根据各个指标的一级指标模糊综合评分构造准则层评分矩阵;
S3.4、结合准则层评分矩阵与标准化权重矩阵获取二级指标综合评分;
S3.5、根据二级指标综合评分结果,得出可信度评价值,将可信度评价值与预设的可信度参考值比较,获取可信度评估结果;
S3.6、根据可信度评估结果剔除可信度低的异常数据,并更新服务层的匹配侧评分矩阵。
S4、采用交替最小二乘法(ALS)与基于物品的协同过滤法,对剔除异常数据后的数据进行初步筛选,得到初始匹配列表;
S4的具体步骤包括:
S4.1、基于更新后的匹配侧评分矩阵,进行交替最小二乘模型的训练,采用训练好的交替最小二乘模型获取匹配侧特征矩阵及基于交替最小二乘模型的初级推荐列表;
在创建交替最小二乘模型过程中,设置最大迭代次数,通过rank,reg,alpha三个参数共8种全排列组合训练模型,经过对比rmse值获取最优模型,将用此模型获得的结果进行存储。
S4.2、基于获取的匹配侧特征矩阵,通过余弦相似度计算得到匹配侧相似度矩阵,基于匹配侧评分矩阵与匹配侧相似度矩阵,得出采用基于物品的协同过滤法获取的中级推荐列表;
S4.3、将获取的初级推荐列表与中级推荐列表进行存储并取交集,得到初始匹配列表。
在具体业务场景中,通过设置定时计划任务来完成对前一天采集到的数据进行计算。设置0:30对数据进行S4.1的计算,1:30对数据进行S4.2的计算。对S4.3最终获取的结果进行储存。
S5、采用基于逻辑回归(LR)的排序法对初始匹配列表中的数据进行打分排序,生成针对对应匹配侧的匹配列表。
对生成的初始匹配列表做一个排序,排序依据匹配侧一对初始匹配列表中对应的匹配侧二单体点击率的高低,从而筛选出匹配侧一可能点击概率高的匹配侧二单体推荐给匹配侧一。
与现有技术相比,该种基于大数据的混合匹配方法首先利用偏好优化函数对评分矩阵和匹配侧特征矩阵进行处理,生成偏好矩阵,同时引入时间衰减公式和稀疏信息补充规则,解决兴趣的时间影响与稀疏特性;然后结合匹配侧特征矩阵、评分矩阵,利用聚类算法划分匹配侧类簇,并获取匹配侧一类簇对应的评分矩阵;接着基于模糊层次分析法剔除异常数据,保证匹配数据的可信度;之后采用交替最小二乘法与基于物品的协同过滤法对数据进行筛选;最后从高到低对匹配侧的预测评分向量进行排序,产生匹配列表。该方法通过基于多元数据聚类、交替最小二乘法、基于物品的协同过滤法的混合匹配算法,解决传统单一推荐算法难以兼顾用户冷启动、数据高维稀疏、算法准确性与可扩展性等方面的问题;通过结合余弦相似度函数与时间衰减函数及补充函数解决现有的大数据推荐算法普遍存在由于时间原因产生的数据稀疏与准确度低的问题。
示例性的,该方法可以用在车货匹配的场景下,具体的是货主作为匹配侧一,司机作为匹配侧二,将司机注册的车辆当前状态信息和货主发布的货源当前状态信息进行匹配。其中车辆状态信息(VS)主要包括:空闲、运输中、已完成和无效。货源状态信息(CS)主要包括:已下单,找车中,匹配到车,已完成和已取消。车辆状态信息和货源状态信息的函数可以表示为:
车辆和货主的无效状态的判定是根据司机和货主的可信度评估结果判定的,若车辆或货主的可信度评估结果为低可信度则将其信息判定为异常数据即车辆状态为无效或货源状态信息为已取消,将正常数据添加到候选车辆集合和候选货源集合中,基于集合中的数据进行匹配。
可信度评估结果的获取包括从用户基本资料、服务质量、投诉情况以及履约守信度四个方面建立车货匹配参与者多维信誉评估模型。利用模糊层次分析法对评价标准分配模糊偏好权重,对不定量数据通过使用语言术语和三角模糊数进行评级,以及对每个评估标准进行加权。
根据司机和货主双方的需求结合车货匹配度和货源紧急程度计算综合匹配度,构建以综合匹配度最大为目标的目标函数。然后根据双方匹配度对货源和车辆进行排序,将货源排序列表的前k名推荐给司机,将车辆排序列表的前k名推荐给货主。根据货源的紧急程度,分别对这些货源进行不同程度的加强推荐。根据时间的紧急程度将货源订单划分成三种情况:特急、紧急、常规,分别对应I、II、III三个等级,WI、WII、WIII分别代表这三种情况的货源权重。综合考虑货源紧急程度以及车货匹配度,构建综合目标函数,表示为:其中,Mij代表车货匹配度,Wi代表货源i紧急程度的权值,μ参数表示货源紧急程度和车货匹配度的偏向程度,D0表示当前时间,Di表示货源订单中规定的装载时间。选择E值最高的前k个订单作为车辆的推荐列表,得到车辆与货源的最终匹配集合。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于大数据的混合匹配方法,其特征在于,包括:
步骤1、通过埋点法对匹配侧行为产生的数据进行采集,创建数据仓库的运营层,所述运营层用于存储匹配侧原始行为数据,其中匹配侧包括匹配侧一、匹配侧二;
步骤2、基于数据仓库的明细层和服务层,结合数据仓库内的多元数据获取与匹配侧一对应的对匹配侧二的评分矩阵,所述明细层用于将匹配侧原始行为进行归一后按权重进行计算后存储,所述服务层用于将匹配侧行为评分进行标准化生成匹配侧评分矩阵;
步骤3、在匹配侧评分矩阵的基础上,基于模糊层次分析法,获取匹配侧的可信度评估结果,根据可信度评估结果剔除异常数据;
步骤4、采用交替最小二乘法与基于物品的协同过滤法,对剔除异常数据后的数据进行初步筛选,得到初始匹配列表;
步骤5、采用基于逻辑回归的排序法对初始匹配列表中的数据进行打分排序,生成针对对应匹配侧的匹配列表。
2.根据权利要求1所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤2的具体步骤包括:
步骤2.1、基于时间衰减函数,对运营层的多源数据进行预处理,得到匹配侧一矩阵W;
步骤2.2、采用基于多源数据的聚类算法对匹配侧一矩阵W进行处理,得到k个匹配侧一类簇对应的对匹配侧二的评分矩阵R={R1,R2,...,Rk};
步骤2.3、若匹配侧一为已有数据,则找到已有数据所在匹配侧一类簇对应的评分矩阵Rc,若匹配侧一为新数据,则根据余弦相似度函数将新数据逐一与各匹配侧一类簇的质心计算相似度,找到与新数据相似度最大的质心,得到相似度最大的质心所在匹配侧一类簇对应的评分矩阵Rc。
3.根据权利要求2所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤3的具体步骤包括:
步骤3.1、采用模糊层次分析法,获取匹配侧二各个指标的标准化偏好权重及标准化权重矩阵;
步骤3.2、结合各个指标的标准化偏好权重与匹配侧二对应指标的评分矩阵获取各个指标的一级指标模糊综合评分;
步骤3.3、根据各个指标的一级指标模糊综合评分构造准则层评分矩阵;
步骤3.4、结合准则层评分矩阵与标准化权重矩阵获取二级指标综合评分;
步骤3.5、根据二级指标综合评分结果,得出可信度评价值,将可信度评价值与预设的可信度参考值比较,获取可信度评估结果;
步骤3.6、根据可信度评估结果剔除可信度低的异常数据,并更新服务层的匹配侧评分矩阵。
4.根据权利要求3所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤4的具体步骤包括:
步骤4.1、基于更新后的匹配侧评分矩阵,进行交替最小二乘模型的训练,采用训练好的交替最小二乘模型获取匹配侧特征矩阵及基于交替最小二乘模型的初级推荐列表;
步骤4.2、基于获取的匹配侧特征矩阵,通过余弦相似度计算得到匹配侧相似度矩阵,基于匹配侧评分矩阵与匹配侧相似度矩阵,得出采用基于物品的协同过滤法获取的中级推荐列表;
步骤4.3、将获取的初级推荐列表与中级推荐列表进行存储并取交集,得到初始匹配列表。
5.根据权利要求2所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤2.3中匹配侧ux和匹配侧uy之间的余弦相似度函数表示为:
其中/>分别表示匹配侧ux、匹配侧uy在特征pz上的取值,pz表示第z个对应的特征,s、n、t分别表示不同特征对应的数值。
6.根据权利要求5所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤2.1的具体步骤包括:
步骤2.1.1、对匹配侧一特征数据、对匹配侧二的评分数据、匹配侧二特征数据进行以特征工程为主的数据预处理,得到匹配侧一特征矩阵A,对匹配侧二的评分矩阵R和匹配侧二特征矩阵B;
步骤2.1.2、对评分矩阵R进行统计处理得到对匹配侧二的使用矩阵R',结合匹配侧二特征矩阵B并利用偏好优化函数进行处理得到对匹配侧二的偏好矩阵H;
步骤2.1.3、基于时间衰减函数,对偏好矩阵H进行优化,将A、R和优化后的H合并得到匹配侧一矩阵W。
7.根据权利要求6所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤2.2的具体步骤包括:
步骤2.2.1、在W中随机选取k个匹配侧一单体作为初始质心;
步骤2.2.2、根据余弦相似度函数计算W中剩余匹配侧一单体和每个质心的余弦相似度并将匹配侧一单体全部划分到/>最大的匹配侧一类簇中;
步骤2.2.3、求取各匹配侧一类簇中所有匹配侧一单体的均值,并将均值作为新的质心;
步骤2.2.4、重复获取质心的余弦相似度并在余弦相似度的基础上获取新的质心,直至不再改变或达到设定的参数值,得到k个匹配侧一类簇对应的对匹配侧二的评分矩阵R={R1,R2,...,Rk}。
8.根据权利要求6所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤2.1.3中偏好矩阵H优化的具体步骤包括:
所述步骤2.1.3.1、将时间衰减函数代入偏好矩阵H中,得到关于时间衰减的偏好矩阵,其中时间衰减函数表示为λ表示衰减因数;tu,i表示匹配侧一对匹配侧二的特征i的评分时间,tnow表示当前时间,u表示匹配侧一做出评分的对应单体,表示匹配侧一评分的最小值,/>表示匹配侧一评分的最大值;
所述步骤2.1.3.2、在时间衰减的偏好矩阵基础上,采用补充函数完成稀疏信息的补充,其中补充函数表示为I表示经过评价的特征集;/>表示匹配侧一对匹配侧二中属性c的评分均值;zu,c表示匹配侧一对属性c的兴趣度向量,su,j表示匹配侧一对稀疏项属性j的评分。
9.根据权利要求6所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤2.1.2中偏好优化函数表示为:
其中t为匹配侧一对匹配侧二的评论d中的某一词条,TFt,d为词条t在评论d中出现的频率,nt,d为词条t在评论d中出现的次数,Σtnt,d表示评论d的总词数,IDFt为词条t在评论总集中的逆评论频率,即词条t的普遍程度,D为评论总集中的评论总个数,Dt为评论总集中包含词条t的文档个数,TF-IDFt,d为词条t的词频—逆评论频率。
10.根据权利要求3所述的一种基于大数据的混合匹配方法,其特征在于,所述步骤3.2的具体步骤包括:
步骤3.2.1、采用模糊层次分析法,建立模糊两两比较矩阵;
步骤3.2.2、计算模糊两两比较矩阵中每一行元素的模糊几何平均值,计算得到的平均值组成向量r=(r1,r2,r3,…,rn)T;
步骤3.2.3、对向量r=(r1,r2,r3,…,rn)T进行归一化处理,得到每个指标的模糊偏好权重;
步骤3.2.4、使用平均权重标准对模糊偏好权重进行去模糊化,获得清晰的偏好权重;
步骤3.2.5、对清晰的偏好权重进行归一化处理,得到每个指标的标准化偏好权重及匹配侧标准化权重矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310696465.4A CN116680320A (zh) | 2023-06-13 | 2023-06-13 | 一种基于大数据的混合匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310696465.4A CN116680320A (zh) | 2023-06-13 | 2023-06-13 | 一种基于大数据的混合匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116680320A true CN116680320A (zh) | 2023-09-01 |
Family
ID=87778882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310696465.4A Pending CN116680320A (zh) | 2023-06-13 | 2023-06-13 | 一种基于大数据的混合匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116680320A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520864A (zh) * | 2024-01-08 | 2024-02-06 | 四川易利数字城市科技有限公司 | 一种数据要素多特征融合智能匹配方法 |
-
2023
- 2023-06-13 CN CN202310696465.4A patent/CN116680320A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520864A (zh) * | 2024-01-08 | 2024-02-06 | 四川易利数字城市科技有限公司 | 一种数据要素多特征融合智能匹配方法 |
CN117520864B (zh) * | 2024-01-08 | 2024-03-19 | 四川易利数字城市科技有限公司 | 一种数据要素多特征融合智能匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ala'raj et al. | A new hybrid ensemble credit scoring model based on classifiers consensus system approach | |
Shi et al. | Climf: learning to maximize reciprocal rank with collaborative less-is-more filtering | |
CN107808278B (zh) | 一种基于稀疏自编码器的Github开源项目推荐方法 | |
CN109255586B (zh) | 一种面向电子政务办事的在线个性化推荐方法 | |
Rao et al. | Design of comprehensive evaluation index system for P2P credit risk of “three rural” borrowers | |
CN110263257B (zh) | 基于深度学习处理多源异构数据的推荐方法 | |
CN113158024B (zh) | 一种纠正推荐系统流行度偏差的因果推理方法 | |
CN110751355A (zh) | 一种科技成果评估方法和装置 | |
Liu et al. | Patent Litigation Prediction: A Convolutional Tensor Factorization Approach. | |
CN109359302A (zh) | 一种领域化词向量的优化方法及基于其的融合排序方法 | |
CN116680320A (zh) | 一种基于大数据的混合匹配方法 | |
CN110706095A (zh) | 一种基于关联网络的目标节点关键信息填补方法及系统 | |
Ahamed et al. | A recommender system based on deep neural network and matrix factorization for collaborative filtering | |
CN110543601B (zh) | 一种基于中智集的上下文感知兴趣点推荐方法及系统 | |
CN116662564A (zh) | 一种基于深度矩阵分解与知识图谱的服务推荐方法 | |
CN111198991A (zh) | 一种基于信任度和专家用户的协同过滤推荐方法 | |
CN115829683A (zh) | 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统 | |
CN115935067A (zh) | 面向社会化推荐的语义与结构视图融合的物品推荐方法 | |
Gao et al. | [Retracted] Construction of Digital Marketing Recommendation Model Based on Random Forest Algorithm | |
Yin et al. | A novel approach based on similarity measure for the multiple attribute group decision-making problem in selecting a sustainable cryptocurrency | |
CN116128275A (zh) | 一种事件推演预测系统 | |
Arosha Senanayake et al. | A road accident pattern miner (RAP miner) | |
Eidelman et al. | How predictable is your state? leveraging lexical and contextual information for predicting legislative floor action at the state level | |
Delgado et al. | On-line learning of user preferences in recommender systems | |
Sridhar et al. | Extending Deep Neural Categorisation Models for Recommendations by Applying Gradient Based Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |