CN111914060B - 一种基于在线点评数据的商户多视图特征提取及模型构建方法 - Google Patents

一种基于在线点评数据的商户多视图特征提取及模型构建方法 Download PDF

Info

Publication number
CN111914060B
CN111914060B CN202010601573.5A CN202010601573A CN111914060B CN 111914060 B CN111914060 B CN 111914060B CN 202010601573 A CN202010601573 A CN 202010601573A CN 111914060 B CN111914060 B CN 111914060B
Authority
CN
China
Prior art keywords
merchant
comment
lambda
merchants
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010601573.5A
Other languages
English (en)
Other versions
CN111914060A (zh
Inventor
孙笑笑
梁平
俞东进
王欣峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010601573.5A priority Critical patent/CN111914060B/zh
Publication of CN111914060A publication Critical patent/CN111914060A/zh
Application granted granted Critical
Publication of CN111914060B publication Critical patent/CN111914060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于在线点评数据的商户多视图特征提取及模型构建方法。该方法首先基于在线点评软件的评论、签到与商户业务属性数据,通过构建情感分类神经网络模型挖掘顾客评论的语义信息,并结合顾客评论习惯生成商户语义特征,通过筛选重要的业务属性构成商户业务特征,通过密度聚类生成商户集群并计算集群中各商户的商户集群特征,最后将三类特征进行整合形成商户的多视图特征。然后将该多视图特征输入LightGBM模型,实现对商户经营状况的预测。本发明基于在线点评数据,从多视图角度出发提取商户的多视图特征,并基于该特征构建商户经营状况模型,具有精度高、可扩展性强等特点,可为商户经营、商业投资等提供决策支撑。

Description

一种基于在线点评数据的商户多视图特征提取及模型构建 方法
技术领域
本发明涉及特征提取和模型构建领域,尤其涉及一种基于在线点评数据的商户多视图特征提取及模型构建方法。
背景技术
Yelp、大众点评、美团等在线点评类软件,在为商户提供宣传平台的同时,也为顾客提供了分享用户体验的平台。这些顾客们提交的评价为其他顾客选择商户提供了重要的参考。研究表明,顾客们在点评软上对商户的评价密切影响着商户的经营绩效。然而,鲜有研究者对这些商户的各类特征进行总结和提取,并基于提取的特征进行预测模型构建。此外,在特征提取时一些研究虽然涉及了语义,但也忽略了不同顾客评价之间的差异性。例如,有些顾客喜欢给几乎所有的商户打高分,而有些顾客则喜欢给低分。个性化的用词习惯也应当被考虑进来,例如,“好”被一些严格的客户用来表达满意情感,而被一些宽松的客户则用其来表达中立情感。除此之外,点评类软件规范的各种业务属性,如信用卡、Wi-Fi、停车场等,也应当被考虑进特征提取。最后,商户的成败不仅与自身的业务属性有关,也与其所处的商圈的兴盛程度息息相关。
发明内容
为了克服上述现有技术的不足,一种基于在线点评数据的多视图餐厅经营状况预测模型构建方法,可有效解决上述问题。本发明具体采用的技术方案如下:
一种基于在线点评数据的商户多视图特征提取方法,其包括以下步骤:
S1.设定商户集合为Lr=(r12;…;p),Lr中包含p家商户;
S2.提取Lr中所有商户的评论,进行预处理并执行词嵌入操作,具体包含以下子步骤:
S21.评论选取与预处理:筛选出t时间前,商户rp中点赞数最高的m条评论,并去除评论中的标点符号与停用词;
S22.构建商户评论矩阵:截取每条评论的前n个字,评论长度不足n的,以0填充至长度n,生成大小为m*n的商户评论矩阵
Figure BDA0002558721420000021
其中
Figure BDA0002558721420000022
代表第m条评论中的第n个字;
S23.商户评论矩阵词嵌入操作:使用词嵌入工具GloVe预训练的d维词向量,对评论矩阵Mr进行词嵌入Embedding操作,得到词嵌入评论矩阵
Figure BDA0002558721420000023
其中
Figure BDA0002558721420000024
的长度为d;
S24.构建评论对应评分向量:拼接每条评论对应的评分,生成长度为m的评论对应评分向量Vg=(g1;gs;...;gm),其中gm代表第m条评论的评分;
S25.对Lr中的所有商户执行S21至S24中的步骤,生成Me的集合λe,生成Vg的集合λg
S3.训练用于获取商户语义特征的情感分类神经网络模型,具体包含以下子步骤:
S31.将λe输入至CNN卷积层中,使用μ个不同宽度的卷积核对λe进行卷积操作,过程表示为:
Figure BDA0002558721420000025
其中
Figure BDA0002558721420000026
为卷积层的输出,wl是宽度为l的卷积核进行卷积操作时的可学习参数矩阵,bl为偏置项参数,f为激活函数;
S32.将μ个不同宽度的卷积核卷积生成的
Figure BDA0002558721420000027
分别输入至池化层中,进行池化操作后输出μ个
Figure BDA0002558721420000028
S33.将S32生成的μ个
Figure BDA0002558721420000029
输入至平均池化层,进行平均池化操作,输出Oa
S34.将Oa输入到全连接层中,得到情感分类的结果集合
Figure BDA00025587214200000210
计算公式如下:
Figure BDA00025587214200000211
其中W为可学习参数矩阵,
Figure BDA00025587214200000212
为偏置项参数,g为激活函数;
S35.通过损失函数MSE不断迭代λg
Figure BDA00025587214200000213
中每个评分之间的损失值,当达到迭代终止条件时,停止训练;
S36.对Oa执行Reshape变形操作,得到商户语义特征向量集合λs
S4.商户语义特征权重计算:设某一评论的评分为ηr,收到的点赞数为vr,撰写该评论的顾客总计撰写评论ru条,平均打分为ηu,且该顾客的所有评论共收到点赞数为vu,则以I表示这一评论的权重,计算方法如下:
I=ln((vr+vu/ru)*|ηur|+1),I∈[0,1);
S5.获取商户语义特征:将λs中每个元素扩展一位,并将对应评论的I填入该空位,则得到附带权重的商户语义特征向量集合λs′;
S6.获取商户业务特征,具体包含以下子步骤:
S61.构建初始商户业务特征向量:将商户rp的所有业务属性整合为业务属性向量Vb_origin=(b1;b2;...;bh),其中bh表示第h个业务属性的值,h为业务属性的数量;
S62.对Lr中所有的商户执行S61步骤,生成Vb_origin的集合λb_origin
S63.将λb_origin输入至LightGBM模型,输出设置为λy,设定评价指标为交叉熵,当交叉熵最小时停止训练,输出各个业务属性的权重集合,记为ψ;
S64.筛选并排除业务属性中权重值小于阈值κ的业务属性,重新整合筛选后的业务属性形成新业务属性向量Vb
S65.对Lr中所有的商户执行S64步骤,生成Vb的集合λb
S7.获取商户集群特征,具体包含以下子步骤:
S71.对商户集合Lr,使用密度聚类方法DBSCAN进行商户聚类,生成商户集群集合λc=(c1;c2;...;cj),其中j为商户集群的数量;
S72.通过各个商户集群中所有商户的评论与签到数量之和,计算商户集群集合的活跃度λE=(E1;E2;...;Ej),具体每个集群的活跃度计算表示为:
Ej=∑(reviewα+checkinα),α in cj
其中review表示商户评论数量,checkin表示商户签到数量;
S8.整合三类特征向量集合,即商户语义特征、商户业务特征、商户集群特征,得到最终的商户多视图特征λ,具体方法如下:
Figure BDA0002558721420000031
其中
Figure BDA0002558721420000032
代表连接操作;
作为优选,步骤中S23所述的预训练的词向量维度d取100。
作为优选,步骤中S31所述的μ个不同宽度l的卷积核,μ取3,宽度l取2、3、5。
作为优选,步骤S35中所述的迭代终止条件为迭代轮次达到10次或者损失函数值小于0.1%。
作为优选,步骤S64中所述的阈值κ取5。
本发明的另一目的在于提供一种基于在线点评数据的多视图商户经营状况预测模型构建方法,其包括以下步骤:
S1.基本变量设定:将Lr中80%的商户分割为训练集Lr_train,剩余20%分割为测试集Lr_test;预测时间段为(t+span),预测开始时间为t;Lr中的餐厅在(t+span)时段的真实经营情况表示为集合λy=(y1;y2;...;yp),其中yp的取值为0时,代表餐厅rp在(t+span)时段倒闭,yp的取值为1时代表餐厅rp在(t+span)时段正常经营;
S2.分割训练集与测试集:将λy分割为商户训练集Lr_train对应的λy_train与商户测试集Lr_test对应的λy_test
S3.提取多视图特征:按照前述的特征提取方法对Lr_train中的商户提取多视图特征得到λtrain,对Lr_test中的商户提取多视图特征得到λtest
S4.训练预测模型:将λtrain输入至LightGBM模型中,输出设置为λy_train,设定评价指标为交叉熵,当交叉熵最小时停止训练,输出模型
Figure BDA0002558721420000041
用于预测商户经营状况。
作为优选,对预测模型的评价采用指标为接受者操作特征曲线ROC曲线与ROC曲线下方的面积AUC。
本发明提出的商户多视图特征提取及模型构建方法相比于传统的方法,具有如下收益:1、本发明基于在线点评软件如yelp等上的公开数据,与涉及商户经营机密相关的统计数据比具有更好的可获得性;2、本发明方法综合考虑了商户语义特征、商户业务特征和商户集群特征,其中商户的语义特征与一般方法相比特别根据不同评论者的评论习惯进行了权重设置,增加了提取的语义特征的准确性。
附图说明
图1为本发明方法的流程图;
图2为本发明训练用于获取商户语义特征的情感分类神经网络模型并提取商户语义特征的示意图;
图3为本发明与对照方法的实验结果对比图;
图4为本发明方法在去除商户语义特征与去除商户集群特征的情况下的实验结果对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,一种基于在线点评数据的商户多视图特征提取方法,其特征在于包括以下步骤:
S1.基本变量设定:设商户集合为Lr=(r1;r2;...;rp),Lr中包含p家商户;
S2.提取Lr中所有商户的评论,进行预处理并执行词嵌入操作,具体包含以下子步骤:
S21.评论选取与预处理:筛选出t时间前,商户rp中点赞数最高的m条评论,并去除评论中的标点符号与停用词;
S22.构建商户评论矩阵:截取每条评论的前n个字,评论长度不足n的,以0填充至长度n,生成大小为m*n的商户评论矩阵
Figure BDA0002558721420000051
其中
Figure BDA0002558721420000052
代表第m条评论中的第n个字;
S23.商户评论矩阵词嵌入操作:使用词嵌入工具GloVe预训练的100维词向量,对评论矩阵Mr进行词嵌入Embedding操作,得到词嵌入评论矩阵
Figure BDA0002558721420000053
其中
Figure BDA0002558721420000054
的长度为100;
S24.构建评论对应评分向量:拼接每条评论对应的评分,生成长度为m的评论对应评分向量Vg=(g1;gs;...;gm),其中gm代表第m条评论的评分;
S25.对Lr中的所有商户执行S21至S24中的步骤,生成Me的集合λe,生成Vg的集合λg
S3.训练用于获取商户语义特征的情感分类神经网络模型,具体包含以下子步骤:
S31.将λe输入至CNN卷积层中,使用3个不同宽度的卷积核对λe进行卷积操作,过程表示为:
Figure BDA0002558721420000055
其中
Figure BDA0002558721420000061
为卷积层的输出,wl是宽度为l的卷积核进行卷积操作时的可学习参数矩阵,l取2、3、5,bl为偏置项参数,f为激活函数;
S32.将μ个不同宽度的卷积核卷积生成的
Figure BDA0002558721420000062
分别输入至池化层中,进行池化操作后输出μ个
Figure BDA0002558721420000063
S33.将S32生成的μ个
Figure BDA0002558721420000064
输入至平均池化层,进行平均池化操作,输出Oa
S34.将Oa输入到全连接层中,得到情感分类的结果集合
Figure BDA0002558721420000065
计算公式如下:
Figure BDA0002558721420000066
其中W为可学习参数矩阵,
Figure BDA0002558721420000067
为偏置项参数,g为激活函数;
S35.通过损失函数MSE不断迭代λg
Figure BDA0002558721420000068
中每个评分之间的损失值,当达到迭代终止条件即迭代轮次达到10次或者损失函数值小于0.1%,停止训练;
S36.对Oa执行Reshape变形操作,得到商户语义特征向量集合λs
S4.商户语义特征权重计算:设某一评论的评分为ηr,收到的点赞数为vr,撰写该评论的顾客总计撰写评论ru条,平均打分为ηu,且该顾客的所有评论共收到点赞数为vu,则以I表示这一评论的权重,计算方法如下:
I=ln((vr+vu/ru)*|ηur|+1),I∈[0,1);
S5.获取商户语义特征:将λs中每个元素扩展一位,并将对应评论的I填入该空位,则得到附带权重的商户语义特征向量集合λs′;
S6.获取商户业务特征,具体包含以下子步骤:
S61.构建初始商户业务特征向量:将商户rp的所有业务属性整合为业务属性向量Vb_origin=(b1;b2;...;bh),其中bh表示第h个业务属性的值,h为业务属性的数量;
S62.对Lr中所有的商户执行S61步骤,生成Vb_origin的集合λb_origin
S63.将λb_origin输入至LightGBM模型,输出设置为λy,设定评价指标为交叉熵,当交叉熵最小时停止训练,输出各个业务属性的权重集合,记为ψ;
S64.筛选并排除业务属性中权重值小于阈值5的业务属性,重新整合筛选后的业务属性形成新业务属性向量Vb
S65.对Lr中所有的商户执行S64步骤,生成Vb的集合λb
S7.获取商户集群特征,具体包含以下子步骤:
S71.对商户集合Lr,使用密度聚类方法DBSCAN进行商户聚类,生成商户集群集合λc=(c1;c2;...;cj),其中j为商户集群的数量;
S72.通过各个商户集群中所有商户的评论与签到数量之和,计算商户集群集合的活跃度λE=(E1;E2;...;Ej),具体每个集群的活跃度计算表示为:
Ej=∑(reviewα+checkinα),α in cj
其中review表示商户评论数量,checkin表示商户签到数量;
S8.整合三类特征向量集合,即商户语义特征、商户业务特征、商户集群特征,得到最终的商户多视图特征λ,具体方法如下:
Figure BDA0002558721420000071
其中
Figure BDA0002558721420000072
代表连接操作;
一种基于在线点评数据的多视图商户经营状况预测模型构建方法,其特征在于包括以下步骤:
1)基本变量设定:将Lr中80%的商户分割为训练集Lr_train,剩余20%分割为测试集Lr_test;预测时间段为(t+span),预测开始时间为t;Lr中的餐厅在(t+span)时段的真实经营情况表示为集合λy=(y1;y2;...;yp),其中yp的取值为0时,代表餐厅rp在(t+span)时段倒闭,yp的取值为1时代表餐厅rp在(t+span)时段正常经营;
2)分割训练集与测试集:将λy分割为商户训练集Lr_train对应的λy_train与商户测试集Lr_test对应的λy_test
3)提取多视图特征:按照前述S1~S8提供的特征提取方法对Lr_train中的商户提取多视图特征得到λtrain,对Lr_test中的商户提取多视图特征得到λtest
4)训练预测模型:将λtrain输入至LightGBM模型中,输出设置为λy_train,设定评价指标为交叉熵,当交叉熵最小时停止训练,输出模型
Figure BDA0002558721420000073
5)评价模型预测结果:将λtest输入至模型
Figure BDA0002558721420000074
得到预测结果集合
Figure BDA0002558721420000075
Figure BDA0002558721420000076
与λy_test进行对比,实现对预测模型的评价,评价采用指标选用接受者操作特征曲线ROC曲线与ROC曲线下方的面积AUC。
下面基于上述方法流程,通过实施例进一步展示其技术效果。
实施例
本实施例步骤与具体实施方式前述步骤相同,在此不再进行赘述。下面就部分实施过程和实施结果进行展示:
本实施例所用的原始数据为yelp的公开数据集,地点为美国拉斯维加斯与加拿大多伦多市。根据相关机构统计,餐饮业对GDP的贡献极高,因此本实施例主要以餐厅为例进行相关实验。通过预处理,关联每个餐厅的经纬度、评论、签到、业务属性;关联每条评论的评论文本、评论时间、评论点赞数量、评论人历史评论量、评论人历史评论获赞量、评论人历史评论平均评分。至此形成许多条餐厅数据σ1=<餐厅编号,经度,维度,评论数量,签到数量,业务属性>,及其对应的评论数据σ2=<评论编号,评论时间,评论文本,评论点赞数量、评论人历史评论量、评论人历史评论获赞量、评论人历史评论平均评分>。将σ1与σ2按照本方法权利要求1所述的方法进行多视图特征的提取,并将特征输入模型中进行训练,最后使用训练好的模型进行结果预测。
实验将本方法(简称SBCM)与若干传统预测方法进行了比较,作为对照的预测方法有:(1)SVM:支持向量机是一类对数据进行二元分类的广义线性分类器;(2)XGBoost:一种强大的基于增强树的方法,目前广泛应用于数据挖掘领域。实验以接受者操作特征曲线(ROC曲线)与ROC曲线下方的面积(AUC)作为预测准确度指标。
拉斯维加斯与多伦多市的实验结果如图3所示,本发明在两座城市不同年份的预测表现中均取得了最优的结果。本发明在AUC的表现上,分别平均比SVM和XGBoost高出14.0%和3.4%。此外,在四个数据集上的AUC结果也表明,本发明的AUC浮动范围最小仅为0.05,最为稳定。一般情况下,如果一个模型的AUC高于0.7,则认为是一个“公平模型”,而本发明的平均AUC为0.78,高于标准。综上,该结果表明本发明提出的方法预测精度(ROC、AUC)明显优于传统机器学习方法与集成学习相关方法。
此外图4给出了本发明方法在去除商户语义特征与去除商户集群特征的情况下的实验结果对比图,结果表明,商户语义特征和商户集群特征对于预测模型的构建都具有重要的作用。具体来说,本发明在AUC方面的表现,分别比本发明不添加商户语义特征和不添加商户集群特征高出8.0%和2.0%。结合以上结果,证明了本发明方法的有效性。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (7)

1.一种基于在线点评数据的商户多视图特征提取方法,其特征在于包括以下步骤:
S1.设定商户集合为Lr=(r1;r2;...;rp),Lr中包含p家商户;
S2.提取Lr中所有商户的评论,进行预处理并执行词嵌入操作,具体包含以下子步骤:
S21.评论选取与预处理:筛选出t时间前,商户rp中点赞数最高的m条评论,并去除评论中的标点符号与停用词;
S22.构建商户评论矩阵:截取每条评论的前n个字,评论长度不足n的,以0填充至长度n,生成大小为m*n的商户评论矩阵
Figure FDA0002558721410000011
其中
Figure FDA0002558721410000012
代表第m条评论中的第n个字;
S23.商户评论矩阵词嵌入操作:使用词嵌入工具GloVe预训练的d维词向量,对评论矩阵Mr进行词嵌入Embedding操作,得到词嵌入评论矩阵
Figure FDA0002558721410000013
其中
Figure FDA0002558721410000014
的长度为d;
S24.构建评论对应评分向量:拼接每条评论对应的评分,生成长度为m的评论对应评分向量Vg=(g1;gs;...;gm),其中gm代表第m条评论的评分;
S25.对Lr中的所有商户执行S21至S24中的步骤,生成Me的集合λe,生成Vg的集合λg
S3.训练用于获取商户语义特征的情感分类神经网络模型,具体包含以下子步骤:
S31.将λe输入至CNN卷积层中,使用μ个不同宽度的卷积核对λe进行卷积操作,过程表示为:
Figure FDA0002558721410000015
其中
Figure FDA0002558721410000016
为卷积层的输出,wl是宽度为l的卷积核进行卷积操作时的可学习参数矩阵,bl为偏置项参数,f为激活函数;
S32.将μ个不同宽度的卷积核卷积生成的
Figure FDA0002558721410000017
分别输入至池化层中,进行池化操作后输出μ个
Figure FDA0002558721410000018
S33.将S32生成的μ个
Figure FDA0002558721410000019
输入至平均池化层,进行平均池化操作,输出Oa
S34.将Oa输入到全连接层中,得到情感分类的结果集合
Figure FDA0002558721410000021
计算公式如下:
Figure FDA0002558721410000022
其中W为可学习参数矩阵,
Figure FDA0002558721410000023
为偏置项参数,g为激活函数;
S35.通过损失函数MSE不断迭代λg
Figure FDA0002558721410000024
中每个评分之间的损失值,当达到迭代终止条件时,停止训练;
S36.对Oa执行Reshape变形操作,得到商户语义特征向量集合λs
S4.商户语义特征权重计算:设某一评论的评分为ηr,收到的点赞数为vr,撰写该评论的顾客总计撰写评论ru条,平均打分为ηu,且该顾客的所有评论共收到点赞数为vu,则以I表示这一评论的权重,计算方法如下:
I=ln((vr+vu/ru)*|ηur|+1),I∈[0,1);
S5.获取商户语义特征:将λs中每个元素扩展一位,并将对应评论的I填入该空位,则得到附带权重的商户语义特征向量集合λs′;
S6.获取商户业务特征,具体包含以下子步骤:
S61.构建初始商户业务特征向量:将商户rp的所有业务属性整合为业务属性向量Vb_origin=(b1;b2;...;bh),其中bh表示第h个业务属性的值,h为业务属性的数量;
S62.对Lr中所有的商户执行S61步骤,生成Vb_origin的集合λb_origin
S63.将λb_origin输入至LightGBM模型,输出设置为λy,设定评价指标为交叉熵,当交叉熵最小时停止训练,输出各个业务属性的权重集合,记为ψ;
S64.筛选并排除业务属性中权重值小于阈值κ的业务属性,重新整合筛选后的业务属性形成新业务属性向量Vb
S65.对Lr中所有的商户执行S64步骤,生成Vb的集合λb
S7.获取商户集群特征,具体包含以下子步骤:
S71.对商户集合Lr,使用密度聚类方法DBSCAN进行商户聚类,生成商户集群集合λc=(c1;c2;...;cj),其中j为商户集群的数量;
S72.通过各个商户集群中所有商户的评论与签到数量之和,计算商户集群集合的活跃度λE=(E1;E2;...;Ej),具体每个集群的活跃度计算表示为:
Ej=Σ(reviewα+checkinα),αin cj
其中review表示商户评论数量,checkin表示商户签到数量;
S8.整合三类特征向量集合,即商户语义特征、商户业务特征、商户集群特征,得到最终的商户多视图特征λ,具体方法如下:
Figure FDA0002558721410000031
其中
Figure FDA0002558721410000032
代表连接操作。
2.根据权利要求1所述的一种基于在线点评数据的商户多视图特征提取方法,其特征在于步骤中S23所述的预训练的词向量维度d取100。
3.根据权利要求1所述的一种基于在线点评数据的商户多视图特征提取方法,其特征在于步骤中S31所述的μ个不同宽度l的卷积核,μ取3,宽度l取2、3、5。
4.根据权利要求1所述的一种基于在线点评数据的商户多视图特征提取方法,其特征在于步骤S35中所述的迭代终止条件为迭代轮次达到10次或者损失函数值小于0.1%。
5.根据权利要求1所述的一种基于在线点评数据的商户多视图特征提取方法,其特征在于步骤S64中所述的阈值κ取5。
6.一种基于在线点评数据的多视图商户经营状况预测模型构建方法,其特征在于包括以下步骤:
S1.基本变量设定:将Lr中80%的商户分割为训练集Lr_train,剩余20%分割为测试集Lr_test;预测时间段为(t+span),预测开始时间为t;Lr中的餐厅在(t+span)时段的真实经营情况表示为集合λy=(y1;y2;...;yp),其中yp的取值为0时,代表餐厅rp在(t+span)时段倒闭,yp的取值为1时代表餐厅rp在(t+span)时段正常经营;
S2.分割训练集与测试集:将λy分割为商户训练集Lr_train对应的λy_train与商户测试集Lr_test对应的λy_test
S3.提取多视图特征:按照权利要求1所述的特征提取方法对Lr_train中的商户提取多视图特征得到λtrain,对Lr_test中的商户提取多视图特征得到λtest
S4.训练预测模型:将λtrain输入至LightGBM模型中,输出设置为λy_train,设定评价指标为交叉熵,当交叉熵最小时停止训练,输出模型
Figure FDA0002558721410000033
用于预测商户经营状况。
7.根据权利要求6所述的一种基于在线点评数据的多视图商户经营状况预测模型构建方法,其特征在于对预测模型的评价采用指标为接受者操作特征曲线ROC曲线与ROC曲线下方的面积AUC。
CN202010601573.5A 2020-06-28 2020-06-28 一种基于在线点评数据的商户多视图特征提取及模型构建方法 Active CN111914060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010601573.5A CN111914060B (zh) 2020-06-28 2020-06-28 一种基于在线点评数据的商户多视图特征提取及模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010601573.5A CN111914060B (zh) 2020-06-28 2020-06-28 一种基于在线点评数据的商户多视图特征提取及模型构建方法

Publications (2)

Publication Number Publication Date
CN111914060A CN111914060A (zh) 2020-11-10
CN111914060B true CN111914060B (zh) 2021-02-26

Family

ID=73226926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010601573.5A Active CN111914060B (zh) 2020-06-28 2020-06-28 一种基于在线点评数据的商户多视图特征提取及模型构建方法

Country Status (1)

Country Link
CN (1) CN111914060B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926989B (zh) * 2021-03-22 2023-09-05 华南理工大学 一种基于多视图集成学习的银行贷款风险评估方法及设备
CN117852507B (zh) * 2024-03-07 2024-05-17 南京信息工程大学 一种餐馆回头客预测模型、方法、系统及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016571A (zh) * 2017-03-31 2017-08-04 北京百分点信息科技有限公司 数据预测方法及其系统
CN108805385A (zh) * 2018-04-02 2018-11-13 阿里巴巴集团控股有限公司 一种评价商户的经营状况的方法、装置及设备
TW202022720A (zh) * 2018-11-30 2020-06-16 台灣人壽保險股份有限公司 績效業績預估方法及其系統

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200030978A (ko) * 2018-09-13 2020-03-23 주식회사 상상이비즈 상품 또는 서비스에 관한 시장성을 검증하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016571A (zh) * 2017-03-31 2017-08-04 北京百分点信息科技有限公司 数据预测方法及其系统
CN108805385A (zh) * 2018-04-02 2018-11-13 阿里巴巴集团控股有限公司 一种评价商户的经营状况的方法、装置及设备
TW202022720A (zh) * 2018-11-30 2020-06-16 台灣人壽保險股份有限公司 績效業績預估方法及其系統

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Restaurant Failure Prediction Based on Multi-ViewOnline Data;Xiaoxiao Sun 等;《The 32nd International Conference on Software Engineering and Knowledge Engineering》;20200719;439-444 *

Also Published As

Publication number Publication date
CN111914060A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
Denil et al. Extraction of salient sentences from labelled documents
US9870768B2 (en) Subject estimation system for estimating subject of dialog
CN107122327B (zh) 一种利用训练数据训练模型的方法和训练系统
CN109492101B (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
Tur et al. Combining active and semi-supervised learning for spoken language understanding
Cheng et al. Language modeling with sum-product networks.
Zhou et al. Answer sequence learning with neural networks for answer selection in community question answering
CN109472031A (zh) 一种基于双记忆注意力的方面级别情感分类模型及方法
CN108363695B (zh) 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN106126751A (zh) 一种具有时间适应性的分类方法及装置
CN102708153B (zh) 自适应在线社交网络热点话题发展趋势预测方法及系统
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN111797321A (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN107679031B (zh) 基于堆叠降噪自编码机的广告博文识别方法
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN111914060B (zh) 一种基于在线点评数据的商户多视图特征提取及模型构建方法
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
WO2022062193A1 (zh) 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质
CN110210027B (zh) 基于集成学习的细粒度情感分析方法、装置、设备及介质
CN107392217B (zh) 计算机实现的信息处理方法及装置
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN108776919B (zh) 基于聚类及进化算法构建信息核的物品推荐方法
CN105574213A (zh) 一种基于数据挖掘技术的微博推荐方法及装置
CN108470025A (zh) 局部话题概率生成正则化自编码文本嵌入表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant