CN106952167B - 一种基于多元线性回归的餐饮业好友连边影响力预测方法 - Google Patents

一种基于多元线性回归的餐饮业好友连边影响力预测方法 Download PDF

Info

Publication number
CN106952167B
CN106952167B CN201710127030.2A CN201710127030A CN106952167B CN 106952167 B CN106952167 B CN 106952167B CN 201710127030 A CN201710127030 A CN 201710127030A CN 106952167 B CN106952167 B CN 106952167B
Authority
CN
China
Prior art keywords
node
user
index
linear regression
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710127030.2A
Other languages
English (en)
Other versions
CN106952167A (zh
Inventor
宣琦
虞烨炜
赵明浩
郑永立
傅晨波
翔云
吴哲夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710127030.2A priority Critical patent/CN106952167B/zh
Publication of CN106952167A publication Critical patent/CN106952167A/zh
Application granted granted Critical
Publication of CN106952167B publication Critical patent/CN106952167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于多元线性回归的餐饮业好友连边影响力预测方法,属于数据挖掘领域。首先根据好友关系建立好友网络图;然后提取好友网络中的拓扑特征;考虑用户的总体特性,提取好友关系中的非拓扑特征信息;运用多元线性回归模型,得到各个特征与最后用户好友关系的联系。本发明的方法为:根据数据集,选取特征,借助线性回归方法建立预测模型。本发明提供了一种基于多元线性回归的餐饮业好友连边影响力预测方法,综合考虑了好友网络中的拓扑特征和用户自身的总体非拓扑特征,从而可以预测出好友连边影响力。

Description

一种基于多元线性回归的餐饮业好友连边影响力预测方法
技术领域
本发明涉及数据挖掘与数据分析技术,特别是涉及一种基于多元线性回归的餐饮业好友连边影响力预测方法。
背景技术
随着计算机技术和互联网技术的快速发展,信息的传播方式越来越丰富,传播速度也在不断增快,在线社交应用和媒体也迅速扩散,众多网站如Facebook、Twitter以及国内的新浪微博、微信、腾讯网等迅速崛起,在线社交网络已经将我们的日常生活与网络信息空间连接起来。在线社交网络存储了大量用户资料,用户之间的社交关系以及用户之间的交互,这些海量社交数据有着巨大的研究价值,同时也在广告、推荐系统等方面具有广阔的应用前景。本发明在于利用社交网络中的大量信息,提取相关的特征并进行多元线性回归,从而得到各个因素与好友连边影响力之间的联系。
线性回归算法是数据挖掘领域中比较重要的算法,它通过给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1;xi2;...;xid),
Figure GDA0001302854830000011
试图得到一个线性模型以尽可能准确地预测实值输出标记。
发明内容
为了克服现有的餐饮业好友连边影响力预测方式的可靠性较差的不足,本发明提出了一种可靠性较好的基于多元线性回归的餐饮业好友连边影响力预测方法。本发明将拓扑特征和非拓扑特征引入到回归模型中,实现好友关系的量化。
本发明解决其技术问题所采用的技术方案如下:
一种基于多元线性回归的餐饮业好友连边影响力预测方法,包括以下步骤:
S1:从餐饮网站获取用户的好友关系信息;
S2:根据用户的好友关系信息,建立好友关系加权无向图G=(V,E);
S3:利用已建立的好友关系图,分别求出如下网络拓扑特征:
共同邻居指标CN、Salton指标、Jaccard指标、Sorenson指标、大度节点有利指标HPI、大度节点不利指标HDI、LHN-I指标、AA指标、资源分配指标RA、偏好连接相似性PA、度差异性、全体邻居和Katz指标;
S4:计算非拓扑特征,根据用户地理信息、用户情感值、用户消费档次和用户口味信息,提取非拓扑特征;
S5:利用求得的各个拓扑特征和非拓扑特征作为自变量,两个用户共同去过的餐馆数为因变量,构造理论模型,设定各个自变量与因变量之间的关系是线性的,从而建立多元线性回归模型,借助工具进行多元线性回归处理得到数据;
S6:对模型进行检验,一个指标是拟合度,设定拟合阈值为拟合程度很高,第二个指标为DW检验,通过T显著性指标大于指标阈值,对设置的指标进行筛选,获得回归方程,否则如果无法获得模型,就转移到S3;
S7:运行模型,进行共线性诊断,查看VIF方差扩大因子,若VIF小于门限值则判断自变量之间不存在共线性,否则进行主成分分析处理共线性问题,之后分析残差,若残差不满足要求就转移到S3;
S8:若满足上述步骤的要求,则说明该线性回归方程模型满足该数据集,利用得到的线性回归方程,同时结合用户和餐馆信息,能够预测两个用户之间的好友连边影响力。
本发明提取了好友网络的多个拓扑特征,和影响好友连边影响力的非拓扑特征,两者相辅相成表征了社交网络中用户的社交模式,然后利用多元线性回归模型表示影响网络中的好友连边影响力的因素。
本发明的有益效果如下:挖掘社交网络中的用户关系,预测效果良好,能有效满足实际使用的要求。
附图说明
图1为本发明实施例的基于线性回归的餐饮业好友连边影响力预测的流程图;
图2为本发明实施例的用户—餐馆地区二分图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1和图2,一种基于线性回归的餐饮业好友连边影响力预测方法,本专利以研究yelp中的用户和餐馆为例,原始数据记录了各个用户及餐馆的信息,提取相应特征进行好友连边影响力的建模分析。
以下实施方式结合附图对本发明进行详细的描述,如图1所示,本发明包括以下步骤:
S1:从餐饮网站获取用户的好友关系信息;
S2:根据用户的好友关系信息,建立好友关系加权无向图G=(V,E);
S3:利用已建立的好友关系图,分别求出如下网络拓扑特征:
共同邻居指标(common neighbors,CN)、Salton指标、Jaccard指标、Sorenson指标、大度节点有利指标(hub promoted index,HPI)、大度节点不利指标(hubdepressedindex,HDI)、LHN-I指标、AA指标、资源分配指标(resource allocation,RA)、偏好连接相似性(preferential attachment,PA)、度差异性、全体邻居、Katz指标;
S4:除了求出好友网络的拓扑特征,还可以计算非拓扑特征。这里不是直接考虑用户和餐馆之间的关系对好友关系的影响,而是用户在一般情况下自身因素对好友关系的影响。根据用户地理信息、用户情感值、用户消费档次和用户口味信息,提取非拓扑特征;
S5:利用求得的各个拓扑特征和非拓扑特征作为自变量,两个用户共同去过的餐馆数为因变量,构造理论模型,设定各个自变量与因变量之间的关系是线性的,从而建立多元线性回归模型,借助工具进行多元线性回归处理得到数据;
S6:对模型进行检验,一个指标是拟合度,设定拟合阈值为拟合程度很高,第二个指标为DW检验,通过T显著性指标大于指标阈值,对设置的指标进行筛选,获得回归方程,否则如果无法获得我们想要的模型,就转移到S3;
S7:运行模型,进行共线性诊断,查看VIF方差扩大因子,若VIF小于门限值则判断自变量之间不存在共线性,否则我们需要进行主成分分析处理共线性问题,之后分析残差,若残差不满足要求就转移到S3;
S8:若满足上述步骤的要求,则说明该线性回归方程模型满足该数据集,利用得到的线性回归方程,同时结合用户和餐馆信息,能够预测两个用户之间的好友连边影响力。
所述步骤S3中,利用已建立的好友关系图,分别求出如下网络拓扑特征:
基于局部信息的最简单的相似性指标是共同邻居指标(common neighbors,CN),即若两个节点有很多共同邻居节点,则两个节点相似。对于网络中的节点νx,定义其邻居集合为Γ(x),则两个节点νx和νy的相似性就定义为它们共同的邻居数,即
sxy=|Γ(x)∩Γ(y)|
其中等式右边表示集合的势,显然它们是邻居数量等于两节点之间长度为二的路径数目。在共同邻居的基础上考虑两端节点度的影响,从不同角度以不同方式又产生如下6中相似性指标:
Salton指标又称余弦相似度,其定义为
Figure GDA0001302854830000041
其中kx,ky为节点的度,表示与节点直接相连的边的数目。
Jaccard指标,其定义为
Figure GDA0001302854830000042
Sorenson指标常用于生态学数据研究,其定义为
Figure GDA0001302854830000043
大度节点有利指标(hub promoted index,HPI)用于刻画新陈代谢网络中每对反应物的拓扑相似程度,其定义为
Figure GDA0001302854830000044
大度节点不利指标(hub depressed index,HDI)其定义与HPI相似,即
Figure GDA0001302854830000045
LHN-I指标,其定义为
Figure GDA0001302854830000046
AA指标根据共同邻居节点的度为每个节点赋予一个权重值,该权重值等于该节点的度的对数分之一,即Adamic-Adar指标定义为
Figure GDA0001302854830000047
资源分配指标(resource allocation,RA)考虑网络中没有直接相连的两个节点νx和νy,从νx可以传递一些资源到νy,在此过程中,它们的共同邻居就成为传递的媒介。假设每个媒介都有一个单位的资源并且平均分配传给它的邻居,则νx可以接受到的资源数就可以定义为
Figure GDA0001302854830000051
偏好连接相似性(preferential attachment,PA)应用优先连接的方法可以产生无标度的网络结构。在这种网络中,一条新边连接到节点νx的概率正比于该节点的度kx。每一步首先去除一条链接,然后再添加一条链接。新链接连接节点νx和νy的概率就正比于两节点度的乘积。由此可定义两节点间的偏好连接相似性为
sx,y=kxky
度差异性表示两个对象在数值上的差异程度,可以定义为
Figure GDA0001302854830000052
全体邻居是对于网络中的节点νx,定义其邻居集合为Γ(x),则两个节点νx和νy的全体邻居定义为
sxy=|Γ(x)∪Γ(y)|
Katz指标考虑了网络中所有路径,其定义为
Figure GDA0001302854830000053
其中α>0为控制路径权重的可调参数,
Figure GDA0001302854830000054
表示节点νx和νy的路径中长度为l的路径数。
所述步骤S4中,除了求出好友网络的拓扑特征,还可以计算非拓扑特征。这里不是直接考虑用户和餐馆之间的关系对好友关系的影响,而是用户在一般情况下自身因素对好友关系的影响。
根据用户和餐馆的地理信息,建立用户—地点二分图G(X,E,Y),计算其Jaccard指标来衡量两个用户之间的地理相似度,即
Figure GDA0001302854830000055
其中Φ(x),Φ(y)表示用户去过餐馆所在的城市。
图2所示为4个yelp用户关于n个餐馆的地理位置聚类簇的选择情况,其中X=[x1,x2,…xm]表示各个用户,Y=[y1,y2,…yn]表示各个餐馆的地理位置聚类簇,若用户xi去过地理位置聚类簇yj,则用有权连边eij表示该用户去了几次该餐馆的地理位置聚类簇,求得网络的Jaccard指标来衡量两个用户之间的地理相似度。
对于某一用户,其对各个餐馆的评分与该餐馆实际星级的差距能总体反映该用户的情感值,两个用户情感值的差距又能衡量两个用户之间的情感相似度,即
Figure GDA0001302854830000061
其中f表示用户的情感值,u表示用户对餐厅的评价星级,b表示餐厅实际星级,两个用户情感值之差能够从侧面反映其情感相似度。
根据用户所去餐馆的档次能总体反映该用户的用餐水平,两个用户用餐档次的差距能衡量两个用户之间的消费档次相似度,即
Figure GDA0001302854830000062
其中px,py表示用户去过的餐馆的消费水平。
根据用户所去餐馆的类型能总体反映该用户的餐饮口味,两个用户口味的差距能衡量两个用户之间的口味相似度,即
Figure GDA0001302854830000063
其中cx,cy表示用户用餐口味的种类。
所述步骤S5中,模型建立,我们这个模型把两个用户共同去过的餐馆数作为因变量,拓扑特征共同邻居(CN)、余弦相似性(Salton)、Jaccard、Sorenson、大度节点有利指标(HPI)、大度节点不利指标(HDI)、LHN-I、AA、资源分配指标(RA)、偏好连接相似性(PA)、度差异性、全体邻居、Katz,和非拓扑特征地理相似度、情感相似度、消费档次相似度、口味相似度作为自变量。我们借助一般的多元线性回归模型:
y=β01x12x2+…+βpxp+ε,
其中为因变量,β0是P个可以精确测量并可控制的自变量。因变量y由两部分决定:一部分是误差项随机变量ε,另一部分是P个自变量的线性函数β01x12x2+…+βpxp,其中β012...,βp是P+1个未知参数,β12,...,βp称为回归常数,称为偏回归系数,他们决定了因变量y与自变量x1,x2,...,xp的线性关系的具体形式。ε是随机变量;
所述步骤S6中,对模型进行多元线性回归处理,调整后的R平方相比较于R平方,更能反映数据的拟合程度,一般60%为拟合程度很高。利用DW来判断正负相关,DW公式为:
Figure GDA0001302854830000071
DW小于2代表正相关,大于2代表负相关,DW统计量约等于2时表明数据不存在序列相关,即不存在伪回归。利用T的显著性,大于0.05的自变量认为对模型没有显著性影响,其他自变量对模型有显著性影响。对于系数过小的自变量也不进行考虑,得到回归方程。之后可以对数据进行可视化,能够更直观地看出模型的合适程度;
所述步骤S7中,运行模型,进行共线性诊断,主要看VIF方差扩大因子,若VIF小于5则判断自变量之间不存在共线性,如果两个变量之间存在很强的共线性,则可以将两个变量整合成一个,因为两个自变量反映的是同一内容,共线性强将会影响矩阵的运算。若VIF大于5则模型存在共线性,需要共线性优化。检测多重共线性的最简单方法是计算模型各自变量之间的相关系数,并对各相关系数进行显著性检验。这里我们利用主成分分析处理共线性问题。主成分分析是将共线性强的指标聚合成一个指标,降维并进行因子分析。一般选取特征值大于1的作为一个主成分,按照60%以上就可以成为一个主成分的要求,只选择一个主成分即可。再次进行多元线性回归并分析相应指标。之后分析残差,若残差不满足要求就转移到步骤S3,重新整理数据;
所述步骤S8中,若满足上述步骤的要求,则说明该线性回归方程模型满足该数据集。利用得到的线性回归方程,同时结合用户和餐馆信息,能够预测两个用户之间的好友连边影响力。
如上所述为本发明在yelp餐饮平台的基于多元线性回归的餐饮业好友连边影响力预测方法的实施例介绍,本发明选择根据好友网络提取的拓扑特征和非拓扑特征作为变量,采用多元线性回归模型,最终的预测效果良好,达到了实际使用的要求。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (7)

1.一种基于多元线性回归的餐饮业好友连边影响力预测方法,其特征在于:包括以下步骤:
S1:从餐饮网站获取用户的好友关系信息;
S2:根据用户的好友关系信息,建立好友关系加权无向图G=(V,E1),V表示图G中的节点即用户,E1表示图G中两个节点之间的连边,即两个用户之间是否存在好友关系,两个用户共同去过的餐馆数量作为连边的重要性;
S3:利用已建立的好友关系加权无向图,分别求出如下网络拓扑特征:
共同邻居指标CN、Salton指标、Jaccard指标、Sorenson指标、大度节点有利指标HPI、大度节点不利指标HDI、LHN-I指标、AA指标、资源分配指标RA、偏好连接相似性PA、度差异性、全体邻居和Katz指标;
S4:计算非拓扑特征,根据用户地理信息、用户情感值、用户消费档次和用户口味信息,提取非拓扑特征;根据用户和餐馆的地理信息,建立用户—地点二分图G(X,E2,Y),其中X表示二分图G中的节点即用户,Y表示二分图G中的节点即各个餐馆的地理位置聚类簇,E2表示连边即用户去该餐馆的地理位置聚类簇的次数,计算其Jaccard指标来衡量两个用户之间的地理相似度,即
Figure FDA0002850343800000011
其中Φ(x),Φ(y)表示用户去过餐馆所在的城市;
对于某一用户,其对各个餐馆的评分与该餐馆实际星级的差距能总体反映该用户的情感值,两个用户情感值的差距又能衡量两个用户之间的情感相似度,即
Figure FDA0002850343800000021
其中,
Figure FDA0002850343800000022
表示用户的情感值,u表示用户对餐厅的评价星级,b表示餐厅实际星级,两用户情感值之差能够从侧面反映其情感相似度,;
根据用户所去餐馆的档次能总体反映该用户的用餐水平,两个用户用餐档次的差距能衡量两个用户之间的消费档次相似度,即
Figure FDA0002850343800000023
其中,
Figure FDA0002850343800000024
表示用户去过的餐馆的消费水平;
根据用户所去餐馆的类型能总体反映该用户的餐饮口味,两个用户口味的差距能衡量两个用户之间的口味相似度,即
Figure FDA0002850343800000025
其中,
Figure FDA0002850343800000026
表示用户用餐口味的种类;
S5:利用求得的各个拓扑特征和非拓扑特征作为自变量,两个用户共同去过的餐馆数为因变量,构造理论模型,设定各个自变量与因变量之间的关系是线性的,从而建立多元线性回归方程模型,借助工具进行多元线性回归处理得到数据;
S6:对模型进行检验,一个指标是拟合度,设定拟合阈值为拟合程度很高,第二个指标为DW检验,通过显著性指标T大于指标阈值,对设置的指标进行筛选,获得多元线性回归方程模型,否则如果无法获得多元线性回归方程模型,就转移到S3;
S7:运行模型,进行共线性诊断,查看VIF方差扩大因子,若VIF小于门限值则判断自变量之间不存在共线性,否则进行主成分分析处理共线性问题,之后分析残差,若残差不满足要求就转移到S3;
S8:若满足上述步骤的要求,则说明该多元线性回归方程模型满足该数据集,利用得到的多元线性回归方程模型,同时结合用户和餐馆信息,能够预测两个用户之间的好友连边影响力。
2.如权利要求1所述的基于多元线性回归的餐饮业好友连边影响力预测方法,其特征在于:所述步骤S2中,根据用户的好友关系信息,用户作为节点,两个用户存在好友关系建立一条连边,共同去过的餐馆数作为连边重要性,建立好友关系加权无向图G=(V,E)。
3.如权利要求1或2所述的基于多元线性回归的餐饮业好友连边影响力预测方法,其特征在于:所述步骤S3中,利用已建立的好友关系图,分别求出如下网络拓扑特征:
基于局部信息的最简单的相似性指标是共同邻居指标CN,即若两个节点有很多共同邻居节点,则两个节点相似;对于网络中的节点νx,定义其邻居集合为Γ(x)、Γ(y),则两个节点νx和νy的相似性就定义为它们共同的邻居数,即
sxy=|Γ(x)∩Γ(y)|,
其中,等式右边表示集合的势,显然它们是邻居数量等于两节点之间长度为二的路径数目,在共同邻居的基础上考虑两端节点度的影响,从不同角度以不同方式又产生如下6种相似性指标:
Salton指标又称余弦相似度,其定义为
Figure FDA0002850343800000041
其中kx,ky为节点的度,表示与节点直接相连的边的数目;
Jaccard指标,其定义为
Figure FDA0002850343800000042
Sorenson指标常用于生态学数据研究,其定义为
Figure FDA0002850343800000043
大度节点有利指标HPI用于刻画新陈代谢网络中每对反应物的拓扑相似程度,其定义为
Figure FDA0002850343800000044
大度节点不利指标HDI其定义与HPI相似,即
Figure FDA0002850343800000045
LHN-I指标,其定义为
Figure FDA0002850343800000046
AA指标根据共同邻居节点的度为每个节点赋予一个权重值,该权重值等于该节点的度的对数分之一,即Adamic-Adar指标定义为
Figure FDA0002850343800000047
其中,kz表示节点z的度;
资源分配指标RA考虑网络中没有直接相连的两个节点νx和νy,从νx可以传递一些资源到νy,在此过程中,它们的共同邻居就成为传递的媒介;假设每个媒介都有一个单位的资源并且平均分配传给它的邻居,则νx可以接受到的资源数定义为
Figure FDA0002850343800000051
偏好连接相似性PA应用优先连接的方法产生无标度的网络结构,在这种网络中,一条新边连接到节点νx的概率正比于该节点的度kx,每一步首先去除一条链接,然后再添加一条链接,新链接连接节点νx和νy的概率就正比于两节点度的乘积,由此定义两节点间的偏好连接相似性为
sxy=kxky
度差异性表示两个对象在数值上的差异程度,定义为
Figure FDA0002850343800000052
全体邻居是对于网络中的节点νx,定义其邻居集合为Γ(x),则两个节点νx和νy的全体邻居定义为
sxy=|Γ(x)∪Γ(y)|
Katz指标考虑了网络中所有路径,其定义为
Figure FDA0002850343800000053
其中,α>0为控制路径权重的可调参数,
Figure FDA0002850343800000054
表示节点νx和νy的路径中长度为l的路径数,l表示路径长度,取值为1到无穷大,Axy表示邻接矩阵A中节点x和节点y对应的位置,即节点x和节点y之间连边的权重;(A2)xy表示邻接矩阵A的二次方中节点x和节点y对应的位置;(A3)xy表示邻接矩阵A的三次方中节点x和节点y对应的位置。
4.如权利要求1或2所述的基于多元线性回归的餐饮业好友连边影响力预测方法,其特征在于:所述步骤S5中,模型建立,我们这个模型把两个用户共同去过的餐馆数作为因变量,拓扑特征共同邻居CN、余弦相似性Salton、Jaccard、Sorenson、大度节点有利指标HPI、大度节点不利指标HDI、LHN-I、AA、资源分配指标RA、偏好连接相似性PA、度差异性、全体邻居、Katz,和非拓扑特征地理相似度、情感相似度、消费档次相似度、口味相似度作为自变量,借助一般的多元线性回归模型:
y=β01x12x2+...+βpxp+ε,
其中,y为因变量,β0是P个可以精确测量并可控制的自变量,因变量y由两部分决定:一部分是误差项随机变量ε,另一部分是P个自变量的线性函数β01x12x2+...+βpxp,其中x1,x2...,xp是P个未知参数,
β12,...,βp称为回归常数,称为偏回归系数,ε是随机变量。
5.如权利要求1或2所述的基于多元线性回归的餐饮业好友连边影响力预测方法,其特征在于:所述步骤S6中,对模型进行多元线性回归处理,调整后的R平方相比较于R平方,其中,R表示差值et-et-1,更能反映数据的拟合程度,设定60%为拟合程度很高,利用DW来判断正负相关,DW公式为:
Figure FDA0002850343800000071
其中,et的含义是当前自变量,et-1的含义是上一个自变量,t的含义是当前自变量的位置,n的含义是自变量的个数;
DW小于2代表正相关,大于2代表负相关,DW统计量约等于2时表明数据不存在序列相关,即不存在伪回归;利用T的显著性,大于0.05的自变量认为对模型没有显著性影响,其他自变量对模型有显著性影响;对于系数过小的自变量也不进行考虑,得到回归方程。
6.如权利要求1或2所述的基于多元线性回归的餐饮业好友连边影响力预测方法,其特征在于:所述步骤S7中,运行模型,进行共线性诊断,主要看VIF方差扩大因子,若VIF小于5则判断自变量之间不存在共线性,如果两个变量之间存在很强的共线性,则将两个变量整合成一个,因为两个自变量反映的是同一内容,共线性强将会影响矩阵的运算;若VIF大于5则模型存在共线性,需要共线性优化。
7.如权利要求6所述的基于多元线性回归的餐饮业好友连边影响力预测方法,其特征在于:所述步骤S7中,检测多重共线性的方法是:计算模型各自变量之间的相关系数,并对各相关系数进行显著性检验,利用主成分分析处理共线性问题,主成分分析是将共线性强的指标聚合成一个指标,降维并进行因子分析,选取特征值大于1的作为一个主成分,按照60%以上成为一个主成分的要求,只选择一个主成分即可;再次进行多元线性回归并分析相应指标,之后分析残差,若残差不满足要求就转移到步骤S3,重新整理数据。
CN201710127030.2A 2017-03-06 2017-03-06 一种基于多元线性回归的餐饮业好友连边影响力预测方法 Active CN106952167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710127030.2A CN106952167B (zh) 2017-03-06 2017-03-06 一种基于多元线性回归的餐饮业好友连边影响力预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710127030.2A CN106952167B (zh) 2017-03-06 2017-03-06 一种基于多元线性回归的餐饮业好友连边影响力预测方法

Publications (2)

Publication Number Publication Date
CN106952167A CN106952167A (zh) 2017-07-14
CN106952167B true CN106952167B (zh) 2021-04-06

Family

ID=59467290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710127030.2A Active CN106952167B (zh) 2017-03-06 2017-03-06 一种基于多元线性回归的餐饮业好友连边影响力预测方法

Country Status (1)

Country Link
CN (1) CN106952167B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564479B (zh) * 2017-12-20 2022-02-11 重庆邮电大学 一种基于隐链接分析热点话题传播趋势的系统及方法
CN108197795B (zh) * 2017-12-28 2020-11-03 杭州优行科技有限公司 恶意团体账户识别方法、装置、终端及存储介质
CN108768718B (zh) * 2018-05-23 2021-07-20 湖南女子学院 基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质
CN109194509B (zh) * 2018-08-28 2022-03-01 浙江工业大学 一种基于路径强弱关系和社区信息的预测网络连边的方法
CN109245952A (zh) * 2018-11-16 2019-01-18 大连理工大学 一种基于mpa模型的消失链路预测方法
CN110851491B (zh) * 2019-10-17 2023-06-30 天津大学 基于多重邻居节点的多重语义影响的网络链接预测方法
CN111260492A (zh) * 2020-02-18 2020-06-09 上海应用技术大学 基于多元回归分析的社交网络影响因子确定方法及系统
CN112434262A (zh) * 2020-11-22 2021-03-02 同济大学 一种滨水公共空间活力影响因素识别方法及终端
CN112308173B (zh) * 2020-12-28 2021-04-09 平安科技(深圳)有限公司 基于多评价因子融合的多目标对象评价方法及其相关设备
CN116029601B (zh) * 2023-01-17 2024-06-18 浙江警察学院 基于rf-rfecv的交通安全视频宣传效果评价方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317900A (zh) * 2014-10-24 2015-01-28 重庆邮电大学 一种面向社交网络的多属性协同过滤推荐方法
US8965967B2 (en) * 2009-12-23 2015-02-24 The Board Of Trustees Of The University Of Illinois Tie strength prediction and social media filtration
CN105719191A (zh) * 2016-01-20 2016-06-29 东北大学 多尺度空间下不确定行为语义的社交群体发现系统及方法
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
CN106447505A (zh) * 2016-09-26 2017-02-22 浙江工业大学 一种社交网络中有效朋友关系发现的实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965967B2 (en) * 2009-12-23 2015-02-24 The Board Of Trustees Of The University Of Illinois Tie strength prediction and social media filtration
CN104317900A (zh) * 2014-10-24 2015-01-28 重庆邮电大学 一种面向社交网络的多属性协同过滤推荐方法
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
CN105719191A (zh) * 2016-01-20 2016-06-29 东北大学 多尺度空间下不确定行为语义的社交群体发现系统及方法
CN106447505A (zh) * 2016-09-26 2017-02-22 浙江工业大学 一种社交网络中有效朋友关系发现的实现方法

Also Published As

Publication number Publication date
CN106952167A (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
CN106952167B (zh) 一种基于多元线性回归的餐饮业好友连边影响力预测方法
De Winter et al. Combining temporal aspects of dynamic networks with node2vec for a more efficient dynamic link prediction
CN109272228B (zh) 基于科研团队合作网络的科研影响力分析方法
US20180315059A1 (en) Method and system of managing item assortment based on demand transfer
CN105740381B (zh) 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法
Lai et al. Novel personal and group-based trust models in collaborative filtering for document recommendation
Bin et al. Collaborative filtering recommendation algorithm based on multi-relationship social network
Tovar et al. Classifying ports for efficiency benchmarking: A review and a frontier-based clustering approach
CN103795613A (zh) 一种在线社交网络中朋友关系预测的方法
CN106021298B (zh) 一种基于非对称加权相似度的协同过滤推荐方法及系统
Hayden et al. Statistical methods to develop rating models
CN105678590B (zh) 一种面向社交网络基于云模型的topN推荐方法
CN109921921B (zh) 一种时变网络中时效稳定社团的检测方法和装置
CN112115358A (zh) 一种利用知识图谱中多跳路径特征的个性化推荐方法
CN116244513A (zh) 随机群组poi推荐方法、系统、设备及存储介质
CN107239477A (zh) 一种融合空间相关性的地理数据支持向量回归方法
Asgharizadeh et al. An output‐oriented classification of multiple attribute decision‐making techniques based on fuzzy c‐means clustering method
US20170236226A1 (en) Computerized systems, processes, and user interfaces for globalized score for a set of real-estate assets
CN108694234A (zh) 一种基于改进协同过滤算法的服务推荐模型
Khodaygan et al. Fuzzy-based analysis of process capability for assembly quality assessment in mechanical assemblies
CN112989526B (zh) 一种基于核极限学习机的航空网络关键节点识别方法
CN105989005B (zh) 一种信息的推送方法及装置
Yu et al. Link prediction in directed network and its application in microblog
Chen et al. Fast community detection based on distance dynamics
Li et al. Finding Missing Links in Complex Networks: A Multiple‐Attribute Decision‐Making Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant