CN111475738B - 一种基于元路径的异质社交网络位置锚链接识别方法 - Google Patents

一种基于元路径的异质社交网络位置锚链接识别方法 Download PDF

Info

Publication number
CN111475738B
CN111475738B CN202010438360.5A CN202010438360A CN111475738B CN 111475738 B CN111475738 B CN 111475738B CN 202010438360 A CN202010438360 A CN 202010438360A CN 111475738 B CN111475738 B CN 111475738B
Authority
CN
China
Prior art keywords
social network
heterogeneous social
heterogeneous
location
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010438360.5A
Other languages
English (en)
Other versions
CN111475738A (zh
Inventor
王巍
杨武
苘大鹏
玄世昌
吕继光
刘娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010438360.5A priority Critical patent/CN111475738B/zh
Publication of CN111475738A publication Critical patent/CN111475738A/zh
Application granted granted Critical
Publication of CN111475738B publication Critical patent/CN111475738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明属于社交网络实体锚链接识别技术领域,具体涉及一种基于元路径的异质社交网络位置锚链接识别方法。本发明针对位置实体在社交网络中不具有主观能动性,且本身所拥有的链接关系和属性信息不够丰富的场景,基于无监督学习,避免了数据分布不均匀和特征选择等问题,通过利用位置实体在社交网络中的链接关系和属性信息,结合元路径技术并引入少量锚链接用户强化位置锚链接识别效果,通过使用GS算法将位置锚链接识别问题转化为二分图实体匹配问题。

Description

一种基于元路径的异质社交网络位置锚链接识别方法
技术领域
本发明属于社交网络实体锚链接识别技术领域,具体涉及一种基于元路径的异质社交网络位置锚链接识别方法。
背景技术
如今,使用在线社交网络的人越来越多。在线社交网络用户数量的激增也导致网络的爆炸式发展,使得社交网络中的实体种类不断增加。以前,人们使用互联网绝大多数都是通过电脑,现如今,移动智能终端,比如智能手机和平板电脑等的推陈出新使得人们可以随心所欲地使用网络,享受服务,这些设备除了携带方便,使用简单等特点外,还具有识别和标记位置的功能。得益于卫星定位技术和移动智能终端的支撑,基于地理位置服务的社交网络,一经推出,就受到极大的欢迎。国外著名的基于地理位置的社交网络有Foursquare和Gowalla,国内比较著名的基于位置的社交网络有美团和高德地图等。基于地理位置的社交网络为用户提供位置签到、位置分享、景点推荐和路线规划等服务,极大地改变了在线用户的生活方式
Philip S.Yu等人提出利用位置的链接关系和属性信息进行位置锚链接识别,将识别问题转化为联合优化问题。Faruk Polat等人提出基于位置的上下文特征进行位置推荐的算法,通过分析用户签到位置的数据进行位置推荐。朱荣鑫提出将用户对位置的签到次数作为位置评分,利用协同过滤技术进行位置推荐。位置实体不具有主观能动性,在社交网络的实体关系链中处于比较靠后的位置,位置的链接关系一般是由其他实体的某些社交活动引发的,其本身具有的属性信息也相对固定,而且大多数表现出“强一致性,弱差异性”,这比较有利于位置锚链接关系的判定。当前对于位置锚链接的单独研究比较少,大部分的研究都是将位置作为其他实体锚链接识别的强化因素展开的,单独对位置锚链接的研究中,都倾向于对位置的某些固有特征展开分析,忽略了位置与其他实体的联系,导致算法的识别效果不佳。针对异质社交网络中的不同位置实体,锚链接识别问题是在两个或两个以上的网络间,通过分析位置在这些网络中的信息,将现实世界中的同一个具体的地理位置注册全部识别出来,这些对齐的地理位置在不同的网络间满足一对一链接映射关系。
发明内容
本发明的目的在于提供一种基于元路径的异质社交网络位置锚链接识别方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:输入异质社交网络S1和S2;
步骤2:根据元路径
Figure BDA0002503153200000011
Figure BDA0002503153200000012
所表示的网内被签到关系,分别获取两个网络内每个位置符合MP6和MP7的元路径的个数
Figure BDA0002503153200000013
Figure BDA0002503153200000014
步骤3:根据元路径
Figure BDA0002503153200000021
所表示的网间被签到关系,获取位于两个网络中不同位置符合MP8的元路径个数
Figure BDA0002503153200000022
步骤4:获取两个异质社交网络S1和S2中位置实体间基于链接关系的锚链接关系分数矩阵P;所述的矩阵P中元素Pm,n的计算方法为:
Figure BDA0002503153200000023
Figure BDA0002503153200000024
Figure BDA0002503153200000025
Figure BDA0002503153200000026
Figure BDA0002503153200000027
Figure BDA0002503153200000028
Figure BDA0002503153200000029
其中,
Figure BDA00025031532000000210
表示异质社交网络S1中的位置m;
Figure BDA00025031532000000211
表示异质社交网络S2中的位置n;
步骤5:计算位置属性信息相似度矩阵Q;矩阵Q的行和列分别对应着两个不同社交网络中的位置实体,Q中的元素代表四个属性特征相似度之和;矩阵Q中元素Qm,n的计算方法为:
Figure BDA00025031532000000212
其中,
Figure BDA00025031532000000213
为异质社交网络S1和S2的位置名相似度,
Figure BDA00025031532000000214
表示异质社交网络S1中的位置m的位置名的长度,
Figure BDA00025031532000000215
表示异质社交网络S2中的位置n的位置名的长度;
Figure BDA00025031532000000216
为异质社交网络S1和S2的经纬度相似度,
Figure BDA00025031532000000217
表示异质社交网络S1中位置m的经度,
Figure BDA00025031532000000218
表示异质社交网络S2中位置n的经度,
Figure BDA00025031532000000219
表示异质社交网络S1中位置m的纬度,
Figure BDA00025031532000000220
表示异质社交网络S2中位置n的纬度;
Figure BDA00025031532000000221
为异质社交网络S1和S2的文本内容相似度,
Figure BDA00025031532000000222
表示异质社交网络S1中位置m的文本内容,
Figure BDA00025031532000000223
表示异质社交网络S2中位置n的文本内容;
Figure BDA0002503153200000031
为异质社交网络S1和S2基于被标记时间的相似度,
Figure BDA0002503153200000032
表示异质社交网络S1中位置m被签到的时间向量;
Figure BDA0002503153200000033
表示异质社交网络S2中位置n被签到的时间向量;
步骤6:整合锚链接关系分数矩阵P和位置属性信息相似度矩阵Q,得到异质社交网络位置实体间总的相似度矩阵A,矩阵元素记为Am,n
Am,n=Pm,n+Qm,n
步骤7:根据异质社交网络位置实体间总的相似度A为来自两个异质社交网络S1和S2的位置实体建立偏好列表;
矩阵A中的每一个元素映射到GS算法中对应着不同位置实体间的偏好分数;根据异质社交网络S1中的位置m和S2中所有待匹配位置间的偏好分数,按照从大到小的顺序进行排序,从而建立异质社交网络S1和S2的位置实体建立偏好列表;
步骤8:对异质社交网络S1和S2中的位置实体进行匹配,直到所有的位置实体满足一对一关系且全部匹配完成为止,一对一的匹配结果即为位置锚链接关系映射结果;
异质社交网络S1中的所有位置,都根据各自的偏好列表,依次对排在列表首位的S2中的位置发出匹配请求;若被请求的位置实体之前没有接受过任何匹配请求,则接受现在的匹配请求;若被请求的位置实体之前已经接受过匹配请求了,则会将现在的匹配请求和之前接受过的匹配请求根据偏好列表对应的偏好顺序进行比较;若是更偏好之前的请求,则拒绝现在的匹配请求;若是更偏好现在的请求,则放弃之前的匹配实体,选择现在的匹配请求对应的位置实体建立匹配关系。
本发明还可以包括:
所述的步骤5中异质社交网络S1和S2的位置名相似度
Figure BDA0002503153200000034
的计算方法为:
Figure BDA0002503153200000035
Figure BDA0002503153200000036
其中,表示两个位置名上匹配的字符数,等于匹配的字符中出现换位数的一半;表示两个位置名的公共前缀长度。
所述的步骤5中异质社交网络S1和S2的经纬度相似度
Figure BDA0002503153200000037
的计算方法为:
Figure BDA0002503153200000041
所述的步骤5中异质社交网络S1和S2的文本内容相似度
Figure BDA0002503153200000042
的具体计算步骤为:
步骤5.1:分别统计位置m和位置n处所有的文本内容,对各自的文本内容进行分词操作,获取文本内容的所有特征词,将每个特征词的TF-IDF值作为该词的权重;
步骤5.2:通过MD5_hash算法分别计算位置m和位置n各自的所有特征词的哈希值;
步骤5.3:将位置m和位置n各自的所有特征词的哈希值和该词的权重相乘,得到每个特征词的加权哈希值;若哈希值中的位值为1,则乘积为正值;若哈希值中的位值为0,则乘积为负值;
步骤5.4:分别对位置m和位置n的所有特征词的加权哈希值进行累加,累加结果中大于0的数值记为1,小于0的数值记为0,分别得到两个位置文本内容的指纹签名,记为
Figure BDA0002503153200000043
Figure BDA0002503153200000044
步骤5.5:计算两个位置文本内容的指纹签名的汉明距离;
Figure BDA0002503153200000045
步骤5.6:根据汉明距离计算异质社交网络S1中的位置m和S2中的位置n的文本内容相似度
Figure BDA0002503153200000046
Figure BDA0002503153200000047
所述的步骤5中异质社交网络S1和S2基于被标记时间的相似度
Figure BDA0002503153200000048
的计算方法为:
Figure BDA0002503153200000049
Figure BDA00025031532000000410
Figure BDA00025031532000000411
其中,
Figure BDA00025031532000000412
为异质社交网络S1中的位置m在第i个区间被签到的相对频率;
Figure BDA00025031532000000413
为异质社交网络S2中的位置n在第i个区间被签到的相对频率;
Figure BDA00025031532000000414
Figure BDA0002503153200000051
其中,采用24小时制,将24个小时分为8个区间,每个区间为3个小时;
Figure BDA0002503153200000052
为异质社交网络S1中的位置m在第i个区间被用户标记的次数;
Figure BDA0002503153200000053
为异质社交网络S1中的位置m在第i个区间被用户标记的次数。
本发明的有益效果在于:
本发明针对位置实体在社交网络中不具有主观能动性,且本身所拥有的链接关系和属性信息不够丰富的场景,提出了一种基于元路径的异质社交网络位置锚链接识别方法。本发明基于无监督学习,避免了数据分布不均匀和特征选择等问题,通过利用位置实体在社交网络中的链接关系和属性信息,结合元路径技术并引入少量锚链接用户强化位置锚链接识别效果,通过使用GS算法将位置锚链接识别问题转化为二分图实体匹配问题。
附图说明
图1是位置中心社交网络示意图。
图2是锚链接用户签到位置关系示意图。
图3是本发明的核心匹配流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
图1表示位置中心社交网络示意图,以位置为中心,表明了位置所具有的几个主要属性信息,包括位置名、位置的经纬度信息、位置被标记的时间戳和位置处的文本内容。同时,也表明了位置被用户签到的链接关系。图2表示锚链接用户签到位置关系示意图,利用位置被用户签到这一链接关系,对于两个社交网络中的不同位置,已知签到这两个位置的用户是锚链接关系,则两个位置也可能为锚链接关系。网络S1中的用户C和网络S2中的用户c是锚链接关系,则S1和S2中分别被C和c签到的两个位置间也可能是锚链接关系。本发明提出一种基于元路径的异质社交网络位置锚链接识别算法,通过利用位置的链接关系和属性信息,结合元路径技术,将两个社交网络中的对齐地理位置识别出来。图3是本发明提出的一种基于元路径的异质社交网络位置锚链接识别方法的核心匹配流程。
本发明的实现步骤:
1、对于异质社交网络S1和S2
2、根据元路径
Figure BDA0002503153200000054
Figure BDA0002503153200000055
所表示的网内被签到关系,分别在两个网络内,通过邻接矩阵相乘的元路径计数方法,分别得到两个网络内每个位置符合MP6和MP7的元路径个数
Figure BDA0002503153200000061
Figure BDA0002503153200000062
3、根据元路径
Figure BDA0002503153200000063
所表示的网间被签到关系,通过邻接矩阵相乘的元路径计数方法,得到位于两个网络中不同位置符合MP8的元路径个数
Figure BDA0002503153200000064
4、使用不同的指标衡量
Figure BDA0002503153200000065
相对于
Figure BDA0002503153200000066
Figure BDA0002503153200000067
的大小,得到两个异质社交网络S1和S2中位置实体间基于链接关系的锚链接关系分数矩阵P。
5、使用不同的相似度衡量方法获取位置名、位置经纬度信息、位置处的文本内容以及位置被签到的时间戳这四个方面的属性特征的相似度,得到位置属性信息相似度矩阵Q。
6、整合基于链接关系的锚链接关系分数矩阵P和位置属性信息相似度矩阵Q这两个部分,得到异质社交网络位置实体间总的相似度矩阵A。根据矩阵A为来自两个异质社交网络的位置实体建立偏好列表。
7、使用GS算法对两个网络中的位置实体进行匹配,直到所有的位置实体满足一对一关系且全部匹配完成为止,一对一的匹配结果即为位置锚链接关系映射结果。
本发明针对位置实体在社交网络中不具有主观能动性,本身所拥有的链接关系和属性信息不够丰富的场景,提出了一种基于元路径的异质社交网络位置锚链接识别方法。本发明基于无监督学习,避免了数据分布不均匀和特征选择等问题,通过利用位置实体在社交网络中的链接关系和属性信息,结合元路径技术并引入少量锚链接用户强化位置锚链接识别效果,通过使用GS算法将位置锚链接识别问题转化为二分图实体匹配问题。
1、本方案涉及一些定义,异质社交网络S1中的位置i和S2中的位置j,分别表示为
Figure BDA0002503153200000068
Figure BDA0002503153200000069
和位置相关的属性信息集表示为:Attr=h∪t∪n∪c,其中h表示位置的经纬度信息,lng表示经度,lat表示纬度;t表示位置被标记的时间戳;n表示位置名;c表示位置处的文本内容。
Figure BDA00025031532000000610
表示异质社交网络S1中位置i的位置名、
Figure BDA00025031532000000611
表示异质社交网络S1中位置i的经纬度、
Figure BDA00025031532000000612
表示异质社交网络S1中位置i的经度、
Figure BDA00025031532000000613
表示异质社交网络S1中位置i的纬度、
Figure BDA00025031532000000614
表示异质社交网络S1中位置i的文本内容、
Figure BDA00025031532000000615
表示异质社交网络S1中位置i被签到的时间向量。
2、根据元路径
Figure BDA00025031532000000616
所表示的网内被签到关系,分别对两个网络S1和S2内的位置进行被签到关系的判定,对每一个待判定的位置使用邻接矩阵相乘的元路径计数方法,分别获取两个网络内每个位置符合MP6和MP7所定义的元路径的个数
Figure BDA0002503153200000071
Figure BDA0002503153200000072
表示位置实体的“网内邻居”数。
3、根据元路径
Figure BDA0002503153200000073
所表示的网间被签到关系,借助少量锚链接用户将位于不同网络内的位置联系起来,对位于两个不同网络内的具体位置,判断两个位置间是否被锚链接用户签到,并采用相同的元路径计数方法获取两个位置符合MP8的元路径个数
Figure BDA0002503153200000074
表示位置实体的“网间共同邻居数”。
4、利用Salton指标衡量位置实体的“网间共同邻居数”相对于“网内邻居”数的相对大小。
Figure BDA0002503153200000075
5、利用Jaccard指标衡量位置实体的“网间共同邻居数”相对于“网内邻居”数的相对大小。
Figure BDA0002503153200000076
6、利用Sorenson指标衡量位置实体的“网间共同邻居数”相对于“网内邻居”数的相对大小。
Figure BDA0002503153200000077
7、利用HP指标衡量位置实体的“网间共同邻居数”相对于“网内邻居”数的相对大小。
Figure BDA0002503153200000078
8、利用HD指标衡量位置实体的“网间共同邻居数”相对于“网内邻居”数的相对大小。
Figure BDA0002503153200000079
9、利用LHN指标衡量位置实体的“网间共同邻居数”相对于“网内邻居”数的相对大小。
Figure BDA00025031532000000710
10、将以上六个指标得到的值累加,可以得到两个异质社交网络S1和S2中位置实体间基于链接关系的锚链接关系分数矩阵P,矩阵的行和列分别表示S1和S2中的位置,矩阵中的元素对应两个位置间基于“网间共同邻居”的锚链接分数。
Figure BDA0002503153200000081
11、针对位置的位置名,使用Jaro-Winkler相似度来衡量不同位置间位置名的相似度,对于异质社交网络S1中的位置m和S2中的位置n,位置名相似度记为
Figure BDA0002503153200000082
g表示两个位置名上匹配的字符数,h等于匹配的字符中出现换位数的一半,
Figure BDA0002503153200000083
Figure BDA0002503153200000084
分别表示位置名的长度,l表示两个位置名的公共前缀长度。
Figure BDA0002503153200000085
Figure BDA0002503153200000086
12、针对位置的经纬度信息,使用基于经纬度的相似度计算方法计算相似度,对于异质社交网络S1中的位置m和S2中的位置n,将两者的经纬度相似度记为
Figure BDA0002503153200000087
Figure BDA0002503153200000088
13、针对位置处的文本内容信息,对位置间文本内容相似度的判定使用Simhash算法和汉明距离结合的方法。对于异质社交网络S1中的位置m和S2中的位置n,两者的文本内容相似度表示为
Figure BDA0002503153200000089
(1)分别统计位置m和位置n处所有的文本内容,对各自的文本内容进行分词操作,获取文本内容的所有特征词,将每个特征词的TF-IDF值作为该词的权重。
(2)通过MD5_hash算法分别计算位置m和位置n各自的所有特征词的哈希值,得到每个特征词的哈希值,哈希值是128位二进制比特串。
(3)将位置m和位置n各自的所有特征词的哈希值和该词的权重相乘,哈希值中的位值为1,则乘积为正值;若位值为0,则乘积为负值,得到每个特征词的加权哈希值。
(4)分别对位置m和位置n的所有特征词的加权哈希值进行累加,累加结果中大于0的数值记为1,小于0的数值记为0,分别得到两个位置文本内容的指纹签名,该签名是是128位二进制比特串,记为
Figure BDA0002503153200000091
Figure BDA0002503153200000092
(5)计算两个位置文本内容签名的汉明距离。
Figure BDA0002503153200000093
(6)根据汉明距离计算文本内容相似度。
Figure BDA0002503153200000094
14、针对位置被签到的时间,采用24小时制,将24个小时分为8个区间,每个区间为3个小时,分别以6点到9点作为一个区间,9点到12点作为一个区间,以此类推。对每一个位置,统计其在每个区间内被用户签到的次数,再将该值除以该位置一天被用户签到的总次数,得到位置在该区间被签到的相对频率。对于异质社交网络S1中的位置m,假设其在第i个区间被用户标记的次数为k,记为
Figure BDA0002503153200000095
则其在第i个区间被签到的相对频率
Figure BDA0002503153200000096
Figure BDA0002503153200000097
对不同区间都按以上公式进行计算,最终得到S1中位置m被标记的时间向量
Figure BDA0002503153200000098
长度为8。
Figure BDA0002503153200000099
对于异质社交网络S1中的位置m和S2中的位置n,分别计算得到各自被签到的时间向量
Figure BDA00025031532000000910
Figure BDA00025031532000000911
再使用内积计算两个向量之间的相似度,位置m和n基于被标记时间的相似度
Figure BDA00025031532000000912
Figure BDA00025031532000000913
15、综合以上四个方面,从位置的不同属性信息刻画两个异质社交网络位置实体间的相似度,最终可以得到位置属性信息相似度矩阵Q,矩阵的行和列分别对应着两个不同社交网络中的位置实体,Q中的元素代表四个属性特征相似度之和。对于异质社交网络S1中的位置m和S2中的位置n,矩阵元素记为Qm,n
Figure BDA0002503153200000101
16、整合位置的链接关系和属性信息这两个部分,得到异质社交网络位置实体间总的相似度矩阵A,A的规模和矩阵P,Q一致,并且A中的元素是P和Q中对应元素之和。
Am,n=Pm,n+Qm,n (17)
17、矩阵A中的每一个表示位置间相似度分数的元素映射到GS算法中,对应着不同位置实体间的偏好分数,根据偏好分数,可以为来自两个异质社交网络的位置实体建立偏好列表。社交网络S1中的位置m,可以根据其和社交网络S2中所有待匹配位置间的偏好分数,按照从大到小的顺序进行排序,对应数值大的待匹配位置就排在
Figure BDA0002503153200000102
偏好列表的前面,对应数值小的就排在列表的靠后位置。
18、社交网络S1中的所有位置,都根据各自的偏好列表,依次对排在列表首位的S2中的位置发出匹配请求。这时,会出现两种情况。第一种,被请求的位置实体之前没有接受过任何匹配请求,则接受现在的匹配请求。第二种,被请求的位置实体之前已经接受过匹配请求了,则会将现在的匹配请求和之前接受过的匹配请求,根据偏好列表对应的偏好顺序进行比较,若是更偏好之前的请求,则拒绝现在的匹配请求;若是更偏好现在的请求,则放弃之前的匹配实体,选择现在的匹配请求对应的位置实体建立匹配关系。
19、第一轮匹配结束之后,社交网络S1中的位置,有的已经和S2中的位置实体建立好一对一匹配关系,有的则没有。紧接着,进入第二轮匹配。社交网络S1中还没有建立匹配关系的实体,根据偏好列表的顺序选择之前没有拒绝过它的S2中的位置发出匹配请求,不管这个位置是否已经匹配完成。此时,依旧会出现上面说的两种情况,还是同样的解决方法。
20、以此类推,按照这种匹配方法一直循环下去,直到社交网络S1中的所有位置实体都已建立和网络S2中位置实体的一对一匹配关系为止,这种一对一的匹配关系就映射为两个异质社交网络位置实体间一对一的锚链接关系。结合图3的位置锚链接识别算法核心匹配流程图,可以更加清楚地了解该匹配过程。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于元路径的异质社交网络位置锚链接识别方法,其特征在于,包括以下步骤:
步骤1:输入异质社交网络S1和S2;
步骤2:根据元路径
Figure FDA0002503153190000011
Figure FDA0002503153190000012
所表示的网内被签到关系,分别获取两个网络内每个位置符合MP6和MP7的元路径的个数
Figure FDA0002503153190000013
Figure FDA0002503153190000014
步骤3:根据元路径
Figure FDA0002503153190000015
所表示的网间被签到关系,获取位于两个网络中不同位置符合MP8的元路径个数
Figure FDA0002503153190000016
步骤4:获取两个异质社交网络S1和S2中位置实体间基于链接关系的锚链接关系分数矩阵P;所述的矩阵P中元素Pm,n的计算方法为:
Figure FDA0002503153190000017
Figure FDA0002503153190000018
Figure FDA0002503153190000019
Figure FDA00025031531900000110
Figure FDA00025031531900000111
Figure FDA00025031531900000112
Figure FDA00025031531900000113
其中,
Figure FDA00025031531900000114
表示异质社交网络S1中的位置m;
Figure FDA00025031531900000115
表示异质社交网络S2中的位置n;
步骤5:计算位置属性信息相似度矩阵Q;矩阵Q的行和列分别对应着两个不同社交网络中的位置实体,Q中的元素代表四个属性特征相似度之和;矩阵Q中元素Qm,n的计算方法为:
Figure FDA00025031531900000116
其中,
Figure FDA00025031531900000117
为异质社交网络S1和S2的位置名相似度,
Figure FDA00025031531900000118
表示异质社交网络S1中的位置m的位置名的长度,
Figure FDA00025031531900000119
表示异质社交网络S2中的位置n的位置名的长度;
Figure FDA0002503153190000021
为异质社交网络S1和S2的经纬度相似度,
Figure FDA0002503153190000022
表示异质社交网络S1中位置m的经度,
Figure FDA0002503153190000023
表示异质社交网络S2中位置n的经度,
Figure FDA0002503153190000024
表示异质社交网络S1中位置m的纬度,
Figure FDA0002503153190000025
表示异质社交网络S2中位置n的纬度;
Figure FDA0002503153190000026
为异质社交网络S1和S2的文本内容相似度,
Figure FDA0002503153190000027
表示异质社交网络S1中位置m的文本内容,
Figure FDA0002503153190000028
表示异质社交网络S2中位置n的文本内容;
Figure FDA0002503153190000029
为异质社交网络S1和S2基于被标记时间的相似度,
Figure FDA00025031531900000210
表示异质社交网络S1中位置m被签到的时间向量;
Figure FDA00025031531900000211
表示异质社交网络S2中位置n被签到的时间向量;
步骤6:整合锚链接关系分数矩阵P和位置属性信息相似度矩阵Q,得到异质社交网络位置实体间总的相似度矩阵A,矩阵元素记为Am,n
Am,n=Pm,n+Qm,n
步骤7:根据异质社交网络位置实体间总的相似度A为来自两个异质社交网络S1和S2的位置实体建立偏好列表;
矩阵A中的每一个元素映射到GS算法中对应着不同位置实体间的偏好分数;根据异质社交网络S1中的位置m和S2中所有待匹配位置间的偏好分数,按照从大到小的顺序进行排序,从而建立异质社交网络S1和S2的位置实体建立偏好列表;
步骤8:对异质社交网络S1和S2中的位置实体进行匹配,直到所有的位置实体满足一对一关系且全部匹配完成为止,一对一的匹配结果即为位置锚链接关系映射结果;
异质社交网络S1中的所有位置,都根据各自的偏好列表,依次对排在列表首位的S2中的位置发出匹配请求;若被请求的位置实体之前没有接受过任何匹配请求,则接受现在的匹配请求;若被请求的位置实体之前已经接受过匹配请求了,则会将现在的匹配请求和之前接受过的匹配请求根据偏好列表对应的偏好顺序进行比较;若是更偏好之前的请求,则拒绝现在的匹配请求;若是更偏好现在的请求,则放弃之前的匹配实体,选择现在的匹配请求对应的位置实体建立匹配关系。
2.根据权利要求1所述的一种基于元路径的异质社交网络位置锚链接识别方法,其特征在于:所述的步骤5中异质社交网络S1和S2的位置名相似度
Figure FDA00025031531900000212
的计算方法为:
Figure FDA00025031531900000213
Figure FDA0002503153190000031
其中,g表示两个位置名上匹配的字符数,h等于匹配的字符中出现换位数的一半;l表示两个位置名的公共前缀长度。
3.根据权利要求1或2所述的一种基于元路径的异质社交网络位置锚链接识别方法,其特征在于:所述的步骤5中异质社交网络S1和S2的经纬度相似度
Figure FDA0002503153190000032
的计算方法为:
Figure FDA0002503153190000033
4.根据权利要求1或2所述的一种基于元路径的异质社交网络位置锚链接识别方法,其特征在于:所述的步骤5中异质社交网络S1和S2的文本内容相似度
Figure FDA0002503153190000034
的具体计算步骤为:
步骤5.1:分别统计位置m和位置n处所有的文本内容,对各自的文本内容进行分词操作,获取文本内容的所有特征词,将每个特征词的TF-IDF值作为该词的权重;
步骤5.2:通过MD5_hash算法分别计算位置m和位置n各自的所有特征词的哈希值;
步骤5.3:将位置m和位置n各自的所有特征词的哈希值和该词的权重相乘,得到每个特征词的加权哈希值;若哈希值中的位值为1,则乘积为正值;若哈希值中的位值为0,则乘积为负值;
步骤5.4:分别对位置m和位置n的所有特征词的加权哈希值进行累加,累加结果中大于0的数值记为1,小于0的数值记为0,分别得到两个位置文本内容的指纹签名,记为
Figure FDA0002503153190000035
Figure FDA0002503153190000036
步骤5.5:计算两个位置文本内容的指纹签名的汉明距离;
Figure FDA0002503153190000037
步骤5.6:根据汉明距离计算异质社交网络S1中的位置m和S2中的位置n的文本内容相似度
Figure FDA0002503153190000038
Figure FDA0002503153190000039
5.根据权利要求3所述的一种基于元路径的异质社交网络位置锚链接识别方法,其特征在于:所述的步骤5中异质社交网络S1和S2的文本内容相似度
Figure FDA0002503153190000041
的具体计算步骤为:
步骤5.1:分别统计位置m和位置n处所有的文本内容,对各自的文本内容进行分词操作,获取文本内容的所有特征词,将每个特征词的TF-IDF值作为该词的权重;
步骤5.2:通过MD5_hash算法分别计算位置m和位置n各自的所有特征词的哈希值;
步骤5.3:将位置m和位置n各自的所有特征词的哈希值和该词的权重相乘,得到每个特征词的加权哈希值;若哈希值中的位值为1,则乘积为正值;若哈希值中的位值为0,则乘积为负值;
步骤5.4:分别对位置m和位置n的所有特征词的加权哈希值进行累加,累加结果中大于0的数值记为1,小于0的数值记为0,分别得到两个位置文本内容的指纹签名,记为
Figure FDA0002503153190000042
Figure FDA0002503153190000043
步骤5.5:计算两个位置文本内容的指纹签名的汉明距离;
Figure FDA0002503153190000044
步骤5.6:根据汉明距离计算异质社交网络S1中的位置m和S2中的位置n的文本内容相似度
Figure FDA0002503153190000045
Figure FDA0002503153190000046
6.根据权利要求1或2所述的一种基于元路径的异质社交网络位置锚链接识别方法,其特征在于:所述的步骤5中异质社交网络S1和S2基于被标记时间的相似度
Figure FDA0002503153190000047
的计算方法为:
Figure FDA0002503153190000048
Figure FDA0002503153190000049
Figure FDA00025031531900000410
其中,
Figure FDA00025031531900000411
为异质社交网络S1中的位置m在第i个区间被签到的相对频率;
Figure FDA00025031531900000412
为异质社交网络S2中的位置n在第i个区间被签到的相对频率;
Figure FDA00025031531900000413
Figure FDA0002503153190000051
其中,采用24小时制,将24个小时分为8个区间,每个区间为3个小时;
Figure FDA0002503153190000052
为异质社交网络S1中的位置m在第i个区间被用户标记的次数;
Figure FDA0002503153190000053
为异质社交网络S2 中的位置n 在第i个区间被用户标记的次数。
7.根据权利要求3所述的一种基于元路径的异质社交网络位置锚链接识别方法,其特征在于:所述的步骤5中异质社交网络S1和S2基于被标记时间的相似度
Figure FDA0002503153190000054
的计算方法为:
Figure FDA0002503153190000055
Figure FDA0002503153190000056
Figure FDA0002503153190000057
其中,
Figure FDA0002503153190000058
为异质社交网络S1中的位置m在第i个区间被签到的相对频率;
Figure FDA0002503153190000059
为异质社交网络S2中的位置n在第i个区间被签到的相对频率;
Figure FDA00025031531900000510
Figure FDA00025031531900000511
其中,采用24小时制,将24个小时分为8个区间,每个区间为3个小时;
Figure FDA00025031531900000512
为异质社交网络S1中的位置m在第i个区间被用户标记的次数;
Figure FDA00025031531900000513
为异质社交网络S2 中的位置n 在第i个区间被用户标记的次数。
8.根据权利要求4所述的一种基于元路径的异质社交网络位置锚链接识别方法,其特征在于:所述的步骤5中异质社交网络S1和S2基于被标记时间的相似度
Figure FDA00025031531900000514
的计算方法为:
Figure FDA00025031531900000515
Figure FDA00025031531900000516
Figure FDA00025031531900000517
其中,
Figure FDA0002503153190000061
为异质社交网络S1中的位置m在第i个区间被签到的相对频率;
Figure FDA0002503153190000062
为异质社交网络S2中的位置n在第i个区间被签到的相对频率;
Figure FDA0002503153190000063
Figure FDA0002503153190000064
其中,采用24小时制,将24个小时分为8个区间,每个区间为3个小时;
Figure FDA0002503153190000065
为异质社交网络S1中的位置m在第i个区间被用户标记的次数;
Figure FDA0002503153190000066
为异质社交网络S2 中的位置n 在第i个区间被用户标记的次数。
9.根据权利要求5所述的一种基于元路径的异质社交网络位置锚链接识别方法,其特征在于:所述的步骤5中异质社交网络S1和S2基于被标记时间的相似度
Figure FDA0002503153190000067
的计算方法为:
Figure FDA0002503153190000068
Figure FDA0002503153190000069
Figure FDA00025031531900000610
其中,
Figure FDA00025031531900000611
为异质社交网络S1中的位置m在第i个区间被签到的相对频率;
Figure FDA00025031531900000612
为异质社交网络S2中的位置n在第i个区间被签到的相对频率;
Figure FDA00025031531900000613
Figure FDA00025031531900000614
其中,采用24小时制,将24个小时分为8个区间,每个区间为3个小时;
Figure FDA00025031531900000615
为异质社交网络S1中的位置m在第i个区间被用户标记的次数;
Figure FDA00025031531900000616
为异质社交网络S2 中的位置n 在第i个区间被用户标记的次数。
CN202010438360.5A 2020-05-22 2020-05-22 一种基于元路径的异质社交网络位置锚链接识别方法 Active CN111475738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010438360.5A CN111475738B (zh) 2020-05-22 2020-05-22 一种基于元路径的异质社交网络位置锚链接识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010438360.5A CN111475738B (zh) 2020-05-22 2020-05-22 一种基于元路径的异质社交网络位置锚链接识别方法

Publications (2)

Publication Number Publication Date
CN111475738A CN111475738A (zh) 2020-07-31
CN111475738B true CN111475738B (zh) 2022-05-17

Family

ID=71764699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010438360.5A Active CN111475738B (zh) 2020-05-22 2020-05-22 一种基于元路径的异质社交网络位置锚链接识别方法

Country Status (1)

Country Link
CN (1) CN111475738B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101321190A (zh) * 2008-07-04 2008-12-10 清华大学 一种异构网络中的推荐方法及推荐系统
CN107330020A (zh) * 2017-06-20 2017-11-07 电子科技大学 一种基于结构和属性相似度的用户实体解析方法
CN107480714A (zh) * 2017-08-09 2017-12-15 东北大学 基于全视角特征的跨社交网络用户识别方法
CN108268762A (zh) * 2018-01-17 2018-07-10 同济大学 基于行为建模的移动社交网络用户身份识伪方法
CN108573062A (zh) * 2018-04-27 2018-09-25 山东理工大学 一种基于异构社交关系的个性化推荐方法
CN109635201A (zh) * 2018-12-18 2019-04-16 苏州大学 异质社交网络跨平台关联用户账户挖掘方法
CN109949174A (zh) * 2019-03-14 2019-06-28 哈尔滨工程大学 一种异构社交网络用户实体锚链接识别方法
CN110097125A (zh) * 2019-05-07 2019-08-06 郑州轻工业学院 一种基于嵌入表示的跨网络账户关联方法
CN110134883A (zh) * 2019-04-22 2019-08-16 哈尔滨英赛克信息技术有限公司 一种异构社交网络位置实体锚链接识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1825430A4 (en) * 2004-10-19 2009-08-26 Yahoo Inc SYSTEM AND METHOD FOR PERSONAL NETWORKING BASED ON LOCATION
US20120109752A1 (en) * 2009-08-19 2012-05-03 Vitrue, Inc. Systems and methods for delivering targeted content to a consumer's mobile device based on the consumer's physical location and social media memberships

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101321190A (zh) * 2008-07-04 2008-12-10 清华大学 一种异构网络中的推荐方法及推荐系统
CN107330020A (zh) * 2017-06-20 2017-11-07 电子科技大学 一种基于结构和属性相似度的用户实体解析方法
CN107480714A (zh) * 2017-08-09 2017-12-15 东北大学 基于全视角特征的跨社交网络用户识别方法
CN108268762A (zh) * 2018-01-17 2018-07-10 同济大学 基于行为建模的移动社交网络用户身份识伪方法
CN108573062A (zh) * 2018-04-27 2018-09-25 山东理工大学 一种基于异构社交关系的个性化推荐方法
CN109635201A (zh) * 2018-12-18 2019-04-16 苏州大学 异质社交网络跨平台关联用户账户挖掘方法
CN109949174A (zh) * 2019-03-14 2019-06-28 哈尔滨工程大学 一种异构社交网络用户实体锚链接识别方法
CN110134883A (zh) * 2019-04-22 2019-08-16 哈尔滨英赛克信息技术有限公司 一种异构社交网络位置实体锚链接识别方法
CN110097125A (zh) * 2019-05-07 2019-08-06 郑州轻工业学院 一种基于嵌入表示的跨网络账户关联方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
《Meta-Path-Based Search and Mining in Heterogeneous Information Networks》;Yizhou Sun 等;《清华大学学报自然科学版(英文版)》;20130831;第18卷(第04期);329-338 *
《异构社交网络实体锚链接识别关键技术研究》;杨帆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200315(第03(2020)期);I139-153 *
USNC/URSI National Radio Science Meeting》.2018,1507-1508. *
wei wang 等.Miniaturized Antenna with High Gain and Low Side-Lobe for Automotive Anti-Collision Radar.《2018 IEEE International Symposium on Antennas and Propagation &amp *
一种基于最大公共子图的社交网络对齐方法;冯朔 等;《软件学报》;20190731;第30卷(第7期);2175-2187 *
基于元路径的对齐异构社交网络中的链路预测;尹劼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第03(2017)期);I139-376 *
基于多源异构数据融合的社交网络链路数据预测研究;吴帮莹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20191215(第12(2019)期);I139-95 *

Also Published As

Publication number Publication date
CN111475738A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN109977283B (zh) 一种基于知识图谱和用户足迹的旅游推荐方法和系统
Ying et al. Mining user similarity from semantic trajectories
CN108154425B (zh) 一种结合社会网络和位置的线下商户推荐方法
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN109145245A (zh) 预测点击率的方法、装置、计算机设备及存储介质
CN103064924A (zh) 一种基于地理标注照片挖掘的旅游地点情境化推荐方法
CN112836139B (zh) 融合用户特征和嵌入学习的跨社交网络用户身份关联方法
CN113095948B (zh) 一种基于图神经网络的多源异构网络用户对齐方法
CN110134883B (zh) 一种异构社交网络位置实体锚链接识别方法
Liu et al. Where your photo is taken: Geolocation prediction for social images
CN114048340B (zh) 一种层级融合的组合查询图像检索方法
Bergman et al. Conflation of OpenStreetMap and mobile sports tracking data for automatic bicycle routing
CN111723959A (zh) 区域的划分方法、装置、存储介质及电子装置
CN115422441A (zh) 一种基于社交时空信息与用户偏好的连续兴趣点推荐方法
Song et al. Personalized POI recommendation based on check-in data and geographical-regional influence
CN110781256A (zh) 基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置
CN111475739A (zh) 一种基于元路径的异质社交网络用户锚链接识别方法
CN111475738B (zh) 一种基于元路径的异质社交网络位置锚链接识别方法
JP7092194B2 (ja) 情報処理装置、判定方法、及びプログラム
CN116823535B (zh) 一种基于多模态大模型的行程规划及智能导览系统
CN109885797B (zh) 一种基于多身份空间映射的关系网络构建方法
CN115408618B (zh) 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法
CN109919459B (zh) 一种面向社交网络对象间影响力度量的方法
CN111143454A (zh) 一种文本输出方法、装置及可读存储介质
Sun et al. Mapping users across social media platforms by integrating text and structure information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant