CN107194560A - Lbsn中基于好友聚类的社交搜索评价方法 - Google Patents
Lbsn中基于好友聚类的社交搜索评价方法 Download PDFInfo
- Publication number
- CN107194560A CN107194560A CN201710335698.6A CN201710335698A CN107194560A CN 107194560 A CN107194560 A CN 107194560A CN 201710335698 A CN201710335698 A CN 201710335698A CN 107194560 A CN107194560 A CN 107194560A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- social
- search
- msup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 46
- 230000000694 effects Effects 0.000 claims abstract description 16
- 238000013461 design Methods 0.000 claims abstract description 10
- 230000002411 adverse Effects 0.000 claims abstract description 5
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012417 linear regression Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 4
- 238000011524 similarity measure Methods 0.000 claims description 4
- 230000036461 convulsion Effects 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 10
- 239000012141 concentrate Substances 0.000 abstract description 2
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了LBSN中一种基于好友聚类的社交搜索评价方法。从Foursquare真实数据集中提取基于位置信息和联系人信息等多维特征,提出基于好友聚类的KNN搜索算法,设计基于倒排索引的搜索引擎,结合距离等因素使搜索结果更加精确、搜索速度得到提升。为使搜索结果更加精确,首先,在研究用户好友的基础上,对好友进行聚类。由于LBSN属于异构网络,数据集比较稀疏,通过聚类可以使数据更加稠密,消除奇异点,降低因数据稀疏导致的不利影响;其次,搜索算法的设计上,在考虑了传统社交影响力的基础上,增加了专业相关度和距离远近两个指标,即综合搜索得分、社交得分和距离得分。最后,综合三个指标构建并训练线性规划模型得到搜索结果,使得搜索结果是用户满意的。
Description
技术领域
本发明涉及一种评价方法,具体涉及一种LBSN中基于好友聚类的社交搜索评价方法,属于社交搜索技术领域。
背景技术
在线社交网络(OSNs)的发展给人们的日常生活带来了极大的便利,如今每天有多达数十亿的用户活跃在OSNs上,产生了大量的社交信息。渐渐地,人们更喜欢通过OSNs搜索信息而不是传统的搜索引擎,社交搜索便应运而生。由于传统搜索方式有查准率低,用户筛选时间长,搜索结果一致化等缺点,在用户个性化搜索的背景下,社交搜索依托于传统的搜索原理,结合用户的社交信息,可以产生个性化的搜索结果,提高搜索精度。特别是基于位置的社交网络(LBSNs)的出现,在移动电话等移动设备和GPS、WiFi等移动技术的支持下,为社交搜索的移动化研究提供了重要的研究平台。
LBSN平台上对社交搜索的研究成果很少,对社交搜索的研究主要在两方面:设计搜索引擎和改进搜索算法。虽然现有研究都在充分挖掘LBSNs提供的联系人信息和位置信息,不过依然有很多不足之处。有的研究更注重搜索速度的提升,通过改进索引结构提高搜索速度,忽视了数据集的稀疏问题,进而影响了搜索精度;有的研究分析位置点上发生的具体事件,比如地震,火灾等,实现对特定位置点发生的事件的搜索,但缺少搜索对象领域的广泛化,领域比较单一,不能较好满足现实需求;有的研究由于评价方法如相似度度量标准主观且社交搜索系统的负载过大,导致搜索效果仍有提高的空间。
发明内容
本发明正是针对现有技术中存在的技术问题,提供一种LBSN中基于好友聚类的社交搜索评价方法,该技术方案在于通过设计基于位置信息和联系人信息等多维特征,提出基于好友聚类的KNN搜索算法,设计基于倒排索引的搜索引擎,结合距离等因素使搜索结果更加精确、搜索速度得到提升。其中,搜索算法综合考虑了三种排序得分:搜索得分即基于专业相关性的位置排序、社交得分即基于社交影响力的位置排序、空间得分即基于距离远近的位置排序。
为了实现上述目的,本发明的技术方案如下,一种LBSN中基于好友聚类的社交搜索评价方法,其特征在于,所述评价方法包括以下步骤,1)爬取的Foursquare真实数据集中有联系人信息和位置信息,通过对数据的统计与分析,提取出联系人特征、签到特征、评价特征和时间特征,共15种数据类型,包括用户ID、好友ID、签到ID、签到位置描述、签到发生时区、签到位置ID、签到位置经纬度、签到位置名称、签到位置的类型ID、签到位置的类型名称、签到发生时间、评价文本ID、评价文本内容、评价发生时间,构建社交搜索模型并给出形式化描述,筛选发生在纽约的数据集,这种方法同样适用于其他城市;
2)从步骤1)处理好的数据集中提取位置名称、位置类型、位置描述三种数据类型,构建“位置名称-文档”式倒排索引,在此基础上,基于Lucene技术构建社交搜索引擎;
3)线上部分设计搜索算法,在基于搜索得分的位置排序部分,搜索用户输入搜索内容,经语义分词产生话题,与步骤2倒排索引中的文档进行相似度匹配,根据专业相关性得分索引出备选位置和基于得分的位置排序;
4)在搜索算法中基于社交得分的位置排序部分,从步骤1)处理好的数据集中提取联系人数据、签到数据和评价数据,线下通过K-Means算法聚类搜索用户的好友,通过KNN算法查找搜索用户一定数量的最近邻,线上通过这些最近邻对搜索用户施加社交影响,通过设计最近邻的区域活跃度和对位置的评价两个社交特征计算步骤3中的备选位置的社交得分并排序;
5)在搜索算法中基于距离远近的位置排序部分,从步骤1)处理好的数据集中提取位置经纬度数据,通过地球上两点间的距离公式,计算搜索用户当前位置和步骤3)中备选位置的各自距离,量化成得分并排序;
6)综合步骤3)、步骤4)、步骤5)中的三种位置排序,构建线性回归模型并训练,得出最终的位置排序,即搜索结果。
作为本发明的一种改进,所述步骤1)中筛选发生在纽约的数据集的具体方法如下,为不同的数据特征建立不同的数据库表,每个表中包含所有真实数据类型中的数据字段,将整个数据集导入数据库即MySQL,再用SQL语言对数据进行处理,先通过时区这个字段提取出纽约的签到记录和评价信息,因为用户ID和位置ID都是各个表中的唯一字段,再通过表连接的方式处理数据,处理后的数据有如下特性:保证用户对位置既有签到记录又有评价信息。
作为本发明的一种改进,所述步骤2)中基于Lucene技术构建社交搜索引擎具体如下,其中倒排索引是搜索引擎的核心数据结构,本发明受传统倒排索引的启发,构建倒排索引分为三步:
21)将位置名称、位置类型和位置描述三种数据类型组合成文档(document)作为后索引;
22)将位置名称作为单词(term)构建前索引;
23)输入关键字,通过语义分词产生话题,与文档做相似度计算,将得分高的一定数量的文档选出,索引出相应的位置名称;
Lucene是一个构建搜索引擎的Java框架,共有5个核心jar包:core、analyzer、highlighter、query和queryparser,通过导入jar包在eclipse开发环境中实现本发明的搜索引擎。
作为本发明的一种改进,所述步骤4)中,线下算法具体如下,通过K-Means算法聚类搜索用户的好友,目的是使数据更加稠密,减小不利影响。由于对好友间的签到与评价向量聚类,本发明将相似度衡量标准更新为修正的余弦相似度。相似度的评价指标有两个:一是签到数量,二是评价得分。本发明将英文的评价文本通过TextBlob情感分析工具量化为得分,具体公式如下所示:
(1)基于签到次数的修正余弦相似度计算公式:
其中,代表用户i1在所有位置点的平均签到数量;
(2)基于评价评分的修正余弦相似度计算公式:
其中,代表用户i1对所有POI的平均评价得分;
(3)总的相似度计算公式:
(4)通过KNN算法查找搜索用户的最近邻,欧氏距离计算公式如下所示:
其中,cenk表示k个聚类中心向量。
作为本发明的一种改进,步骤4)中线上部分施加最近邻的社交影响,设计了两个社交特征,分别是每一个好友的区域活跃度和每个好友对每一个备选位置的评价,选择的指标都是签到数量,但两者有区别,区域活跃度指的是用户对所有备选位置的签到数量,数量越多代表越活越,推荐的位置也就更有说服力,其施加的社交影响力越大;对备选位置的评价计算的是好友对每一个备选位置的签到数量,数量越多代表用户对这个位置评价越高,有利于提升这个位置在最终搜索结果的排名。衡量指标之所以没有选择评价得分,是因为评价文本数量相对少了很多,数据密度太过稀疏,对搜索结果会产生非常大的影响,因此放弃评价得分这一指标。本数据集还爬取了签到的时间特征,因为考虑到距离现在时间越长的签到记录产生的作用没有近期发生的签到的作用大。因此,以t=2015为基准,因为本数据集最新的签到记录发生在2015年,以年为单位,计算到2010年发生的签到记录,时间越久所占影响因子越小,具体的公式如下所示:
(5)区域活跃度
其中,指的是一年中每个好友针对所有位置点的签到记录,时间距离2015年越久,这个影响因子越小。为了归一化,Cmax取一个适当的值。
(6)用户对每一个位置的评价
其中,指的是一年中每个好友针对每一个位置点的签到记录,时间距离2015年越久,这个影响因子越小。为了归一化,cmax取一个适当的值。
(7)最终的基于社交的位置得分公式:
其中,social(vk)表示搜索用户的h个最近邻累计对k了备选位置中每一个备选位置的社交评分,即影响力。
作为本发明的一种改进,所述步骤6)中综合三种位置排序,构建线性回归模型,具体公式如下:
其中,query(vj)表示基于搜索得分的位置排序,social(vj)表示基于社交得分的位置排序,distance(vj)表示基于距离得分的位置排序。
相对于现有技术,本发明具有如下优点,1)该技术方案充分挖掘LBSNs提供的数据特点设计社交特征,本发明基于爬取的Foursquare数据集,除了传统的联系人信息,充分利用了位置信息上的签到特征和评价特征,并考虑了时间特征;2)该技术方案中,LBSNs属于异构网络,数据集非常稀疏,为了降低不利影响,本发明采用聚类搜索用户好友的方法使数据更加稠密,消除奇异点;3)本发明在设计搜索算法上,除了传统的基于社交影响力的位置排序,还考虑了基于专业相关性的位置排序和基于距离远近的位置排序,使搜索结果更加精确客观。
附图说明
图1为本发明评价方法整体框架示意图;
图2为评价方法整体结构示意图。
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:参见图1、图2,一种LBSN中基于好友聚类的社交搜索评价方法,所述评价方法包括以下步骤,1)爬取的Foursquare真实数据集中有联系人信息和位置信息,通过对数据的统计与分析,提取出联系人特征、签到特征、评价特征和时间特征,共15种数据类型,包括用户ID、好友ID、签到ID、签到位置描述、签到发生时区、签到位置ID、签到位置经纬度、签到位置名称、签到位置的类型ID、签到位置的类型名称、签到发生时间、评价文本ID、评价文本内容、评价发生时间,构建社交搜索模型并给出形式化描述,筛选发生在纽约的数据集,这种方法同样适用于其他城市;
2)从步骤1处理好的数据集中提取位置名称、位置类型、位置描述三种数据类型,构建“位置名称-文档”式倒排索引,在此基础上,基于Lucene技术构建社交搜索引擎;
3)线上部分设计搜索算法,在基于搜索得分的位置排序部分,搜索用户输入搜索内容,经语义分词产生话题,与步骤2倒排索引中的文档进行相似度匹配,根据专业相关性得分索引出备选位置和基于得分的位置排序;
4)在搜索算法中基于社交得分的位置排序部分,从步骤1)处理好的数据集中提取联系人数据、签到数据和评价数据,线下通过K-Means算法聚类搜索用户的好友,通过KNN算法查找搜索用户一定数量的最近邻,线上通过这些最近邻对搜索用户施加社交影响,通过设计最近邻的区域活跃度和对位置的评价两个社交特征计算步骤3中的备选位置的社交得分并排序;
5)在搜索算法中基于距离远近的位置排序部分,从步骤1)处理好的数据集中提取位置经纬度数据,通过地球上两点间的距离公式,计算搜索用户当前位置和步骤3)中备选位置的各自距离,量化成得分并排序;
6)综合步骤3)、步骤4)、步骤5)中的三种位置排序,构建线性回归模型并训练,得出最终的位置排序,即搜索结果。
该技术方案中,步骤1)具体如下,本项目组于2015年完成爬取Foursquare数据集的工作。数据特征比较完整,包括联系人信息和位置信息,通过对数据的统计与分析,提取发生在纽约的联系人特征、签到特征、评价特征和时间特征,共15种数据类型,构建社交搜索模型并给出形式化描述;
对于文本预处理,主要可以分为两步:
1)筛选发生在纽约的数据集的具体方法:为不同的数据特征建立不同的数据库表,每个表中包含所有真实数据类型中的数据字段,将整个数据集导入数据库——MySQL,再用SQL语言对数据进行处理。先通过时区这个字段提取出纽约的签到记录和评价信息,因为用户ID和位置ID都是各个表中的唯一字段,再通过表连接的方式处理数据,处理后的数据有如下特性:保证用户对位置既有签到记录又有评价信息;
2)通常来说,个人的签到记录和评价文本越多,越能体现他的行为规律;个人的好友数越多,越能体现他的社交关系。因此,在不失去一般性的前提下,本文对过度稀疏的数据进行适当的过滤。通过对数据集的统计与分析,过滤掉好友数少于50或者签到数少于20,评价数少于5的用户。最终的数据集构成为635,000条签到记录,4,500个用户,56,868个位置点,504,288个好友关系边和95,822个评价文本。其中,评价文本全部是英文文本,在数据处理的过程中去掉了其他语言的评价文本。
所述步骤2)中基于Lucene技术构建社交搜索引擎具体如下,其中倒排索引是搜索引擎的核心数据结构,本发明受传统倒排索引的启发,构建倒排索引分为三步:
21)将位置名称、位置类型和位置描述三种数据类型组合成文档(document)作为后索引;
22)将位置名称作为单词(term)构建前索引;
23)输入关键字,通过语义分词产生话题,与文档做相似度计算,将得分高的一定数量的文档选出,索引出相应的位置名称;
Lucene是一个构建搜索引擎的Java框架,共有5个核心jar包:core、analyzer、highlighter、query和queryparser,通过导入jar包在eclipse开发环境中实现本发明的搜索引擎。
所述步骤3)线上部分设计搜索算法,在基于搜索得分的位置排序部分,搜索用户输入搜索内容(自然语言),经语义分词产生话题,与步骤2)倒排索引中的文档进行相似度匹配,根据专业相关性得分索引出备选位置和基于得分的位置排序;步骤4:在搜索算法中基于社交得分的位置排序部分,从步骤1处理好的数据集中提取联系人数据、签到数据和评价数据,线下通过K-Means算法聚类搜索用户的好友,通过KNN算法查找搜索用户一定数量的最近邻,线上通过这些最近邻对搜索用户施加社交影响,通过设计最近邻的区域活跃度和对位置的评价两个社交特征计算步骤3中的备选位置的社交得分并排序;
在线下算法的设计部分,通过K-Means算法聚类搜索用户的好友,目的是使数据更加稠密,减小不利影响。由于对好友间的签到与评价向量聚类,本发明将相似度衡量标准更新为修正的余弦相似度。相似度的评价指标有两个:一是签到数量,二是评价得分。本发明将英文的评价文本通过TextBlob情感分析工具量化为得分,具体公式如下所示:
(1)基于签到次数的修正余弦相似度计算公式:
其中,代表用户i1在所有位置点的平均签到数量。
(2)基于评价评分的修正余弦相似度计算公式:
其中,代表用户i1对所有POI的平均评价得分。
(3)总的相似度计算公式:
(4)通过KNN算法查找搜索用户的最近邻,欧氏距离计算公式如下所示:
其中,cenk表示k个聚类中心向量。
线上部分施加最近邻的社交影响,设计了两个社交特征,分别是每一个好友的区域活跃度和每个好友对每一个备选位置的评价。选择的指标都是签到数量,但两者有区别,区域活跃度指的是用户对所有备选位置的签到数量,数量越多代表越活越,推荐的位置也就更有说服力,其施加的社交影响力越大;对备选位置的评价计算的是好友对每一个备选位置的签到数量,数量越多代表用户对这个位置评价越高,有利于提升这个位置在最终搜索结果的排名。衡量指标之所以没有选择评价得分,是因为评价文本数量相对少了很多,数据密度太过稀疏,对搜索结果会产生非常大的影响,因此放弃评价得分这一指标。本数据集还爬取了签到的时间特征,因为考虑到距离现在时间越长的签到记录产生的作用没有近期发生的签到的作用大。因此,以t=2015为基准,因为本数据集最新的签到记录发生在2015年,以年为单位,计算到2010年发生的签到记录,时间越久所占影响因子越小,具体的公式如下所示:
(5)区域活跃度
其中,指的是一年中每个好友针对所有位置点的签到记录,时间距离2015年越久,这个影响因子越小。为了归一化,Cmax取一个适当的值。
(6)用户对每一个位置的评价
其中,指的是一年中每个好友针对每一个位置点的签到记录,时间距离2015年越久,这个影响因子越小。为了归一化,cmax取一个适当的值。
(7)最终的基于社交的位置得分公式:
其中,social(vk)表示搜索用户的h个最近邻累计对k了备选位置中每一个备选位置的社交评分,即影响力。
步骤5)在搜索算法中基于距离远近的位置排序部分,从步骤1)处理好的数据集中提取位置经纬度数据,通过地球上两点间的距离公式,计算搜索用户当前位置和步骤3中备选位置的各自距离,量化成得分并排序;
通过地球上两点间的距离公式计算搜索用户的当前位置与步骤3中备选位置的各自距离,为了防止因距离远近差距过大影响结果,设定距离范围,选择所有距离中最小的距离作为分子归一化,保证距离越远,得分越低。最后根据距离得分排序位置。计算公式如下:
dis(v1,v2)=R*arccos(sin(lat1)*sin(lat2)*cos(lon1-lon2)+cos(lat1)cos(lat2))*PI/180 (8)其中:R:地球半径;lat:纬度;lon:精度。
步骤6:综合步骤3)、4)、5)中的三种位置排序,构建线性回归模型并训练,得出最终的位置排序,即搜索结果;
具体公式如下:
其其中,query(vj)表示基于搜索得分的位置排序,social(vj)表示基于社交得分的位置排序,distance(vj)表示基于距离得分的位置排序。
公式中对权重的选择由于会直接影响最后的结果,权重的选择非常重要。本文的研究对象是社交搜索,主要通过社交特征使搜索精度精确,因此基于社交得分的权重比重最大,即β最大;其次,基于搜索的得分来自于分词后的话题与文档的相似度计算,而基于距离的得分来自于根据距离与阈值范围设计的得分,从误差的角度分析,基于搜索的得分误差最小。因为通过计算发现,不同位置点与搜索用户当前位置的距离远近差异过大,即使归一化后也比搜索得分的误差大,因此基于搜索的权重比重其次,即α;基于距离的权重比重最小。然后,进行线性回归的模型训练。
需要说明的是,上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述基础上做出的等同替换或者替代,均属于本发明的保护范围。
Claims (6)
1.一种LBSN中基于好友聚类的社交搜索评价方法,其特征在于,所述评价方法包括以下步骤,1)爬取的Foursquare真实数据集中有联系人信息和位置信息,通过对数据的统计与分析,提取出联系人特征、签到特征、评价特征和时间特征,共15种数据类型,包括用户ID、好友ID、签到ID、签到位置描述、签到发生时区、签到位置ID、签到位置经纬度、签到位置名称、签到位置的类型ID、签到位置的类型名称、签到发生时间、评价文本ID、评价文本内容、评价发生时间,构建社交搜索模型并给出形式化描述,筛选发生在纽约的数据集,这种方法同样适用于其他城市;
2)从步骤1)处理好的数据集中提取位置名称、位置类型、位置描述三种数据类型,构建“位置名称-文档”式倒排索引,在此基础上,基于Lucene技术构建社交搜索引擎;
3)线上部分设计搜索算法,在基于搜索得分的位置排序部分,搜索用户输入搜索内容,经语义分词产生话题,与步骤2)倒排索引中的文档进行相似度匹配,根据专业相关性得分索引出备选位置和基于得分的位置排序;
4)在搜索算法中基于社交得分的位置排序部分,从步骤1)处理好的数据集中提取联系人数据、签到数据和评价数据,线下通过K-Means算法聚类搜索用户的好友,通过KNN算法查找搜索用户一定数量的最近邻,线上通过这些最近邻对搜索用户施加社交影响,通过设计最近邻的区域活跃度和对位置的评价两个社交特征计算步骤3)中的备选位置的社交得分并排序;
5)在搜索算法中基于距离远近的位置排序部分,从步骤1)处理好的数据集中提取位置经纬度数据,通过地球上两点间的距离公式,计算搜索用户当前位置和步骤3)中备选位置的各自距离,量化成得分并排序;
6)综合步骤3)、步骤4)、步骤5)中的三种位置排序,构建线性回归模型并训练,得出最终的位置排序,即搜索结果。
2.根据权利要求1所述的LBSN中基于好友聚类的社交搜索评价方法,其特征在于,所述步骤1)中筛选发生在纽约的数据集的具体方法如下,为不同的数据特征建立不同的数据库表,每个表中包含所有真实数据类型中的数据字段,将整个数据集导入数据库即MySQL,再用SQL语言对数据进行处理,先通过时区这个字段提取出纽约的签到记录和评价信息,因为用户ID和位置ID都是各个表中的唯一字段,再通过表连接的方式处理数据,处理后的数据有如下特性,保证用户对位置既有签到记录又有评价信息。
3.根据权利要求1所述的LBSN中基于好友聚类的社交搜索评价方法,其特征在于,所述步骤2)中基于Lucene技术构建社交搜索引擎具体如下,其中倒排索引是搜索引擎的核心数据结构,构建倒排索引分为三步:
21)将位置名称、位置类型和位置描述三种数据类型组合成文档(document)作为后索引;
22)将位置名称作为单词(term)构建前索引;
23)输入关键字,通过语义分词产生话题,与文档做相似度计算,将得分高的一定数量的文档选出,索引出相应的位置名称;
Lucene是一个构建搜索引擎的Java框架,共有5个核心jar包:core、analyzer、highlighter、query和queryparser,通过导入jar包在eclipse开发环境中实现本发明的搜索引擎。
4.根据权利要求1所述的LBSN中基于好友聚类的社交搜索评价方法,其特征在于,所述步骤4)中,线下算法具体如下,通过K-Means算法聚类搜索用户的好友,目的是使数据更加稠密,减小不利影响,将英文的评价文本通过TextBlob情感分析工具量化为得分,具体公式如下所示:
(1)基于签到次数的修正余弦相似度计算公式:
<mrow>
<mi>c</mi>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>v</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>V</mi>
</mrow>
</munder>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mrow>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>c</mi>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
</msub>
<mo>-</mo>
</mover>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mrow>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>c</mi>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
</msub>
<mo>-</mo>
</mover>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msqrt>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>v</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>V</mi>
</mrow>
</munder>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mrow>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>c</mi>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
</msub>
<mo>-</mo>
</mover>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<msqrt>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>v</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>V</mi>
</mrow>
</munder>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mrow>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>c</mi>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
</msub>
<mo>-</mo>
</mover>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,代表用户i1在所有位置点的平均签到数量;
(2)基于评价评分的修正余弦相似度计算公式:
<mrow>
<mi>s</mi>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>v</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>V</mi>
</mrow>
</munder>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mrow>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>s</mi>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
</msub>
<mo>-</mo>
</mover>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mrow>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>s</mi>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
</msub>
<mo>-</mo>
</mover>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msqrt>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>v</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>V</mi>
</mrow>
</munder>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mrow>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>s</mi>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
</msub>
<mo>-</mo>
</mover>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<msqrt>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>v</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>V</mi>
</mrow>
</munder>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mrow>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>s</mi>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
</msub>
<mo>-</mo>
</mover>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,代表用户i1对所有POI的平均评价得分;
(3)总的相似度计算公式:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&alpha;</mi>
<mo>*</mo>
<mi>c</mi>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mo>*</mo>
<mi>s</mi>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<msub>
<mi>i</mi>
<mn>1</mn>
</msub>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<msub>
<mi>i</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>&alpha;</mi>
<mo>&Element;</mo>
<mo>&lsqb;</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>&rsqb;</mo>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
(4)通过KNN算法查找搜索用户的最近邻,欧氏距离计算公式如下所示:
<mrow>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msqrt>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mo>(</mo>
<mrow>
<mi>u</mi>
<mo>,</mo>
<msub>
<mi>cen</mi>
<mi>k</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>-</mo>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>cen</mi>
<mi>k</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,cenk表示k个聚类中心向量。
5.根据权利要求2所述的LBSN中基于好友聚类的社交搜索评价方法,其特征在于,步骤4)中线上部分施加最近邻的社交影响,设计了两个社交特征,分别是每一个好友的区域活跃度和每个好友对每一个备选位置的评价,该数据集还爬取了签到的时间特征,以t=2015为基准,因为本数据集最新的签到记录发生在2015年,以年为单位,计算到2010年发生的签到记录,时间越久所占影响因子越小,具体的公式如下所示:
(5)区域活跃度
<mrow>
<mi>a</mi>
<mi>c</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msup>
<msub>
<mi>C</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>&prime;</mo>
</msup>
<mo>*</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>-</mo>
<msub>
<mi>t</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mo>+</mo>
<msup>
<msub>
<mi>C</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mrow>
<mo>&prime;</mo>
<mo>&prime;</mo>
</mrow>
</msup>
<mo>*</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>-</mo>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mo>+</mo>
<mi>L</mi>
</mrow>
<msub>
<mi>C</mi>
<mi>max</mi>
</msub>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,指的是一年中每个好友针对所有位置点的签到记录,时间距离2015年越久,这个影响因子越小,为了归一化,Cmax取一个适当的值;
(6)用户对每一个位置的评价
<mrow>
<mi>e</mi>
<mi>v</mi>
<mi>a</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>v</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msup>
<msub>
<mi>c</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>&prime;</mo>
</msup>
<mo>*</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>-</mo>
<msub>
<mi>t</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mo>+</mo>
<msup>
<msub>
<mi>c</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mrow>
<mo>&prime;</mo>
<mo>&prime;</mo>
</mrow>
</msup>
<mo>*</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>-</mo>
<msub>
<mi>t</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mo>+</mo>
<mi>L</mi>
</mrow>
<msub>
<mi>c</mi>
<mi>max</mi>
</msub>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,指的是一年中每个好友针对每一个位置点的签到记录,时间距离2015年越久,这个影响因子越小,为了归一化,cmax取一个适当的值。
(7)最终的基于社交的位置得分公式:
<mrow>
<mi>s</mi>
<mi>o</mi>
<mi>c</mi>
<mi>i</mi>
<mi>a</mi>
<mi>l</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>v</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>h</mi>
</munderover>
<mi>e</mi>
<mi>v</mi>
<mi>a</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>v</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>*</mo>
<mi>a</mi>
<mi>c</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,social(vk)表示搜索用户的h个最近邻累计对k了备选位置中每一个备选位置的社交评分,即影响力。
6.根据权利要求5所述的LBSN中基于好友聚类的社交搜索评价方法,其特征在于,步骤6)中综合三种位置排序,构建线性回归模型,具体公式如下:
rank(u,vj)=α*query(vj)+β*social(vj)+(1-α-β)*distance(vj) (8)
(α+β)∈[0,1]
其中,query(vj)表示基于搜索得分的位置排序,social(vj)表示基于社交得分的位置排序,distance(vj)表示基于距离得分的位置排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710335698.6A CN107194560B (zh) | 2017-05-12 | 2017-05-12 | Lbsn中基于好友聚类的社交搜索评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710335698.6A CN107194560B (zh) | 2017-05-12 | 2017-05-12 | Lbsn中基于好友聚类的社交搜索评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107194560A true CN107194560A (zh) | 2017-09-22 |
CN107194560B CN107194560B (zh) | 2020-11-27 |
Family
ID=59874062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710335698.6A Active CN107194560B (zh) | 2017-05-12 | 2017-05-12 | Lbsn中基于好友聚类的社交搜索评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107194560B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628950A (zh) * | 2018-04-04 | 2018-10-09 | 昆明理工大学 | 一种基于文本-域倒排的空间文本查询方法及装置 |
CN108769917A (zh) * | 2018-05-16 | 2018-11-06 | 上海掌门科技有限公司 | 业务交互方法、设备及存储介质 |
CN108985598A (zh) * | 2018-06-29 | 2018-12-11 | 中国地质大学(武汉) | 一种基于用户生成内容的poi空间影响力评价方法及系统 |
CN109213938A (zh) * | 2018-08-09 | 2019-01-15 | 成都信息工程大学 | 一种基于异构网络的poi推荐方法 |
CN109670540A (zh) * | 2018-12-04 | 2019-04-23 | 华南理工大学 | 基于kNN算法的客运枢纽区域驻留人数变化趋势短时预测方法 |
CN109885760A (zh) * | 2019-01-22 | 2019-06-14 | 上海交通大学 | 基于用户兴趣的信息溯源方法和系统 |
CN110209923A (zh) * | 2018-06-12 | 2019-09-06 | 中国人民大学 | 话题影响力用户的推送方法和装置 |
CN111400618A (zh) * | 2020-02-14 | 2020-07-10 | 口口相传(北京)网络技术有限公司 | 一种数据搜索方法以及装置 |
CN115622973A (zh) * | 2022-09-29 | 2023-01-17 | 中国人民解放军战略支援部队信息工程大学 | 陌生人社交类即时通信应用用户定位方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007293768A (ja) * | 2006-04-27 | 2007-11-08 | Kddi Corp | ランドマークデータベースシステム、端末装置、統合データベース管理装置及びユーザ個別データベース管理装置、並びにコンピュータプログラム |
CN101960444A (zh) * | 2008-02-27 | 2011-01-26 | 雅虎公司 | 用于移动设备用户的事件通信平台 |
CN103745105A (zh) * | 2014-01-06 | 2014-04-23 | 中国科学院计算技术研究所 | 一种社交网络中用户属性的预测方法及系统 |
-
2017
- 2017-05-12 CN CN201710335698.6A patent/CN107194560B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007293768A (ja) * | 2006-04-27 | 2007-11-08 | Kddi Corp | ランドマークデータベースシステム、端末装置、統合データベース管理装置及びユーザ個別データベース管理装置、並びにコンピュータプログラム |
CN101960444A (zh) * | 2008-02-27 | 2011-01-26 | 雅虎公司 | 用于移动设备用户的事件通信平台 |
CN103745105A (zh) * | 2014-01-06 | 2014-04-23 | 中国科学院计算技术研究所 | 一种社交网络中用户属性的预测方法及系统 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628950A (zh) * | 2018-04-04 | 2018-10-09 | 昆明理工大学 | 一种基于文本-域倒排的空间文本查询方法及装置 |
CN108628950B (zh) * | 2018-04-04 | 2022-07-19 | 昆明理工大学 | 一种基于文本-域倒排的空间文本查询方法及装置 |
CN108769917A (zh) * | 2018-05-16 | 2018-11-06 | 上海掌门科技有限公司 | 业务交互方法、设备及存储介质 |
CN110209923B (zh) * | 2018-06-12 | 2023-07-25 | 中国人民大学 | 话题影响力用户的推送方法和装置 |
CN110209923A (zh) * | 2018-06-12 | 2019-09-06 | 中国人民大学 | 话题影响力用户的推送方法和装置 |
CN108985598B (zh) * | 2018-06-29 | 2021-11-05 | 中国地质大学(武汉) | 一种基于用户生成内容的poi空间影响力评价方法及系统 |
CN108985598A (zh) * | 2018-06-29 | 2018-12-11 | 中国地质大学(武汉) | 一种基于用户生成内容的poi空间影响力评价方法及系统 |
CN109213938A (zh) * | 2018-08-09 | 2019-01-15 | 成都信息工程大学 | 一种基于异构网络的poi推荐方法 |
CN109213938B (zh) * | 2018-08-09 | 2019-07-12 | 成都信息工程大学 | 一种基于异构网络的poi推荐方法 |
CN109670540A (zh) * | 2018-12-04 | 2019-04-23 | 华南理工大学 | 基于kNN算法的客运枢纽区域驻留人数变化趋势短时预测方法 |
CN109670540B (zh) * | 2018-12-04 | 2021-07-16 | 华南理工大学 | 基于kNN算法的客运枢纽区域驻留人数变化趋势短时预测方法 |
CN109885760B (zh) * | 2019-01-22 | 2020-12-29 | 上海交通大学 | 基于用户兴趣的信息溯源方法和系统 |
CN109885760A (zh) * | 2019-01-22 | 2019-06-14 | 上海交通大学 | 基于用户兴趣的信息溯源方法和系统 |
CN111400618A (zh) * | 2020-02-14 | 2020-07-10 | 口口相传(北京)网络技术有限公司 | 一种数据搜索方法以及装置 |
CN115622973A (zh) * | 2022-09-29 | 2023-01-17 | 中国人民解放军战略支援部队信息工程大学 | 陌生人社交类即时通信应用用户定位方法及装置 |
CN115622973B (zh) * | 2022-09-29 | 2024-05-10 | 中国人民解放军战略支援部队信息工程大学 | 陌生人社交类即时通信应用用户定位方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107194560B (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107194560A (zh) | Lbsn中基于好友聚类的社交搜索评价方法 | |
US8356044B2 (en) | System and method for providing default hierarchical training for social indexing | |
Leung et al. | Personalized web search with location preferences | |
US20100125540A1 (en) | System And Method For Providing Robust Topic Identification In Social Indexes | |
CN104699730A (zh) | 用于识别候选答案之间的关系的方法和系统 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN102253982A (zh) | 一种基于查询语义和点击流数据的查询建议方法 | |
CN103218436A (zh) | 一种融合用户类别标签的相似问题检索方法及装置 | |
CN107169873A (zh) | 一种多特征融合的微博用户权威度评价方法 | |
CN107341199A (zh) | 一种基于文献信息共性模式的推荐方法 | |
CN102760140A (zh) | 一种基于事件本体的查询扩展方法 | |
Carrasco et al. | A new model for linguistic summarization of heterogeneous data: an application to tourism web data sources | |
Cacheda et al. | Click through rate prediction for local search results | |
Alobaid et al. | Typology-based semantic labeling of numeric tabular data | |
CN104598613B (zh) | 一种用于垂直领域的概念关系构建方法和装置 | |
Alghieth et al. | A map-based job recommender model | |
CN105786794A (zh) | 一种问答对检索方法及社区问答检索系统 | |
CN115730078A (zh) | 用于类案检索的事件知识图谱构建方法、装置及电子设备 | |
Pothirattanachaikul et al. | Mining alternative actions from community q&a corpus | |
Lu et al. | The research on webpage ranking algorithm based on topic-expert documents | |
Wu et al. | A personalized intelligent web retrieval system based on the knowledge-base concept and latent semantic indexing model | |
JP2009217406A (ja) | 文書検索装置及び方法、並びに、プログラム | |
Xu et al. | A hybrid deep neural network model for query intent classification | |
Zhou et al. | POI Route Recommendation Model Based on Symmetrical Naive Bayes Classification Spatial Accessibility and Improved Cockroach Swarm Optimization Algorithm | |
CN110019814A (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |