CN107145545A

CN107145545A - 一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法

Info

Publication number: CN107145545A
Application number: CN201710281672.8A
Authority: CN
Inventors: 赵相国; 王国仁; 孙永佼; 毕鑫; 张祯; 喻鑫
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2017-04-18
Filing date: 2017-04-18
Publication date: 2017-09-08
Anticipated expiration: 2037-04-18
Also published as: CN107145545B

Abstract

本发明公开了一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法，包括：获取需求用户的地理位置，根据需求用户输入的需求，对社交网络中的文本数据进行分词处理，获取与需求用户的需求相匹配的关键词组；根据所获取的关键词组，建立索引树DLIR‑Tree，所述索引树DLIR‑Tree的每个节点包含一系列的社交网络文本的发送用户；根据需求用户的需求、地理位置及区域半径查询索引树DLIR‑Tree，得到相匹配的文本数据；对所获取的文本数据与关键词组进行相似度计算处理，得到过滤后的文本数据；根据过滤后的文本数据，进行综合评分，并根据综合评分完成Top‑k区域用户文本数据推荐。通过信息的全面性和多样性来实现现实社会的真实情况，从而使得推荐信息准确率得到提高。

Description

一种基于位置的社交网络中Top-k区域用户文本数据推荐方法

技术领域

本发明涉及社交网络技术领域，尤其涉及一种基于位置的社交网络中Top-k区域用户文本数据推荐方法。

背景技术

自互联网的发展从Web1.0步入Web2.0的新时代后，各种各样的由用户主导而生成的内容互联网产品随之发展起来，如博客、RSS等。在线社交网络服务(Social NetworkingService，SNS)发展成为网络上最受欢迎的应用。各种在线社交网络服务网站都出现在人们眼前，如Twitter，Facebook，新浪微博等。在现实世界中，人们通过结识更多的人以扩展自己的社交圈，更优更广的社交关系往往是一个人自身价值与自我发展的关键。而在这些在线社交网络中，用户可以发布自己的状态或者了解最近的好友状态，或者分享给他人生活体验，与好友互发消息、照片及视频等。这弥补了由于身在异地或者其他原因无法面对面沟通交流的遗憾，在线社交网络现在提供一种新兴又非常普适的交友方式，依靠其真实性、便利性、可玩性以及稳定性、方便熟人朋友间的沟通、也为陌生人之间提供了认识的桥梁等特点得到了人们的认可和青睐。定位技术的发展应用，并且又结合GIS地理信息系统，确定用户是基于地理的位置服务(Location Based Service，LBS)也快速发展开来。社交网站引入用户主动签到机制，并适当整合用户位置信息与社交信息，可在签到行为的基础上提供后续有价值的服务。

尽管社交网站实现了各种各样技术特点的功能，但是它们主要的“骨干”是一组组可见的个人文本或者图片等信息。这些信息是用户唯一可以自己输入的。

随着位置服务(Location Based Service，LBS)与社交网络逐渐融合，形成了基于位置的社交网络(Location-Based Social Networks，LBSN)，它通过移动用户的位置签到功能，把线上虚拟社会与线下真实世界关联在一起，实现用户位置定位的同时，还实现了位置信息在虚拟网络世界的共享和传播，从而衍生出多种多样的位置服务，其中，推荐系统作为目前解决信息过滤和个性化服务问题的重要技术手段之一，在位置服务中发挥着越来越重要的作用。

目前，社交网络中的用户规模和用户发布的信息增量迅猛，而包含着地理位置信息的内容也在被越来越多的人所关注。社交网络所提供的信息是很丰富的。一般情况下，人们使用社交网络平台与朋友保持联系和寻求各种不同的社会信息。现在，广泛采用了的全球定位系统的移动终端和基于位置的移动服务(LBS)的成功使得社交媒体数据能够获取到地理位置信息。地理位置标记微博在分享言论和意见、获取新闻和了解现实世界的真实事件上发挥了重要的作用。因此基于位置的社交网络成为了丰富的含有地理信息的资源。

但是，当前的传统主流搜索引擎大多在从含有丰富的关键词的长文本中获取相关的信息，这种方式并不适合包含一些关键字信息的短文本社交媒体数据。当前流行的微博它们自身也提供了一些实时搜索服务，搜索返回与用户输入的关键字相关的高排名的微博，然而这种搜索并没有包含所发微博的空间信息，对于用户来说，用户可能希望自己的搜索结果是结合了微博的空间信息之后，获取到的最合适的信息。一个最直接简单有效的方法是推荐结果直接包含用户所输入的关键字信息即可。然而这种方法返回的结果会使得用户对自己的意图变得很模糊，用户对于返回的这些结果不知道作何处理，最终想做的事情可能因为反馈的结果的不确定性而放弃了。

发明内容

针对上述问题，本发明的目的在于提供一种基于位置的社交网络中Top-k区域用户文本数据推荐方法，能够根据客户的地址位置，按照客户的需求，进行文本数据推荐。

为了解决背景技术中所存在的问题，本发明的技术方案为：

包括以下步骤：

1)、获取需求用户的地理位置，根据需求用户输入的需求，对社交网络中的文本数据进行分词处理，获取与需求用户的需求相匹配的关键词组；

2)、根据所获取的关键词组，建立索引树DLIR-Tree，所述索引树DLIR-Tree的每个节点包含一系列的社交网络文本的发送用户，每个节点的发送用户都是由该节点的下一层的子树所包含的发送用户的集合；

3)、根据需求用户的需求、地理位置及区域半径查询索引树DLIR-Tree，得到相应的文本数据。

所述步骤1)具体包括：

1.1、对待处理的文本数据进行分词停用词、标点符号、表情处理，得到处理后的文本数据；

1.2、利用正向匹配策略与逆向匹配策略对处理后的文本数据对文本数据分词，通过相互的信息比对，以及歧义词语对的互信值比较，以互信值高一组为最终的分词结果，输出分词集合。

所述步骤2)具体包括：

定义DLIR-Tree叶子节点对象<l，Λ，ψ，F>，其中每个实体对象都包含了地理位置信息l，Λ为存在一个与该地理位置对应的最小边界矩形MBR属性，与地理位置相关联的文本关键词ψ，并且存在集合F代表一组发送用户，这组发送用户在该地理位置上签到过的；

定义DLIR-Tree非叶子节点对象<R，Λ，ψ，F>，其中，R表示了孩子节点对象的集合，Λ为其孩子节点的地理位置所组成的对应的最小边界矩形MBR属性，最小边界矩形对所要查询的区域用户做相应的匹配计算，ψ对应了所有的孩子节点所包含的文本关键词，F为对象中一组在该区域做过签到行为且发表过文本的发送用户。

所述步骤3)具体包括：

给定一个查询需求q、给出一个非叶子节点实体e，以及它的最小边界矩形e.Λ，用tr_q(p)表示对象实体p对应的关联倒排文本与查询q的关键词的相关度，对于任意属于节点e的对象实体p，均有对于文本签到位置与需求用户发起查询的地理位置之间的社会距离相关性的公式：

在上述公式中，sd_q(p)表示对象实体p对于用户u发起的查询的社会距离相关性，其中，α∈[0，1)，常量1保证了计算的相关性永远不会等于零。

所述获取的文本数据与关键词组进行相似度计算处理具体包括：

根据下列公式进行相似度计算：

其中，p为文本数据，q为用户需求关键词组，K为选择的关键词的索引集合，W_p.i为文本数据关键词，W_q.i为用户需求关键词，获取过滤后的文本数据列表。

所述进行综合评分，并根据综合评分完成Top-k区域用户文本数据推荐具体为：

5.1、对过滤后的文本数据列表中的文本数据根据流行度计算公式进行流行度计算，得到流行文本数据，所述流行度计算公式为：

其中β是一个常量，T_i表示该层节点对应文本数据的评论与转发数；选定初始文本数据，将初始文本数据设定为文本根节点，子节点为上层节点文本数据的点赞次数以及转发或回复的文本数据，k_i表示第i层的节点对应文本数据的点赞数；

5.2、根据关键词相关关系的文本数据评分公式，获得相关文本数据；所述相关关系的文本数据评分公式：

其中，|p.w∩q.w|为需求关键词的出现频率；文本数据与关键词组相似度，N为归一化参数；

5.3、当发送用户在设定时间范围内发送多个同一主题文本数据时，则结合文本数据的发送时间，根据所有相关文本数据的总和评分公式进行评分，或根据最大评分公式进行评分：

总和评分公式：

最大评分公式：

其中，p是用户u发表的与关键词组相关的微博，t_p表示与用户提出需求的时间与该微博发布时间的时间差，以月份为单位；

5.4、根据距离评分公式对文本数据进行距离评分，获取距离需求用户设定范围内的文本数据，所述距离评分公式为：

其中，r为距离半径，l为查询位置；

5.5、根据综合用户评分公式，获取综合评分文本数据列表，并按照总评分的高低进行排序，得到最高分文本数据，所述综合用户评分公式为：

uscore(u，q)＝α·ρ(u，q)+(1-α)·δ(u，q)

其中，参数α∈(0，1)，P_u表示发送用户u发表的所有微博的集合。

与现有技术相比较，本发明的有益效果为：

本发明提供了一种基于位置的社交网络中Top-k区域用户文本数据推荐方法，同时考虑文本数据和地理位置的混合文本推荐方法，通过获取用户所需要的信息，并且考虑用户的签到信息，关键字信息，通过多元化，多结构的信息提取，研究分析，并将这些信息结合起来，使得信息在有用程度和准确程度上都将得到提升，另外，信息的全面性和多样性来更加适应现实社会的真实情况，从而使得推荐信息准确率得到提高，而且更有效率。

附图说明

图1是本发明社交网络文本数据的索引方法流程图；

图2是本发明社交网络文本数据的索引方法DLIR-Tree结构图；

图3是本发明实施例微博倒排索引结构图；

图4是本发明实施例地理位置图；

图5是本发明实施例倒排文件图；

图6是本发明实施例微博数的拓扑图。

具体实施方式

下面结合附图对本发明做详细描述。

用户可能通过移动终端发表一条文本的时候，该移动终端支持位置定位服务，那么用户可以选择是否标记地理位置进行签到，但是并不是所有的移动终端都支持位置定位服务，也可能用户不让别的用户或者好友看见自己在何地发表微博而故意不签到。针对这种情况，本发明对带有地理位置信息的社交网络数据节点进行处理。

如图1所示，本发明提供了一种基于位置的社交网络中Top-k区域用户文本数据推荐方法，包括以下步骤：

定义4.1：汉字字符集合∑＝{c₁，…，c_i，…，c_n}，其中c₁表示汉字的字符，∑*表示在字符集∑上的字符串集合。

定义4.2：分词规则为Seg：κ表示在某种语境下，对于w∈∑*，k∈κ，符合Seg(w，k)＝1说明w是一个词语，Seg(w，k)＝0就表示w不是词语。一般来说，当把κ退化为一个词库v时，Seg(w，k)＝1(w∈v)，或者

定义4.3：针对应用d(Application domain)的词汇及(词库)：

v_d＝{w₁，…，w_i，…，w_v|w_i∈∑*}，并且应用d满足Seg_d(w_i)＝1。

不考虑对d的限制，认为任何词库都可以作为参考，v_d简记为v。于是v^*表示在v的词汇串集合。

定义4.4：tail(s)＝tail(c₀c₁…c_k)＝c_k，head(s)＝c₀，vcat(c_i，c_j)＝c_ic_j，c_i，c_j∈s。

定：4.5：如果存在字符串s∈S，是s＝c₁c₂…c_n的一种分词结果，记为

定：4.6：将分词规则定义为k，中文分词问题就成为了利用计算机解决式子：k：

中文分词方法中，常用的方法主要有正向最大匹配分词法(Forward MaximumMatching Method，FMM)和逆向最大匹配分词法(Reverse Maximum Matching Method，RMM)。

正向最大匹配分词法FMM主要依据了分词词典来进行词语切分，它的思想是：假定如果分词词典中最大长度词条的长度为n即该词条由n个字符组成，首先获取文档的中文短语，然后读取当前中文短语中的前n个字符，这些字符就是需要匹配的字符串，然后开始分词操作，与分词词典中的词语进行匹配，如果词典中有这个字符串形成的词语，那么匹配成功，这个字符串就是一个词语被切分出来；如果词典中找不到对应这样的一个词语，就认为匹配失败，此时去掉字符串最后一个字符，继续进行匹配，直到匹配成功出一个词或者字符串只剩下一个字符结束匹配。以伪代码的形式在下面给出正向最大匹配分词法的描述：

逆向最大匹配分词方法RMM与正向最大匹配分词方法FMM的基本原理相同，但是不同的地方在于分词切分扫描的方向与FMM方法是相反的。逆向最大匹配分词法从文档的末尾处进行匹配，使用逆序词典作为分词词典，其中每个词语都是正常词语的逆序形式。在算法中，首先要对被处理文档进行逆序的操作，生成逆序文档。接着采用逆序词典对逆序文档进行匹配。由于中文语句大多是偏正结构的形式，从后向前的匹配策略能够使得分词的准确率得到提升。以伪代码的形式在下面给出逆向最大匹配分词法的描述：

歧义词语是中文分词中经常会出现的问题。中文歧义是对于一个中文句子进行分词，可能会得到不同的分词的结果。中文歧义有三种形式，交集型歧义(OAS)，覆盖型歧义(CAS)和真歧义：OAS歧义，设A，B，C分别代表一个或多个连续的汉字，则句子ABC中，AB和BC分别可以组合成词，那么就被成为交集型歧义；CAS歧义，设A，B各为一个或多个连续的汉字，若A，B自身分别是词语，则称作覆盖型歧义；真歧义就是对于分词结果必须根据上下文其他句子去进行判断。

需要说明的是，在对文本内容进行分词预处理时，需要去考虑对于停用词的处理。在中文语句中，停用词基本上是对这句话没有语义上的贡献，没有意义。然而，这种词语会大量出现在文本中，因此处理好停用词能够提高词语切分效率以及提升后续算法处理的准确性。词语切分时，必须对这些词进行处理。要正确的处理好停用词，那么停用词表的使用和停用词的识别是非常重要的。

对文本进行分词预处理，这其中要对停用词和标点符号进行处理，停用词库的获取很方便，将文本与停用词库以及标点符号做比对处理。用“#”进行替换，从而可获取到待分词文本数据。接下来就是具体分词算法核心处理部分，对待分词文本进行词语切分处理，最后得到分词结果集合。

文本分词处理算法中，歧义词的处理时分词不可避免的阶段，采用计算互信来进行歧义的消除。互信的公式如下所示：

在公式(4.1)中，xy表示中文有序字符串，x、y分别是其中两个词。

示例性的，本发明以伪代码的形式在下面给出微博文本分词处理算法的描述：

该算法首先通过对文档X与停用词集合的处理获取到处理后的文档X1，那么文档X1经过停用词处理后，实际上将其变成了由一句短语构成的文本。之后读取文档X1，首先获取一个中文短语S，如果中文短语S长度小于分词词典最长词语长度，则直接对中文短语进行分词，如果中文短语S长度大于分词词典最长词语长度，则就需要进一步截取字符串进行分词，算法中采用字符串term1与正向分词词典匹配进行正向分词的操作，采用term2与逆向分词词典匹配进行逆向分词的操作。当获取到正向分词集合fw和逆向分词集合rw后，首先将逆序分词集合rw词语进行逆向操作获取正确的词语集合，然后比较正向与逆向分词集合，判断是否出现了歧义词语，当出现歧义词语的时候，就记录这些歧义词语存入集合aw中。算法中对消除歧义的做法采取的是，先参照集合cl中的词语出现次数，然后统计歧义词语出现的概率，并根据公式(4.1)进行互信计算，互信的分高的那组为最终的分词结果。算法最终生成输出分词集合R。

2)、根据所获取的关键词组，建立索引树DLIR-Tree，所述索引树DLIR-Tree的每个节点包含一系列的社交网络文本的发送用户，每个节点的发送用户都是由该节点的下一层的子树所包含的发送用户的集合；如图2所示，图2为DLIR-Tree结构图，在这个树中，叶子节点由一组实体对象构成。给出该对象的形式化定义：

定：4.7：DLIR-Tree叶子节点对象<l，Λ，ψ，F>定义表明每个实体对象都包含了地理位置信息l，并且存在一个与该地理位置对应的最小边界矩形MBR属性Λ，与地理位置相关联的文档即用户在该地理位置签到时所发的微博文本关键词ψ，并且存在集合F代表一组用户，这组用户都是在该地理位置上签到过的。

对于DLIR-Tree索引树的每个叶子节点来说，每个叶子节点映射一个相应的倒排文件。

倒排文件又被称作倒排索引，它的含义是用记录的非主属性值(也叫副键)来查找记录而组织的文件叫倒排文件，即次索引。倒排文件中包含了所有的非主属性值，并且列出了与之有关的所有记录的主键值，倒排文件主要用于复杂查询处理。

对于搜索引擎而言，它需要一个特别有效的数据结构处理收集到的数据，并在这个基础上给用户提供搜索服务。现在大量的搜索引擎都采用倒排文件的索引方式处理数据。根据倒排文件的特征可以看到，倒排文件简单地认为是一种用文档的关键词作为索引，而文档自身作为索引目标的结构。

针对叶子节点关联的倒排文件，如图3所示，由两个主要的部分构成：

(1)一个关键词词汇表，这些关键词均在某些微博文本中出现过。

(2)对于每一个单词来说，它对应的一组微博文本集合，以链表形式表现。例如对于一个关键词w来说，一篇微博文本中出现了这个关键词w，那么将这样的微博文本放在同一个集合中。

对于DLIR-Tree中的每一个非叶子节点，给出了形式化的定义：

定义4.8：DLIR-Tree非叶子节点对象<R，Λ，ψ，F>定义中R表示了它的孩子节点对象的集合，并且其孩子节点的地理位置所组成的对应的最小边界矩形MBR属性Λ，这个最小边界矩形可以对所要查询的区域用户做相应的匹配计算，ψ对应了它所有的孩子节点所包含的微博文本关键词，对象中的F也是一组在该区域做过签到行为且发表过微博的用户，同时这些用户也是该节点的孩子节点对应的用户集合。

对于DLIR-Tree索引树的每个非叶子节点来说，每个非叶子节点也始终会映射一个相应的倒排文件。

如图4所示，图4是对于图2DLIR-Tree树中各个节点的一个地理位置图。如图所示，位置L₁和位置L₂形成了一个MBR即R1，位置L₃和位置L₄形成了一个MBR即R2，位置L₅、位置L₆和位置L₇形成了一个MBR即R3，位置L₈和位置L₉形成了一个MBR即R4，接着R1与R2形成上一层的MBR即R5，R3与R4形成上一层的MBR即R6，与图2DLIR-Tree相对应。

示例性的，如图5所示，是对于图2DLIR-Tree树中各个节点的一个倒排文件图。图中左侧为节点R5的倒排文件，文件中包含六个关键词，其中每一个关键词对应了构成R5的R1与R2的实体对象，可以看到价格对应R1与R2，牛排对应R1，餐厅对应R1与R2，电影院对应R1，酒店对应R2，商场对应R2。图中中间部分是R1对应的倒排文件，右侧部分是R2对应的倒排文件。因为R1对应的孩子节点已经是叶子节点，因此其对应的倒排文件内容关联的是具体的微博文本，已在图中表示。

所定义的DLIR-Tree继承了典型的IR-Tree所具有的一个重要特征，即每一个非叶子节点都有一个对应的关联倒排文本，该关联文本就是对以该节点为根节点的子树的查询的关联倒排文本的上界。

定义4.9：DLIR-Tree倒排文本单调性给定一个查询q，再给出一个非叶子节点实体e，以及它的最小边界矩形e.Λ。用tr_q(p)表示对象实体p对应的关联倒排文本与查询q的关键词的相关度。那么对于任意属于节点e的对象实体p，均有

例如对于图2中数据，给定一个查询q，那么就有tr_q(R₅)≥tr_q(R₁)≥tr_q(p₁)

对于微博签到位置与用户发起查询的地理位置之间的社会距离相关性的如下列公式(4.2)所示：

在上述公式中，sd_q(p)表示对象实体p对于用户u发起的查询的社会距离相关性。其中，α∈[0，1)，常量1保证了计算的相关性永远不会等于零。α||u_qu||_s也经常会被用于其他的一些社交网络评分计算以及PageRank，考虑对其进行合适的处理，应用在DLIR-Tree的查询算法中。

基于以上定义与公式，给出下列定义：

定义4.10给定一个查询q，再给出一个非叶子节点实体e，并且它拥有孩子节点，孩子节点包含了n个实体对象，有E＝{e_i，1≤i≤n}，那么对于任意的孩子节点对象实体，都有

因为e_i是e的孩子节点中的一个对象，e_i一定是e的一个子集，有对于定义4.10可以给出以下证明：

4)、对所获取的文本数据与关键词组进行相似度计算处理，得到过滤后的文本数据；

对于给定的一个微博文本p与用户需求q关键词组的相似度，可以用下列公式(4.3)计算：

根据对微博文本分词处理后，可将微博文本看作是由一组关键词组成的，即微博文本自身也是一个关键词组。那么通过对公式(4.3)的分析可知，当w_p.i*w_q.i的结果为零时，是不影响相似度的，而只有当p或者q其中任意一方的关键词不能匹配时，w_p.i*w_q.i的结果为零。当p或者q中的关键词不完全匹配时，也就是其中有一方不存在该关键词，但是这种情况出现的比较少，那么可以考虑以关键词存在较多的一方作为参考对象，而不考虑关键词存在较少的一方。相反，当p或者q中的关键词匹配度非常低的时候，也就是w_p.i和w_q.i存在非常多的零项时，那么就考虑以关键词存在较少的一方作为参考对象，而不考虑关键词存在较多的一方。公式(4.4)是改进的余弦相似度计算公式，其中K为选择的关键词的索引集合，去掉了不考虑的关键词组中的关键词。

其中，p为文本数据，q为用户需求关键词组，K为选择的关键词的索引集合，Wp.i为文本数据关键词，Wq.i为用户需求关键词，获取过滤后的文本数据列表。

改进的余弦相似度计算公式能够保证当匹配度高的情况下，给与其一定的权值挑选出来，匹配度过低的情况下，赋予其较低的权值，使得相似度的区分更加快速更加合理。结合DLIR-Tree以及改进的余弦相似度计算公式，可以获取到微博Plist。

以伪代码的形式在下面给出DLIR-Tree查询算法的描述：

上述算法首先初始化一个优先队列U，该队列存放的是对DLIR-Tree进行最佳优先搜索的结果。首先将DLIR-Tree的根节点存入优先队列中，对优先队列U进行while循环操作，当优先队列U为非空队列时，则表明此队列中存在符合条件的节点或对象，那么判断出队列的是否是一个实体对象，如果是一个实体对象，那么判断这个对象对应的微博文本是否已经存入Plist中，若Plist中没有，就将该对象添加入Plist中。当出队列的不是一个实体对象时，那么它就对应了DLIR-Tree中的一个非叶子节点，那么此时遍历这个节点e的所有孩子节点e′，如果存在孩子节点e′的社交距离小于给定的查询半径社交距离即sd_q(e′)＜sd_q(r)，并且它所对应的倒排文件关键词与给定查询关键词组有交集即那么就计算这个孩子节点与给定关键词组的相似度，作为优先级别将这个孩子节点e′存入优先队列中，然后算法继续执行while循环，直到优先队列为空队列结束。

5)、根据过滤后的文本数据，进行综合评分，并根据综合评分完成Top-k区域用户文本数据推荐。

其中β是一个常量，T_i表示该层节点对应文本数据的评论与转发数；选定初始文本数据，将初始文本数据设定为文本根节点，子节点为上层节点文本数据的点赞次数以及转发或回复的文本数据，k_i表示第i层的节点对应文本数据的点赞数；示例性的，以微博为例：定义4.11微博树：给定一个查询q，给定一篇初始微博文本与查询q相关，那么将该微博文本作为微博树的根节点，形成一颗微博树。微博树具有以下特征：

(1)微博树中每一个节点对应唯一一篇微博文本，同时该节点还记录了这篇微博的点赞数。

(2)微博树的根节点所对应的微博文本中的关键词一定也存在于查询q中的关键词组中。

(3)如果一个节点存在孩子节点，那么说明它的孩子节点所对应的微博回复或者转发了该节点所对应的微博。

如图6所示，以微博树例子，微博P1所拥有的关键词与用户需求关键词组中的关键词相匹配，微博P2、微博P3和微博P4回复或者转发了微博P1，又有微博P5、微博P6、微博P7和微博P8分别回复或者转发了微博P2、微博P3和微博P4，又有微博P9和微博P10回复或者转发了微博P5。并且其中每个节点都记录了对应微博的被点赞次数。

当微博树上的节点越多时，微博树根节点上的微博文本就越受欢迎。如果一篇微博文本没有被其他用户点赞、评论或者转发，那么由它所形成的微博树只有一个自身的根节点。显而易见，这样的微博是不受欢迎的，推荐算法在考虑这样的微博文本时，应该给予其较轻的分数。一般来说，当一篇微博树由大量的节点构成，就意味着根节点上的这篇微博相比较其他微博树根节点微博而言是更加重要的，对于用户所提推荐需求来说是更加具有发言权的，那么发表这样一篇微博的用户就是本文所要应该重点考虑推荐的区域用户。

其中，|p.w∩q.w|为需求关键词的出现频率；文本数据与关键词组相似度，N为归一化参数；考虑了微博与关键词组的相似度，并且对于关键词组来说，包含的关键词不会重复，但是微博可能出现重复的关键词，例如用户需求关键词组包含了“海鲜”、“餐厅”两个关键词，那么关联的微博也许会包含两个“海鲜”和一个“餐厅”关键词，那么需求关键词的出现频率就是3，在公式上表现为|p.w∩q.w|，与相似度相结合sim(p，q)。公式同时又结合了微博自身的流行度pop(p)，除此之外，因为考虑到微博的流行度pop(p)是允许大于1的，所以公式设置归一化参数N，将评分限制在[0，1]的区间上，方便后续的评分标准的设定。

总和评分公式：

一个用户会在不同时间段内发表同一主题的微博，也就是说可能会存在多篇用户所发的微博与需求关键词组都相关的情况，当存在多篇微博的时候，首先将该用户所有与需求关键词组相关的微博评分都考虑在内然后对该用户进行评分，那么在此种情况下，本文考虑结合微博所发时间，给出一个基于用户所有相关微博的总和评分公式。

最大评分公式：

当然如果只考虑用户发布过的与需求关键词组相关的微博最大的评分作为推荐依据的话。仅仅考虑最大微博评分是因为如果用户在该条微博评分非常高的情况下，是否更加适合推荐给提出需求的用户。提出需求的用户可能通过询问这种区域用户获取到自己想要了解的事物或者消息。那么本文基于这样的情况，给出一个基于用户所发相关微博最大评分的评分公式。

其中，p是用户u发表的与关键词组相关的微博，t_p表示与用户提出需求的时间与该微博发布时间的时间差，以月份为单位。

其中，r为距离半径，l为查询位置；在上述公式中，考虑到当dist(p，q)＞r时，即意味着该微博签到地点不在用户需求区域范围内，则该微博的距离评分就为零，当dist(p，q)≤r时表示该微博签到地点在用户需求区域范围内，那么按照公式可以计算出相应的距离评分。通过公式可以看到，当微博的签到位置距离用户给定的地理位置越近，这篇微博的距离评分就会越高。特别的是，距离评分δ(p，q)的范围被定义在[0，1]的区间上。

uscore(u，q)＝α·ρ(u，q)+(1-α)·δ(u，q) (4.10)；

其中，参数α∈(0，1)，存在一个用户发表的多篇微博都满足需求的情况下，也要综合考虑这些微博的签到位置情况，P_u表示发送用户u发表的所有微博的集合。

Top-k区域用户推荐算法：

当基于用户所发的所有与需求相关微博推荐时，以伪代码的形式在下面给出推荐算法的描述：

上述算法在开始阶段初始化空集合Plist和Ulist，首先根据微博文本分词处理算法(算法4.3)对非转发的初始微博文本进行分词操作，然后构建DLIR-Tree索引，当DLIR-Tree索引已经存在时，且存在新的微博数据，那么将新的分词操作后的微博文本更新到DLIR-Tree中，若DLIR-Tree不存在，就构建DLIR-Tree。接着对构建好的DLIR-Tree采用DLIR-Tree查询算法(算法4.4)获取Plist。算法第6行到第17行是对于Plist中每一个微博对象按照公式(4.5)、公式(4.6)、公式(4.7)、公式(4.8)计算相应的评分。算法在12行根据公式(4.8)计算出单条微博用户的评分当该用户不存在于Ulist中时，就将该用户以及用户在该条微博下的评分添加入Ulist中，若该用户存在于Ulist中，就将该用户的基于微博评分加上基于该条微博的评分。最后获取到Ulist后，先对Ulist中的每一个用户u_i根据公式(4.10)计算其总评分uscore(u_i，q_(W，l，r))，然后对Ulist按照总评分的高低进行排序，算法再输出Ulist中Top-k个区域用户。

基于对上述算法的分析，发现对于通过DLIR-Tree查询算法(算法4.3)获取到的Plist，在遍历Plist的过程中，需要对Plist中的每一个微博对象都进行评分计算。这一过程会将大量的不影响最终结果的微博对象也进行了评分公式计算。Plist中记录了某个用户发表的多篇相关微博，那么每篇微博都会有其相应的流行度、微博评分。当基于用户所发的与需求相关微博最大评分推荐时，该篇微博一定是该用户被选中的所有相关微博中流行度最高的。因此当基于用户所发的与需求相关微博最大评分推荐时，以伪代码的形式在下面给出推荐算法描述：

上述算法在开始阶段同样需要初始化一个集合Plsit和一个优先队列KUqueue，这个优先队列存储Top-k用户。算法(4.6)中3到7行，10到15行与算法(4.5)是一样的。第8行和第9行是先判断优先队列用户数是否已经到k，并且判断选择的微博p_i的流行度是否比优先队列的最低的流行度还要低，若同时满足这两个条件，那么就舍弃这篇微博，不对其进行评分。算法在16行到26行是对于计算用户评分后，更新优先队列Kuqueue的策略。若优先队列用户数少于k并且该用户与KUqueue的交集为空即队列中不存在该用户，那么就将该用户及其评分加入KUqueue中，若交集不为空，就更新该用户的评分为该篇微博下的用户评分，若队列中用户数已经为k，该用户不存在KUqueue中且该篇微博用户评分大于队列中该用户的评分，则删除KUqueue队首位置用户，将新的用户及其评分加入到队列中，否则若用户存在且该篇微博用户评分大于队列中该用户的评分，那么更新该用户的评分。最后输出KUqueue即Top-k个区域用户。

为用户需求q(W，l，r)推荐Top-k区域用户。这两个算法分别是基于微博评分总和的Top-k区域用户推荐算法和基于微博最大评分的Top-k区域用户推荐算法。

对于本领域技术人员而言，显然能了解到上述具体实施例只是本发明的优选方案，因此本领域的技术人员对本发明中的某些部分所可能作出的改进、变动，体现的仍是本发明的原理，实现的仍是本发明的目的，均属于本发明所保护的范围。

Claims

1.一种基于位置的社交网络中Top-k区域用户文本数据推荐方法，包括以下步骤：

3)、根据需求用户的需求、地理位置及区域半径查询索引树DLIR-Tree，得到相匹配的文本数据；

2.根据权利要求1所述的基于位置的社交网络中Top-k区域用户文本数据推荐方法，其特征在于，所述步骤1)具体包括：

3.根据权利要求1所述的基于位置的社交网络中Top-k区域用户文本数据推荐方法，其特征在于，所述步骤2)具体包括：

4.根据权利要求3所述的基于位置的社交网络中Top-k区域用户文本数据推荐方法，其特征在于，所述步骤3)具体包括：

<mrow> <msub> <mi>sd</mi> <mi>q</mi> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>+</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>&Element;</mo> <mi>p</mi> <mo>.</mo> <mi>F</mi> </mrow> </munder> <msup> <mi>&alpha;</mi> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>u</mi> <mi>q</mi> </msub> <mi>u</mi> <mo>|</mo> <msub> <mo>|</mo> <mi>s</mi> </msub> </mrow> </msup> </mrow>

5.根据权利要求1所述的基于位置的社交网络中Top-k区域用户文本数据推荐方法，其特征在于，所述获取的文本数据与关键词组进行相似度计算处理具体包括：

根据下列公式进行相似度计算：

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <mi>K</mi> </mrow> </munder> <msub> <mi>w</mi> <mrow> <mi>p</mi> <mo>.</mo> <mi>i</mi> </mrow> </msub> <mo>*</mo> <msub> <mi>w</mi> <mrow> <mi>q</mi> <mo>.</mo> <mi>i</mi> </mrow> </msub> </mrow> <msqrt> <mrow> <mo>(</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <mi>K</mi> </mrow> </munder> <msup> <msub> <mi>w</mi> <mrow> <mi>p</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mn>2</mn> </msup> <mo>)</mo> <mo>(</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <mi>K</mi> </mrow> </munder> <msup> <msub> <mi>w</mi> <mrow> <mi>q</mi> <mo>.</mo> <mi>i</mi> </mrow> </msub> <mn>2</mn> </msup> <mo>)</mo> </mrow> </msqrt> </mfrac> </mrow>

6.根据权利要求1所述的基于位置的社交网络中Top-k区域用户文本数据推荐方法，其特征在于，所述进行综合评分，并根据综合评分完成Top-k区域用户文本数据推荐具体为：

<mrow> <mi>p</mi> <mi>o</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>&beta;</mi> <mo>+</mo> <mfrac> <msub> <mi>k</mi> <mn>1</mn> </msub> <mn>4</mn> </mfrac> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>T</mi> <mo>.</mo> <mi>h</mi> <mo>=</mo> <mn>1</mn> <mo>;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <mrow> <mo>|</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>+</mo> <mfrac> <msub> <mi>k</mi> <mi>i</mi> </msub> <mn>2</mn> </mfrac> <mo>|</mo> <mo>&times;</mo> <mfrac> <mn>1</mn> <mi>i</mi> </mfrac> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <msub> <mi>k</mi> <mn>1</mn> </msub> <mn>4</mn> </mfrac> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>T</mi> <mo>.</mo> <mi>h</mi> <mo>></mo> <mn>1</mn> <mo>;</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

<mrow> <mi>&rho;</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mi>p</mi> <mo>.</mo> <mi>w</mi> <mo>&cap;</mo> <mi>q</mi> <mo>.</mo> <mi>w</mi> <mo>|</mo> <mo>&times;</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>p</mi> <mi>o</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> <mi>N</mi> </mfrac> </mrow>

总和评分公式：

最大评分公式：

<mrow> <mi>&delta;</mi> <mrow> <mo>(</mo> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>|</mo> <mo>|</mo> <mi>p</mi> <mo>.</mo> <mi>l</mi> <mo>,</mo> <mi>q</mi> <mo>.</mo> <mi>l</mi> <mo>|</mo> <mo>|</mo> <mo>></mo> <mi>r</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mrow> <msup> <mi>r</mi> <mn>2</mn> </msup> <mo>-</mo> <mo>|</mo> <mo>|</mo> <mi>p</mi> <mo>.</mo> <mi>l</mi> <mo>,</mo> <mi>q</mi> <mo>.</mo> <mi>l</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <msup> <mi>r</mi> <mn>2</mn> </msup> </mfrac> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>|</mo> <mo>|</mo> <mi>p</mi> <mo>.</mo> <mi>l</mi> <mo>,</mo> <mi>q</mi> <mo>.</mo> <mi>l</mi> <mo>|</mo> <mo>|</mo> <mo>&le;</mo> <mi>r</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中，r为距离半径，l为查询位置；

uscore(u，q)＝α·ρ(u，q)+(1-α)·δ(u，q)