CN107609126B - 一种基于众包的空间检索词查询的评价方法和装置 - Google Patents

一种基于众包的空间检索词查询的评价方法和装置 Download PDF

Info

Publication number
CN107609126B
CN107609126B CN201710833269.1A CN201710833269A CN107609126B CN 107609126 B CN107609126 B CN 107609126B CN 201710833269 A CN201710833269 A CN 201710833269A CN 107609126 B CN107609126 B CN 107609126B
Authority
CN
China
Prior art keywords
sorted lists
sort algorithm
crowdsourcing
sorted
similitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710833269.1A
Other languages
English (en)
Other versions
CN107609126A (zh
Inventor
陈晋鹏
牛琨
管皓
李晶
吴国仕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201710833269.1A priority Critical patent/CN107609126B/zh
Publication of CN107609126A publication Critical patent/CN107609126A/zh
Application granted granted Critical
Publication of CN107609126B publication Critical patent/CN107609126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于众包的空间检索词查询的评价方法,包括:根据第一排序算法获取针对查询条件的第一排序列表,根据第二排序算法获取针对所述查询条件的第二排序列表;获取第一排序列表和第二排序列表的元素集合,将元素集合中的任意两个元素进行配对得到多个元素对;将每个所述的元素对转化成二进制问题并发布到众包平台;采集众包平台中二进制问题的答案,基于该答案获取基于众包平台的数据的第三排序列表;比较第一排序列表与第三排序列表之间的相似性、以及第二排序列表与第三排序列表之间的相似性,根据比较结果评价第一排序算法与第二排序算法的优劣。该方法能够判断出排序函数的优劣,从而帮助选择具有较好检索结果的排序函数。

Description

一种基于众包的空间检索词查询的评价方法和装置
技术领域
本发明涉及空间数据挖掘领域,特别是指一种基于众包的空间检索词查询的评价方法和装置。
背景技术
随着智能移动设备(比如:手机、Ipad等)的普及和位置社交网络(比如:Foursquare、Facebook places等)的广泛应用,用户可以随时随地发布带有位置的信息,人们也迈入了地理位置信息过载的时代。比如,在2014年,在移动设备上的Twitter每月活跃用户数量达到1.64亿之多,与此同时,Facebook也达到了4.25亿。如此海量的信息在给人带来便利的同时,也给人们查找自己感兴趣的内容增加了困难。基于这样的背景,在过去一些年中,空间检索词相关研究层出不穷。空间检索词查询能有效地帮助用户找到自己感兴趣的和相关的内容。
一个经典的空间查询模式是通过把空间地理位置和关键词作为输入参数,然后经过空间排序函数运算,最后输出按分值大小排序的前K个空间对象。尽管目前已经提出了许多空间检索词查询方法,但是大多数方法都是对于不同类型查询检索过程进行研究,但是较少关注这样一个问题,也就是对于一个给定的空间检索查询,哪一个排序函数能够获得较好的检索结果。
发明内容
有鉴于此,本发明的目的在于提出一种基于众包的空间检索词查询的评价方法和装置,能够判断出排序函数的优劣,从而选择具有较好检索结果的排序函数。
基于上述目的本发明提供的一种基于众包的空间检索词查询的评价方法,包括:
根据第一排序算法获取针对查询条件的第一排序列表,根据第二排序算法获取针对所述查询条件的第二排序列表;
获取所述第一排序列表以及所述第二排序列表的元素集合,将所述元素集合中的任意两个元素进行配对得到多个元素对;
将每个所述的元素对转化成二进制问题并发布到众包平台,所述二进制问题包括针对所述查询条件获取所述元素对中两个元素的排序顺序;
采集所述众包平台中所述二进制问题的答案,基于所述二进制问题的答案获取基于所述众包平台的数据的第三排序列表;
比较所述第一排序列表与所述第三排序列表之间的相似性、以及所述第二排序列表与所述第三排序列表之间的相似性,根据比较结果评价所述第一排序算法与所述第二排序算法。
进一步,所述将所述元素集合中的任意两个元素进行配对得到多个元素对之后,还包括:
排除多个所述的元素对中重复的元素对;
衡量所述第一排序列表与所述第二排序列表的相似性,排除在所述第一排序列表与所述第二排序列表中具有相同排序顺序的元素对;
针对所述查询条件采用机器学习排序的方式获取参考排序列表,基于所述参考排序列表计算所述元素集合中元素的熵值,排除熵值小的元素所对应的元素对。
进一步,所述采集所述众包平台中所述二进制问题的答案,基于所述二进制问题的答案获取基于所述众包平台的数据的第三排序列表,包括:
采集全部的所述众包平台中所述二进制问题的答案,获得有序对集合;所述有序对集合中的元素表示所述元素对中两个元素的排序顺序;
根据所述元素在一个所述的元素对中的排序顺序,计算所述元素的第一评分,具体计算公式如下:
ai表示所述元素集合l1={a1,a2,…ap}中的第i个元素,p表示元素集合中的元素总数;I(ai)为示性函数,表示了元素对中两个元素的排序顺序;l(ai)>l(x)表示在所述元素对中元素ai的排序顺序在元素x之前;S(ai)表示元素ai的第一评分;
计算所述元素在所述有序对集合中的第一评分之和,得到第二评分;
将所述元素按照第二评分由大到小排列,得到所述第三排序列表。
进一步,所述比较所述第一排序列表与所述第三排序列表之间的相似性、以及所述第二排序列表与所述第三排序列表之间的相似性,包括:
计算所述第一排序列表与所述第三排序列表的第一相似性系数;
计算所述第二排序列表与所述第三排序列表的第二相似性系数;比较所述第一相似性系数与所述第二相似性系数的大小,从而判断所述第一排序列表与所述第三排序列表之间的相似性、所述第二排序列表与所述第三排序列表之间的相似性之间的关系。
进一步,所述基于众包的空间检索词查询的评价方法还包括:
创建一个查询集合,所述查询集合的每个元素表示一个所述的查询条件;
针对所述查询集合的每个所述的查询条件获取所述第一排序算法与所述第二排序算法的优劣性;
针对所述查询集合采用聚合策略计算所述第一排序算法与所述第二排序算法的聚合分数;比较所述第一排序算法与所述第二排序算法的聚合分数;若所述第一排序算法的聚合分数大于所述第二排序算法的聚合分数,则针对所述查询集合所述第一排序算法优于所述第二排序算法;反之,所述第二排序算法优于所述第一排序算法。
本发明还提供一种基于众包的空间检索词查询的评价装置,包括:
排序列表生成单元,用于根据第一排序算法获取针对查询条件的第一排序列表,根据第二排序算法获取针对所述查询条件的第二排序列表;
配对单元,用于获取所述第一排序列表以及所述第二排序列表的元素集合,将所述元素集合中的任意两个元素进行配对得到多个元素对;
转化单元,用于将每个所述的元素对转化成二进制问题并发布到众包平台,所述二进制问题包括针对所述查询条件获取所述元素对中两个元素的排序顺序;
答案采集单元,用于采集所述众包平台中所述二进制问题的答案,基于所述二进制问题的答案获取基于所述众包平台的数据的第三排序列表;
比较单元,用于比较所述第一排序列表、所述第二排序列表与所述第三排序列表之间的相似性;若所述第一排序列表与所述第三排序列表之间的相似性大于所述第二排序列表与所述第三排序列表之间的相似性,则所述第一排序算法优于所述第二排序算法;反之,所述第二排序算法优于所述第一排序算法。
进一步,所述配对单元还用于实现:
排除多个所述的元素对中重复的元素对;
衡量所述第一排序列表与所述第二排序列表的相似性,排除在所述第一排序列表与所述第二排序列表中具有相同排序顺序的元素对;
针对所述查询条件采用机器学习排序的方式获取参考排序列表,基于所述参考排序列表计算所述元素集合中元素的熵值,排除熵值小的元素所对应的元素对。
进一步,所述答案采集单元还用于实现:
采集全部的所述众包平台中所述二进制问题的答案,获得有序对集合;所述有序对集合中的元素表示所述元素对中两个元素的排序顺序;
根据所述元素在一个所述的元素对中的排序顺序,计算所述元素的第一评分,具体计算公式如下:
ai表示所述元素集合l1={a1,a2,…ap}中的第i个元素,p表示元素集合中的元素总数;I(ai)为示性函数,表示了元素对中两个元素的排序顺序;l(ai)>l(x)表示在所述元素对中元素ai的排序顺序在元素x之前;S(ai)表示元素ai的第一评分;
计算所述元素在所述有序对集合中的第一评分之和,得到第二评分;
将所述元素按照第二评分由大到小排列,得到所述第三排序列表。
进一步,所述比较单元还用于实现:
计算所述第一排序列表与所述第三排序列表的第一相似性系数;
计算所述第二排序列表与所述第三排序列表的第二相似性系数;
比较所述第一相似性系数与所述第二相似性系数的大小,从而判断所述第一排序列表与所述第三排序列表之间的相似性、所述第二排序列表与所述第三排序列表之间的相似性之间的关系。
进一步,所述基于众包的空间检索词查询的评价装置还包括全局评价单元,所述包括全局评价单元用于实现:
创建一个查询集合,所述查询集合的每个元素表示一个所述的查询条件;
针对所述查询集合的每个所述的查询条件获取所述第一排序算法与所述第二排序算法的优劣性;
针对所述查询集合采用聚合策略计算所述第一排序算法与所述第二排序算法的聚合分数;比较所述第一排序算法与所述第二排序算法的聚合分数;若所述第一排序算法的聚合分数大于所述第二排序算法的聚合分数,则针对所述查询集合所述第一排序算法优于所述第二排序算法;反之,所述第二排序算法优于所述第一排序算法。
从上面所述可以看出,本发明提供的基于众包的空间检索词查询的评价方法和装置,通过众包平台获得了一个基于众包平台工作者偏好的排序序列,通过比较排序算法实现的序列与众包平台排序序列的相关性,实现了对排序算法更客观、更基于用户偏好的评价;真实地通过众包平台工作者来回答空间检索词查询的成对问题,众包平台工作者来回答空间检索词查询的成对问题;更注重敏感关键词的检索,将重要的二进制问题发布给众包工作者,减少研发与采集问题的成本。
附图说明
图1为本发明实施例基于众包的空间检索词查询的评价方法流程示意图;
图2为本发明一个具体实施例评价流程示意图;
图3为本发明一个具体实施例评价流程第二示意图;
图4为本发明一个具体实施例评价流程第三示意图;
图5为本发明一个具体实施例评价流程第四示意图;
图6为本发明实施例基于众包的空间检索词查询的评价装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
对于一个给定的空间检索查询,使用一个较好的排序函数能获得较好的检索结果,而较好的检索结果可以在地理位置服务中增加用户的满意度。然而,现有技术中,对于某个查询的用户偏好信息是很难获取的,这也增加了评价排序函数的难度。
众包平台为复杂的不可能由计算机程序实现的或者很难建模的任务提供了解决方案,它可以通过群体智能的思想解决用户偏好信息获取的问题。比如,对于这样一个查询“find the best pizza shop closest to my current position in Beijing”,是很难用一个算法来告诉用户餐馆A好还是餐馆B好。但是,如果向大量的北京常驻用户问这样的问题,可以从他们的答案中很容易得出哪个餐馆好的结论。
基于上述思想,本发明实现了一种基于众包的空间检索词查询的评价方法,参照附图1所示,所述评价方法包括:
S100,根据第一排序算法获取针对查询条件的第一排序列表,根据第二排序算法获取针对所述查询条件的第二排序列表。
优选的,采用Top-K空间关键词查询进行排序。即:在同一个空间对象集合中,对于一个查询条件q,采用第一排序算法进行排序,选取排序靠前的K个排序结果作为第一排序列表;采用第二排序算法进行排序,选取排序靠前的K个排序结果作为第二排序列表。其中,一个查询条件q可以包括一个或者多个关键词。为了便于比较和评价,第一排序列表与第二排序列表具有相同数量的元素,即具有相同的K值。
S200,获取所述第一排序列表以及所述第二排序列表的元素集合,将所述元素集合中的任意两个元素进行配对得到多个元素对。
作为一个具体的实施例,设第一排序列表为(a,b,c,d),第二排序列表为(b,c,a,f),则第一排序列表与第二排序列表的元素集合为(a,b,c,d,b,c,a,f),配对后得到的元素对包括{(a,b),(a,c),(a,d),(a,b),(a,c),(a,a),(a,f),(b,c),(b,d),(b,b),(b,c),(b,a),(b,f),(c,d,(c,b),(c,c),(c,a),(c,f),(d,b),(d,c),(d,a),(d,f),(b,c),(b,a),(b,f),(c,a),(c,f),(a,f)}。
S300,将每个所述的元素对转化成二进制问题并发布到众包平台,所述二进制问题包括针对所述查询条件获取所述元素对中两个元素的排序顺序。
作为一个具体的实施例,元素对(a,b)可以转化为二进制问题“对于查询条件q,元素a是不是优于元素b?”或者“对于查询条件q,元素b是不是优于元素a?”。之后将全部的二进制问题发布到众包平台,由众包平台工作者完成问题的答案;众包平台工作者在做出问题的回答时,会基于自身的感受给出答案。而判断两个元素哪个更优,则完全基于用户偏向的喜好。
S400,采集所述众包平台中所述二进制问题的答案,基于所述二进制问题的答案获取基于所述众包平台的数据的第三排序列表。
优选的,采用类Majority Voting(多数表决)的方法对众包平台上获取的答案进行评分。例如对于(a,b),若50%以上的众包平台工作者认为a优于b,则认定a优于b,为了后续阐述方便,记为a>b。作为一个具体的实施例,对于第一排序列表(a,b,c,d)以及第二排序列表为(b,c,a,f),采集到二进制问题的答案为(a>b,b>c,c>d,f>d,c>f),则可以得到第三排序列表(a,b,c,f,d)。而第三排序列表由于是由众包平台工作者选择出来的,可以认为这个列表是最接近用户喜好偏向的排序列表,那么在接下来的判断时,哪一个排序函数生成的排序序列更接近第三排序列表,也就是说这个排序函数生成的排序序列更接近用户喜好偏向,也就可以判定这个排序函数更优。
S500,比较所述第一排序列表与所述第三排序列表之间的相似性、以及所述第二排序列表与所述第三排序列表之间的相似性,根据比较结果评价所述第一排序算法与所述第二排序算法。具体包括:使用Kendall's Tau系数计算所述第一排序列表与所述第三排序列表的第一相似性系数τ1;使用Kendall's Tau系数计算所述第二排序列表与所述第三排序列表的第二相似性系数τ2;比较第一相似性系数τ1与第二相似性系数τ2的大小。若τ12,即所述第一排序列表与所述第三排序列表之间的相似性大于所述第二排序列表与所述第三排序列表之间的相似性,则所述第一排序算法优于所述第二排序算法;反之,所述第二排序算法优于所述第一排序算法。
作为本发明的另一个实施例,步骤S200中将所述元素集合中的任意两个元素进行配对得到多个元素对之后,由于数量巨大导致元素对数量非常多,这样会导致将元素对转化成二进制问题后二进制问题的数量巨大,使得在众包平台获得结果的成本过高,因此有必要采取一些方法来减少二进制问题的数量,即减少元素对的数量,降低成本。
其中,减少元素对的方法具体包括:
S201,排除多个所述的元素对中重复的元素对。
如上述实施例所述,配对后得到的元素对包括很多重复值,包括:一个元素对中两个元素相同的,如(a,a)、(b,b)等;两组元素对的元素值实质上相同的,如(a,b)和(b,a),对于相同的查询条件,评价a优于b还是b优于a的实质是相同的。排除多个所述的元素对中重复的元素对后的元素对包括{(a,b),(a,c),(a,d),(a,f),(b,c),(b,d),(b,f),(c,d),(c,f),(d,f)}。
S202,衡量所述第一排序列表与所述第二排序列表的相似性,排除在所述第一排序列表与所述第二排序列表中具有相同排序顺序的元素对。
通过相似性系数Kendall's Tau系数或者Jaccard系数来衡量两个排序列表的相似性,同时找出两个排序列表中具有相同排序顺序的元素对。例如在上述实施例中,两个列表中的元素对(b,c)的排序顺序都是b在c之前,则在该查询中元素对(b,c)也没有必要转化为二进制问题发布到众包平台采集答案,可以直接排除该元素对。
S203针对所述查询条件采用机器学习排序的方式获取参考排序列表,基于所述参考排序列表计算所述元素集合中元素的熵值,排除熵值小的元素所对应的元素对。经过步骤S201、S202减少了元素对即二进制问题的数量后,元素对的数量仍然可能过多,为了节约成本,通过采用空间对象熵值的方法来控制元素对的数量。首先预先设定二进制问题的数量的最大值Mn,基于与第一排序列表与第二排序列表相同的查询条件采用Learn-to-Rank(机器学习排序)学习一个参考排序列表,之后基于该参考排序列表计算元素集合中各个元素的熵值并从大到小排序,选择熵值大的前Mn个元素所在元素对转化成二进制问题,而熵值较小则排除。
这样做的理由是:关键词对于空间对象来说是一个重要的特征,关键词描述了空间对象和查询关键字的相关性。如果检索关键词对于某个空间对象更有代表性,那么这个空间对象就越容易被检索到。一个关键词在空间对象上出现的频率越高,说明这个关键词对这个空间对象越具有代表性。本发明实施例用熵来衡量空间对象,熵考虑了两个因素,一个是关键词在某一个空间对象上的出现频率,另一个是关键词在这个空间对象上的频率与总的频率的占比。如果空间对象关联的关键词有较高的熵值,那么这个空间对象也有较高的熵值,反之,空间对象有较低的熵值。
具体的,对于空间集合随机地从k(f,KW)取一个关键词属于o.KW的概率为给定一个空间对象o,描述空间对象o的关键字的频率被定义为Freq(kw,o)=|kwo,k(f,O)|,k为由排序函数f得到的列表中空间对象的数目,|k(f,KW)|是与k(f,O)相关的关键词的数目。空间对象的熵值被定义如下:
其中,o.KW和f分别是对kw和k(f,O)的限制条件。如果kw出现在所有的空间对象上,那么|kwo,k(f,O)|值也将越高。
作为一个可替换的实施例,获取第一排序列表以及第二排序列表的元素集合时可以直接删除重复的元素,则上述实施例中第一排序列表与第二排序列表的元素集合可以为(a,b,c,d,f),配对后得到的元素对包括{(a,b),(a,c),(a,d),(a,f),(b,c),(b,d),(b,f),(c,d),(c,f),(d,f)}。之后再次通过步骤S201-S203所述的方法减少元素对的数量,从而减少最终转化成二进制问题的数量,节约成本。
作为本发明的另一个实施例,步骤S400中所述采集所述众包平台中所述二进制问题的答案,基于所述二进制问题的答案获取基于所述众包平台的数据的第三排序列表,包括:
S401,采集全部的所述众包平台中所述二进制问题的答案,获得有序对集合{A>B,A>C,A>D,C>B,C>D,B>D};所述有序对集合中的元素表示所述元素对中两个元素的排序顺序。
S402,采用波达计数的方法,根据所述元素在一个所述的元素对中的排序顺序,计算所述元素的第一评分,具体计算公式如下:
ai表示所述元素集合l={a1,a2,…ap}中的第i个元素,p表示元素集合中的元素总数;I(ai)为示性函数,表示了元素对中两个元素的排序顺序;l(ai)>l(x)表示在所述元素对中元素ai的排序顺序在元素x之前;S(ai)表示元素ai的第一评分。具体的,例如对于有序对A>B,则S(A)=1,S(B)=0。
S403,计算所述元素在所述有序对集合中的第一评分之和,得到第二评分;
根据上述方法可以得到g(A)=3,g(B)=1,g(C)=2,g(D)=0。
S404,将所述元素按照第二评分由大到小排列,得到所述第三排序列表{A,C,B,D}。
上述实施例公开了对于一个查询条件比较两个排序函数优劣的方法,即局部评价的方法。本发明实施例还公开了一种全局评价的方法,包括:
S601,在一个空间对象集合O中,创建一个查询集合Q={q1,...,qM},所述查询集合的每个元素表示一个所述的查询条件。查询集合中可以包括多个不同的查询条件。为了便于评价,查询集合中元素的数量M设置为奇数个。
S602,针对所述查询集合的每个所述的查询条件获取所述第一排序算法与所述第二排序算法的优劣性。
具体的,对于第一排序算法f1,得到了M个Top-K排序列表于第二排序算法f2,得到了M个Top-K排序列表并采用上述局部评价的方法判断每个查询中两个排序函数的优劣。
S603,针对所述查询集合采用聚合策略计算所述第一排序算法与所述第二排序算法的聚合分数;比较所述第一排序算法与所述第二排序算法的聚合分数;若所述第一排序算法的聚合分数大于所述第二排序算法的聚合分数,则针对所述查询集合所述第一排序算法优于所述第二排序算法;反之,所述第二排序算法优于所述第一排序算法。具体算法如下:
其中,l1表示第一排序列表,l2表示第二排序列表,lf表示第三排序列表。在一个具体的实施例中,对于查询集合Q={q1,...,qM},若第一排序算法f1优于第二排序算法f2的数量大于50%,则在该全局评价中认为第一排序算法优于第二排序算法。
本发明实施例还公开了另一个具体的实施例,参照图2-图5所示,具体包括:
S710,在一个空间对象集合o=(A,B,C,D,E,F,G,H,I,J,K,L,M)中,采用查询条件q进行检索,具体的排序函数定义如下:
其中,α∈[0,1]是一个均衡空间距离相似性和文本相似性的参数,通过调整α的值可以得到第一排序算法f1和第二排序算法f2;q.loc和o.loc分别代表查询条件和空间对象的经纬度信息;q.KW和o.KW分别代表与查询条件和空间对象相关的关键词集合;D(q.loc,o.loc)是q和o之间的欧氏距离;maxD是正则化因子,指的是空间对象O中任何两个对象距离的最大值;是一个从θo.KW的语言模型生成q.KW的概率;p(t|θo.KW)表示一个从θo.KW的语言模型生成t的概率;是正则化因子,指的是用每一个词的语言模型的最大值来计算概率值的上界。
S720,根据第一排序算法f1获取针对查询条件q的第一排序列表l1=(a1,...,ak),根据第二排序算法f2获取针对相同的查询条件q的第二排序列表l2=(b1,...,bk),两个排序列表中的k值相同。在一个具体的实施例中,l1=(A,B,C,D,E),l2=(C,B,A,F,G)。
S730,获取第一排序列表l1以及第二排序列表l2的元素集合(a1,…ak,b1,…bk),并以元素集合(a1,…ak,b1,…bk)作为行和列构建一个2k×2k的矩阵R,矩阵R中的每个元素[i,j]表示一个元素对。之后生成2k×2k个二进制问题发布到众包平台,即该元素(i,j)所对应的行Xi与列Yj这个元素对中认为Xi比Yj优的众包平台工作者的数目。在上述具体的实施例中,所述元素集合为(A,B,C,D,E,C,B,A,F,G),并以该元素集合构建一个10×10的矩阵。
在实际的工作中,发布2k×2k个二进制问题是很困难的,因为数量庞大,且成本消耗巨大,因此需要减少二进制问题的数量。具体方法包括:
S731,首先,排除矩阵中重复的元素对。由于矩阵R的行和列相同,因此矩阵R是个以主对角线为对称轴的对称矩阵,故可以直接排除对称部分的元素对以及主对角线所表示的元素对。之后,由于两个排序列表l1与l2中可能存在重复的元素,排除实质上相同的元素对。
S732,衡量所述第一排序列表l1与所述第二排序列表l2的相似性,排除在所述第一排序列表l1与所述第二排序列表l2中具有相同排序顺序的元素对。在上述具体的实施例中,可以采用Kendall's Tau系数和Jaccard系数来衡量两个排序列表的相似性。采用Kendall's Tau系数时两个列表相似项为,l1:{A,B}{A,C}{B,C},l2:{C,B}{C,A}{B,A},Kendall'sTau系数KT=1-2*SimDif/n(n-1)=1-2*3/4*3=0.5。采用Jaccard系数时,两个列表相似项为{A,B,C},Jaccard系数为JC=(l1∩l2)/(l1∪l2)=3/8=0.375。
其中,Kendallτ系数被定义为:其中Nc代表了可协调对的数目,Nd代表了不可协调的对的数目,分母代表了所有对的数目,系数的取值范围是-1≤τ≤1。
S733,针对所述查询条件采用机器学习排序的方式获取参考排序列表,基于所述参考排序列表计算所述元素集合中元素的熵值,排除熵值小的元素所对应的元素对。
采用步骤S731~S733的方法能够减少发送给众包平台工作者的问题数目,既能降低研究成本,还能有助于降低众包平台工作者的负担且获得高效的答案。
S740,之后将矩阵中剩余的元素对转化为二进制问题发布到众包平台,在众包平台采集众包工作者的答案,填入矩阵Ma中,得到一个不完全矩阵。在本实施例中,不关注矩阵元素(i,j)的真实值,而只在乎Xi比Yj优还是劣,因此若Xi比Yj优,设定元素(i,j)值为1,否则值为0,从而得到一个矩阵元素只有0,1的答案矩阵。而由于步骤S731~S733中排除了一些二进制问题,导致该答案矩阵为一个不完全矩阵。例如,在上述具体实施例中,采集众包平台的结果为A>C,D>F,E>G,填充进矩阵如下:
S750,采用矩阵分解的方法将所述不完全矩阵转化为完全矩阵。
用矩阵分解的方法将不完整的矩阵转化成完整的矩阵,即把不完全矩阵中的元素看成是先验知识,然后基于先验知识获得整个矩阵;而且,先验知识越精确,矩阵的补充元素越合理,也即如果一开始能获取最重要的二进制问题,那么能够更加精确地推理出其它二进制问题的答案。因此,有必要采用矩阵分解的方法将不完全矩阵转化为完全矩阵,即把缺失的项补充上,补充方法可以转化为基于机器学习的回归问题,也就是连续值的预测,具体步骤如下:
矩阵分解如下:
其中,R是N*M维的矩阵(N表示行数,M表示列数),R可以分解为P跟Q,其中P矩阵维度N*K,P矩阵维度K*M。其中,P矩阵表示N个用户对K个主题的关系,Q矩阵表示K个主题跟M个物品的关系,K是一个需要调节的参数,通常10~100之间。在本实施例中,K为与查询相关空间对象的数目。
式子(6)左边项,表示的是R^第i行,第j列的元素值,式子(7)给出了衡量矩阵分解好坏的标准,也就是损失函数,平方项损失,最后的目标,就是每一个元素(非缺失值)的e(i,j)的总和最小。
基于梯度下降的优化算法,p,q里面的每个元素的更新方式为:
机器学习算法需要增加一个正则项,这里面对式子(7)稍作修改,得到如下式子(9),其中,β是正则参数。
相应的p,q矩阵各个元素的更新也修改为:
P,Q矩阵元素求出来了之后,计算某个用户i对某个物品j的评分计算即元素[i,j]的值就是p(i,1)*q(1,j)+p(i,2)*q(2,j)+....+p(i,k)*q(k,j)。
在上述具体实施例中,转化后的完全矩阵为:
矩阵分解完成后,统计偏序对,包括A>B,A>C,A>D等。
S760,采用波达计数得到第三排序列表l12=(A,B,C,D,F,E,G)。
S770,采用Kendall Tau相似性系数计算l1与l12之间的相似性系数τ1,以及l2与l12之间的相似性系数τ2,比较后得知τ12,则在该查询中,第一排序算法f1优于第二排序算法f2
本实施例通过使用矩阵来实现步骤S200-400所述的方法,即使用矩阵表示元素对,并通过矩阵来减少二进制问题,通过矩阵分解将不完全矩阵转化为完全矩阵,最终统计出第三列表。
本发明所述基于众包的空间检索词查询的评价方法,通过众包平台获得了一个基于众包平台工作者偏好的排序序列,通过比较排序算法实现的序列与众包平台排序序列的相关性,实现了对排序算法更客观、更基于用户偏好的评价;真实地通过众包平台工作者来回答空间检索词查询的成对问题,众包平台工作者来回答空间检索词查询的成对问题;对空间检索词进行分类,比如哪些空间检索词对关键字语义更敏感,哪些检索词对于地理位置更敏感;更注重敏感关键词的检索,将重要的二进制问题发布给众包工作者,减少研发与采集问题的成本。
本发明实施例还公开了一种基于众包的空间检索词查询的评价装置,参照图6所示,包括:
排序列表生成单元11,用于根据第一排序算法获取针对查询条件的第一排序列表,根据第二排序算法获取针对所述查询条件的第二排序列表。
配对单元12,用于获取所述第一排序列表以及所述第二排序列表的元素集合,将所述元素集合中的任意两个元素进行配对得到多个元素对。
转化单元13,用于将每个所述的元素对转化成二进制问题并发布到众包平台,所述二进制问题包括针对所述查询条件获取所述元素对中两个元素的排序顺序。
答案采集单元14,用于采集所述众包平台中所述二进制问题的答案,基于所述二进制问题的答案获取基于所述众包平台的数据的第三排序列表。
比较单元15,用于比较所述第一排序列表、所述第二排序列表与所述第三排序列表之间的相似性;若所述第一排序列表与所述第三排序列表之间的相似性大于所述第二排序列表与所述第三排序列表之间的相似性,则所述第一排序算法优于所述第二排序算法;反之,所述第二排序算法优于所述第一排序算法。
优选的,所述配对单元12还用于实现:
排除多个所述的元素对中重复的元素对;
衡量所述第一排序列表与所述第二排序列表的相似性,排除在所述第一排序列表与所述第二排序列表中具有相同排序顺序的元素对;
针对所述查询条件采用机器学习排序的方式获取参考排序列表,基于所述参考排序列表计算所述元素集合中元素的熵值,排除熵值小的元素所对应的元素对。
优选的,所述答案采集单元14还用于实现:
采集全部的所述众包平台中所述二进制问题的答案,获得有序对集合;所述有序对集合中的元素表示所述元素对中两个元素的排序顺序;
根据所述元素在一个所述的元素对中的排序顺序,计算所述元素的第一评分,具体计算公式如下:
ai表示所述元素集合l1={a1,a2,…ap}中的第i个元素,p表示元素集合中的元素总数;I(ai)为示性函数,表示了元素对中两个元素的排序顺序;l(ai)>l(x)表示在所述元素对中元素ai的排序顺序在元素x之前;S(ai)表示元素ai的第一评分;
计算所述元素在所述有序对集合中的第一评分之和,得到第二评分;
将所述元素按照第二评分由大到小排列,得到所述第三排序列表。
优选的,所述比较单元15还用于实现:
计算所述第一排序列表与所述第三排序列表的第一相似性系数;
计算所述第二排序列表与所述第三排序列表的第二相似性系数;
比较所述第一相似性系数与所述第二相似性系数的大小,从而判断所述第一排序列表与所述第三排序列表之间的相似性、所述第二排序列表与所述第三排序列表之间的相似性之间的关系。
优选的,所述的基于众包的空间检索词查询的评价装置,还包括全局评价单元16,所述包括全局评价单元16用于实现:
创建一个查询集合,所述查询集合的每个元素表示一个所述的查询条件;
针对所述查询集合的每个所述的查询条件获取所述第一排序算法与所述第二排序算法的优劣性;
针对所述查询集合采用聚合策略计算所述第一排序算法与所述第二排序算法的聚合分数;比较所述第一排序算法与所述第二排序算法的聚合分数;若所述第一排序算法的聚合分数大于所述第二排序算法的聚合分数,则针对所述查询集合所述第一排序算法优于所述第二排序算法;反之,所述第二排序算法优于所述第一排序算法。
上述实施例所述的基于众包的空间检索词查询的评价装置用于实现前述实施例中相应的基于众包的空间检索词查询的评价方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于众包的空间检索词查询的评价方法,其特征在于,包括:
根据第一排序算法获取针对查询条件的第一排序列表,根据第二排序算法获取针对所述查询条件的第二排序列表;
获取所述第一排序列表以及所述第二排序列表的元素集合,将所述元素集合中的任意两个元素进行配对得到多个元素对,并排除多个所述的元素对中重复的元素对;
将每个所述的元素对转化成二进制问题并发布到众包平台,所述二进制问题包括针对所述查询条件获取所述元素对中两个元素的排序顺序;
采集所述众包平台中所述二进制问题的答案,基于所述二进制问题的答案获取基于所述众包平台的数据的第三排序列表;
比较所述第一排序列表与所述第三排序列表之间的相似性、以及所述第二排序列表与所述第三排序列表之间的相似性,根据比较结果评价所述第一排序算法与所述第二排序算法。
2.根据权利要求1所述的基于众包的空间检索词查询的评价方法,其特征在于,所述将所述元素集合中的任意两个元素进行配对得到多个元素对,并排除多个所述的元素对中重复的元素对之后,还包括:
衡量所述第一排序列表与所述第二排序列表的相似性,排除在所述第一排序列表与所述第二排序列表中具有相同排序顺序的元素对;
针对所述查询条件采用机器学习排序的方式获取参考排序列表,基于所述参考排序列表计算所述元素集合中元素的熵值,排除熵值小的元素所对应的元素对。
3.根据权利要求1所述的基于众包的空间检索词查询的评价方法,其特征在于,所述采集所述众包平台中所述二进制问题的答案,基于所述二进制问题的答案获取基于所述众包平台的数据的第三排序列表,包括:
采集全部的所述众包平台中所述二进制问题的答案,获得有序对集合;所述有序对集合中的元素表示所述元素对中两个元素的排序顺序;
根据所述元素在一个所述的元素对中的排序顺序,计算所述元素的第一评分,具体计算公式如下:
ai表示所述元素集合l1={a1,a2,…ap}中的第i个元素,p表示元素集合中的元素总数;I(ai)为示性函数,表示了元素对中两个元素的排序顺序;
l(ai)>l(x)表示在所述元素对中元素ai的排序顺序在元素x之前;S(ai)表示元素ai的第一评分;
计算所述元素在所述有序对集合中的第一评分之和,得到第二评分;
将所述元素按照第二评分由大到小排列,得到所述第三排序列表。
4.根据权利要求1所述的基于众包的空间检索词查询的评价方法,其特征在于,所述比较所述第一排序列表与所述第三排序列表之间的相似性、以及所述第二排序列表与所述第三排序列表之间的相似性,包括:
计算所述第一排序列表与所述第三排序列表的第一相似性系数;
计算所述第二排序列表与所述第三排序列表的第二相似性系数;
比较所述第一相似性系数与所述第二相似性系数的大小,从而判断所述第一排序列表与所述第三排序列表之间的相似性、所述第二排序列表与所述第三排序列表之间的相似性之间的关系。
5.根据权利要求1-4任意一项所述的基于众包的空间检索词查询的评价方法,其特征在于,还包括:
创建一个查询集合,所述查询集合的每个元素表示一个所述的查询条件;
针对所述查询集合的每个所述的查询条件获取所述第一排序算法与所述第二排序算法的优劣性;
针对所述查询集合采用聚合策略计算所述第一排序算法与所述第二排序算法的聚合分数;比较所述第一排序算法与所述第二排序算法的聚合分数;若所述第一排序算法的聚合分数大于所述第二排序算法的聚合分数,则针对所述查询集合所述第一排序算法优于所述第二排序算法;反之,所述第二排序算法优于所述第一排序算法。
6.一种基于众包的空间检索词查询的评价装置,其特征在于,包括:
排序列表生成单元,用于根据第一排序算法获取针对查询条件的第一排序列表,根据第二排序算法获取针对所述查询条件的第二排序列表;
配对单元,用于获取所述第一排序列表以及所述第二排序列表的元素集合,将所述元素集合中的任意两个元素进行配对得到多个元素对,并排除多个所述的元素对中重复的元素对;
转化单元,用于将每个所述的元素对转化成二进制问题并发布到众包平台,所述二进制问题包括针对所述查询条件获取所述元素对中两个元素的排序顺序;
答案采集单元,用于采集所述众包平台中所述二进制问题的答案,基于所述二进制问题的答案获取基于所述众包平台的数据的第三排序列表;
比较单元,用于比较所述第一排序列表、所述第二排序列表与所述第三排序列表之间的相似性;若所述第一排序列表与所述第三排序列表之间的相似性大于所述第二排序列表与所述第三排序列表之间的相似性,则所述第一排序算法优于所述第二排序算法;反之,所述第二排序算法优于所述第一排序算法。
7.根据权利要求6所述的基于众包的空间检索词查询的评价装置,其特征在于,所述配对单元还用于实现:
衡量所述第一排序列表与所述第二排序列表的相似性,排除在所述第一排序列表与所述第二排序列表中具有相同排序顺序的元素对;
针对所述查询条件采用机器学习排序的方式获取参考排序列表,基于所述参考排序列表计算所述元素集合中元素的熵值,排除熵值小的元素所对应的元素对。
8.根据权利要求6所述的基于众包的空间检索词查询的评价装置,其特征在于,所述答案采集单元还用于实现:
采集全部的所述众包平台中所述二进制问题的答案,获得有序对集合;所述有序对集合中的元素表示所述元素对中两个元素的排序顺序;
根据所述元素在一个所述的元素对中的排序顺序,计算所述元素的第一评分,具体计算公式如下:
ai表示所述元素集合l1={a1,a2,…ap}中的第i个元素,p表示元素集合中的元素总数;I(ai)为示性函数,表示了元素对中两个元素的排序顺序;
l(ai)>l(x)表示在所述元素对中元素ai的排序顺序在元素x之前;S(ai)表示元素ai的第一评分;
计算所述元素在所述有序对集合中的第一评分之和,得到第二评分;
将所述元素按照第二评分由大到小排列,得到所述第三排序列表。
9.根据权利要求6所述的基于众包的空间检索词查询的评价装置,其特征在于,所述比较单元还用于实现:
计算所述第一排序列表与所述第三排序列表的第一相似性系数;
计算所述第二排序列表与所述第三排序列表的第二相似性系数;
比较所述第一相似性系数与所述第二相似性系数的大小,从而判断所述第一排序列表与所述第三排序列表之间的相似性、所述第二排序列表与所述第三排序列表之间的相似性之间的关系。
10.根据权利要求6-9任意一项所述的基于众包的空间检索词查询的评价装置,其特征在于,还包括全局评价单元,所述包括全局评价单元用于实现:
创建一个查询集合,所述查询集合的每个元素表示一个所述的查询条件;
针对所述查询集合的每个所述的查询条件获取所述第一排序算法与所述第二排序算法的优劣性;
针对所述查询集合采用聚合策略计算所述第一排序算法与所述第二排序算法的聚合分数;比较所述第一排序算法与所述第二排序算法的聚合分数;若所述第一排序算法的聚合分数大于所述第二排序算法的聚合分数,则针对所述查询集合所述第一排序算法优于所述第二排序算法;反之,所述第二排序算法优于所述第一排序算法。
CN201710833269.1A 2017-09-15 2017-09-15 一种基于众包的空间检索词查询的评价方法和装置 Active CN107609126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710833269.1A CN107609126B (zh) 2017-09-15 2017-09-15 一种基于众包的空间检索词查询的评价方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710833269.1A CN107609126B (zh) 2017-09-15 2017-09-15 一种基于众包的空间检索词查询的评价方法和装置

Publications (2)

Publication Number Publication Date
CN107609126A CN107609126A (zh) 2018-01-19
CN107609126B true CN107609126B (zh) 2019-03-29

Family

ID=61060169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710833269.1A Active CN107609126B (zh) 2017-09-15 2017-09-15 一种基于众包的空间检索词查询的评价方法和装置

Country Status (1)

Country Link
CN (1) CN107609126B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604316A (zh) * 2009-06-17 2009-12-16 腾讯科技(深圳)有限公司 评估两种排序算法相似度的方法
CN104200206A (zh) * 2014-09-09 2014-12-10 武汉大学 一种基于双角度排序优化的行人重识别方法
CN105825324A (zh) * 2016-03-10 2016-08-03 中国人民解放军国防科学技术大学 一种带有局部信息的排名列表聚合方法
CN106897373A (zh) * 2017-01-19 2017-06-27 浙江大学 一种基于PostgreSQL和众包的不完整数据查询处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103098056B (zh) * 2012-10-26 2016-11-16 华为技术有限公司 一种排序的方法、装置与终端
CN104182488B (zh) * 2014-08-08 2016-09-07 腾讯科技(深圳)有限公司 搜索方法、服务器及客户端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604316A (zh) * 2009-06-17 2009-12-16 腾讯科技(深圳)有限公司 评估两种排序算法相似度的方法
CN104200206A (zh) * 2014-09-09 2014-12-10 武汉大学 一种基于双角度排序优化的行人重识别方法
CN105825324A (zh) * 2016-03-10 2016-08-03 中国人民解放军国防科学技术大学 一种带有局部信息的排名列表聚合方法
CN106897373A (zh) * 2017-01-19 2017-06-27 浙江大学 一种基于PostgreSQL和众包的不完整数据查询处理方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Entropy-Beta:用于模式匹配众包方法中的发包策略;黄冬梅等;《计算机科学与探索》;20150731;第9卷(第7期);第887-896页
一种结合众包的排序学习算法;王小平等;《计算机应用与软件》;20170630;第34卷(第6期);第277-283页
基于排序主题模型的自动文摘及评价系统;徐宇婷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140915(第9期);第I138-1309页
基于查询日志的查询扩展研究;胡保祥;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131115(第11期);第I138-1014页

Also Published As

Publication number Publication date
CN107609126A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
US11567989B2 (en) Media unit retrieval and related processes
CN106355449B (zh) 用户选取方法和装置
EP4080889A1 (en) Anchor information pushing method and apparatus, computer device, and storage medium
CN106651519B (zh) 基于标签信息的个性化推荐方法和系统
CN110020128B (zh) 一种搜索结果排序方法及装置
CN105678607A (zh) 一种基于改进的K-Means算法的订单分批方法
CN104933156A (zh) 一种基于共享近邻聚类的协同过滤方法
CN109242002A (zh) 高维数据分类方法、装置及终端设备
CN107729519B (zh) 基于多源多维数据的评估方法及装置、终端
CN107766376A (zh) 数据对齐方法及装置
Zeng et al. M-skyline: taking sunk cost and alternative recommendation in consideration for skyline query on uncertain data
Anitha et al. Retracted article: optimized machine learning based collaborative filtering (OMLCF) recommendation system in e-commerce
Abel et al. User driven multi-criteria source selection
CN103440493A (zh) 基于相关向量机的高光谱影像模糊分类方法及装置
CN105956768A (zh) 一种基于组合赋权和改进topsis的发电企业竞争力评估方法
Zhao et al. Call to order: a hierarchical browsing approach to eliciting users' preference
CN111930957A (zh) 实体间亲密度的分析方法、装置、电子设备以及存储介质
CN114663770A (zh) 一种基于集成聚类波段选择的高光谱图像分类方法及系统
CN106502881A (zh) 一种商品排序规则的测试方法和装置
CN107609126B (zh) 一种基于众包的空间检索词查询的评价方法和装置
CN107909498B (zh) 基于最大化接受者操作特征曲线下方面积的推荐方法
CN107767933A (zh) 基于olap的心理态势预警方法及装置
Dalatu et al. Hybrid distance functions for K-Means clustering algorithms
Sitepu et al. Analysis of Fuzzy C-Means and Analytical Hierarchy Process (AHP) Models Using Xie-Beni Index
Rodrigues et al. Use of Linear Discriminant Analysis (LDA), K Nearest Neighbours (KNN), Decision Tree (CART), Random Forest (RF), Gaussian Naive Bayes (NB), Support Vector Machines (SVM) to Predict Admission for Post Graduation Courses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant