CN104298785A - 一种众搜资源搜索方法 - Google Patents

一种众搜资源搜索方法 Download PDF

Info

Publication number
CN104298785A
CN104298785A CN201410632889.5A CN201410632889A CN104298785A CN 104298785 A CN104298785 A CN 104298785A CN 201410632889 A CN201410632889 A CN 201410632889A CN 104298785 A CN104298785 A CN 104298785A
Authority
CN
China
Prior art keywords
user
resource
crowd
searches
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410632889.5A
Other languages
English (en)
Other versions
CN104298785B (zh
Inventor
王国军
刘湘勇
姜文君
尹鹏飞
郑瑾
张尧学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201410632889.5A priority Critical patent/CN104298785B/zh
Publication of CN104298785A publication Critical patent/CN104298785A/zh
Application granted granted Critical
Publication of CN104298785B publication Critical patent/CN104298785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种众搜资源搜索方法,以众搜模型为架构,以资源描述和用户描述的相关度匹配技术为技术手段并融入用户评价机制;所述的众搜模型主要由开放Web资源库、用户行为资源库、设备资源库、过滤与评价、众搜系统接口、众搜系统资源库、众搜系统用户库构成;用户通过一次搜索将资源引入众搜系统中,众搜系统通过对资源的二次搜索将Top-k资源提供给用户;该众搜搜索方法及系统具有高效、通用、准确和可信等优点。

Description

一种众搜资源搜索方法
技术领域
本发明涉及一种众搜资源搜索方法。
背景技术
互联网的飞速发展、传感设备的普及及图像与视频的高清晰化,使得数据正在呈指数增长,大数据时代已经到来。关于数据规模到底有多大,业内专家做了这样的比喻,2011年,全球数据规模为1.8ZB,可以填满575亿个32GB的iPad,这些iPad可以在中国修建两座长城。到2020年,全球数据将达到40ZB,如果把它们全部存入蓝光光盘,这些光盘和424艘尼米兹号航母重量相当。2012年3月,美国奥巴马政府发布了“大数据研究与开发计划”,并宣布先期投资超过2亿美元的资金,用于研发大数据关键技术,以抢占数据资源开发利用的制高点。2012年5月,联合国“全球脉动”计划发布了《大数据开发:机遇与挑战》报告,英国、德国、法国、日本、加拿大等发达国家积极响应。2012年10月,中国通信学会大数据专家委员会成立,推动了我国大数据的研究与发展。2012年11月,“Hadoop与大数据技术大会”以“大数据共享与开放技术”总结了数据中的八个热点问题,大会还成立了“大数据共享联盟”,旨在搜集大数据、展示大数据,促进大数据的研究与开发。种种迹象表明,世界各国特别是发达国家都把大数据的发展摆到国家战略层面加以推动,使大数据正在成为世界新的战略资源争夺的一个新焦点。
随着大数据时代的到来,人们开始关心从各种类型的巨量数据中快速获取有价值信息的手段,大数据搜索成为其中的重要技术之一。搜索引擎经过近二十年的发展,在文本分析、关系发掘、图谱构造、用户语义理解等方面已有丰富的积累,可以作为挖掘大数据这块金矿所依赖的工具。在大数据的利用上,主要有以下几种结合传统搜索引擎的方式。第一种是个性化搜索。传统的搜索引擎很少或者基本没有考虑用户的个性化,每个用户的搜索结果都是相同的。当用户行为数据很少时,提供一致的搜索结果可能是相对较好的方案,避免了给用户提供过多冗余的信息。然而,当用户行为数据上升到一定阶段,通过对用户偏好进行建模,为用户提供个性化的搜索结果,就很有必要。因为对用户有了深层次的了解,其个性化的效果就明显了。第二种是社会化搜索。随着Facebook,Twitter,微博等社交网络的广泛流行,用户已经将其与自身生活紧密结合起来,社会化搜索有着广阔的发展前景。一方面,利用社交网络上用户的好友关系,结合传统的搜索引擎,可以为用户提供更加让人信服的搜索结果。另一方面,社会网络中有大量UGC(UserGenerated Content),如用户发布自己每天吃了什么东西、买了什么衣服以及去了哪些地方旅游等,将这些用户生成的内容与传统的搜索引擎结合起来,使得搜索结果与用户更加贴切。第三种是大数据环境下的众包。在大数据中,85%的是非结构化数据,而传统的搜索引擎只善于处理结构化的数据。例如,相对于计算机,人更容易区分两张图片是否相似。众包是一种全新的、分布式的组织劳动力的生产模式,基于众包的搜索指的是将那些计算机很难处理的问题通过互联网发布出去,那些具有完成任务能力的志愿军通过完成这种任务获取小额报酬或者无报酬。现实生活中利用众包进行搜索并为人们所熟知的案例是美国卫星运营商DigitalGlobe启动众包平台寻找离奇消失的马来西亚航空MH370班机的踪迹吸引上百万人协助进行“地毯式”搜索。现有的搜索方式主要关注于对资源进行建模,随着大数据时代的到来,以用户为中心对搜索者进行建模以准确把握用户需求变得极其重要,但目前的传统搜索引擎无法检索到用户自身行为所生成的资源,也就是包括用户日常生活中通过社交软件、论坛、空间等生成的资源,例如说微博说说,留言,日志,聊天记录,图片日志等等。这些数据都保存在运营商或用户终端上,无法被搜索引擎检索。同时传统搜索引擎搜索资源的时候考虑的都是资源和资源之间的相似性,没有考虑到不同用户个体之间的偏好,不能为用户提供准确的具有个人偏好性质的搜索结果。
因此,有必要设计一种高效、通用、准确和可信的用于大数据的资源搜索方法及系统。
发明内容
为了解决目前搜索引擎不能准确把握不同搜索个体的需求来提供搜索结果的技术问题,本发明提供一种具有高效、通用、准确、可信,能针对不同个体用户的特点来提供相应搜索结果的众搜资源搜索方法。
为了实现上述技术目的,本发明的技术方案是,
一种众搜资源搜索方法,包括以下步骤:
步骤一:建立众搜模型,以众搜模型为架构进行搜索;
所述的众搜模型包括开放Web资源库、用户行为资源库、设备资源库、过滤与评价模块,以及由众搜系统接口、众搜系统资源库和众搜系统用户库组成的众搜系统平台;
所述的开放Web资源库为通过搜索引擎能够检索到的Web资源,且用户可由共享的检索接口进行检索;
用户行为资源库为通过用户自身行为所生成的资源,且无法被搜索引擎所检索;
设备资源库为接入互联网的设备,且每个设备均有唯一的标志以区分;
过滤与评价模块用于各用户根据自身需要对开放Web资源库、用户行为资源库、设备资源库中的资源进行过滤,并在用户与用户之间设置相互评价的可信度机制;
众搜系统接口用于用户导入和搜索资源;
众搜系统资源库储存有用户导入至众搜系统平台的所有资源的资源描述文件,资源描述文件随着用户的使用情况不断更新;
众搜系统用户库储存有众搜系统平台中所有用户的用户描述文件,用户描述文件随着用户的使用情况不断更新;
步骤二:用户执行一次搜索,一次搜索为用户将从开放Web资源库、用户行为资源库和设备资源库中收集到的资源由过滤与评价模块进行过滤后,通过众搜系统接口导入至众搜系统平台中,然后众搜系统平台设置该用户的用户描述文件和导入资源的资源描述文件;
步骤三:众搜系统平台基于一次搜索的资源、用户描述文件和资源描述文件,为用户返回二次搜索的结果,二次搜索为用户在众搜系统中进行资源检索,系统将最佳的k个结果作为检索结果返回用户,用户对资源进行评价。
所述的一种众搜资源搜索方法,用户在首次使用众搜系统平台前,众搜系统平台为该用户分配唯一的用户标识,并建立相应的用户描述文件。
所述的一种众搜资源搜索方法,所述的一次搜索中,首先根据资源自身存储地址来检查所导入的资源是否已存储在众搜系统平台中,若存在,则更新资源描述文件,将导入该资源的用户记录至资源描述文件中,否则,为资源建立唯一的资源标识,并根据所导入的资源自身的特征,通过众搜系统接口为资源添加资源描述文件。
所述的一种众搜资源搜索方法,所述的二次搜索中,用户输入需要检索的关键词或者输入空白的关键词并设置检索结果的相关属性作为检索请求,众搜系统平台将该用户的检索请求与系统中其它用户的检索进行相似度匹配并得到相似度匹配结果,如果未能匹配到相似结果,则根据关键词对平台内的资源进行检索并得到初始的资源匹配库,如得到了相似结果,则通过用户设置的属性进行初始过滤得到初始的资源匹配库,然后通过资源描述文件与用户描述文件之间的匹配度计算资源相关度,通过其它用户对资源的整体评价结果计算资源评价度,结合资源相关度和资源评价度对初始化的资源库进行排序;众搜系统将排序之后最靠前的k个结果推送给用户;用户收到检索结果之后,对其进行相应的评价,众搜系统记录用户的反馈信息,这里的反馈信息包括用户的评分和浏览;然后将评分记录写入相应资源的资源描述文件和相应用户的用户描述文件中,将浏览记录写入相应用户的用户描述文件中。
所述的一种众搜资源搜索方法,所述的用户描述文件中记录的内容包括用户ID、拥有资源、搜索历史、评价历史和浏览历史;搜索历史中记录了用户历次搜索的关键字,用户在系统中的反馈信息,包括评分和点击,都会被众搜系统平台所记录,并更新到用户描述文件中。
所述的一种众搜资源搜索方法,所述的资源描述文件内记载有相应资源的典型特征,包括来源、所属主题、所适用的用户描述、用户使用次数、历史评价和可扩展项;所述的来源是系统中某注册用户,所属主题是该用户上传此资源时填写的关键词或文本分析时提取的关键词;所适用的用户描述是上传此资源的用户所设置的描述或者是综合使用记录后的描述;用户使用次数主要是指系统注册用户的总共的有效使用次数,历史评价是资源被用户评价的历史记录;可扩展项是根据系统和算法优化的需要而预留;用户对资源的搜索行为以及资源的评价情况都会被众搜系统所记录,并更新到资源描述文件中。
所述的一种众搜资源搜索方法,所述的用户与用户之间设置相互评价的可信度机制为用户之间进行相互评价,用户之间的评价表示用户之间相互信任的程度;众搜系统中的用户对其它用户给定一个评分,表示用户的信任值;用户之间的信任值互相传递并计算,信任值的计算取加权平均值Y,Y=x1*w1+x2*w2+…+xn*wn,其中x1,x2,…,xn是信任链上的n个信任值,w1,w2,…,wn是权重,取值依次为1,0.9,0.7,0.4,0.1,0.1,…,0.1。
所述的一种众搜资源搜索方法,用户对资源进行评价的过程包括用户对众搜系统中的资源根据自身使用体验,给出预设的最低评分和最高评分之间的一个评分;在给出用户评分时,众搜系统给出用户评分对总体评分的偏差值,反映用户整体的资源体验情况。
所述的一种众搜资源搜索方法,资源排序过程包括:
1)对众搜系统中的资源,计算资源描述文件与用户描述文件的相似度;
2)取所有用户评分的平均值,得到资源的整体评价得分;
3)计算用户之间的信任值;
4)通过Y=Y1+Y2+Y3,计算最终的资源得分,其中Y1是相似度,Y2是评价得分,Y3是信任值;
5)根据最终得分进行降序排序,将排序最前的k个资源制成资源列表推送给用户。
所述的一种众搜资源搜索方法,所述的步骤三中最佳的k个结果中,所述的k=V0.8*n,其中n表示系统中用户的数量,Vi表示系统中第i个用户查看的平均结果数,用户排序按照其查看的平均结果数升序排列,0.8*n的结果向上取整数。
本发明着眼于资源搜索方式的高效性和通用性及资源搜索结果的准确性和可信性,并非资源存储方法。
本发明将大数据环境中的实体分为两种类型:用户实体和资源实体。其中,用户实体是搜索的发起者,资源实体是搜索的对象,例如用户生成内容,网页,设备等。本发明以用户为中心,研究如何结合用户智能和计算机的处理能力,提供面向大数据环境下的智能搜索服务。现有的研究工作主要是对搜索资源进行建模,因此搜索结果主要衡量的是资源的相关度,很少考虑到资源与用户真实需求的匹配,也没有考虑到资源的可信性。随着大数据时代的到来,对用户进行建模是十分必要的,用户行为数据的累积可以很好地对用户进行表示。该模型可以有效地匹配搜索资源和用户的真实意图,同时保证搜索资源的可信性,并且能够提供高效通用的搜索方式。
本发明的目标是提供高效、通用的搜索方式和准确、可信的搜索结果,并且形成一套完整的理论体系。我们提出众搜模型的全新理念,希望结合用户智能和计算机的处理能力,实现智能搜索服务。如图1所示,系统中有U,U1,U2和U3四个用户,其中U1进行了搜索search1,U2进行了搜索search2,U3进行了搜索search3,当用户U需要进行搜索时,其搜索结果search则是整合其它用户的search1,search2和search3三个搜索结果。在众搜理论中,每一个用户的搜索行为都对其他用户的搜素产生影响,单个用户的影响力较小,但一群用户的搜索行为则能为个体用户提供准确、可信的搜索结果,同时每一个个体用户的搜索行为能够不断加强群体的搜索能力。
本发明的众搜资源搜索方法及系统,以众搜模型为架构,以资源描述和用户描述的相关度匹配技术为技术手段并融入用户评价机制;所述的众搜模型主要由开放Web资源库、用户行为资源库、设备资源库、过滤与评价、众搜系统接口、众搜系统资源库、众搜系统用户库构成;用户通过一次搜索将资源引入众搜系统中,众搜系统通过对资源的二次搜索将Top-k资源提供给用户;该众搜搜索方法及系统具有高效、通用、准确和可信等优点。
众搜理论包括一次搜索和二次搜索两个全新的概念,以及用户评价机制和排序算法有机结合,实现搜索结果的准确性和可信性。用户通过一次搜索将收集到的资源导入到众搜系统库中,众搜系统库建立用户描述文件和资源描述文件。其中一次搜索指用户从开放Web资源库、用户行为资源库和设备资源库获取资源,根据自身的原则进行资源过滤,然后使用众搜系统接口导入系统中这一过程。基于一次搜索的资源,众搜系统基于用户描述文件和资源描述文件,根据相关度匹配技术为用户提供二次搜索服务。其中二次搜索指用户在众搜系统中进行资源检索,系统以Top-k形式返回检索结果,用户对资源进行评价这一过程。
目前相关研究工作中,个性化搜索、社会化搜索和基于众包的搜索,也以用户为重要研究对象。传统的搜索引擎很少或者基本没有考虑用户的个性化,每个用户的搜索结果都是相同的。当用户行为数据很少时,提供一致的搜索结果可能是相对较好的方案,避免了给用户提供过多冗余的信息。然而,当用户行为数据上升到一定阶段,通过对用户偏好进行建模,为用户提供个性化的搜索结果,就很有必要。因为对用户有了深层次的了解,其个性化的效果就明显了。随着Facebook,Twitter,微博等社交网络的广泛流行,用户已经将其与自身生活紧密结合起来,社会化搜索有着广阔的发展前景。一方面,利用社交网络上用户的好友关系,结合传统的搜索引擎,可以为用户提供更加让人信服的搜索结果。另一方面,社会网络中有大量UGC(UserGenerated Content),如用户发布自己每天吃了什么东西、买了什么衣服以及去了哪些地方旅游等,将这些用户生成的内容与传统的搜索引擎结合起来,使得搜索结果与用户更加贴切。在大数据环境中,85%的是非结构化数据,而传统的搜索引擎只善于处理结构化的数据。例如,相对于计算机,人更容易区分两张图片是否相似。众包是一种全新的、分布式的组织劳动力的生产模式,基于众包的搜索指的是将那些计算机很难处理的问题通过互联网发布出去,那些具有完成任务能力的志愿军通过完成这种任务获取小额报酬或者无报酬。本发明面向大数据环境,结合用户智能和计算机处理能力,从资源导入、评价到资源的检索和排序,构建高效、通用的搜索方式和准确、可信的搜索结果。
本发明的众搜资源搜索方法及系统,研究如何定义众搜模型中的用户实体和资源实体,研究用户实体的行为模式和实体之间的交互方式,通过用户实体的一次搜索和二次搜索为用户提供丰富、贴切的搜索结果。研究如何设置用户描述和资源描述,研究如何根据用户搜索行为的变化对用户描述进行更新,研究如何将用户描述与资源实体之间的描述进行匹配,从而将最佳的搜索资源提供给用户。研究用户实体之间的协作方式,研究用户实体对资源实体之间的使用方式,通过综合资源描述和用户描述之间的相关性以及用户的使用情况,对搜索的资源实体进行合理排序,从而将最优的top-k个资源实体推荐给用户。
本发明一方面弥补了传统搜索引擎的不足,另一面,通过群体智能,建立起一个良性循环,不仅保证了搜索的质量,而且使得搜索源更加开放。从学术的角度出发,本发明的众搜理论能够带来一些新的研究课题并推动大数据的研究步伐。从社会发展的角度出发,五年或者十年后,众搜引擎能够像百度和谷歌一样普及,每个参与其中的用户都能获得满意的搜索结果,从而带动用户的学习积极性,使得全体大众受益,带来广泛的社会效益。
下面结合附图对本专利作进一步说明。
附图说明
图1为众搜模型用户搜索交互示意图;
图2为众搜模型示意图;
图3为资源设置示意图;
图4为检索过程示意图;
图5为用户描述示意图;
图6为资源描述示意图;
图7为用户描述与资源描述相似度计算示意图;
图8为资源排序示意图。
具体实施方式
本发明实施例包括以下步骤:
步骤一:建立众搜模型,以众搜模型为架构进行搜索;
众搜模型包括开放Web资源库、用户行为资源库、设备资源库、过滤与评价模块,以及由众搜系统接口、众搜系统资源库和众搜系统用户库组成的众搜系统平台;
开放Web资源库为通过搜索引擎能够检索到的Web资源,且用户可由共享的检索接口进行检索;
用户行为资源库为通过用户自身行为所生成的资源,且无法被搜索引擎所检索;这里提到的用户产生的资源,包括用户日常生活中通过社交软件、论坛、空间等生成的资源,例如说微博说说,留言,日志,聊天记录,图片日志等等。这些数据都保存在运营商或用户终端上,无法被搜索引擎检索。
设备资源库为接入互联网的设备,且每个设备均有唯一的标志以区分;
过滤与评价模块用于各用户根据自身需要对开放Web资源库、用户行为资源库、设备资源库中的资源进行过滤,并在用户与用户之间设置相互评价的可信度机制;用户一次搜索的资源首先会由用户自己进行过滤,保留用户觉得好的资源导入到系统中,导入的过程中用户可以对资源做出评价。
众搜系统接口用于用户导入和搜索资源;
众搜系统资源库储存有用户导入至众搜系统平台的所有资源的资源描述文件,资源描述文件随着用户的使用情况不断更新;
众搜系统用户库储存有众搜系统平台中所有用户的用户描述文件,用户描述文件随着用户的使用情况不断更新;
步骤二:用户执行一次搜索,一次搜索为用户将从开放Web资源库、用户行为资源库和设备资源库中收集到的资源由过滤与评价模块进行过滤后,通过众搜系统接口导入至众搜系统平台中,然后众搜系统平台设置该用户的用户描述文件和导入资源的资源描述文件;所提到的一次搜索泛指在平台外检索资源导入平台中的过程,用户执行一次搜索的具体操作是:在资源导入界面设置好资源的各个属性,然后点击导入按钮,资源属性的格式见图3。
步骤三:众搜系统平台基于一次搜索的资源、用户描述文件和资源描述文件,为用户返回二次搜索的结果,二次搜索为用户在众搜系统中进行资源检索,系统将最佳的k个结果作为检索结果返回用户,用户对资源进行评价。这里的k的大小与系统本身的处理能力相关,k越大,检索速度慢,k越小,用户看到的结果越少,很可能无法满足用户需求。一般来说,这个k应达到满足用户需求的上限。例如,80%的人做搜索时只查看200个结果,那么k取值1000就能满足大多数人的需求。k=V0.8*n,其中n表示系统中用户的数量,Vi表示系统中第i个用户查看的平均结果数,按升序排列,例如,系统中有三个用户,u1,u2,u3;U1执行了两次搜索,结果查看数目是4和5,U2执行了三次搜索,结果查看数目是8,9,10,U3执行了三次搜索,结果查看数目是6,8,9,那么u1,u2,u3查看的平均结果数分别是(4+5)/2=5,(8+9+10)/3=9,(6+8+9)/3=8,三个用户平均查看结果数的升序列表V是5,8,9。K=V0.8*3=V3=9。
用户在首次使用众搜系统平台前,众搜系统平台为该用户分配唯一的用户标识,并建立相应的用户描述文件。
一次搜索中,首先根据资源自身存储地址来检查所导入的资源是否已存储在众搜系统平台中,若存在,则更新资源描述文件,将导入该资源的用户记录至资源描述文件中,因为这个资源又被新的用户(资源重复导入者)所访问了,否则,为资源建立唯一的资源标识,并根据所导入的资源自身的特征,通过众搜系统接口为资源添加资源描述文件。由于每个资源都有一个唯一来源,例如,web页面都有一个唯一的网址,其他包括用户行为资源,也是通过其存储地址来分辨来源,来源相同则视为同一个资源。
二次搜索中,用户输入需要检索的关键词或者输入空白的关键词并设置检索结果的相关属性作为检索请求,这里提到的检索结果的相关属性是检索结果的类别属性,例如ppt,doc,txt,video等。众搜系统平台将该用户的检索请求与系统中其它用户的检索进行相似度匹配并得到相似度匹配结果,相似度的计算可以采用现有的相似度计算公式,例如余弦相似度、Jaccard相似度计算等。如果未能匹配到相似结果,则根据关键词对平台内的资源进行检索并得到初始的资源匹配库,如得到了相似结果,则通过用户设置的属性进行初始过滤得到初始的资源匹配库,然后通过资源描述文件与用户描述文件之间的匹配度计算资源相关度,通过其它用户对资源的整体评价结果计算资源评价度,结合资源相关度和资源评价度对初始化的资源库进行排序;众搜系统将排序之后最靠前的k个结果推送给用户;用户收到检索结果之后,对其进行相应的评价,众搜系统记录用户的反馈信息,这里的反馈信息包括用户的评分和浏览;然后将评分记录写入相应资源的资源描述文件和相应用户的用户描述文件中,将浏览记录写入相应用户的用户描述文件中。例如用户u搜“推荐系统”这个关键词的时候,众搜系统平台收到这个搜索请求,从平台中所有的搜索请求中进行匹配,发现u1和u2也搜索了这个关键词,并对其中的搜索结果进行了操作(评分或者浏览),那么这些被操作了的的结果则作为初始的资源匹配库返回给用户。
用户描述文件中记录的内容包括用户ID、拥有资源、搜索历史、评价历史和浏览历史;搜索历史中记录了用户历次搜索的关键字,用户在系统中的反馈信息,包括评分和点击,都会被众搜系统平台所记录,并更新到用户描述文件中。
资源描述文件内记载有相应资源的典型特征,包括来源、所属主题、所适用的用户描述、用户使用次数、历史评价和可扩展项;来源是系统中某注册用户,所属主题是该用户上传此资源时填写的关键词或文本分析时提取的关键词;所适用的用户描述是上传此资源的用户所设置的描述或者是综合使用记录后的描述;用户使用次数主要是指系统注册用户的总共的有效使用次数,历史评价是资源被用户评价的历史记录;可扩展项是根据系统和算法优化的需要而预留;用户对资源的搜索行为以及资源的评价情况都会被众搜系统所记录,并更新到资源描述文件中。资源描述中的各个特征子项由用户编辑或文本分析而得来。
用户与用户之间设置相互评价的可信度机制为用户之间进行相互评价,用户之间的评价表示用户之间相互信任的程度;众搜系统中的用户对其它用户给定一个评分,表示用户的信任值;用户之间的信任值互相传递并计算,信任值的计算取加权平均值Y,Y=x1*w1+x2*w2+…+xn*wn,其中x1,x2,…,xn是信任链上的n个信任值,w1,w2,…,wn是权重,取值依次为1,0.9,0.7,0.4,0.1,0.1,…,0.1。
用户对资源进行评价的过程包括用户对众搜系统中的资源根据自身使用体验,给出预设的最低评分和最高评分之间的一个评分;在给出用户评分时,众搜系统给出用户评分对总体评分的偏差值,反映用户整体的资源体验情况。
一种众搜资源搜索方法,资源排序过程包括:
1)对众搜系统中的资源,计算资源描述文件与用户描述文件的相似度;
2)取所有用户评分的平均值,得到资源的整体评价得分;
3)计算用户之间的信任值;
4)通过Y=Y1+Y2+Y3,计算最终的资源得分,其中Y1是相似度,Y2是评价得分,Y3是信任值;
5)根据最终得分进行降序排序,将排序最前的k个资源制成资源列表推送给用户。
一种众搜资源搜索方法,步骤三中最佳的k个结果中,k=V0.8*n,其中n表示系统中用户的数量,Vi表示系统中第i个用户查看的平均结果数,用户排序按照其查看的平均结果数升序排列,0.8*n的结果向上取整数。
模型
众搜模型由开放Web资源库、用户行为资源库、设备资源库、过滤与评价、众搜系统接口、众搜系统资源库、众搜系统用户库构成,如图2所示。其中,开放Web资源库是指搜索引擎能够检索到的Web资源,并且其为用户提供了共享的检索接口;用户行为资源库是指用户生成的与用户自身行为相关的资源,其部分或者总体无法被搜索引擎所检索;设备资源库即接入互联网的设备,设备之间有一个唯一的标志进行区分;过滤与评价模块指用户根据自身的原则对收集的资源进行过滤,用户与用户之间建立了相互评价的可信度机制;众搜系统接口指的是用户与众搜系统之间的桥梁,负责指引用户导入和搜索资源;众搜系统资源库指众搜系统中所有资源的描述,其描述文件随着用户的使用情况不断更新;众搜系统用户库指众搜系统中所有用户的描述,其描述文件随着用户的使用情况不断更新。
众搜模型解决大数据环境下资源搜索的基本思路是:用户通过一次搜索将收集到的资源导入到众搜系统库中,众搜系统库建立用户描述文件和资源描述文件。其中一次搜索指用户从开放Web资源库、用户行为资源库和设备资源库获取资源,根据自身的原则进行资源过滤,然后使用众搜系统接口导入系统中这一过程。基于一次搜索的资源,众搜系统基于用户描述文件和资源描述文件,根据相关度匹配技术为用户提供二次搜索服务。其中二次搜索指用户在众搜系统中进行资源检索,系统以Top-k形式返回检索结果,用户对资源进行评价这一过程。
一次搜索
对一次搜索资源,通过众搜系统接口,按照预先设定的格式设置好资源的各个属性,然后导入到众搜系统中。众搜系统接口设定的资源格式如图3所示,其中,来源指的是资源的的出处,拥有者指的是资源的上传者,主题是描述资源属性的关键词集合,文本描述指的是一段摘要性质的对资源的简短描述。对每一个资源,众搜系统中保存的只是该资源的索引信息,并不保存实际的数据。每一个资源在众搜系统中都有一个唯一的标识并且有相应的资源描述文件进行描述。同时对众搜系统中的每一个用户,也有相应的用户描述文件进行描述;
众搜系统中的每一个用户首先要通过众搜系统接口进行注册,系统分配唯一的用户标识UserID,并建立相应用户描述文件UserProfile;
开放Web资源、用户行为资源和设备资源导入众搜系统的过程中,对每一个资源,系统首先检查是否已经存在该资源。若存在,则更新该资源的描述文件ResourceProfile,并更新上传该资源用户的描述文件UserProfile,若不存在,则建立该资源的描述文件ResourceProfile,同时更新上传该资源用户的描述文件UserProfile。
二次搜索
对于众搜系统中的资源,用户通过众搜系统接口进行检索。众搜系统接口检索格式如图4所示,其中类别指需要搜索的结果分类属性,关键词指的是检索的关键词集合,检索结果是点击检索按钮之后提供的Top-k排序结果。具体检索过程如下:
1)用户通过众搜系统接口输入需要检索的关键词或者输入空白的关键词,若输入关键词为空,则自动将用户描述文件作为检索的输入,设置检索结果的相关属性,点击检索按钮开始检索;
2)众搜系统收到用户的检索请求,将该用户的检索请求与系统中其它用户的检索进行匹配,并通过用户设置的属性进行初始过滤得到初始的资源匹配库,通过资源描述文件与用户描述文件之间的匹配度计算资源的相关度,通过其它用户对资源的整体评价结果计算资源的评价度,结合资源相关度和用户评价结果对初始化的资源库进行排序;
3)众搜系统将排序之后最佳的Top-k个结果推送给用户;
4)用户收到检索结果之后,对其进行相应的评价,众搜系统记录用户的反馈信息。这里的反馈包括用户的显示评价和隐式的点击等;
5)众搜系统对用户描述文件和资源描述文件进行更新;
用户描述与资源描述的设置
为了更好的理解用户偏好并将用户真正需要的资源与用户的搜索进行匹配,需要对用户描述和资源描述进行设置。用户描述如图5所示,其中用户ID是用户的唯一标识,拥有资源指用户上传的资源集合,搜索历史指用户搜素历史集合,评价历史指用户评价历史集合,扩展项为了系统扩展需要而设定。其具体设置过程如下:
1)对每一个用户,在加入众搜系统时建立用户描述文件UserProfile,用户描述文件代表用户发出资源查询请求时的原因、状态及期待;
2)用户的每一次搜索请求都会被众搜系统所记录,并更新到用户描述文件中;
3)用户在系统中的反馈信息(显示的评分和隐式的点击等)都会被众搜系统所记录,并更新到用户描述文件中;
资源描述如图6所示,其中资源ID是资源唯一标识,来源指资源的出处,拥有者指资源的上传者,主题指资源上传时设置的主题集合,使用次数指资源使用计数,历史评价指资源被用户评价历史集合,文本描述指资源的摘要性文本介绍,扩展项是系统扩展需要而设定。其具体设置过程如下:
1)对一次搜索的每一个资源,导入众搜系统时建立资源描述文件ResourceProfile,资源描述代表了某个资源的典型特征,包含其来源、所属主题、所适用的用户描述、用户使用次数、历史评价等基本信息及可扩展的其它信息。资源描述中的子项由用户编辑或文本分析而得来且各个子项之间有一定的依赖关系。其来源是系统中某注册用户,所属主题是该用户上传此资源时填写的关键词,或者是文本分析时提取的关键词。所适用的用户描述是上传此资源的用户所设置的描述或者是综合使用记录后的描述。用户使用次数主要是指;系统注册用户的总共的有效使用次数,历史评价是资源被用户评价的历史记录。可扩展项是根据系统和算法优化的需要而预留。
2)用户对资源的搜索行为以及资源的评价情况都会被众搜系统所记录,并更新到资源描述文件中。
用户评价与排序
以用户为中心,从用户使用资源的角度对众搜系统中的资源进行评价和排序,并融入用户评价机制。用户之间评价的设置过程:
1)众搜系统中的用户之间可以进行相互评价,用户之间的评价表示用户之间相互信任的程度;
2)众搜系统中的用户对其它用户可以给定一个评分,表示用户的信任值;
3)用户之间的信任值是可以传递并计算的;
用户对资源的评价设置过程:
1)对众搜系统中的资源,用户根据自身使用体验,给出[min,max]之间的一个评分,类似于淘宝或者亚马逊系统中[1,5]的评分;
2)在给出用户评分时,众搜系统给出用户评分对总体评分的偏差值,反映用户整体的资源体验情况;
资源排序过程:
1)对众搜系统中的资源,计算资源描述文件与用户描述文件的相似度,其计算过程如图7所示,UserProfile和ResourceProfile分别用两个特征集合表示,相似度计算采用Jaccard相似度计算,Jaccard是公认的计算集合之间相似度的公式,为现有技术;
2)计算资源的整体评价得分;
3)计算用户之间的信任值;
4)通过线性加权计算最终的资源得分;
5)根据最终得分进行降序排序,将Top-k资源列表即排序最前的k个资源列表推送给用户,排序过程如图8所示,其中排序过程综合考虑了用户评价和资源相似度,用户评价包括用户之间的评价及用户对资源的评价,计算最后得分进行降序排列将最前面的Top-k个资源推送给用户。

Claims (10)

1.一种众搜资源搜索方法,其特征在于,包括以下步骤:
步骤一:建立众搜模型,以众搜模型为架构进行搜索;
所述的众搜模型包括开放Web资源库、用户行为资源库、设备资源库、过滤与评价模块,以及由众搜系统接口、众搜系统资源库和众搜系统用户库组成的众搜系统平台;
所述的开放Web资源库为通过搜索引擎能够检索到的Web资源,且用户可由共享的检索接口进行检索;
用户行为资源库为通过用户自身行为所生成的资源,且无法被搜索引擎所检索;
设备资源库为接入互联网的设备,且每个设备均有唯一的标志以区分;
过滤与评价模块用于各用户根据自身需要对开放Web资源库、用户行为资源库、设备资源库中的资源进行过滤,并在用户与用户之间设置相互评价的可信度机制;
众搜系统接口用于用户导入和搜索资源;
众搜系统资源库储存有用户导入至众搜系统平台的所有资源的资源描述文件,资源描述文件随着用户的使用情况不断更新;
众搜系统用户库储存有众搜系统平台中所有用户的用户描述文件,用户描述文件随着用户的使用情况不断更新;
步骤二:用户执行一次搜索,一次搜索为用户将从开放Web资源库、用户行为资源库和设备资源库中收集到的资源由过滤与评价模块进行过滤后,通过众搜系统接口导入至众搜系统平台中,然后众搜系统平台设置该用户的用户描述文件和导入资源的资源描述文件;
步骤三:众搜系统平台基于一次搜索的资源、用户描述文件和资源描述文件,为用户返回二次搜索的结果,二次搜索为用户在众搜系统中进行资源检索,系统将最佳的k个结果作为检索结果返回用户,用户对资源进行评价。
2.根据权利要求1所述的一种众搜资源搜索方法,其特征在于,用户在首次使用众搜系统平台前,众搜系统平台为该用户分配唯一的用户标识,并建立相应的用户描述文件。
3.根据权利要求1所述的一种众搜资源搜索方法,其特征在于,所述的一次搜索中,首先根据资源自身存储地址来检查所导入的资源是否已存储在众搜系统平台中,若存在,则更新资源描述文件,将导入该资源的用户记录至资源描述文件中,否则,为资源建立唯一的资源标识,并根据所导入的资源自身的特征,通过众搜系统接口为资源添加资源描述文件。
4.根据权利要求1所述的一种众搜资源搜索方法,其特征在于,所述的二次搜索中,用户输入需要检索的关键词或者输入空白的关键词并设置检索结果的相关属性作为检索请求,众搜系统平台将该用户的检索请求与系统中其它用户的检索进行相似度匹配并得到相似度匹配结果,如果未能匹配到相似结果,则根据关键词对平台内的资源进行检索并得到初始的资源匹配库,如得到了相似结果,则通过用户设置的属性进行初始过滤得到初始的资源匹配库,然后通过资源描述文件与用户描述文件之间的匹配度计算资源相关度,通过其它用户对资源的整体评价结果计算资源评价度,结合资源相关度和资源评价度对初始化的资源库进行排序;众搜系统将排序之后最靠前的k个结果推送给用户;用户收到检索结果之后,对其进行相应的评价,众搜系统记录用户的反馈信息,这里的反馈信息包括用户的评分和浏览;然后将评分记录写入相应资源的资源描述文件和相应用户的用户描述文件中,将浏览记录写入相应用户的用户描述文件中。
5.根据权利要求2所述的一种众搜资源搜索方法,其特征在于,所述的用户描述文件中记录的内容包括用户ID、拥有资源、搜索历史、评价历史和浏览历史;搜索历史中记录了用户历次搜索的关键字,用户在系统中的反馈信息,包括评分和点击,都会被众搜系统平台所记录,并更新到用户描述文件中。
6.根据权利要求1所述的一种众搜资源搜索方法,其特征在于,所述的资源描述文件内记载有相应资源的典型特征,包括来源、所属主题、所适用的用户描述、用户使用次数、历史评价和可扩展项;所述的来源是系统中某注册用户,所属主题是该用户上传此资源时填写的关键词或文本分析时提取的关键词;所适用的用户描述是上传此资源的用户所设置的描述或者是综合使用记录后的描述;用户使用次数主要是指系统注册用户的总共的有效使用次数,历史评价是资源被用户评价的历史记录;可扩展项是根据系统和算法优化的需要而预留;用户对资源的搜索行为以及资源的评价情况都会被众搜系统所记录,并更新到资源描述文件中。
7.根据权利要求1所述的一种众搜资源搜索方法,其特征在于,所述的用户与用户之间设置相互评价的可信度机制为用户之间进行相互评价,用户之间的评价表示用户之间相互信任的程度;众搜系统中的用户对其它用户给定一个评分,表示用户的信任值;用户之间的信任值互相传递并计算,信任值的计算取加权平均值Y,Y=x1*w1+x2*w2+…+xn*wn,其中x1,x2,…,xn是信任链上的n个信任值,w1,w2,…,wn是权重,取值依次为1,0.9,0.7,0.4,0.1,0.1,…,0.1。
8.根据权利要求1所述的一种众搜资源搜索方法,其特征在于,用户对资源进行评价的过程包括用户对众搜系统中的资源根据自身使用体验,给出预设的最低评分和最高评分之间的一个评分;在给出用户评分时,众搜系统给出用户评分对总体评分的偏差值,反映用户整体的资源体验情况。
9.根据权利要求1所述的一种众搜资源搜索方法,其特征在于,资源排序过程包括:
1)对众搜系统中的资源,计算资源描述文件与用户描述文件的相似度;
2)取所有用户评分的平均值,得到资源的整体评价得分;
3)计算用户之间的信任值;
4)通过Y=Y1+Y2+Y3,计算最终的资源得分,其中Y1是相似度,Y2是评价得分,Y3是信任值;
5)根据最终得分进行降序排序,将排序最前的k个资源制成资源列表推送给用户。
10.根据权利要求1所述的一种众搜资源搜索方法,其特征在于,所述的步骤三中最佳的k个结果中,所述的k=V0.8*n,其中n表示系统中用户的数量,Vi表示系统中第i个用户查看的平均结果数,用户排序按照其查看的平均结果数升序排列,0.8*n的结果向上取整数。
CN201410632889.5A 2014-11-12 2014-11-12 一种众搜资源搜索方法 Active CN104298785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410632889.5A CN104298785B (zh) 2014-11-12 2014-11-12 一种众搜资源搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410632889.5A CN104298785B (zh) 2014-11-12 2014-11-12 一种众搜资源搜索方法

Publications (2)

Publication Number Publication Date
CN104298785A true CN104298785A (zh) 2015-01-21
CN104298785B CN104298785B (zh) 2017-05-03

Family

ID=52318510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410632889.5A Active CN104298785B (zh) 2014-11-12 2014-11-12 一种众搜资源搜索方法

Country Status (1)

Country Link
CN (1) CN104298785B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104796478A (zh) * 2015-04-24 2015-07-22 中国联合网络通信集团有限公司 一种资源推荐方法及装置
CN106708600A (zh) * 2016-12-12 2017-05-24 大连理工大学 一种基于多智能体建模和专家系统的众包平台最优投放策略生成器
CN106817407A (zh) * 2016-12-23 2017-06-09 四川九鼎瑞信软件开发有限公司 一种教学信息资源推送方法及系统
CN106960277A (zh) * 2017-03-08 2017-07-18 东华大学 一种基于场所信息管理的冲突检测及推荐方法
CN107016118A (zh) * 2017-04-20 2017-08-04 上海喆之信息科技有限公司 一种用于网站的安全搜索系统
CN107436871A (zh) * 2016-05-25 2017-12-05 北京搜狗科技发展有限公司 一种数据搜索方法、装置及电子设备
CN108256968A (zh) * 2018-01-12 2018-07-06 湖南大学 一种电商平台商品专家评论生成方法
CN108600306A (zh) * 2018-03-20 2018-09-28 成都星环科技有限公司 一种智能内容推送系统
CN108875016A (zh) * 2018-06-20 2018-11-23 上海百林通信网络科技服务股份有限公司 一种基于人脸识别应用的样本共享技术和评价方法
CN109683725A (zh) * 2018-12-03 2019-04-26 广东工业大学 基于搜索引擎的语言处理信息检索系统及方法
CN109710736A (zh) * 2018-12-19 2019-05-03 浙江大学 一种面向搜索排序的主动众包任务生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040260688A1 (en) * 2003-06-05 2004-12-23 Gross John N. Method for implementing search engine
US20050044101A1 (en) * 2003-08-15 2005-02-24 Microsoft Corporation Expression-based web logger for usage and navigational behavior tracking
CN1890663A (zh) * 2003-12-03 2007-01-03 咕果公司 用于个人化网络搜索的方法和系统
CN101105801A (zh) * 2007-04-20 2008-01-16 清华大学 一种网络关键资源页面的自动定位方法
CN101179472A (zh) * 2007-05-31 2008-05-14 腾讯科技(深圳)有限公司 一种网络资源搜索方法及搜索系统
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN101685456B (zh) * 2008-09-26 2013-08-28 华为技术有限公司 一种搜索的方法、系统和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040260688A1 (en) * 2003-06-05 2004-12-23 Gross John N. Method for implementing search engine
US20050044101A1 (en) * 2003-08-15 2005-02-24 Microsoft Corporation Expression-based web logger for usage and navigational behavior tracking
CN1890663A (zh) * 2003-12-03 2007-01-03 咕果公司 用于个人化网络搜索的方法和系统
CN101105801A (zh) * 2007-04-20 2008-01-16 清华大学 一种网络关键资源页面的自动定位方法
CN101179472A (zh) * 2007-05-31 2008-05-14 腾讯科技(深圳)有限公司 一种网络资源搜索方法及搜索系统
CN101685456B (zh) * 2008-09-26 2013-08-28 华为技术有限公司 一种搜索的方法、系统和装置
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104796478A (zh) * 2015-04-24 2015-07-22 中国联合网络通信集团有限公司 一种资源推荐方法及装置
CN107436871A (zh) * 2016-05-25 2017-12-05 北京搜狗科技发展有限公司 一种数据搜索方法、装置及电子设备
CN106708600A (zh) * 2016-12-12 2017-05-24 大连理工大学 一种基于多智能体建模和专家系统的众包平台最优投放策略生成器
CN106817407A (zh) * 2016-12-23 2017-06-09 四川九鼎瑞信软件开发有限公司 一种教学信息资源推送方法及系统
CN106960277A (zh) * 2017-03-08 2017-07-18 东华大学 一种基于场所信息管理的冲突检测及推荐方法
CN107016118A (zh) * 2017-04-20 2017-08-04 上海喆之信息科技有限公司 一种用于网站的安全搜索系统
CN108256968A (zh) * 2018-01-12 2018-07-06 湖南大学 一种电商平台商品专家评论生成方法
CN108256968B (zh) * 2018-01-12 2022-03-18 湖南大学 一种电商平台商品专家评论生成方法
CN108600306A (zh) * 2018-03-20 2018-09-28 成都星环科技有限公司 一种智能内容推送系统
CN108875016A (zh) * 2018-06-20 2018-11-23 上海百林通信网络科技服务股份有限公司 一种基于人脸识别应用的样本共享技术和评价方法
CN109683725A (zh) * 2018-12-03 2019-04-26 广东工业大学 基于搜索引擎的语言处理信息检索系统及方法
CN109710736A (zh) * 2018-12-19 2019-05-03 浙江大学 一种面向搜索排序的主动众包任务生成方法

Also Published As

Publication number Publication date
CN104298785B (zh) 2017-05-03

Similar Documents

Publication Publication Date Title
CN104298785A (zh) 一种众搜资源搜索方法
US10546006B2 (en) Method and system for hybrid information query
US10180967B2 (en) Performing application searches
KR20210038860A (ko) 의도 추천 방법, 장치, 기기 및 저장매체
CN105045931A (zh) 一种基于Web挖掘的视频推荐方法和系统
CN105677780A (zh) 可拓展的用户意图挖掘方法及其系统
Guo et al. An effective and economical architecture for semantic-based heterogeneous multimedia big data retrieval
CN108647800B (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
Gao et al. SeCo-LDA: Mining service co-occurrence topics for recommendation
CN105320719A (zh) 一种基于项目标签和图形关系的众筹网站项目推荐方法
CN103455487A (zh) 一种搜索词的提取方法及装置
CN102609465A (zh) 基于潜在社群的信息推荐方法
US11249993B2 (en) Answer facts from structured content
CN105389329A (zh) 一种基于群体评论的开源软件推荐方法
CN110069713B (zh) 一种基于用户上下文感知的个性化推荐方法
US10474670B1 (en) Category predictions with browse node probabilities
US20160246886A1 (en) Efficient retrieval of fresh internet content
US8825698B1 (en) Showing prominent users for information retrieval requests
CN105354339B (zh) 基于上下文的内容个性化提供方法
Shah et al. An agent based personalized intelligent E-learning
CN105447013A (zh) 一种新闻推荐系统
Chen et al. A multitask recommendation algorithm based on DeepFM and Graph Convolutional Network
Wang Collaborative filtering recommendation of music MOOC resources based on spark architecture
Cai et al. Term-level semantic similarity helps time-aware term popularity based query completion
GENTILE Using Flickr geotags to find similar tourism destinations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant