CN107977452A - 一种基于大数据的信息检索系统及方法 - Google Patents

一种基于大数据的信息检索系统及方法 Download PDF

Info

Publication number
CN107977452A
CN107977452A CN201711344430.5A CN201711344430A CN107977452A CN 107977452 A CN107977452 A CN 107977452A CN 201711344430 A CN201711344430 A CN 201711344430A CN 107977452 A CN107977452 A CN 107977452A
Authority
CN
China
Prior art keywords
user
url
time
big data
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711344430.5A
Other languages
English (en)
Inventor
杨荣根
龚乐君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinling Institute of Technology
Original Assignee
Jinling Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinling Institute of Technology filed Critical Jinling Institute of Technology
Priority to CN201711344430.5A priority Critical patent/CN107977452A/zh
Publication of CN107977452A publication Critical patent/CN107977452A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据的信息检索系统及方法。为了提高搜索引擎的准确性和用户满意度,改进传统的搜索引擎框架,在传统搜索引擎中的增加两个功能模块,分别是客户端用户行为收集模块和服务器端的大数据智能分析模块。用户行为收集模块主要收集用户在信息检索之后在服务器返回的列表中选择检索项点击对应的URL(链接)的记录以及时间戳,也就是从一次检索开始一直到关闭浏览器这段时间中用户的选择点击情况。大数据智能分析模块的功能是将收集的用户行为进行计算统计,根据用户对某一次查询之后点击检索项的行为信息判断检索项的准确性,重新对检索项进行排序(Reranking)并更新数据库,为下一次的检索提供更加准确、用户更加满意的检索结果。

Description

一种基于大数据的信息检索系统及方法
技术领域
本发明设计信息检索领域,尤其涉及一种大数据的信息检索系统及方法。
背景技术
搜索引擎是因特网上专门提供检索服务的一类网站,这些网站通过网络搜索软件(又称为网络蜘蛛)等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询做出响应。
随着互联网应用的普及和大数据时代的到来,每天全球互联网网页数目以千万级的数量增加。要在浩瀚网络检索需要的信息,搜索引擎已成为访问互联网不可或缺的助手。
传统的搜索引擎的工作原理可以用图1来说明,其中阴影部分是本发明经过改进后增加的模块。搜索引擎一般由数据抓取器、解析器、索引器和检索器四个部分组成。数据抓取器也叫网络蜘蛛,从互联网上抓取网页,并按照深度优先或者广度优先的策略沿着网页中的所有URL爬到其它网页,将获得的网页收集回来。数据解析器将收集到的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度。索引器用这些相关信息建立网页索引数据库。检索器从用户提供的查询条件,在索引数据库中检索,找到符合该关键词的所有相关网页,由页面生成系统将搜索结果的链接地址和摘要等内容组织起来返回给用户。
得益于硬件技术的发展以及软件计算算法的进步,现在的搜索引擎的检索响应速度有了很大的提高,索引数据库的规模不断增大。但搜索引擎也面临一些棘手的问题。其中最突出的问题就是搜索引擎不具有语义,也不能理解用户在使用搜索引擎时输入的检索词所表达的语义,导致有些检索结果不能让用户满意。例如用户输入“熊猫”,用户本意是要查询熊猫这种动物的生活习性以及在中国的分布情况,但是检索结果的头条却是如图2熊猫直播的娱乐平台,这其实并不是用户想要的结果。
出现这种问题的根本是目前的搜索引擎忽视了用户请求的语义,只是生硬的检索出现过检索词“熊猫”的文档,而忽略了检索词本身的语义。“熊猫”一词可以作为一种动物,也可以作为企业熊猫电子,还可以作为品牌熊猫电视。
当然用户只是输入一个检索词,很难确定用户在当时当地用这个检索词所代表的语义,所有就有了一系列的改进做法。例如有的系统会进一步的要求输入一些限定词,也就是和用户多次交互来确定用户的真实需求。另一种做法就是将所有可能的结果全部呈现给用户,由用自己选择其中需要的检索项。目前大多数搜索引擎都是采用这样一种方式。但是这两种做法无疑都增加了用户负担,降低了搜索效率。而且在检索项排序的时候并没有充分考虑用户的行为。
解决这一问题正是提出本发明的初衷,基于当前搜索引擎存在的问题现状,本发明对传统的搜索引擎做一定改进,巧妙利用大数据智能分析来提高搜索效率,减轻用户负担。
发明内容
本发明提供一种基于大数据的信息检索系统及方法,技术解决方案是:
在传统搜索引擎框架的检索器上增加两个功能模块分别是客户端用户行为收集模块和服务器端的大数据智能分析模块。
一种基于大数据的信息检索系统,包括:数据抓取器、数据解析器、检索器、索引器和搜索器以及客户端用户行为收集模块和服务器端的大数据智能分析模块,其特征在于:
用户行为收集模块主要收集用户在输入检索信息之后到用户关闭浏览器这段时间,用户的行为记录。用户的行为信息包括:点击URL的条数,每条URL的内容,点击URL的时间,关闭浏览器的时间。其中,点击URL的时间指:用户从搜索引擎返回到检索结果列表中依次点击URL的时间点。记录用户的点击URL的时间点是为了计算两次点击之间的时间差,以此作为文档的阅读时间。
大数据智能分析模块会根据URL所对应的文档的长度设定一个时间阈值T,用户在小于T的时间内点击了另一条URL,则表明该URL对用户是没有多大帮助的,如果在大于T的间隔时间点击另一条URL,则表明该URL对用户是有益的。
从用户点击URL的记录信息可以得到用户最后一次有效点击的URL,也就是用户在点击之前的URL之后都不能充分解决问题,但最后一次点击之后的得到了满意的结果。所谓有效点击是指用户点击之后在一个大于T的时间之后关闭了浏览器。
用户行为收集模块以插件的形式,在用户第一次访问搜索引擎的时候下载安装到客户端的浏览器中,当用户访问搜索引擎的时候浏览器中的用户行为收集模块开始工作。
初始时检索器根据传统的相关性计算过程给出检索项的排序,大数据智能分析模块在收到客户端用户行为收集模块的发回的用户行为之后,重新排序。
一种基于大数据的信息检索方法,其特征在于:首先将搜索引擎抓取到的文档按照其长度计算一个阅读时间作为时间阈值T。
其次从客户端的用户行为收集模块获得用户行为信息,将该信息作为用户对一次检索结果中某一条URL满意程度的评判依据。分情况说明:
①一次浏览能成功
用户输入了查询词汇之后从返回的列表中点击了一条链接,用户在打开URL的有效时间之后关闭了浏览器,则视为用户对该URL非常满意,则该URL在排序时增加3分参与排序。
②若干次重复浏览
用户输入了查询词汇之后从返回的列表中点击了一条链接,用户在打开URL的在小于阈值T的时间内点击另一条URL,表明该URL对应的文档对用户来说是无益的,则在排序时减少1分参与排序;如果用户在大于阈值T的时间后点击另一条URL,表明该URL对应的文档对用户来说是有益的,但是并没有完全解决问题,则在排序时增加1分参与排序;最后一次有效点击之后用户得到满意的结果,则对用户最后一次点击的URL在排序时增加2分参与排序。
本发明的有益效果是:针对传统的搜索引擎普遍存在不具备语义也不能理解用户语义的缺点进行改进,增加用户行为信息收集模块和大数据智能分析模块,对用户的一次查询给出能够反映最广泛和最普遍的用户需求的检索结果。减少用户负担,提高用户检索效率。
附图说明
图1改进后的搜索引擎工作原理。
图2百度“熊猫”的检索查询结果。
图3用户行为收集模块收集的信息。
图4大数据智能分析模块工作流程图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
传统的搜索引擎的一般由数据抓取器、解析器、索引器和检索器四个部分组成。本发明在传统搜索引擎框架的检索器上增加两个功能模块分别是客户端用户行为收集模块和服务器端的大数据智能分析模块。如图1所示。具体介绍如下:
1)用户行为收集模块
主要收集用户在输入检索信息之后到用户关闭浏览器这段时间,用户的行为记录。用户的行为信息包括:点击URL的条数,每条URL的内容,点击URL的时间,关闭浏览器的时间。其中,点击URL的时间指:用户从搜索引擎返回的检索结果列表中依次点击URL的时间点。记录用户的点击URL的时间点是为了计算两次点击之间的时间差,为大数据智能分析模块提供判断依据。用户行为收集模块以插件的形式,在用户第一次访问搜索引擎的时候下载安装到客户端的浏览器中,当用户访问搜索引擎的时候浏览器中的用户行为收集模块开始工作。
2)大数据智能分析模块
大数据智能分析模块会根据URL所对应的文档的长度计算一个时间阈值T,设定规则如公式1所示,设文档d的长度为x个字符,k为线性系数,阈值T向下取整。如一篇1500个字符长度的文档,阈值为2秒钟。
a)无益的URL:
用户在小于T的时间内点击了另一条URL,则表明该URL对用户是没有多大帮助的。
b)有益的URL:
用户在大于T的间隔时间点击另一条URL,则表明该URL对用户是有益的。
c)有效点击:
从用户点击URL的记录信息可以得到用户最后一次有效点击的URL,也就是用户在点击之前的URL之后都不能充分解决问题,但最后一次点击之后的得到了满意的结果。所谓有效点击是指用户点击之后在一个大于T的时间之后关闭了浏览器。
本发明的算法流程具体如下,参见图4。首先将搜索引擎抓取到的文档按照其长度计算一个阅读时间作为时间阈值T。
其次从客户端的用户行为收集模块获得用户行为信息,将该信息作为用户对一次检索结果中某一条URL满意程度的评判依据。分情况说明:
①一次浏览能成功
用户输入了查询词汇之后从返回的列表中点击了一条链接,用户在打开URL的有效时间之后关闭了浏览器,则视为用户对该URL非常满意,则该URL在排序时增加3分参与排序。
②若干次重复浏览
用户输入了查询词汇之后从返回的列表中点击了一条链接,用户在打开URL的在小于阈值T的时间内点击另一条URL,表明该URL对应的文档对用户来说是无益的,则在排序时减少1分参与排序。如果用户在大于阈值T的时间后点击另一条URL,表明该URL对应的文档对用户来说是有益的,但是并没有完全解决问题。则在排序时增加1分参与排序。最后一次有效点击之后用户得到满意的结果,则对用户最后一次点击的URL在排序时增加2分参与排序。
初始时检索器根据传统的相关性计算过程给出检索项的排序,大数据智能分析模块在收到客户端用户行为收集模块的发回的用户行为之后,就得到特定检索词对应于各URL的分值,与系统中的原来的分值进行合并,重新排序。
本发明可以解决传统搜索引擎用户满意度不高,不能准确得到想要的搜索结果。以图2为例,当用户查询“熊猫”时,搜索引擎不能理解用户想要的是作为动物的熊猫还是作为品牌的熊猫。只能简单的将网页中含有“熊猫”词汇的链接返回给用户。
本发明将在用户的浏览器安装用户信息收集模块客户端,收集用户从开始查询到关闭浏览器这段时间内用户点击URL的记录信息。如图2假设用户在点击头条熊猫直播的链接1秒钟就又点击了熊猫百科的URL,5秒钟之后关闭了浏览器。用户信息收集模块负责收集到如图3的用户行为信息即点击的URL、时间、关闭浏览器的时间。大数据智能分析模块对每条URL对应的文档进行计算设定熊猫直播阅读时间10秒,熊猫百科阅读时间4秒。在收到用户的行为信息之后分析用户的在熊猫直播的阅读时间小于时间阈值,则对熊猫直播在今后的排序中按照图4减1分;而用户在熊猫百科的阅读时间超过了设定的时间阈值,表明用户对该URL进行了有效阅读,得到满意的结果,而且是最后一次有效点击,则在今后的排序中对该URL加2分进行排序。
用户行为收集模块和大数据智能分析模块相互配合完成一次用户检索过程的信息收集和分析统计,为下一次的用户检索提供更加综合更加能够反映用户需求的链接排序。在互联网大数据分析帮助下,大量用户的检索过程的行为信息得到统计,这样每次返回用户的结果排序必然代表的最普遍用户的需求,从而达到提高用户的检索效率,减轻用户负担的效果和目的。

Claims (6)

1.一种基于大数据的信息检索系统,包括:数据抓取器、数据解析器、检索器、索引器和搜索器其特征在于:还包括,客户端用户行为收集模块和服务器端的大数据智能分析模块。
2.根据权利要求1所述的一种基于大数据的信息检索系统,其特征在于:用户行为收集模块:收集用户在输入检索信息之后到用户关闭浏览器这段时间,用户的行为记录;用户的行为信息包括:点击URL的条数,每条URL的内容,点击URL的时间,关闭浏览器的时间。其中,点击URL的时间指:用户从搜索引擎返回到检索结果列表中依次点击URL的时间点。记录用户的点击URL的时间点是为了计算两次点击之间的时间差,为大数据智能分析模块提供判断依据。
3.根据权利要求1所述的一种基于大数据的信息检索系统,其特征在于:大数据智能分析模块:将收集的用户行为进行分析,根据用户对某一检索的点击检索项的行为判断检索词和检索项的准确性,重新排序(Rank)并更新数据库,为下一次的检索提供更加准确、用户更加满意的检索结果。
4.根据权利要求1所述的一种基于大数据的信息检索系统,其特征在于:用户行为收集模块以插件的形式,在用户第一次访问搜索引擎的时候下载安装到客户端的浏览器中,当用户访问搜索引擎的时候浏览器中的用户行为收集模块开始工作。
5.一种基于权利要求1所述的一种基于大数据的信息检索方法,其特征在于:首先将搜索引擎抓取到的文档按照其长度计算出一个阅读时间作为时间阈值T;
其次从客户端的用户行为收集模块获得用户行为信息,将该信息作为用户对一次检索结果中某一条URL满意程度的评判依据,具体分如下情况:
用户输入了查询词汇之后从返回的列表中点击了一条链接,用户在打开URL的有效时间之后关闭了浏览器,则视为用户对该URL非常满意,则该URL在排序时增加3分参与排序;
用户输入了查询词汇之后从返回的列表中点击了一条链接,用户在打开URL的在小于阈值T的时间内点击另一条URL,表明该URL对应的文档对用户来说是无益的,则在排序时减少1分参与排序;如果用户在大于阈值T的时间后点击另一条URL,表明该URL对应的文档对用户来说是有益的,但是并没有完全解决问题;则在排序时增加1分参与排序。最后一次有效点击之后用户得到满意的结果,则对用户最后一次点击的URL在排序时增加2分参与排序;
初始时检索器根据传统的相关性计算过程给出检索项的排序,大数据智能分析模块在收到客户端用户行为收集模块的发回的用户行为之后,就得到特定检索词对应于各URL的分值,与系统中的原来的分值进行合并,重新排序。
6.根据权利5所述的一种基于大数据的信息检索方法,其特征在于:时间阈值T的计算公式为:
其中:x表示:文档d的长度为x个字符,k为线性系数。
CN201711344430.5A 2017-12-15 2017-12-15 一种基于大数据的信息检索系统及方法 Pending CN107977452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711344430.5A CN107977452A (zh) 2017-12-15 2017-12-15 一种基于大数据的信息检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711344430.5A CN107977452A (zh) 2017-12-15 2017-12-15 一种基于大数据的信息检索系统及方法

Publications (1)

Publication Number Publication Date
CN107977452A true CN107977452A (zh) 2018-05-01

Family

ID=62006654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711344430.5A Pending CN107977452A (zh) 2017-12-15 2017-12-15 一种基于大数据的信息检索系统及方法

Country Status (1)

Country Link
CN (1) CN107977452A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108958073A (zh) * 2018-06-19 2018-12-07 珠海格力电器股份有限公司 一种利用实验大数据验证产品功能点逻辑的方法及电器
CN111125299A (zh) * 2019-12-25 2020-05-08 苏州视锐信息科技有限公司 一种基于用户行为分析的动态词库更新方法
CN113449060A (zh) * 2021-06-29 2021-09-28 金陵科技学院 基于混合基因表达式编程的地理大数据安全风险评估方法
CN114861019A (zh) * 2022-05-03 2022-08-05 北京博智瑞成科技有限公司 一种基于大数据的通讯信息自动分析系统及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN102231165A (zh) * 2011-07-11 2011-11-02 浙江大学 一种基于用户停留时间分析的个性化网页搜索排序方法
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN103123653A (zh) * 2013-03-15 2013-05-29 山东浪潮齐鲁软件产业股份有限公司 基于贝叶斯分类学习的搜索引擎检索排序方法
CN103235796A (zh) * 2013-04-07 2013-08-07 北京百度网讯科技有限公司 一种基于用户点击行为的搜索方法及系统
CN103617540A (zh) * 2013-10-17 2014-03-05 浙江大学 一种追踪用户兴趣变化的电子商务推荐方法
CN104182516A (zh) * 2014-08-21 2014-12-03 北京金山安全软件有限公司 信息推荐方法、装置和移动终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN102231165A (zh) * 2011-07-11 2011-11-02 浙江大学 一种基于用户停留时间分析的个性化网页搜索排序方法
CN103123653A (zh) * 2013-03-15 2013-05-29 山东浪潮齐鲁软件产业股份有限公司 基于贝叶斯分类学习的搜索引擎检索排序方法
CN103235796A (zh) * 2013-04-07 2013-08-07 北京百度网讯科技有限公司 一种基于用户点击行为的搜索方法及系统
CN103617540A (zh) * 2013-10-17 2014-03-05 浙江大学 一种追踪用户兴趣变化的电子商务推荐方法
CN104182516A (zh) * 2014-08-21 2014-12-03 北京金山安全软件有限公司 信息推荐方法、装置和移动终端

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108958073A (zh) * 2018-06-19 2018-12-07 珠海格力电器股份有限公司 一种利用实验大数据验证产品功能点逻辑的方法及电器
CN108958073B (zh) * 2018-06-19 2020-10-20 珠海格力电器股份有限公司 一种利用实验大数据验证产品功能点逻辑的方法及电器
CN111125299A (zh) * 2019-12-25 2020-05-08 苏州视锐信息科技有限公司 一种基于用户行为分析的动态词库更新方法
CN111125299B (zh) * 2019-12-25 2023-06-02 苏州视锐信息科技有限公司 一种基于用户行为分析的动态词库更新方法
CN113449060A (zh) * 2021-06-29 2021-09-28 金陵科技学院 基于混合基因表达式编程的地理大数据安全风险评估方法
CN113449060B (zh) * 2021-06-29 2022-07-01 金陵科技学院 基于混合基因表达式编程的地理大数据安全风险评估方法
CN114861019A (zh) * 2022-05-03 2022-08-05 北京博智瑞成科技有限公司 一种基于大数据的通讯信息自动分析系统及设备
CN114861019B (zh) * 2022-05-03 2023-04-28 数字丝路新疆产业投资集团有限公司 一种基于大数据的通讯信息自动分析系统及设备

Similar Documents

Publication Publication Date Title
US8682811B2 (en) User-driven index selection
US9262532B2 (en) Ranking entity facets using user-click feedback
CN100507920C (zh) 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN105022827B (zh) 一种面向领域主题的Web新闻动态聚合方法
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN107977452A (zh) 一种基于大数据的信息检索系统及方法
CN104008109A (zh) 基于用户兴趣的Web信息推送服务系统
CN1677403A (zh) 用于自动优化搜索结果相关性的系统和方法
CN103235796B (zh) 一种基于用户点击行为的搜索方法及系统
CN103186574A (zh) 一种搜索结果的生成方法和装置
WO2007140364A2 (en) Method for scoring changes to a webpage
CN1996316A (zh) 基于网页相关性的搜索引擎搜索方法
WO2021179481A1 (zh) 数据内容个性化推送冷启动方法、装置、设备和存储介质
CN103678629A (zh) 一种地理位置敏感的搜索引擎方法和系统
CN102375813A (zh) 搜索引擎排重系统及方法
CN103559258A (zh) 基于云计算的网页排序方法
CN109885656A (zh) 基于量化热度的微博转发预测方法及装置
Bhushan et al. Recommendation of optimized web pages to users using Web Log mining techniques
Bharamagoudar et al. Literature survey on web mining
US20110258187A1 (en) Relevance-Based Open Source Intelligence (OSINT) Collection
Bar-Yossef et al. Estimating the impressionrank of web pages
Wu et al. A quality analysis of keyword searching in different search engines projects
Pirnau Considerations on the functions and importance of a web crawler
Liu et al. A sample-guided approach to incremental structured web database crawling
Peng et al. Clustering-based topical web crawling for topic-specific information retrieval guided by incremental classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180501

WD01 Invention patent application deemed withdrawn after publication