CN107977452A

CN107977452A - 一种基于大数据的信息检索系统及方法

Info

Publication number: CN107977452A
Application number: CN201711344430.5A
Authority: CN
Inventors: 杨荣根; 龚乐君
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-05-01

Abstract

本发明涉及一种基于大数据的信息检索系统及方法。为了提高搜索引擎的准确性和用户满意度，改进传统的搜索引擎框架，在传统搜索引擎中的增加两个功能模块，分别是客户端用户行为收集模块和服务器端的大数据智能分析模块。用户行为收集模块主要收集用户在信息检索之后在服务器返回的列表中选择检索项点击对应的URL(链接)的记录以及时间戳，也就是从一次检索开始一直到关闭浏览器这段时间中用户的选择点击情况。大数据智能分析模块的功能是将收集的用户行为进行计算统计，根据用户对某一次查询之后点击检索项的行为信息判断检索项的准确性，重新对检索项进行排序(Reranking)并更新数据库，为下一次的检索提供更加准确、用户更加满意的检索结果。

Description

一种基于大数据的信息检索系统及方法

技术领域

本发明设计信息检索领域，尤其涉及一种大数据的信息检索系统及方法。

背景技术

搜索引擎是因特网上专门提供检索服务的一类网站，这些网站通过网络搜索软件(又称为网络蜘蛛)等方式，将因特网上大量网站的页面收集到本地，经过加工处理而建库，从而能够对用户提出的各种查询做出响应。

随着互联网应用的普及和大数据时代的到来，每天全球互联网网页数目以千万级的数量增加。要在浩瀚网络检索需要的信息，搜索引擎已成为访问互联网不可或缺的助手。

传统的搜索引擎的工作原理可以用图1来说明，其中阴影部分是本发明经过改进后增加的模块。搜索引擎一般由数据抓取器、解析器、索引器和检索器四个部分组成。数据抓取器也叫网络蜘蛛，从互联网上抓取网页，并按照深度优先或者广度优先的策略沿着网页中的所有URL爬到其它网页，将获得的网页收集回来。数据解析器将收集到的网页进行分析，提取相关网页信息，根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度。索引器用这些相关信息建立网页索引数据库。检索器从用户提供的查询条件，在索引数据库中检索，找到符合该关键词的所有相关网页，由页面生成系统将搜索结果的链接地址和摘要等内容组织起来返回给用户。

得益于硬件技术的发展以及软件计算算法的进步，现在的搜索引擎的检索响应速度有了很大的提高，索引数据库的规模不断增大。但搜索引擎也面临一些棘手的问题。其中最突出的问题就是搜索引擎不具有语义，也不能理解用户在使用搜索引擎时输入的检索词所表达的语义，导致有些检索结果不能让用户满意。例如用户输入“熊猫”，用户本意是要查询熊猫这种动物的生活习性以及在中国的分布情况，但是检索结果的头条却是如图2熊猫直播的娱乐平台，这其实并不是用户想要的结果。

出现这种问题的根本是目前的搜索引擎忽视了用户请求的语义，只是生硬的检索出现过检索词“熊猫”的文档，而忽略了检索词本身的语义。“熊猫”一词可以作为一种动物，也可以作为企业熊猫电子，还可以作为品牌熊猫电视。

当然用户只是输入一个检索词，很难确定用户在当时当地用这个检索词所代表的语义，所有就有了一系列的改进做法。例如有的系统会进一步的要求输入一些限定词，也就是和用户多次交互来确定用户的真实需求。另一种做法就是将所有可能的结果全部呈现给用户，由用自己选择其中需要的检索项。目前大多数搜索引擎都是采用这样一种方式。但是这两种做法无疑都增加了用户负担，降低了搜索效率。而且在检索项排序的时候并没有充分考虑用户的行为。

解决这一问题正是提出本发明的初衷，基于当前搜索引擎存在的问题现状，本发明对传统的搜索引擎做一定改进，巧妙利用大数据智能分析来提高搜索效率，减轻用户负担。

发明内容

本发明提供一种基于大数据的信息检索系统及方法，技术解决方案是：

在传统搜索引擎框架的检索器上增加两个功能模块分别是客户端用户行为收集模块和服务器端的大数据智能分析模块。

一种基于大数据的信息检索系统，包括：数据抓取器、数据解析器、检索器、索引器和搜索器以及客户端用户行为收集模块和服务器端的大数据智能分析模块，其特征在于：

用户行为收集模块主要收集用户在输入检索信息之后到用户关闭浏览器这段时间，用户的行为记录。用户的行为信息包括：点击URL的条数，每条URL的内容，点击URL的时间，关闭浏览器的时间。其中，点击URL的时间指：用户从搜索引擎返回到检索结果列表中依次点击URL的时间点。记录用户的点击URL的时间点是为了计算两次点击之间的时间差，以此作为文档的阅读时间。

大数据智能分析模块会根据URL所对应的文档的长度设定一个时间阈值T，用户在小于T的时间内点击了另一条URL，则表明该URL对用户是没有多大帮助的，如果在大于T的间隔时间点击另一条URL，则表明该URL对用户是有益的。

从用户点击URL的记录信息可以得到用户最后一次有效点击的URL，也就是用户在点击之前的URL之后都不能充分解决问题，但最后一次点击之后的得到了满意的结果。所谓有效点击是指用户点击之后在一个大于T的时间之后关闭了浏览器。

用户行为收集模块以插件的形式，在用户第一次访问搜索引擎的时候下载安装到客户端的浏览器中，当用户访问搜索引擎的时候浏览器中的用户行为收集模块开始工作。

初始时检索器根据传统的相关性计算过程给出检索项的排序，大数据智能分析模块在收到客户端用户行为收集模块的发回的用户行为之后，重新排序。

一种基于大数据的信息检索方法，其特征在于：首先将搜索引擎抓取到的文档按照其长度计算一个阅读时间作为时间阈值T。

其次从客户端的用户行为收集模块获得用户行为信息，将该信息作为用户对一次检索结果中某一条URL满意程度的评判依据。分情况说明：

①一次浏览能成功

用户输入了查询词汇之后从返回的列表中点击了一条链接，用户在打开URL的有效时间之后关闭了浏览器，则视为用户对该URL非常满意，则该URL在排序时增加3分参与排序。

②若干次重复浏览

用户输入了查询词汇之后从返回的列表中点击了一条链接，用户在打开URL的在小于阈值T的时间内点击另一条URL，表明该URL对应的文档对用户来说是无益的，则在排序时减少1分参与排序；如果用户在大于阈值T的时间后点击另一条URL，表明该URL对应的文档对用户来说是有益的，但是并没有完全解决问题，则在排序时增加1分参与排序；最后一次有效点击之后用户得到满意的结果，则对用户最后一次点击的URL在排序时增加2分参与排序。

本发明的有益效果是：针对传统的搜索引擎普遍存在不具备语义也不能理解用户语义的缺点进行改进，增加用户行为信息收集模块和大数据智能分析模块，对用户的一次查询给出能够反映最广泛和最普遍的用户需求的检索结果。减少用户负担，提高用户检索效率。

附图说明

图1改进后的搜索引擎工作原理。

图2百度“熊猫”的检索查询结果。

图3用户行为收集模块收集的信息。

图4大数据智能分析模块工作流程图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

传统的搜索引擎的一般由数据抓取器、解析器、索引器和检索器四个部分组成。本发明在传统搜索引擎框架的检索器上增加两个功能模块分别是客户端用户行为收集模块和服务器端的大数据智能分析模块。如图1所示。具体介绍如下：

1)用户行为收集模块

主要收集用户在输入检索信息之后到用户关闭浏览器这段时间，用户的行为记录。用户的行为信息包括：点击URL的条数，每条URL的内容，点击URL的时间，关闭浏览器的时间。其中，点击URL的时间指：用户从搜索引擎返回的检索结果列表中依次点击URL的时间点。记录用户的点击URL的时间点是为了计算两次点击之间的时间差，为大数据智能分析模块提供判断依据。用户行为收集模块以插件的形式，在用户第一次访问搜索引擎的时候下载安装到客户端的浏览器中，当用户访问搜索引擎的时候浏览器中的用户行为收集模块开始工作。

2)大数据智能分析模块

大数据智能分析模块会根据URL所对应的文档的长度计算一个时间阈值T，设定规则如公式1所示，设文档d的长度为x个字符，k为线性系数，阈值T向下取整。如一篇1500个字符长度的文档，阈值为2秒钟。

a)无益的URL：

用户在小于T的时间内点击了另一条URL，则表明该URL对用户是没有多大帮助的。

b)有益的URL：

用户在大于T的间隔时间点击另一条URL，则表明该URL对用户是有益的。

c)有效点击：

本发明的算法流程具体如下，参见图4。首先将搜索引擎抓取到的文档按照其长度计算一个阅读时间作为时间阈值T。

①一次浏览能成功

②若干次重复浏览

用户输入了查询词汇之后从返回的列表中点击了一条链接，用户在打开URL的在小于阈值T的时间内点击另一条URL，表明该URL对应的文档对用户来说是无益的，则在排序时减少1分参与排序。如果用户在大于阈值T的时间后点击另一条URL，表明该URL对应的文档对用户来说是有益的，但是并没有完全解决问题。则在排序时增加1分参与排序。最后一次有效点击之后用户得到满意的结果，则对用户最后一次点击的URL在排序时增加2分参与排序。

初始时检索器根据传统的相关性计算过程给出检索项的排序，大数据智能分析模块在收到客户端用户行为收集模块的发回的用户行为之后，就得到特定检索词对应于各URL的分值，与系统中的原来的分值进行合并，重新排序。

本发明可以解决传统搜索引擎用户满意度不高，不能准确得到想要的搜索结果。以图2为例，当用户查询“熊猫”时，搜索引擎不能理解用户想要的是作为动物的熊猫还是作为品牌的熊猫。只能简单的将网页中含有“熊猫”词汇的链接返回给用户。

本发明将在用户的浏览器安装用户信息收集模块客户端，收集用户从开始查询到关闭浏览器这段时间内用户点击URL的记录信息。如图2假设用户在点击头条熊猫直播的链接1秒钟就又点击了熊猫百科的URL，5秒钟之后关闭了浏览器。用户信息收集模块负责收集到如图3的用户行为信息即点击的URL、时间、关闭浏览器的时间。大数据智能分析模块对每条URL对应的文档进行计算设定熊猫直播阅读时间10秒，熊猫百科阅读时间4秒。在收到用户的行为信息之后分析用户的在熊猫直播的阅读时间小于时间阈值，则对熊猫直播在今后的排序中按照图4减1分；而用户在熊猫百科的阅读时间超过了设定的时间阈值，表明用户对该URL进行了有效阅读，得到满意的结果，而且是最后一次有效点击，则在今后的排序中对该URL加2分进行排序。

用户行为收集模块和大数据智能分析模块相互配合完成一次用户检索过程的信息收集和分析统计，为下一次的用户检索提供更加综合更加能够反映用户需求的链接排序。在互联网大数据分析帮助下，大量用户的检索过程的行为信息得到统计，这样每次返回用户的结果排序必然代表的最普遍用户的需求，从而达到提高用户的检索效率，减轻用户负担的效果和目的。

Claims

1.一种基于大数据的信息检索系统，包括：数据抓取器、数据解析器、检索器、索引器和搜索器其特征在于：还包括，客户端用户行为收集模块和服务器端的大数据智能分析模块。

2.根据权利要求1所述的一种基于大数据的信息检索系统，其特征在于：用户行为收集模块：收集用户在输入检索信息之后到用户关闭浏览器这段时间，用户的行为记录；用户的行为信息包括：点击URL的条数，每条URL的内容，点击URL的时间，关闭浏览器的时间。其中，点击URL的时间指：用户从搜索引擎返回到检索结果列表中依次点击URL的时间点。记录用户的点击URL的时间点是为了计算两次点击之间的时间差，为大数据智能分析模块提供判断依据。

3.根据权利要求1所述的一种基于大数据的信息检索系统，其特征在于：大数据智能分析模块：将收集的用户行为进行分析，根据用户对某一检索的点击检索项的行为判断检索词和检索项的准确性，重新排序(Rank)并更新数据库，为下一次的检索提供更加准确、用户更加满意的检索结果。

4.根据权利要求1所述的一种基于大数据的信息检索系统，其特征在于：用户行为收集模块以插件的形式，在用户第一次访问搜索引擎的时候下载安装到客户端的浏览器中，当用户访问搜索引擎的时候浏览器中的用户行为收集模块开始工作。

5.一种基于权利要求1所述的一种基于大数据的信息检索方法，其特征在于：首先将搜索引擎抓取到的文档按照其长度计算出一个阅读时间作为时间阈值T；

其次从客户端的用户行为收集模块获得用户行为信息，将该信息作为用户对一次检索结果中某一条URL满意程度的评判依据，具体分如下情况：

用户输入了查询词汇之后从返回的列表中点击了一条链接，用户在打开URL的有效时间之后关闭了浏览器，则视为用户对该URL非常满意，则该URL在排序时增加3分参与排序；

用户输入了查询词汇之后从返回的列表中点击了一条链接，用户在打开URL的在小于阈值T的时间内点击另一条URL，表明该URL对应的文档对用户来说是无益的，则在排序时减少1分参与排序；如果用户在大于阈值T的时间后点击另一条URL，表明该URL对应的文档对用户来说是有益的，但是并没有完全解决问题；则在排序时增加1分参与排序。最后一次有效点击之后用户得到满意的结果，则对用户最后一次点击的URL在排序时增加2分参与排序；

6.根据权利5所述的一种基于大数据的信息检索方法，其特征在于：时间阈值T的计算公式为：

其中：x表示：文档d的长度为x个字符，k为线性系数。