CN107562966A

CN107562966A - 用于网页链接检索排序的基于智能学习的优化系统及方法

Info

Publication number: CN107562966A
Application number: CN201710995541.6A
Authority: CN
Inventors: 陶永才; 石磊; 卫琳; 张青; 任鹏程; 丁鑫; 海朝阳; 巴阳; 赵国桦; 火昊; 杨朝阳; 张鑫倩; 曹朝阳
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2018-01-09
Anticipated expiration: 2037-10-23
Also published as: CN107562966B

Abstract

本发明公开了一种用于网页链接检索排序的基于智能学习的优化系统及方法，涉及检索软件技术领域，运用倒排索引技术从所抓取的网页中提取相关数据，构建数据库。采用多种智能算法相融合的决策技术，具有很高的智能性和客观性。本发明与现有的检索系统相比，拥有快速部署的能力，由底层数据模块自动快速进行范围内容信息获取并离线计算处理，针对检索结果排序采用了多种算法技术进行优化，具有可解释性高，操作简单，稳定性强等特点。

Description

用于网页链接检索排序的基于智能学习的优化系统及方法

技术领域

本发明涉及检索软件技术领域，特别是涉及一种用于网页链接检索排序的基于智能学习的优化系统及方法。

背景技术

在信息爆炸的互联网时代，对于个人来说，如何从海量的信息中快速、准确地搜寻到最想要的信息网页是关键；对于各个拥有庞大数量网页的网站站点来说，如何快速构建一个准确化、个性化的检索系统成为当务之急。而随着深度神经网络和文本主题技术的成熟使机器自动从信息中提取信息和学习到人们的偏好从而自主学习成为可能，传统的搜索引擎已经满足不了人们对于搜索网页的主题化和偏好个性化的需求。因此一个能实现快速部署的智能学习网页内容信息的检索系统能在人们日常生活学习中有着重要的现实意义。

各个企业、事业单位网站站点井喷式爆发，伴随着大量站内信息出现的同时，在站点内快速部署一套精准、个性化检索的检索系统成为一种迫切的需求，人们需要在不改变现有网站代码和结构的基础上部署一套轻量化、准确快速的、符合各自站点内部检索特点的信息检索系统。

目前的检索系统在检索的时候一般是基于关键字匹配检索，但是无法根据全文内容的主题进行检索。比如有很多网页内容是关于美国篮球运动的，那么人们输入“湖人队”等一些其他网页出现过的相关的词汇时就需要展示出所有的这些网页，虽然这些关键字可能没有在其中的一些网页出现过，但我们说它们是主题相关的。

目前检索系统在检索流程中也存在较多可优化的地方：

1、缺少一个可自动学习改进机制的反馈系统。用户一般需要以调查的方式填写哪个是自己需要的网站或者就没有反馈的自己个性化选择的机会。这些检索系统忽视了用户会直接点击选择自己喜欢的网页这一行为，从而无法从用户的默认行为中学习用户偏好。

2、无法智能联系关键字。一个著名的例子是尿布与啤酒，形容这二者之间有一些人们无法察觉却又微妙的联系，现在大多检索系统无法察觉这种联系，但通过神经网络模型进行自动学习人们输入的关键字和对结果网页的点击选择，使检索系统自动学习这种关联成为可能。

发明内容

本发明的目的是针对大量的站点有需要快速构建检索系统又不能修改原有网站结构的需求，传统检索主题无关性和无法根据关键字泛化拟合还有无法通过学习人们的选择对排序进行改善的问题，提出了一种快速部署的适用于网页链接检索排序的基于智能学习优化系统及方法。可以对一个范围内网页的内容完成快速部署进行信息检索，基于pagerank，LDA主题模型提取和神经网络等理论，根据对抓取网页进行主题提取和神经网络强大的拟合和泛化能力对检索结果排序进行改善。可以串联一个范围内的网页，进行关键字输入，并返回结果网页达到范围网页内容检索的目的，在一定程度上改善了链接排序质量，从而快速构建站内检索并提升人们的检索体验。

本发明提供了一种用于网页链接检索排序的基于智能学习的优化系统，所述系统包括：

爬虫模块：用于对指定范围内网页进行爬取，获得网页内容和网页连接关系；

数据库：用于存储所述网页内容和网页连接关系数据；

Pagerank模块：用于利用获取的网页连接关系，运用Pagerank网页重要度计算理论，对网页进行计算评分，得到Pagerank信息；

LDA主题提取模块：用于运用主题模型提取理论对爬取的网页内容进行网页主题词提取，并计算网页主题词与关键字的匹配相关度；

神经网络模块：用于运用神经网络理论对关键字-结果构建一个三层的神经网络，并对各层的权重进行更新，输出的权重作为影响网页排序的相对得分；以及

搜索决策模块：用于接收关键字，计算关键字的内容得分并整合输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度信息，以进行综合判断与评分，并将其作为排名依据对相关网页进行排名，最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。

本发明还提供了一种用于网页链接检索排序的基于智能学习的优化方法，所述方法包括：

使用爬虫模块抓取范围内的网页内容和网页连接关系数据，并存储到数据库中；

经过Pagerank模块和LDA主题提取模块的信息提取处理，根据抓取的网页内容和网页连接关系数据计算得到每个相关网页的Pagerank信息以及关键字和网页主题词的匹配相关度，并存储至数据库；

通过搜索决策模块查询与关键字的相关网页，用于构建神经网络，以及在数据库中提取关键字在相关网页中的位置、距离信息，整合网页的pagerank信息、关键字与网页主题词的匹配相关度信息以进行综合判断与评分，最终将相关网页按排名列出，供用户浏览；

询问用户是否同意改进神经网络的权重以改善排序结果，若同意则进行反馈调节，然后结束此次检索，若不同意则直接结束此次检索，整个过程结束。

本发明实施例中的用于网页链接检索排序的基于智能学习的优化系统及方法，具有以下特点：

(1)快速部署和良好的可扩展性

本系统轻量化的设计可以快速自动获取范围内网页的关系与信息，进行离线计算，轻松地在其它的类树状网页结构中扩展使用，不用对原有网站代码和结构进行繁琐的改动，具有快速部署能力和良好的可扩展性和通用性。

(2)检索相关度的高准确性

本系统运用倒排索引将抓取网页信息完全存储，在系统数据库中提取相关数据，并根据网页数据特点和相应的智能算法参与决策和检索控制，具有很高的准确性。

(3)检索的可解释性

本系统通过运用LDA主题模型对所获取的网页内容进行主题词提取，弥补了传统方法主题无关的缺点，利用主题词与关键字进行快速与准确地匹配，使检索结果具有很高的主题相关性与可解释性。

(4)自动学习点击行为反馈和智能联系关键字

本系统通过运用神经网络模型，对关键字和用户点击行为之间的联系自动地进行学习，可以发现关键字之间微妙的关联，更重要的是可以从人们的点击行为中学习到大多数用户的行为偏好，从而将这些更受欢迎的网页赋予更高的权重使更多的人能更方便地看到它们，点击它们。

(5)基于多种智能算法共同决策

本系统主要采用传统网页相关度原理与智能学习方法相结合的方式进行检索结果链接排序，并通过模块化设计支持不同类型的智能学习方法，如神经网络模型、LDA主题提取算法、距离频度因素算法等，将所有信息综合以后进行排序，具有很高的合理性、智能性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的用于网页链接检索排序的基于智能学习的优化系统的整体功能模块图；

图2为图1中底层数据层的具体功能模块图；

图3为图1中信息提取层的具体功能模块图；

图4为图1中决策层的具体功能模块图；

图5为本发明实施例提供的用于网页链接检索排序的基于智能学习的优化方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1至图4，本发明实施例中提供了一种用于网页链接检索排序的基于智能学习的优化系统，该系统包括六大部分：爬虫模块、数据库、Pagerank模块、LDA主题提取模块、神经网络模块、搜索决策模块。如图1所示，上述六个部分分为三层：

第一层为底层数据，作用是获得基础信息数据，然后经过信息提取处理和结构转换之后进行存储，供上层读取调用。底层数据层包含了本系统基础数据部分模块：爬虫模块和数据库。爬虫模块主要是对指定范围内网页进行爬取，获得网页内容和网页连接关系，数据库模块是系统主要数据存储和中转中心。

第二层为信息提取层，主要进行相关信息提取，参与检索结果排序决策。主要包含Pagerank模块和LDA主题提取模块。Pagerank模块利用获取的网页连接关系，运用Pagerank网页重要度计算理论，对网页进行计算评分，得到Pagerank信息。LDA主题提取模块运用主题模型提取理论对爬取的网页内容进行网页主题词提取，并计算网页主题词与关键字的匹配相关度，使检索结果更具有主题相关性，大大改善检索体验。

第三层为决策层，主要进行信息汇总，检索功能的实现和反馈神经网络的实现。主要包含神经网络模块和搜索决策模块。神经网络模块运用神经网络理论对关键字-结果构建一个三层的神经网络，并对各层的权重进行更新，输出的权重作为影响网页排序的相对得分，可以对用户检索习惯进行泛化和拟合，改善检索排序。搜索决策模块主要接收关键字，计算关键字的内容得分并整合输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度等信息，以进行综合判断与评分，将其作为排名依据对相关网页进行排名，最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。

下面对各部分核心模块分别加以介绍：

如图2所示，底层数据用用于从数据库提取相关数据，进行数据处理构建数据库，供上层信息提取层进行信息提取，以及决策层进行决策和完成检索功能。底层数据层包括爬虫模块和数据库，如图1所示。所述爬虫模块包括URL管理器模块、网页下载器模块和网页解析器模块。URL管理器模块从网页中提取URL链接地址并维持一个待下载链接的下载队列，并从指定入口作为起始下载网页，保证连续自动化抓取，以及防止循环/重复抓取网页。网页下载器模块用于从下载队列中取出相应链接并下载整个网页。网页解析器模块用于解析下载的网页中包含的网页连接关系和网页内容，若包含的网页链接未下载过会加入下载队列，网页内容会进行分词以倒排索引的形式存入数据库。数据库将存储所有的网页内容、词典信息和网页连接关系信息，为各个模块进行数据交互和提供数据支持，是整个系统的存储中心。

如图3所示，信息提取层包含Pagerank模块和LDA主题提取模块。Pagerank模块包括第一数据读取模块、第一迭代计算模块和第一结果存储模块。第一数据读取模块负责从底层数据层中的数据库读取所需的网页连接关系数据；第一迭代计算模块根据读取的数据重复调用Pagerank网页重要度公式构建矩阵进行计算，直到前后两次误差小于一定值，即收敛，或者达到一定次数时计算完成，得到计算结果，即Pagerank信息；第一结果存储模块负责将计算结果按构建好的结构插入数据库。LDA主题提取模块包括第二数据读取模块、第二迭代计算模块和第二结果存储模块。第二数据读取模块负责从底层数据层中的数据库读取所需的网页内容数据，第二迭代计算模块根据读取的网页内容数据构建矩阵进行吉比斯抽样迭代计算，直到前后两次误差小于一定值，即收敛，或者达到一定次数时计算完成，得到网页主题词，接着计算关键字与网页主题词的匹配相关度，第二结果存储模块负责将计算结果存储至数据库。

如图4所示，决策层包括神经网络模块和搜索决策模块，主要与底层数据层交互完成系统核心功能和进行反馈调节。神经网络模块将用户输入的关键字作为神经网络的输入层，相关关键字组合构建中间层，检索出的所有URL链接为输出层。先为输入层和中间层的连接权重以及中间层和输出层的连接权重赋予一个初值，然后根据预设的参数接收关键字和相关连接，根据正向传递公式进行正向传播并进行权重的更新。待用户进行点击同意更新后，将用户选择的网页作为偏重项，运用反向传播公式对权重进行二次更新并存储，最后每个输出的权重即为影响网页排序的相对得分。既达到泛化拟合又使用户普遍选择的网页拥有更高的权重和排名，满足用户的个性化的特点。

搜索决策模块包括搜索模块和排序决策模块，搜索模块负责查询出所有与关键字相关的URL链接，一方面输出到神经网络模块用来构建神经网络，另一方面接收神经网络模块得到的输出权重进行最终的排序。排序决策模块负责两个主要的功能：(1)计算关键字在各个相关网页中的距离和频度信息，并将之转化为内容得分；(2)接收输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度等所有的信息参数，进行综合的判断与评分，并作为排名依据对相关网页进行排名，最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览，用户对系统不断地使用就是不断地对系统进行反馈和改善。

基于同一个发明构思，本发明实施例还提供了一种用于网页链接检索排序的基于智能学习的优化方法，参照图5，该方法的实施参照上述系统的实施，重复之处不再赘述。所述方法包括以下步骤：

询问用户是否同意改进神经网络的权重以改善排序结果，若同意则进行反馈调节，然后结束此次检索，若不同意则直接结束此次检索，整个过程技术；结束。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于网页链接检索排序的基于智能学习的优化系统，其特征在于，所述系统包括：

数据库：用于存储所述网页内容和网页连接关系数据；

2.如权利要求1所述的用于网页链接检索排序的基于智能学习的优化系统，其特征在于，所述爬虫模块包括：

URL管理器模块：用于从网页中提取URL链接地址并维持一个待下载链接的下载队列，并从指定入口作为起始下载网页，保证连续自动化抓取，以及防止循环/重复抓取网页；

网页下载器模块：用于从下载队列中取出相应链接并下载整个网页；

网页解析器模块：用于解析下载的网页中包含的网页连接关系和网页内容，若包含的网页链接未下载过会加入下载队列，网页内容会进行分词以倒排索引的形式存入所述数据库，所述数据库将存储所有的网页内容、词典信息和网页连接关系信息。

3.如权利要求2所述的用于网页链接检索排序的基于智能学习的优化系统，其特征在于，所述Pagerank模块包括：

第一数据读取模块：用于从所述数据库读取所需的网页连接关系数据；

第一迭代计算模块：用于根据读取的数据重复调用Pagerank网页重要度公式构建矩阵进行计算，直到前后两次误差小于一定值，或者达到一定次数时计算完成，得到Pagerank信息；

第一结果存储模块：用于将计算结果按构建好的结构插入所述数据库。

4.如权利要求3所述的用于网页链接检索排序的基于智能学习的优化系统，其特征在于，所述LDA主题提取模块包括：

第二数据读取模块：用于从所述数据库读取所需的网页内容数据；

第二迭代计算模块：用于根据读取的网页内容数据构建矩阵进行吉比斯抽样迭代计算，直到前后两次误差小于一定值，或者达到一定次数时计算完成，得到网页主题词，接着计算关键字与网页主题词的匹配相关度；

第二结果存储模块：用于将计算结果存储至数据库。

5.如权利要求4所述的用于网页链接检索排序的基于智能学习的优化系统，其特征在于，所述神经网络模块将用户输入的关键字作为神经网络的输入层，相关关键字组合作为中间层，检索出的所有URL链接作为输出层，先为输入层和中间层的连接权重以及中间层和输出层的连接权重赋予一个初值，然后根据预设的参数接收关键字和相关连接，根据正向传递公式进行正向传播并进行权重的更新；待用户点击同意更新后，将用户选择的网页作为偏重项，运用反向传播公式对权重进行二次更新并存储，最后每个输出的权重即为影响网页排序的相对得分。

6.如权利要求5所述的用于网页链接检索排序的基于智能学习的优化系统，其特征在于，所述搜索决策模块包括：

搜索模块：用于查询所有与关键字相关的URL链接，一方面输出到神经网络模块用来构建神经网络，另一方面接收神经网络模块得到的输出权重进行最终的排序；

排序决策模块：该模块有两个功能：计算关键字在各个相关网页中的距离和频度信息，并将之转化为内容得分；接收输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度信息，进行综合的判断与评分，并作为排名依据对相关网页进行排名，最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。

7.一种用于网页链接检索排序的基于智能学习的优化方法，其特征在于，所述方法包括：