CN107562966A - 用于网页链接检索排序的基于智能学习的优化系统及方法 - Google Patents

用于网页链接检索排序的基于智能学习的优化系统及方法 Download PDF

Info

Publication number
CN107562966A
CN107562966A CN201710995541.6A CN201710995541A CN107562966A CN 107562966 A CN107562966 A CN 107562966A CN 201710995541 A CN201710995541 A CN 201710995541A CN 107562966 A CN107562966 A CN 107562966A
Authority
CN
China
Prior art keywords
web page
webpage
module
keyword
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710995541.6A
Other languages
English (en)
Other versions
CN107562966B (zh
Inventor
陶永才
石磊
卫琳
张青
任鹏程
丁鑫
海朝阳
巴阳
赵国桦
火昊
杨朝阳
张鑫倩
曹朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN201710995541.6A priority Critical patent/CN107562966B/zh
Publication of CN107562966A publication Critical patent/CN107562966A/zh
Application granted granted Critical
Publication of CN107562966B publication Critical patent/CN107562966B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用于网页链接检索排序的基于智能学习的优化系统及方法,涉及检索软件技术领域,运用倒排索引技术从所抓取的网页中提取相关数据,构建数据库。采用多种智能算法相融合的决策技术,具有很高的智能性和客观性。本发明与现有的检索系统相比,拥有快速部署的能力,由底层数据模块自动快速进行范围内容信息获取并离线计算处理,针对检索结果排序采用了多种算法技术进行优化,具有可解释性高,操作简单,稳定性强等特点。

Description

用于网页链接检索排序的基于智能学习的优化系统及方法
技术领域
本发明涉及检索软件技术领域,特别是涉及一种用于网页链接检索排序的基于智能学习的优化系统及方法。
背景技术
在信息爆炸的互联网时代,对于个人来说,如何从海量的信息中快速、准确地搜寻到最想要的信息网页是关键;对于各个拥有庞大数量网页的网站站点来说,如何快速构建一个准确化、个性化的检索系统成为当务之急。而随着深度神经网络和文本主题技术的成熟使机器自动从信息中提取信息和学习到人们的偏好从而自主学习成为可能,传统的搜索引擎已经满足不了人们对于搜索网页的主题化和偏好个性化的需求。因此一个能实现快速部署的智能学习网页内容信息的检索系统能在人们日常生活学习中有着重要的现实意义。
各个企业、事业单位网站站点井喷式爆发,伴随着大量站内信息出现的同时,在站点内快速部署一套精准、个性化检索的检索系统成为一种迫切的需求,人们需要在不改变现有网站代码和结构的基础上部署一套轻量化、准确快速的、符合各自站点内部检索特点的信息检索系统。
目前的检索系统在检索的时候一般是基于关键字匹配检索,但是无法根据全文内容的主题进行检索。比如有很多网页内容是关于美国篮球运动的,那么人们输入“湖人队”等一些其他网页出现过的相关的词汇时就需要展示出所有的这些网页,虽然这些关键字可能没有在其中的一些网页出现过,但我们说它们是主题相关的。
目前检索系统在检索流程中也存在较多可优化的地方:
1、缺少一个可自动学习改进机制的反馈系统。用户一般需要以调查的方式填写哪个是自己需要的网站或者就没有反馈的自己个性化选择的机会。这些检索系统忽视了用户会直接点击选择自己喜欢的网页这一行为,从而无法从用户的默认行为中学习用户偏好。
2、无法智能联系关键字。一个著名的例子是尿布与啤酒,形容这二者之间有一些人们无法察觉却又微妙的联系,现在大多检索系统无法察觉这种联系,但通过神经网络模型进行自动学习人们输入的关键字和对结果网页的点击选择,使检索系统自动学习这种关联成为可能。
发明内容
本发明的目的是针对大量的站点有需要快速构建检索系统又不能修改原有网站结构的需求,传统检索主题无关性和无法根据关键字泛化拟合还有无法通过学习人们的选择对排序进行改善的问题,提出了一种快速部署的适用于网页链接检索排序的基于智能学习优化系统及方法。可以对一个范围内网页的内容完成快速部署进行信息检索,基于pagerank,LDA主题模型提取和神经网络等理论,根据对抓取网页进行主题提取和神经网络强大的拟合和泛化能力对检索结果排序进行改善。可以串联一个范围内的网页,进行关键字输入,并返回结果网页达到范围网页内容检索的目的,在一定程度上改善了链接排序质量,从而快速构建站内检索并提升人们的检索体验。
本发明提供了一种用于网页链接检索排序的基于智能学习的优化系统,所述系统包括:
爬虫模块:用于对指定范围内网页进行爬取,获得网页内容和网页连接关系;
数据库:用于存储所述网页内容和网页连接关系数据;
Pagerank模块:用于利用获取的网页连接关系,运用Pagerank网页重要度计算理论,对网页进行计算评分,得到Pagerank信息;
LDA主题提取模块:用于运用主题模型提取理论对爬取的网页内容进行网页主题词提取,并计算网页主题词与关键字的匹配相关度;
神经网络模块:用于运用神经网络理论对关键字-结果构建一个三层的神经网络,并对各层的权重进行更新,输出的权重作为影响网页排序的相对得分;以及
搜索决策模块:用于接收关键字,计算关键字的内容得分并整合输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度信息,以进行综合判断与评分,并将其作为排名依据对相关网页进行排名,最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。
本发明还提供了一种用于网页链接检索排序的基于智能学习的优化方法,所述方法包括:
使用爬虫模块抓取范围内的网页内容和网页连接关系数据,并存储到数据库中;
经过Pagerank模块和LDA主题提取模块的信息提取处理,根据抓取的网页内容和网页连接关系数据计算得到每个相关网页的Pagerank信息以及关键字和网页主题词的匹配相关度,并存储至数据库;
通过搜索决策模块查询与关键字的相关网页,用于构建神经网络,以及在数据库中提取关键字在相关网页中的位置、距离信息,整合网页的pagerank信息、关键字与网页主题词的匹配相关度信息以进行综合判断与评分,最终将相关网页按排名列出,供用户浏览;
询问用户是否同意改进神经网络的权重以改善排序结果,若同意则进行反馈调节,然后结束此次检索,若不同意则直接结束此次检索,整个过程结束。
本发明实施例中的用于网页链接检索排序的基于智能学习的优化系统及方法,具有以下特点:
(1)快速部署和良好的可扩展性
本系统轻量化的设计可以快速自动获取范围内网页的关系与信息,进行离线计算,轻松地在其它的类树状网页结构中扩展使用,不用对原有网站代码和结构进行繁琐的改动,具有快速部署能力和良好的可扩展性和通用性。
(2)检索相关度的高准确性
本系统运用倒排索引将抓取网页信息完全存储,在系统数据库中提取相关数据,并根据网页数据特点和相应的智能算法参与决策和检索控制,具有很高的准确性。
(3)检索的可解释性
本系统通过运用LDA主题模型对所获取的网页内容进行主题词提取,弥补了传统方法主题无关的缺点,利用主题词与关键字进行快速与准确地匹配,使检索结果具有很高的主题相关性与可解释性。
(4)自动学习点击行为反馈和智能联系关键字
本系统通过运用神经网络模型,对关键字和用户点击行为之间的联系自动地进行学习,可以发现关键字之间微妙的关联,更重要的是可以从人们的点击行为中学习到大多数用户的行为偏好,从而将这些更受欢迎的网页赋予更高的权重使更多的人能更方便地看到它们,点击它们。
(5)基于多种智能算法共同决策
本系统主要采用传统网页相关度原理与智能学习方法相结合的方式进行检索结果链接排序,并通过模块化设计支持不同类型的智能学习方法,如神经网络模型、LDA主题提取算法、距离频度因素算法等,将所有信息综合以后进行排序,具有很高的合理性、智能性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的用于网页链接检索排序的基于智能学习的优化系统的整体功能模块图;
图2为图1中底层数据层的具体功能模块图;
图3为图1中信息提取层的具体功能模块图;
图4为图1中决策层的具体功能模块图;
图5为本发明实施例提供的用于网页链接检索排序的基于智能学习的优化方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1至图4,本发明实施例中提供了一种用于网页链接检索排序的基于智能学习的优化系统,该系统包括六大部分:爬虫模块、数据库、Pagerank模块、LDA主题提取模块、神经网络模块、搜索决策模块。如图1所示,上述六个部分分为三层:
第一层为底层数据,作用是获得基础信息数据,然后经过信息提取处理和结构转换之后进行存储,供上层读取调用。底层数据层包含了本系统基础数据部分模块:爬虫模块和数据库。爬虫模块主要是对指定范围内网页进行爬取,获得网页内容和网页连接关系,数据库模块是系统主要数据存储和中转中心。
第二层为信息提取层,主要进行相关信息提取,参与检索结果排序决策。主要包含Pagerank模块和LDA主题提取模块。Pagerank模块利用获取的网页连接关系,运用Pagerank网页重要度计算理论,对网页进行计算评分,得到Pagerank信息。LDA主题提取模块运用主题模型提取理论对爬取的网页内容进行网页主题词提取,并计算网页主题词与关键字的匹配相关度,使检索结果更具有主题相关性,大大改善检索体验。
第三层为决策层,主要进行信息汇总,检索功能的实现和反馈神经网络的实现。主要包含神经网络模块和搜索决策模块。神经网络模块运用神经网络理论对关键字-结果构建一个三层的神经网络,并对各层的权重进行更新,输出的权重作为影响网页排序的相对得分,可以对用户检索习惯进行泛化和拟合,改善检索排序。搜索决策模块主要接收关键字,计算关键字的内容得分并整合输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度等信息,以进行综合判断与评分,将其作为排名依据对相关网页进行排名,最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。
下面对各部分核心模块分别加以介绍:
如图2所示,底层数据用用于从数据库提取相关数据,进行数据处理构建数据库,供上层信息提取层进行信息提取,以及决策层进行决策和完成检索功能。底层数据层包括爬虫模块和数据库,如图1所示。所述爬虫模块包括URL管理器模块、网页下载器模块和网页解析器模块。URL管理器模块从网页中提取URL链接地址并维持一个待下载链接的下载队列,并从指定入口作为起始下载网页,保证连续自动化抓取,以及防止循环/重复抓取网页。网页下载器模块用于从下载队列中取出相应链接并下载整个网页。网页解析器模块用于解析下载的网页中包含的网页连接关系和网页内容,若包含的网页链接未下载过会加入下载队列,网页内容会进行分词以倒排索引的形式存入数据库。数据库将存储所有的网页内容、词典信息和网页连接关系信息,为各个模块进行数据交互和提供数据支持,是整个系统的存储中心。
如图3所示,信息提取层包含Pagerank模块和LDA主题提取模块。Pagerank模块包括第一数据读取模块、第一迭代计算模块和第一结果存储模块。第一数据读取模块负责从底层数据层中的数据库读取所需的网页连接关系数据;第一迭代计算模块根据读取的数据重复调用Pagerank网页重要度公式构建矩阵进行计算,直到前后两次误差小于一定值,即收敛,或者达到一定次数时计算完成,得到计算结果,即Pagerank信息;第一结果存储模块负责将计算结果按构建好的结构插入数据库。LDA主题提取模块包括第二数据读取模块、第二迭代计算模块和第二结果存储模块。第二数据读取模块负责从底层数据层中的数据库读取所需的网页内容数据,第二迭代计算模块根据读取的网页内容数据构建矩阵进行吉比斯抽样迭代计算,直到前后两次误差小于一定值,即收敛,或者达到一定次数时计算完成,得到网页主题词,接着计算关键字与网页主题词的匹配相关度,第二结果存储模块负责将计算结果存储至数据库。
如图4所示,决策层包括神经网络模块和搜索决策模块,主要与底层数据层交互完成系统核心功能和进行反馈调节。神经网络模块将用户输入的关键字作为神经网络的输入层,相关关键字组合构建中间层,检索出的所有URL链接为输出层。先为输入层和中间层的连接权重以及中间层和输出层的连接权重赋予一个初值,然后根据预设的参数接收关键字和相关连接,根据正向传递公式进行正向传播并进行权重的更新。待用户进行点击同意更新后,将用户选择的网页作为偏重项,运用反向传播公式对权重进行二次更新并存储,最后每个输出的权重即为影响网页排序的相对得分。既达到泛化拟合又使用户普遍选择的网页拥有更高的权重和排名,满足用户的个性化的特点。
搜索决策模块包括搜索模块和排序决策模块,搜索模块负责查询出所有与关键字相关的URL链接,一方面输出到神经网络模块用来构建神经网络,另一方面接收神经网络模块得到的输出权重进行最终的排序。排序决策模块负责两个主要的功能:(1)计算关键字在各个相关网页中的距离和频度信息,并将之转化为内容得分;(2)接收输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度等所有的信息参数,进行综合的判断与评分,并作为排名依据对相关网页进行排名,最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览,用户对系统不断地使用就是不断地对系统进行反馈和改善。
基于同一个发明构思,本发明实施例还提供了一种用于网页链接检索排序的基于智能学习的优化方法,参照图5,该方法的实施参照上述系统的实施,重复之处不再赘述。所述方法包括以下步骤:
使用爬虫模块抓取范围内的网页内容和网页连接关系数据,并存储到数据库中;
经过Pagerank模块和LDA主题提取模块的信息提取处理,根据抓取的网页内容和网页连接关系数据计算得到每个相关网页的Pagerank信息以及关键字和网页主题词的匹配相关度,并存储至数据库;
通过搜索决策模块查询与关键字的相关网页,用于构建神经网络,以及在数据库中提取关键字在相关网页中的位置、距离信息,整合网页的pagerank信息、关键字与网页主题词的匹配相关度信息以进行综合判断与评分,最终将相关网页按排名列出,供用户浏览;
询问用户是否同意改进神经网络的权重以改善排序结果,若同意则进行反馈调节,然后结束此次检索,若不同意则直接结束此次检索,整个过程技术;结束。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述系统包括:
爬虫模块:用于对指定范围内网页进行爬取,获得网页内容和网页连接关系;
数据库:用于存储所述网页内容和网页连接关系数据;
Pagerank模块:用于利用获取的网页连接关系,运用Pagerank网页重要度计算理论,对网页进行计算评分,得到Pagerank信息;
LDA主题提取模块:用于运用主题模型提取理论对爬取的网页内容进行网页主题词提取,并计算网页主题词与关键字的匹配相关度;
神经网络模块:用于运用神经网络理论对关键字-结果构建一个三层的神经网络,并对各层的权重进行更新,输出的权重作为影响网页排序的相对得分;以及
搜索决策模块:用于接收关键字,计算关键字的内容得分并整合输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度信息,以进行综合判断与评分,并将其作为排名依据对相关网页进行排名,最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。
2.如权利要求1所述的用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述爬虫模块包括:
URL管理器模块:用于从网页中提取URL链接地址并维持一个待下载链接的下载队列,并从指定入口作为起始下载网页,保证连续自动化抓取,以及防止循环/重复抓取网页;
网页下载器模块:用于从下载队列中取出相应链接并下载整个网页;
网页解析器模块:用于解析下载的网页中包含的网页连接关系和网页内容,若包含的网页链接未下载过会加入下载队列,网页内容会进行分词以倒排索引的形式存入所述数据库,所述数据库将存储所有的网页内容、词典信息和网页连接关系信息。
3.如权利要求2所述的用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述Pagerank模块包括:
第一数据读取模块:用于从所述数据库读取所需的网页连接关系数据;
第一迭代计算模块:用于根据读取的数据重复调用Pagerank网页重要度公式构建矩阵进行计算,直到前后两次误差小于一定值,或者达到一定次数时计算完成,得到Pagerank信息;
第一结果存储模块:用于将计算结果按构建好的结构插入所述数据库。
4.如权利要求3所述的用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述LDA主题提取模块包括:
第二数据读取模块:用于从所述数据库读取所需的网页内容数据;
第二迭代计算模块:用于根据读取的网页内容数据构建矩阵进行吉比斯抽样迭代计算,直到前后两次误差小于一定值,或者达到一定次数时计算完成,得到网页主题词,接着计算关键字与网页主题词的匹配相关度;
第二结果存储模块:用于将计算结果存储至数据库。
5.如权利要求4所述的用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述神经网络模块将用户输入的关键字作为神经网络的输入层,相关关键字组合作为中间层,检索出的所有URL链接作为输出层,先为输入层和中间层的连接权重以及中间层和输出层的连接权重赋予一个初值,然后根据预设的参数接收关键字和相关连接,根据正向传递公式进行正向传播并进行权重的更新;待用户点击同意更新后,将用户选择的网页作为偏重项,运用反向传播公式对权重进行二次更新并存储,最后每个输出的权重即为影响网页排序的相对得分。
6.如权利要求5所述的用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述搜索决策模块包括:
搜索模块:用于查询所有与关键字相关的URL链接,一方面输出到神经网络模块用来构建神经网络,另一方面接收神经网络模块得到的输出权重进行最终的排序;
排序决策模块:该模块有两个功能:计算关键字在各个相关网页中的距离和频度信息,并将之转化为内容得分;接收输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度信息,进行综合的判断与评分,并作为排名依据对相关网页进行排名,最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。
7.一种用于网页链接检索排序的基于智能学习的优化方法,其特征在于,所述方法包括:
使用爬虫模块抓取范围内的网页内容和网页连接关系数据,并存储到数据库中;
经过Pagerank模块和LDA主题提取模块的信息提取处理,根据抓取的网页内容和网页连接关系数据计算得到每个相关网页的Pagerank信息以及关键字和网页主题词的匹配相关度,并存储至数据库;
通过搜索决策模块查询与关键字的相关网页,用于构建神经网络,以及在数据库中提取关键字在相关网页中的位置、距离信息,整合网页的pagerank信息、关键字与网页主题词的匹配相关度信息以进行综合判断与评分,最终将相关网页按排名列出,供用户浏览;
询问用户是否同意改进神经网络的权重以改善排序结果,若同意则进行反馈调节,然后结束此次检索,若不同意则直接结束此次检索,整个过程结束。
CN201710995541.6A 2017-10-23 2017-10-23 用于网页链接检索排序的基于智能学习的优化系统及方法 Expired - Fee Related CN107562966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710995541.6A CN107562966B (zh) 2017-10-23 2017-10-23 用于网页链接检索排序的基于智能学习的优化系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710995541.6A CN107562966B (zh) 2017-10-23 2017-10-23 用于网页链接检索排序的基于智能学习的优化系统及方法

Publications (2)

Publication Number Publication Date
CN107562966A true CN107562966A (zh) 2018-01-09
CN107562966B CN107562966B (zh) 2020-10-30

Family

ID=60986685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710995541.6A Expired - Fee Related CN107562966B (zh) 2017-10-23 2017-10-23 用于网页链接检索排序的基于智能学习的优化系统及方法

Country Status (1)

Country Link
CN (1) CN107562966B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598073A (zh) * 2018-05-25 2019-12-20 微软技术许可有限责任公司 基于拓扑关系图的实体网页链接的获取技术
CN110750544A (zh) * 2019-08-27 2020-02-04 格局商学教育科技(深圳)有限公司 一种多校区联动学员信息管理方法和系统
CN111353083A (zh) * 2018-12-20 2020-06-30 中国科学院计算机网络信息中心 一种通过计算集群进行网页排序的方法及装置
CN111753161A (zh) * 2020-06-05 2020-10-09 合肥学院 基于改进的PageRank的网络爬虫方法及系统
CN112308406A (zh) * 2020-10-29 2021-02-02 深圳前海微众银行股份有限公司 数据排序方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129014A1 (en) * 2001-01-10 2002-09-12 Kim Brian S. Systems and methods of retrieving relevant information
CN101770521A (zh) * 2010-03-11 2010-07-07 东华大学 一种用于垂直搜索引擎的聚焦相关度排序方法
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN105956004A (zh) * 2016-04-20 2016-09-21 广州精点计算机科技有限公司 一种基于url分析模型的移动用户上网行为分析方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129014A1 (en) * 2001-01-10 2002-09-12 Kim Brian S. Systems and methods of retrieving relevant information
CN101770521A (zh) * 2010-03-11 2010-07-07 东华大学 一种用于垂直搜索引擎的聚焦相关度排序方法
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN105956004A (zh) * 2016-04-20 2016-09-21 广州精点计算机科技有限公司 一种基于url分析模型的移动用户上网行为分析方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598073A (zh) * 2018-05-25 2019-12-20 微软技术许可有限责任公司 基于拓扑关系图的实体网页链接的获取技术
CN110598073B (zh) * 2018-05-25 2024-04-26 微软技术许可有限责任公司 基于拓扑关系图的实体网页链接的获取技术
CN111353083A (zh) * 2018-12-20 2020-06-30 中国科学院计算机网络信息中心 一种通过计算集群进行网页排序的方法及装置
CN111353083B (zh) * 2018-12-20 2023-04-28 中国科学院计算机网络信息中心 一种通过计算集群进行网页排序的方法及装置
CN110750544A (zh) * 2019-08-27 2020-02-04 格局商学教育科技(深圳)有限公司 一种多校区联动学员信息管理方法和系统
CN111753161A (zh) * 2020-06-05 2020-10-09 合肥学院 基于改进的PageRank的网络爬虫方法及系统
CN111753161B (zh) * 2020-06-05 2022-04-29 合肥学院 基于改进的PageRank的网络爬虫方法及系统
CN112308406A (zh) * 2020-10-29 2021-02-02 深圳前海微众银行股份有限公司 数据排序方法、装置、设备及计算机可读存储介质
CN112308406B (zh) * 2020-10-29 2024-06-11 深圳前海微众银行股份有限公司 数据排序方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN107562966B (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN107562966A (zh) 用于网页链接检索排序的基于智能学习的优化系统及方法
US8484181B2 (en) Cloud matching of a question and an expert
CN105893609B (zh) 一种基于加权混合的移动app推荐方法
CN103778227B (zh) 从检索图像中筛选有用图像的方法
CN109829104A (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
US20120095978A1 (en) Related item usage for matching questions to experts
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN107145496A (zh) 基于关键词将图像与内容项目匹配的方法
CN106777043A (zh) 一种基于lda的学术资源获取方法
CN106021374A (zh) 查询结果的底层召回方法和装置
CN105786977A (zh) 基于人工智能的移动搜索方法和装置
AU2011269676A1 (en) Systems of computerized agents and user-directed semantic networking
CN101551806A (zh) 一种个性化网址导航的方法和系统
CN102236677A (zh) 一种基于问答系统的信息匹配方法及系统
CN105243149B (zh) 一种基于语义的查询推荐方法和系统
CN105760443A (zh) 项目推荐系统、项目推荐装置以及项目推荐方法
CN110795613B (zh) 商品搜索方法、装置、系统及电子设备
CN110019650A (zh) 提供搜索联想词的方法、装置、存储介质及电子设备
Zubiaga et al. Content-based clustering for tag cloud visualization
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN107016566A (zh) 基于本体的用户模型构建方法
Thiengburanathum et al. A decision tree based recommendation system for tourists
Namahoot et al. Context-aware tourism recommender system using temporal ontology and naïve bayes
CN102053960A (zh) 依群需特征构建物联互联双网快准搜索引擎的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201030

Termination date: 20211023

CF01 Termination of patent right due to non-payment of annual fee