CN104750692A - 一种信息处理方法、信息检索方法及其对应的装置 - Google Patents

一种信息处理方法、信息检索方法及其对应的装置 Download PDF

Info

Publication number
CN104750692A
CN104750692A CN201310729206.3A CN201310729206A CN104750692A CN 104750692 A CN104750692 A CN 104750692A CN 201310729206 A CN201310729206 A CN 201310729206A CN 104750692 A CN104750692 A CN 104750692A
Authority
CN
China
Prior art keywords
webpage
same subject
web page
belonging
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310729206.3A
Other languages
English (en)
Other versions
CN104750692B (zh
Inventor
韩金宇
孙少陵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201310729206.3A priority Critical patent/CN104750692B/zh
Publication of CN104750692A publication Critical patent/CN104750692A/zh
Application granted granted Critical
Publication of CN104750692B publication Critical patent/CN104750692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种信息处理方法、信息检索方法及其对应的装置,所述信息处理方法包括:获取网页索引库中的索引关键字,并根据所述网页索引库中所述索引关键字对应的网页列表获取对应的网页;根据获取到的网页的结构和内容,确定所述获取到的网页之间的相关度,并根据所述获取到的网页之间的相关度,确定属于同一主题的网页;在所述网页索引库中所述索引关键字对应的网页列表中,为所述属于同一主题的网页建立关联关系。

Description

一种信息处理方法、信息检索方法及其对应的装置
技术领域
本发明涉及信息处理领域,尤其涉及一种信息处理方法、信息检索方法及其对应的装置。
背景技术
随着互联网的不断发展,互联网上的信息量以几何级别增加,人们在互联网上寻找自己需要的信息时变得越来越困难。为帮助人们更方便的获取信息,搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户。
目前,搜索引擎在将用户检索的相关信息展示给用户的时候,需要先对用户输入的查询指令进行分析而获得对应的索引关键字,并根据网页索引库中的网页与索引关键字的相关度而将用户检索相关的信息展示给用户。
请参考图1,图1是现有技术中搜索引擎将用户检索相关的信息展示给用户的示意图,如图1所示,用户输入一个查询指令,该查询指令例如是“建站教程”,则搜索引擎会根据网页索引库中的网页与“建站教程”这一索引关键字的相关度,将网页索引库中的网页按相关度展示给用户,用户通过点击对应的网页即能够获取到与“建站教程”这一查询指令相关的信息,请继续参考图1,搜索引擎在将网页索引库中与“建站教程”这一索引关键字相关的网页展示给用户时,是按照网页与“建站教程”这一索引关键字的相关度,将对应的网页逐条地展示给用户。
但是,这一方式忽略了与“建站教程”这一索引关键字相关的网页之间的相关性,具体来讲,例如,网页索引库包括某一网站针对“建站教程”这一主题所提供的多个网页,如其标题分别可以为“建站教程(1):建站流程介绍”、“建站教程(2):域名的作用”、“建站教程(3):虚拟空间”和“建站教程(4):建站程序”等,由于这些网页与“建站教程”这一索引关键字的相关度不同,所以搜索引擎在将网页索引库中与“建站教程”这一索引关键字相关的网页提供给用户的时候,该网站提供的标题分别为“建站教程(1):建站流程介绍”、“建站教程(2):域名的作用”、“建站教程(3):虚拟空间”和“建站教程(4):建站程序”等的网页就不会被在一起进行展示,而会被零散展示在一个页面上,甚至很可能会被分开展示在多个页面上,用户无法根据这些零散的网页了解到网页的内容提供者,如网站编辑、网站作者等希望提供给用户的信息。
也就是说,搜索引擎由于根据网页索引库中与索引关键字对应的网页按照相关度展示给用户,而忽视了与索引关键字对应的网页之间的相关性,如某一网站提供属于同一主题的网页,而这些联系是内容提供者希望提供给用户的信息,所以无法将属于同一主题的网页作为一个整体展示给用户,也即无法将内容提供者希望提供给用户的信息作为一个整体展示给用户,使得用户需要在搜索引擎提供的网页中花费更多的时间去分辨自己需要的内容,增加了用户获得所需要的信息时所花费的时间,降低了获取信息的效率。
因此,现有技术中存在搜索引擎或其他应用程序无法将属于同一主题的网页作为一个整体展示给用户,增加了用户获得所需要的信息时所花费的时间,降低了获取信息的效率的技术问题。
发明内容
本发明实施例通过提供一种信息处理方法、信息检索方法及其对应的装置,用以解决现有技术中存在的搜索引擎或其他应用程序无法将属于同一主题的网页作为一个整体展示给用户,增加了用户获得所需要的信息时所花费的时间,降低了获取信息的效率的技术问题。
本发明实施例提供了一种信息处理方法,包括:获取网页索引库中的索引关键字,并根据所述网页索引库中所述索引关键字对应的网页列表获取对应的网页;根据获取到的网页的结构和内容,确定所述获取到的网页之间的相关度,并根据所述获取到的网页之间的相关度,确定属于同一主题的网页;在所述网页索引库中所述索引关键字对应的网页列表中,为所述属于同一主题的网页建立关联关系。
可选地,所述根据获取到的网页的结构和内容,确定所述获取到的网页之间的相关度,具体包括:根据所述获取到的网页的统一资源定位符与文本结构,确定获取到的网页之间的结构相关性;根据所述获取到的网页的锚文本确定所述获取到的网页之间的内容相关性;根据所述结构相关性和所述内容相关性,确定所述获取到的网页之间的相关度。
可选地,所述为所述属于同一主题的网页建立关联关系,具体包括:确定所述属于同一主题的网页之间的排列顺序;根据所述排列顺序,将所述属于同一主题的网页依次链接。
可选地,在所述为所述属于同一主题的网页建立关联关系之后,所述方法还包括:根据所述属于同一主题的网页的数量,提高所述属于同一主题的网页中每个网页与所述索引关键字的相关度。
可选地,所述根据所述属于同一主题的网页的数量,提高所述属于同一主题的网页中每个网页与所述索引关键字的相关度,具体为:根据提高所述属于同一主题的网页中每个网页与所述索引关键字的相关度,其中,Ri为所述属于同一主题的网页中第i个网页提高后的相关度,n为所述属于同一主题的网页的数量,λ为调节相关度增幅速率的参数,ri为所述属于同一主题的网页中第i个网页提高前的相关度。
基于同一发明构思,本发明实施例另一方面提供一种基于前述实施例得到的网页索引库进行的信息检索方法,包括:获得查询指令,并根据所述查询指令,获得索引关键字;根据所述索引关键字,从网页索引库中查询所述索引关键字对应的网页列表;若查询到的网页列表中包括属于同一主题的网页,则根据所述属于同一主题的网页之间的关联关系生成属于同一主题的查询结果列表,并根据所述属于同一主题的查询结果列表生成查询结果页面。
可选地,所述根据所述属于同一主题的查询结果列表生成查询结果页面,包括:步骤A、按照与所述索引关键字的相关度从高到低的顺序,从查询到的网页列表中获取还未添加的一个网页的信息,若已添加完成,则结束本流程,否则转入步骤B;步骤B、根据属于同一主题的网页的关联关系,判断当前获取的网页的信息所对应的网页是否与其他网页属于同一主题,若是,则转入步骤C,否则转入步骤E;步骤C、判断当前获取到的网页的信息是否被标记为已添加,若是,则返回步骤A,否则转入步骤D;步骤D、根据关联关系获取其他网页的信息,将该网页和其他网页的信息添加到查询结果页面,将这些网页标记为已添加,并返回步骤A;步骤E、将当前获取到的网页添加到查询结果页面,并返回步骤A。
基于同一发明构思,本发明实施例另一方面还提供一种信息处理装置,包括:获取单元,用于获取网页索引库中的索引关键字,并根据所述网页索引库中所述索引关键字对应的网页列表获取对应的网页;确定单元,用于根据获取到的网页的结构和内容,确定所述获取到的网页之间的相关度,并根据所述获取到的网页之间的相关度,确定属于同一主题的网页;建立单元,用于在所述网页索引库中所述索引关键字对应的网页列表中,为所述属于同一主题的网页建立关联关系。
可选地,所述确定单元具体用于根据所述获取到的网页的统一资源定位符与文本结构,确定获取到的网页之间的结构相关性,并根据所述获取到的网页的锚文本确定所述获取到的网页之间的内容相关性,并根据所述结构相关性和所述内容相关性,确定所述获取到的网页之间的相关度。
可选地,所述建立单元具体用于确定所述属于同一主题的网页之间的排列顺序,并根据所述排列顺序,将所述属于同一主题的网页依次链接。
可选地,所述信息处理装置还包括提高单元,用于根据所述属于同一主题的网页的数量,提高所述属于同一主题的网页中每个网页与所述索引关键字的相关度。
可选地,所述提高单元具体用于根据提高所述属于同一主题的网页中每个网页与所述索引关键字的相关度,其中,Ri为所述属于同一主题的网页中第i个网页提高后的相关度,n为所述属于同一主题的网页的数量,λ为调节相关度增幅速率的参数,ri为所述属于同一主题的网页中第i个网页提高前的相关度。
基于同一发明构思,本发明实施例另一方面还提供一种基于前述实施例中的信息处理装置得到的网页索引库的信息查询装置,包括:获得单元,用于获得查询指令,并根据所述查询指令,获得索引关键字;查询单元,用于根据所述索引关键字,从网页索引库中查询所述索引关键字对应的网页列表;添加单元,用于若查询到的网页列表中包括属于同一主题的网页,则根据所述属于同一主题的网页之间的关联关系生成属于同一主题的查询结果列表,并根据所述属于同一主题的查询结果列表生成查询结果页面。
可选地,所述添加单元具体用于执行以下步骤:步骤A、按照与所述索引关键字的相关度从高到低的顺序,从查询到的网页列表中获取还未添加的一个网页的信息,若已添加完成,则结束本流程,否则转入步骤B;步骤B、根据属于同一主题的网页的关联关系,判断当前获取的网页的信息所对应的网页是否与其他网页属于同一主题,若是,则转入步骤C,否则转入步骤E;步骤C、判断当前获取到的网页的信息是否被标记为已添加,若是,则返回步骤A,否则转入步骤D;步骤D、根据关联关系获取其他网页的信息,将该网页和其他网页的信息添加到查询结果页面,将这些网页标记为已添加,并返回步骤A;步骤E、将当前获取到的网页添加到查询结果页面,并返回步骤A。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
由于采用了获取网页索引库中的索引关键字,根据所述网页索引库中所述索引关键字对应的网页列表获取对应的网页,并根据获取到的网页的结构和内容,确定所述获取到的网页之间的相关度,并根据所述获取到的网页之间的相关度,确定属于同一主题的网页,并在所述网页索引库中所述索引关键字对应的网页列表中,为所述属于同一主题的网页建立关联关系的技术方案,在网页索引库中建立了属于同一主题的网页之间的关联关系,这样,搜索引擎或其他应用程序在将网页索引库中的网页展示给用户的时候,若该网页与其他网页属于同一主题,即能够根据该网页与属于同一主题的其他网页的关联关系将其他网页一起展示给用户,用户能够通过这些属于同一主题的网页了解到网页的内容提供者,如网站编辑、网站作者等希望提供给用户的信息,从而可以从整体或全局了解到这些网页所希望表达的内容,所以解决了现有技术中存在的搜索引擎或其他应用程序无法将属于同一主题的网页作为一个整体展示给用户,增加了用户获得所需要的信息时所花费的时间,降低了获取信息的效率的技术问题,实现了减少用户在获得所需要的信息时所花费的时间,提高了获取信息的效率的技术效果。
附图说明
图1为现有技术中搜索引擎将用户检索相关的信息展示给用户的示意图;
图2为本发明实施例提供的信息处理方法的流程图;
图3为本发明实施例提供的与索引关键字对应的网页列表的示意图;
图4为本发明实施例提供的信息检索方法的流程图;
图5为本发明实施例提供的将如图3所示的8个网页添加到查询结果页面后的示意图;
图6为本发明实施例提供的信息处理装置的功能模块图;
图7为本发明实施例提供的信息查询装置的功能模块图。
具体实施方式
本发明实施例通过提供一种信息处理方法、信息检索方法及其对应的装置,用以解决现有技术中存在的搜索引擎或其他应用程序无法将属于同一主题的网页作为一个整体展示给用户,增加了用户获得所需要的信息时所花费的时间,降低了获取信息的效率的技术问题。
本发明实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例提供一种信息处理方法,该方法包括:获取网页索引库中的索引关键字,根据网页索引库中索引关键字对应的网页列表获取对应的网页;根据获取到的网页的结构和内容,确定获取到的网页之间的相关度,并根据获取到的网页之间的相关度,确定属于同一主题的网页;在网页索引库中索引关键字对应的网页列表中,为属于同一主题的网页建立关联关系。
通过上述部分可以看出,由于采用了获取网页索引库中的索引关键字,根据网页索引库中索引关键字对应的网页列表获取对应的网页,并根据获取到的网页的结构和内容,确定获取到的网页之间的相关度,并根据获取到的网页之间的相关度,确定属于同一主题的网页,并在网页索引库中索引关键字对应的网页列表中,为属于同一主题的网页建立关联关系的技术方案,在网页索引库中建立了属于同一主题的网页之间的关联关系,这样,搜索引擎或其他应用程序在将网页索引库中的网页展示给用户的时候,若该网页与其他网页属于同一主题,即能够根据该网页与属于同一主题的其他网页的关联关系将其他网页一起展示给用户,用户能够通过这些属于同一主题的网页了解到网页的内容提供者,如网站编辑、网站作者等希望提供给用户的信息,从而可以从整体或全局了解到这些网页所希望表达的内容,所以解决了现有技术中存在的搜索引擎或其他应用程序无法将属于同一主题的网页作为一个整体展示给用户,增加了用户获得所需要的信息时所花费的时间,降低了获取信息的效率的技术问题,实现了减少用户在获得所需要的信息时所花费的时间,提高了获取信息的效率的技术效果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
请参考图2,图2是本发明实施例提供的信息处理方法的流程图,如图2所示,该方法包括:
S1:获取网页索引库中的索引关键字,根据网页索引库中索引关键字对应的网页列表获取对应的网页;
S2:根据获取到的网页的结构和内容,确定获取到的网页之间的相关度,并根据获取到的网页之间的相关度,确定属于同一主题的网页;
S3:在网页索引库中索引关键字对应的网页列表中,为属于同一主题的网页建立关联关系。
在实际应用中,网页索引库中存储有互联网上的许多网页,这些网页在被存储到网页索引库中后,即会根据网页的内容、标题等为这些网页设置对应的索引关键字,以便根据用户的查询指令将网页索引库中对应的网页展示给用户,当然,需要说明的是,此处所说的索引关键字可以是单个的字,也可以是单个词语,还可以是有多个词语组成的词组,在此不做限制。
在步骤S1中,具体来讲,即可以是获得前述所介绍的网页索引库中为网页所设置的索引关键字,该索引关键字会对应一个网页列表,网页列表内包括网页索引库中索引关键字被设置为该索引关键字的所有网页,也即,在获得索引关键字后,同时根据该索引关键字获得对应的网页。
在实际应用中,该索引关键字从网页索引库中获得该索引关键字对应的网页中,可以包括一网站提供的属于同一主题的多个网页,当然,该属于同一主题的多个网页都与该索引关键字对应,也可以包括一网站提供的包括与该索引关键字对应的单个网页,在此不做限制。
在接下来的部分中,以获得的索引关键字为“建站教程”,网页索引库中与“建站教程”这一索引关键字对应的网页为8个网页为例,来详细介绍本发明实施例中的技术方案,请参考图3,图3是本发明实施例提供的与索引关键字对应的网页列表的示意图,如图3所示,该网页列表中的8个网页中的第一网页到第四网页为网站A提供的与“建站教程”这一索引关键字对应的4个网页,第五网页为网站B提供的与“建站教程”这一索引关键字对应的1个网页,第六网页到第八网页为网站C提供的与“建站教程”这一索引关键字对应的3个网页。
在通过步骤S1获得索引关键字,和与该索引关键字对应的网页之后,本发明实施例提供的信息处理方法进入步骤S2,即:根据获取到的网页的结构和内容,确定获取到的网页之间的相关度,并根据获取到的网页之间的相关度,确定属于同一主题的网页。
在步骤S2,可以通过如下步骤来确定属于同一主题的网页:根据获取到的网页的统一资源定位符与文本结构,确定获取到的网页之间的结构相关性;根据获取到的网页的锚文本确定获取到的网页之间的内容相关性;根据结构相关性和内容相关性,确定获取到的网页之间的相关度。
在具体实施过程中,确定获取到的网页之间的结构相关性,可以是通过如下两种方式的结合来确定获取到的网页之间的结构相关性:
第一种方式:通过获取到的网页的统一资源定位符来进行确定。
具体来讲,统一资源定位符(URL,Uniform Resource Locator)也即网页的网页地址,请继续参考图3,获取到的8个网页中,以第一网页、第二网页、第三网页和第四网页为例,网页地址大部分完全相同,只有最后的序号不相同,因此,可以根据获取到的网页的统一资源定位符来确定获取到的网页之间的结构相关性。
在具体实施过程中,可以根据获取到的网页之间的网页地址的相同程度来确定网页之间的相关性,如可以预设一个阈值,若两个网页的相同程度超过该阈值,则可以确定两个网页的相关性较高,若两个网页的相同程度低于该阈值,则可以确定两个网页的相关性较低,比如,请参考图3,以第一网页和第二网页为例,以“/”为分割线将网页地址分为了4个区域,然后将两个网页地址进行比对,相同程度为75%,也即4个区域中有3个区域是相同的,若在本实施例中将阈值设置为50%,则可以确定第一网页和第二网页的相关性较高。在实际应用中,通过本实施例的介绍,本领域所属的技术人员能够根据实际情况,将阈值设置为合适的阈值,以满足实际情况的需要,在此就不再赘述了。
在介绍完通过第一种方式确定网页之间的结构相关性之后,在接下来的部分中,将介绍通过第二种方式确定网页之间的结构相关性。
第二种方式:通过获取到的网页的文本结构来进行确定。
具体来讲,文本结构是指网页内文本的组成情况,一般包括两类,小标题式和无小标题式,小标题是指网页内为多个自然段组合而成的意义段概括的标题,有的网页内包括小标题,而有的网页内不包括小标题,但作为属于同一主题的网页的内容提供者,一般会在属于同一主题的网页中保持一致的风格,因此,可以通过网页的文本结构来确定网页之间的结构相关性。
在实际应用中,网页索引库中的网页根据文本结构主要分为内容列表页与内容详情页两类,其中,内容列表页内是包括多个内容分类的页面,内容详情页是描述标题内容所包括的详情的页面,而内容列表页一般来讲不会是属于同一主题的网页,因此,通过文本结构可以将内容列表页与内容详情页区分开来,避免内容列表页被作为属于同一主题的网页展示给用户。
在本实施例中,为保证作为属于同一主题的网页展示给用户时的准确度,本实施例中的技术方案采用了同时根据网页的统一资源定位符与文本结构同时来确定网页之间的结构相关性,在其他实施例中,本领域所属的技术人员能够根据实际情况,可以选择其中的一种方式获取本领域所属的技术人员能够使用的其他方式,来确定获取到的网页之间的结构相关性,以满足实际情况的需要,在此就不再赘述了。
在介绍完确定获取到的网页之间的结构相关性的具体过程以后,在接下来的部分中,将介绍根据获取到的网页的锚文本确定获取到的网页之间的内容相关性的具体过程。
在实际应用中,锚文本又被称为锚文本链接,是指将关键词做一个链接并指向另外的页面,该连接即被称为另外页面的锚文本。一般来讲,锚文本能精确地描述所指向网页内容的属性,通常涵盖所指向网页主要内容的标题,而属于同一主题的网页经过内容提供者精心的整理和编辑,因此其标题具有很好的相关性,因此,可以将根据获取到的网页的锚文本来确定获取到的网页之间的内容相关性。
例如,请继续参考图3,以第六网页、第七网页和第八网页的标题为例,第六网页的标题为“新手建站教程1:XX”,第七网页的标题为“新手建站教程2:XX”,第八网页的标题为“新手建站教程3:XX”,可以看出,属于同一主题的网页的标题一般由大标题、小标题和序号组成,并且大标题完全相同。
在具体实施过程中,通过可以通过如下方式,实现根据获取到的网页的锚文本来确定获取到的网页之间的内容相关性,以两个网页的标题为分别为T1和T2为例,可以利用中文分词技术分别将这两个标题分解成词语的集合,如T1={s11,s12,…,s1m}和T2={s21,s22,…,s2n};接下来,通过比较两个词语集合中词语来衡量两个标题之间的相关性,即网页内容相关性的度量为:
CC ( T 1 , T 2 ) = Σ i = 1 , . . . , m j = 1 , . . . , n s 1 i ∈ T 1 , s 2 j ∈ T 2 Sim ( s 1 i , s 2 j ) .
其中,Sim(s1i,s2j)表示两个词语间相似程度的度量,两个词语越相似,其取值越大。通过上述公式可以看出,在两个标题分别的词语集合中,彼此之间词语越相似,包含的相似词语越多,这两个标题之间的相关性越强,即网页内容相关性越强。
一般情况下,词语间相似程度的度量可以采用某种连续函数形式,也可以采用01函数的形式,即判断两个词语是否相同,如下所示,
Sim ( s 1 i , s 2 j ) = 1 , s 1 i = s 2 j 0 , s 1 i ≠ s 2 j
通过上述公式可以看出,若两个词语相同,则其值取1,若两个词语不相同,则其值取零。
进一步地,在实际应用中,属于同一主题的网页相互链接的情况非常普遍,往往是采用“上一篇”和“下一篇”的形式,从而为用户提供了更便捷的导航。这种方式将属于同一主题的系列内容链接成了一个类似双向链表的结构,因此为充分利用这种内容上的结构信息来完善上述的内容相关性度量的定义,可以加入一个全局权重ω,当两个网页之间存在互链时,权重ω被赋予较大值,而不存在互链时,为较小值,如下所示,
CC ( T 1 , T 2 ) = ω ( Σ i = 1 , . . . , m j = 1 , . . . , n s 1 i ∈ T 1 , s 2 j ∈ T 2 Sim ( s 1 i , s 2 j ) )
通过上述公式可以看出,由于在计算该两个网页的内容相关性时,通过增加全局权重ω,增强了彼此间存在互链的网页之间的相关性,保证了向用户所展示的属于同一主题的网页的正确性。
在根据获取到的网页的统一资源定位符与文本结构,确定获取到的网页之间的结构相关性,以及根据获取到的网页的锚文本确定获取到的网页之间的内容相关性之后,即能够根据结果相关性与内容相关性,确定所获取到的网页之间的相关度。
在具体实施过程中,以获取到的两个网页wp1和wp2为例,wp1和wp2之间的相关度可以通过如下公式表示:
其中,CC(T1,T2)即是本实施例前述部分描述的两个网页之间的内容相关性,在此就不再赘述了。
上述部分介绍了根据获取到的网页的结构和内容,确定获取到的网页之间的相关度的具体过程,在接下来的部分中,将介绍根据获取到的网页之间的相关度,确定属于同一主题的网页的具体过程。
具体来讲,可以是通过K均值聚类算法,对同一关键词的所有网页进行聚类,聚类得到的每一个类别中的网页被认定为属于同一主题的内容,K均值聚类算法具体过程如下:
第一步:选K个初始聚类中心,z1(1),z2(1),…,zK(1),其中括号内的序搜索号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定,例如可选开始的K个模式样本的向量值作为初始聚类中心。
第二步:逐个将需分类的模式样本{x}按最小距离准则分配给K个聚类中心中的某一个zj(1)。
假设i=j时,Dj(k)=min{||x-Zi(k)||,i=1,2,…,K},则X∈Sj(K),其中K为迭代运算的次序号,第一次迭代k=1,Sj表示第j个聚类,其聚类中心为Zj
第三步:计算各个聚类中心的新的向量值,zj(k+1),j=1,2,…,K
求各聚类域中所包含样本的均值向量:
其中Nj为第j个聚类域Sj中所包含的样本个数。
以均值向量作为新的聚类中心,可使如下聚类准则函数最小:
K,在这一步中要分别计算K个聚类中的样本均值向量,所以称之为K均值算法。
第四步:若Zj(K+1)≠Zj(K),j=1,2,…,K,j=1,2,…,K,则返回第二步,将模式样本逐个重新分类,重复迭代运算;
若Zj(K+1)=Zj(K),j=1,2,…,K,则算法收敛,计算结束。
这样,同一类别中的网页就可以在一个共同的主题下聚合起来,例如,如图3所示的8个网页中,其中第一网页、第二网页、第三网页和第四网页就会被聚合到同一主题中,第六网页、第七网页和第八网页就会被聚合到另一个同一主题中。
当然,通过本实施例的介绍,本领域所述的技术人员还能够根据实际情况,选择其他可以使用的聚合算法,以将网页索引库中的网页聚合在一起,从而满足实际情况的需要,在此就不一一赘述了。
在通过步骤S2根据获取到的网页的结构和内容,确定获取到的网页之间的相关度,并根据获取到的网页之间的相关度,确定属于同一主题的网页之后,本发明实施例提供的信息处理方法进入步骤S3,即:在网页索引库中索引关键字对应的网页列表中,为属于同一主题的网页建立关联关系。
为属于同一主题的网页建立关联关系,可以包括:确定属于同一主题的网页之间的排列顺序;根据排列顺序,将属于同一主题的网页依次链接。
在具体实施过程中,确定属于同一主题的网页之间的排列顺序,具体来讲,可以是根据属于同一主题的网页的创建时间来确定网页的次序,例如,请继续参考图3,以第一网页到第四网页为例,第一网页的创建时间最先,第二网页的创建时间其次,第三网页的创建时间再次,而第四网页的创建时间最后,因此第一网页到第四网页的排列顺序为由第一网页到第四网页依次排列。
在确定属于同一主题的网页之间的顺序之后,即能够根据该排列顺序,将属于同一主题的网页依次链接,例如,可以为属于同一主题的网页中每一个网页都设置两个链接,一个指向属于同一主题中位于该网页排列顺序之前的上一网页,另一个指向属于同一主题中位于该网页排列顺序之后的下一个网页,当然,在属于同一主题的网页中,起始网页的上一个连接为空,类似地,终止网页的下一个网页为空,这样,属于同一主题的网页彼此之间就建立了关联关系,这样,搜索引擎或其他应用程序在将网页索引库中的网页展示给用户的时候,若该网页与其他网页属于同一主题,即能够根据该网页与属于同一主题的其他网页的关联关系将其他网页一起展示给用户,用户能够通过这些属于同一主题的网页了解到网页的内容提供者,如网站编辑、网站作者等希望提供给用户的信息,从而可以从整体或全局了解到这些网页所希望表达的内容,所以解决了现有技术中存在的搜索引擎或其他应用程序无法将属于同一主题的网页作为一个整体展示给用户,增加了用户获得所需要的信息时所花费的时间,降低了获取信息的效率的技术问题,实现了减少用户在获得所需要的信息时所花费的时间,提高了获取信息的效率的技术效果。
当然了,对于不属于任何一个主题的孤立网页,可以将其上下两个链接都为设为空。
在实际应用中,通过本实施例的介绍,本领域的技术人员能够根据实际情况,选择其他合适的方式来为属于同一主题的网页建立关联关系,以满足实际情况的需要,在此就不再赘述了。
由于属于同一主题的网页均与步骤S1中索引关键字相对应,同时属于同一主题的网页之间建立了关联关系,所以为了准确地向用户展示网页索引库中与该索引关键字对应的网页的内容,在为属于同一主题的网页建立关联关系之后,本发明实施例提供的信息处理方法还包括:根据属于同一主题的网页的数量,提高属于同一主题的网页中每个网页与索引关键字的相关度。
具体来讲,若某一属于同一主题的网页的数量较多,并且这些属于同一主题的网页都与该索引关键字对应,所以,该属于同一主题的网页有更大的概率为用户提供与该索引关键字更多的内容,因此,可以根据属于同一主题的网页的数量,提高属于同一主题的网页中每个网页与索引关键字的相关度,以使得用户通过这些网页能够迅速获得其需要的信息,进一步减少用户获得所需要的信息时所花费的时间,进一步提高获取信息的效率。
在具体实施过程中,根据属于同一主题的网页的数量,提高属于同一主题的网页中每个网页与索引关键字的相关度,具体来讲,可以通过如下公式来提高属于同一主题的网页中每个网页与索引关键字的相关度:
根据提高属于同一主题的网页中每个网页与索引关键字的相关度,其中,Ri为属于同一主题的网页中第i个网页提高后的相关度,n为属于同一主题的网页的数量,n可以为大于等于2的正整数,λ为调节相关度增幅速率的参数,λ可以为0到1之间的小数,ri为属于同一主题的网页中第i个网页提高前的相关度。
通过上述公式可以看出,若属于同一主题的网页的数量越多,也即n值越大,则Ri越大,则越容易被用户获取该属于同一主题的网页中的信息,从而能够更加准确地向用户展示网页索引库中与该索引关键字对应的网页的内容,在此就不再赘述了。
当然,通过本实施例的介绍,本领域所属的技术人员能够根据实际情况,对本发明实施例提供的提高属于同一主题的网页中每个网页与索引关键字的相关度的公式进行修改,或者应用其他公式,以满足实际情况的需要,在此就不再赘述了。
在将网页索引库中的网页经过本发明实施例的上述部分所介绍的处理步骤之后,即可以将处理后的网页重新存入网页索引库中,以便搜索引擎或其他应用程序或者其他应用程序调用,从而实现减少用户在获得所需要的信息时所花费的时间,提高了获取信息的效率的技术效果,为了说明书的简洁,在此就不再赘述了。
基于同一发明构思,本发明实施例还提供一种基于本发明实施例前述部分所介绍的信息处理方法所得到的网页索引库进行的信息检索方法,请参考图4,图4是本发明实施例提供的信息检索方法的流程图,如图4所示,该方法包括:
S41:获得查询指令,并根据查询指令,获得索引关键字;
例如,可以是用户输入一个查询指令,搜索引擎或其他应用程序或者其他应用程序通过对查询指令进行处理,如可以通过中文分词技术进行处理,从而可以获得索引关键字,需要说明的是,索引关键字可以是单个的字,也可以是单个词语,还可以是由词语组成的词组,在此不做限制。
S42:根据索引关键字,从网页索引库中查询索引关键字对应的网页列表;
如前述实施例中所介绍的,网页索引库中每个索引关键字都会对应一个网页列表,该网页列表内包括索引库内与该索引关键字对应的所有网页,搜索引擎或其他应用程序或者其他应用程序从而能够该索引关键字,查询该索引关键字对应的网页列表,在此就不再赘述了。
S43:若查询到的网页列表中包括属于同一主题的网页,则根据属于同一主题的网页之间的关联关系生成属于同一主题的查询结果列表,并根据属于同一主题的查询结果列表生成查询结果页面。
在接下来的部分中,以索引关键字为“建站教程”,网页为图3所示的8个网页为例来进行介绍,根据属于同一主题的查询结果列表生成查询结果页面的具体过程,该过程包括如下步骤:
步骤A、按照与索引关键字的相关度从高到低的顺序,从查询到的网页列表中获取还未添加的一个网页的信息,若已添加完成,则结束本流程,否则转入步骤B;
具体来讲,可以按照与“建站教程”这一索引关键字的相关度从高到低的顺序,依次从如图3所示的8个网页中获取未添加到查询结果页面中的一个网页的信息,该信息可以包括该网页的网页地址、标题、创建时间、是否被标记为已添加和是否属于同一主题等等信息,在此就不再赘述了。
以如图3所示的8个网页均未被添加为例,该8个网页中第三网页与“建站教程”这一索引关键字的相关度最高,从而可以获取到第三网页的信息。
步骤B、根据属于同一主题的网页的关联关系,判断当前获取的网页的信息所对应的网页是否与其他网页属于同一主题,若是,则转入步骤C,否则转入步骤E;
具体来讲,即根据网页索引库中属于同一主题的网页的关联关系,判断步骤A获取到的一个网页的信息对应的网页是否与其他网页属于同一主题。
例如,根据索引网页库中属于同一主题的网页的关联关系,第三网页与第一网页、第二网页和第四网页为属于同一主题的网页。
步骤C、判断当前获取到的网页的信息是否被标记为已添加,若是,则返回步骤A,否则转入步骤D;
如前,如图3所示的8个网页均未被添加,所以第三网页也未被添加。
步骤D、根据关联关系获取其他网页的信息,将该网页和其他网页的信息添加到查询结果页面,将这些网页标记为已添加,并返回步骤A;
具体来讲,可以根据网页索引库中的关联关系,将第三网页、第一网页、第二网页和第四网页添加到查询结果页面中。
步骤E、将当前获取到的网页添加到查询结果页面,并返回步骤A。
对如图3所示的其他4个网页的处理过程按上述步骤执行即可,在此为了说明书的简洁,就不一一介绍添加到查询结果页面中的过程了。
请参考图5,图5是本发明实施例提供的将如图3所示的8个网页添加到查询结果页面后的示意图,如图5所示,第一网页、第二网页、第三网页和第四网页属于同一主题,第六网页、第七网页和第八网页属于同一主题,用户根据该查询结果页面,能够通过这些属于同一主题的网页了解到网页的内容提供者,如网站编辑、网站作者等希望提供给用户的信息,从而可以从整体或全局了解到这些网页所希望表达的内容。
通过上述部分可以看出,由于采用了获得查询指令,并根据查询指令,获得索引关键字,并根据索引关键字,从网页索引库中查询索引关键字对应的网页列表,并在查询到的网页列表中包括属于同一主题的网页时,则根据属于同一主题的网页之间的关联关系生成属于同一主题的查询结果列表,并根据属于同一主题的查询结果列表生成查询结果页面的技术方案,在搜索引擎或其他应用程序或其他应用程序将网页索引库中的网页展示给用户的时候,若该网页与其他网页属于同一主题,即能够根据该网页与属于同一主题的其他网页的关联关系将其他网页一起展示给用户,用户能够通过这些属于同一主题的网页了解到网页的内容提供者,如网站编辑、网站作者等希望提供给用户的信息,从而可以从整体或全局了解到这些网页所希望表达的内容,所以解决了现有技术中存在的搜索引擎或其他应用程序或其他应用程序无法将属于同一主题的网页作为一个整体展示给用户,增加了用户获得所需要的信息时所花费的时间,降低了获取信息的效率的技术问题,实现了减少用户在获得所需要的信息时所花费的时间,提高了获取信息的效率的技术效果。
基于同一发明构思,本发明实施例另一方面还提供一种信息处理装置,请参考图6,图6是本发明实施例提供的信息处理装置的功能模块图,如图6所示该信息处理装置包括:获取单元601,用于获取网页索引库中的索引关键字,并根据网页索引库中索引关键字对应的网页列表获取对应的网页;确定单元602,用于根据获取到的网页的结构和内容,确定获取到的网页之间的相关度,并根据获取到的网页之间的相关度,确定属于同一主题的网页;建立单元603,用于在网页索引库中索引关键字对应的网页列表中,为属于同一主题的网页建立关联关系。
在具体实施过程中,确定单元702具体用于根据获取到的网页的统一资源定位符与文本结构,确定获取到的网页之间的结构相关性,并根据获取到的网页的锚文本确定获取到的网页之间的内容相关性,并根据结构相关性和内容相关性,确定获取到的网页之间的相关度。
在具体实施过程中,建立单元603具体用于确定属于同一主题的网页之间的排列顺序,并根据排列顺序,将属于同一主题的网页依次链接。
在具体实施过程中,信息处理装置还包括提高单元604,用于根据属于同一主题的网页的数量,提高属于同一主题的网页中每个网页与索引关键字的相关度。
在具体实施过程中,提高单元604具体用于根据提高属于同一主题的网页中每个网页与索引关键字的相关度,其中,Ri为属于同一主题的网页中第i个网页提高后的相关度,n为属于同一主题的网页的数量,λ为调节相关度增幅速率的参数,ri为属于同一主题的网页中第i个网页提高前的相关度。
基于同一发明构思,本发明实施例另一方面还提供一种基于前述实施例中的信息处理装置得到的网页索引库的信息查询装置,请参考图7,图7是本发明实施例提供的信息查询装置的功能模块图,如图7所示,该信息处理装置包括:获得单元701,用于获得查询指令,并根据查询指令,获得索引关键字;查询单元702,用于根据索引关键字,从网页索引库中查询索引关键字对应的网页列表;添加单元703,用于若查询到的网页列表中包括属于同一主题的网页,则根据属于同一主题的网页之间的关联关系生成属于同一主题的查询结果列表,并根据属于同一主题的查询结果列表生成查询结果页面。
在具体实施过程中,添加单元703具体用于执行以下步骤:步骤A、按照与索引关键字的相关度从高到低的顺序,从查询到的网页列表中获取还未添加的一个网页的信息,若已添加完成,则结束本流程,否则转入步骤B;步骤B、根据属于同一主题的网页的关联关系,判断当前获取的网页的信息所对应的网页是否与其他网页属于同一主题,若是,则转入步骤C,否则转入步骤E;步骤C、判断当前获取到的网页的信息是否被标记为已添加,若是,则返回步骤A,否则转入步骤D;步骤D、根据关联关系获取其他网页的信息,将该网页和其他网页的信息添加到查询结果页面,将这些网页标记为已添加,并返回步骤A;步骤E、将当前获取到的网页添加到查询结果页面,并返回步骤A。
本实施例中的信息处理装置与前述实施例中的信息处理方法、信息查询装置与信息查询方法是基于同一发明构思下的两个方面,在前面已经对方法的实施过程作了详细的描述,所以本领域技术人员可根据前述描述清楚的了解本实施例中的电子设备的结构及实施过程,为了说明书的简洁,在此就不再赘述了。
上述本发明实施例中的技术方案,至少具有如下的技术效果或优点:
由于采用了获取网页索引库中的索引关键字,根据网页索引库中索引关键字对应的网页列表获取对应的网页,并根据获取到的网页的结构和内容,确定获取到的网页之间的相关度,并根据获取到的网页之间的相关度,确定属于同一主题的网页,并在网页索引库中索引关键字对应的网页列表中,为属于同一主题的网页建立关联关系的技术方案,在网页索引库中建立了属于同一主题的网页之间的关联关系,这样,搜索引擎或其他应用程序在将网页索引库中的网页展示给用户的时候,若该网页与其他网页属于同一主题,即能够根据该网页与属于同一主题的其他网页的关联关系将其他网页一起展示给用户,用户能够通过这些属于同一主题的网页了解到网页的内容提供者,如网站编辑、网站作者等希望提供给用户的信息,从而可以从整体或全局了解到这些网页所希望表达的内容,所以解决了现有技术中存在的搜索引擎或其他应用程序无法将属于同一主题的网页作为一个整体展示给用户,增加了用户获得所需要的信息时所花费的时间,降低了获取信息的效率的技术问题,实现了减少用户在获得所需要的信息时所花费的时间,提高了获取信息的效率的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种信息处理方法,其特征在于,包括:
获取网页索引库中的索引关键字,并根据所述网页索引库中所述索引关键字对应的网页列表获取对应的网页;
根据获取到的网页的结构和内容,确定所述获取到的网页之间的相关度,并根据所述获取到的网页之间的相关度,确定属于同一主题的网页;
在所述网页索引库中所述索引关键字对应的网页列表中,为所述属于同一主题的网页建立关联关系。
2.如权利要求1所述的方法,其特征在于,所述根据获取到的网页的结构和内容,确定所述获取到的网页之间的相关度,具体包括:
根据所述获取到的网页的统一资源定位符与文本结构,确定获取到的网页之间的结构相关性;
根据所述获取到的网页的锚文本确定所述获取到的网页之间的内容相关性;
根据所述结构相关性和所述内容相关性,确定所述获取到的网页之间的相关度。
3.如权利要求1所述的方法,其特征在于,所述为所述属于同一主题的网页建立关联关系,具体包括:
确定所述属于同一主题的网页之间的排列顺序;
根据所述排列顺序,将所述属于同一主题的网页依次链接。
4.如权利要求1-3中任一权项所述的方法,其特征在于,在所述为所述属于同一主题的网页建立关联关系之后,所述方法还包括:
根据所述属于同一主题的网页的数量,提高所述属于同一主题的网页中每个网页与所述索引关键字的相关度。
5.如权利要求4所述的方法,其特征在于,所述根据所述属于同一主题的网页的数量,提高所述属于同一主题的网页中每个网页与所述索引关键字的相关度,具体为:
根据提高所述属于同一主题的网页中每个网页与所述索引关键字的相关度,其中,Ri为所述属于同一主题的网页中第i个网页提高后的相关度,n为所述属于同一主题的网页的数量,λ为调节相关度增幅速率的参数,ri为所述属于同一主题的网页中第i个网页提高前的相关度。
6.一种基于如权利要求1-5中任一项所述的方法得到的网页索引库进行的信息检索方法,其特征在于,包括:
获得查询指令,并根据所述查询指令,获得索引关键字;
根据所述索引关键字,从网页索引库中查询所述索引关键字对应的网页列表;
若查询到的网页列表中包括属于同一主题的网页,则根据所述属于同一主题的网页之间的关联关系生成属于同一主题的查询结果列表,并根据所述属于同一主题的查询结果列表生成查询结果页面。
7.如权利要求6所述的方法,其特征在于,所述根据所述属于同一主题的查询结果列表生成查询结果页面,包括:
步骤A、按照与所述索引关键字的相关度从高到低的顺序,从查询到的网页列表中获取还未添加的一个网页的信息,若已添加完成,则结束本流程,否则转入步骤B;
步骤B、根据属于同一主题的网页的关联关系,判断当前获取的网页的信息所对应的网页是否与其他网页属于同一主题,若是,则转入步骤C,否则转入步骤E;
步骤C、判断当前获取到的网页的信息是否被标记为已添加,若是,则返回步骤A,否则转入步骤D;
步骤D、根据关联关系获取其他网页的信息,将该网页和其他网页的信息添加到查询结果页面,将这些网页标记为已添加,并返回步骤A;
步骤E、将当前获取到的网页添加到查询结果页面,并返回步骤A。
8.一种信息处理装置,其特征在于,包括:
获取单元,用于获取网页索引库中的索引关键字,并根据所述网页索引库中所述索引关键字对应的网页列表获取对应的网页;
确定单元,用于根据获取到的网页的结构和内容,确定所述获取到的网页之间的相关度,并根据所述获取到的网页之间的相关度,确定属于同一主题的网页;
建立单元,用于在所述网页索引库中所述索引关键字对应的网页列表中,为所述属于同一主题的网页建立关联关系。
9.如权利要求8所述的装置,其特征在于,所述确定单元具体用于根据所述获取到的网页的统一资源定位符与文本结构,确定获取到的网页之间的结构相关性,并根据所述获取到的网页的锚文本确定所述获取到的网页之间的内容相关性,并根据所述结构相关性和所述内容相关性,确定所述获取到的网页之间的相关度。
10.如权利要求8所述的装置,其特征在于,所述建立单元具体用于确定所述属于同一主题的网页之间的排列顺序,并根据所述排列顺序,将所述属于同一主题的网页依次链接。
11.如权利要求8-10中任一权限所述的装置,其特征在于,所述信息处理装置还包括提高单元,用于根据所述属于同一主题的网页的数量,提高所述属于同一主题的网页中每个网页与所述索引关键字的相关度。
12.如权利要求11述的装置,其特征在于,所述提高单元具体用于根据提高所述属于同一主题的网页中每个网页与所述索引关键字的相关度,其中,Ri为所述属于同一主题的网页中第i个网页提高后的相关度,n为所述属于同一主题的网页的数量,λ为调节相关度增幅速率的参数,ri为所述属于同一主题的网页中第i个网页提高前的相关度。
13.一种基于如权利要求8-12中任一权限所述的信息处理装置得到的网页索引库的信息查询装置,其特征在于,包括:
获得单元,用于获得查询指令,并根据所述查询指令,获得索引关键字;
查询单元,用于根据所述索引关键字,从网页索引库中查询所述索引关键字对应的网页列表;
添加单元,用于若查询到的网页列表中包括属于同一主题的网页,则根据所述属于同一主题的网页之间的关联关系生成属于同一主题的查询结果列表,并根据所述属于同一主题的查询结果列表生成查询结果页面。
14.如权利要求13所述的装置,其特征在于,所述添加单元具体用于执行以下步骤:
步骤A、按照与所述索引关键字的相关度从高到低的顺序,从查询到的网页列表中获取还未添加的一个网页的信息,若已添加完成,则结束本流程,否则转入步骤B;
步骤B、根据属于同一主题的网页的关联关系,判断当前获取的网页的信息所对应的网页是否与其他网页属于同一主题,若是,则转入步骤C,否则转入步骤E;
步骤C、判断当前获取到的网页的信息是否被标记为已添加,若是,则返回步骤A,否则转入步骤D;
步骤D、根据关联关系获取其他网页的信息,将该网页和其他网页的信息添加到查询结果页面,将这些网页标记为已添加,并返回步骤A;
步骤E、将当前获取到的网页添加到查询结果页面,并返回步骤A。
CN201310729206.3A 2013-12-25 2013-12-25 一种信息处理方法、信息检索方法及其对应的装置 Active CN104750692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310729206.3A CN104750692B (zh) 2013-12-25 2013-12-25 一种信息处理方法、信息检索方法及其对应的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310729206.3A CN104750692B (zh) 2013-12-25 2013-12-25 一种信息处理方法、信息检索方法及其对应的装置

Publications (2)

Publication Number Publication Date
CN104750692A true CN104750692A (zh) 2015-07-01
CN104750692B CN104750692B (zh) 2018-05-15

Family

ID=53590402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310729206.3A Active CN104750692B (zh) 2013-12-25 2013-12-25 一种信息处理方法、信息检索方法及其对应的装置

Country Status (1)

Country Link
CN (1) CN104750692B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330019A (zh) * 2017-06-19 2017-11-07 北京小米移动软件有限公司 搜索方法及装置
CN111552877A (zh) * 2020-04-29 2020-08-18 百度在线网络技术(北京)有限公司 数据处理的方法及装置
CN112882619A (zh) * 2021-02-08 2021-06-01 维沃移动通信有限公司 应用界面的管理方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038608A1 (en) * 2005-08-10 2007-02-15 Anjun Chen Computer search system for improved web page ranking and presentation
US20090240674A1 (en) * 2008-03-21 2009-09-24 Tom Wilde Search Engine Optimization
CN101617310A (zh) * 2006-12-19 2009-12-30 莫尔德克昂特威彭有限公司 对网页进行分类和组织相应内容的方法
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫系统的设计方法
CN102456057A (zh) * 2010-11-01 2012-05-16 阿里巴巴集团控股有限公司 基于网上交易平台的检索方法、装置和服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038608A1 (en) * 2005-08-10 2007-02-15 Anjun Chen Computer search system for improved web page ranking and presentation
CN101617310A (zh) * 2006-12-19 2009-12-30 莫尔德克昂特威彭有限公司 对网页进行分类和组织相应内容的方法
US20090240674A1 (en) * 2008-03-21 2009-09-24 Tom Wilde Search Engine Optimization
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫系统的设计方法
CN102456057A (zh) * 2010-11-01 2012-05-16 阿里巴巴集团控股有限公司 基于网上交易平台的检索方法、装置和服务器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330019A (zh) * 2017-06-19 2017-11-07 北京小米移动软件有限公司 搜索方法及装置
CN111552877A (zh) * 2020-04-29 2020-08-18 百度在线网络技术(北京)有限公司 数据处理的方法及装置
CN111552877B (zh) * 2020-04-29 2023-11-07 百度在线网络技术(北京)有限公司 数据处理的方法及装置
CN112882619A (zh) * 2021-02-08 2021-06-01 维沃移动通信有限公司 应用界面的管理方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN104750692B (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
CN108804532B (zh) 一种查询意图的挖掘和查询意图的识别方法、装置
US10140368B2 (en) Method and apparatus for generating a recommendation page
US8560519B2 (en) Indexing and searching employing virtual documents
US20110282861A1 (en) Extracting higher-order knowledge from structured data
US20130339840A1 (en) System and method for logical chunking and restructuring websites
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
JP5329540B2 (ja) ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム
US20160283593A1 (en) Salient terms and entities for caption generation and presentation
JP2013531289A (ja) 検索におけるモデル情報群の使用
CN103873318A (zh) 一种网站自动化测试方法及自动化测试系统
US11249993B2 (en) Answer facts from structured content
CN104834736A (zh) 构建索引库的方法、装置及检索的方法、装置和系统
CA3149710A1 (en) Data collecting method, device, computer equipment and storage medium
US8595619B1 (en) In response to a search result query providing a snippet of a document including an element previously highlighted by a user
EP3238105B1 (en) Application partial deep link to a corresponding resource
CN104881446A (zh) 搜索方法及装置
CN104750692A (zh) 一种信息处理方法、信息检索方法及其对应的装置
US9223853B2 (en) Query expansion using add-on terms with assigned classifications
US20090049034A1 (en) Ontology system providing enhanced search capability
US20120284224A1 (en) Build of website knowledge tables
US9864767B1 (en) Storing term substitution information in an index
CN111222918A (zh) 关键词挖掘方法、装置、电子设备及存储介质
KR102588238B1 (ko) 컨텐츠 제작 어플리케이션 및 상기 컨텐츠 제작 어플리케이션 구동 방법
Kudělka et al. Web pages reordering and clustering based on Web patterns
US9009143B2 (en) Use of off-page content to enhance captions with additional relevant information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant