CN102169501A - 基于搜索结果对应文档的类型信息生成摘要的方法与设备 - Google Patents

基于搜索结果对应文档的类型信息生成摘要的方法与设备 Download PDF

Info

Publication number
CN102169501A
CN102169501A CN201110105472XA CN201110105472A CN102169501A CN 102169501 A CN102169501 A CN 102169501A CN 201110105472X A CN201110105472X A CN 201110105472XA CN 201110105472 A CN201110105472 A CN 201110105472A CN 102169501 A CN102169501 A CN 102169501A
Authority
CN
China
Prior art keywords
page
factor
document
type information
page factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110105472XA
Other languages
English (en)
Inventor
郑枫耀
兰芳
乔勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110105472XA priority Critical patent/CN102169501A/zh
Publication of CN102169501A publication Critical patent/CN102169501A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于基于搜索结果所对应文档的类型信息生成文档摘要的方法与设备。其中,摘要生成设备1获取与用户经由用户设备输入的查询序列相对应的搜索结果;获取所述搜索结果所对应的文档的类型信息;根据所述类型信息,从所述文档中提取与所述类型信息相对应的页面因子;根据所述页面因子,生成与所述搜索结果相对应的文档摘要。与现有技术相比,本发明使得文档摘要在满足用户基本查询需求的同时,兼顾文档的类型信息对相应文档摘要的特殊要求,诸如论坛页的发帖时间、浏览数、回复数;博客页的发表时间、评论数、浏览数等;使得用户获得更好的摘要阅读体验以及搜索体验,并且能够更加快速的查找、定位到有效信息。

Description

基于搜索结果对应文档的类型信息生成摘要的方法与设备
技术领域
本发明涉及网络搜索技术领域,尤其涉及一种用于基于搜索结果所对应文档的类型信息生成文档摘要的技术。
背景技术
在网络信息极大丰富的今天,为了快速而准确的找到所需的信息,搜索引擎应运而生。虽然搜索引擎提供了较准确的搜索结果排序,但是由于搜索引擎是基于全文索引技术提供服务的,只要文档中包含查询关键词就会作为搜索结果返回,经常会有一些靠前的搜索结果并不是用户所需要的。因此,用户会通过阅读摘要来判断搜索结果的价值,此时,摘要中是否包括用户需要的信息就成了至关重要的问题。
现有的摘要生成方法,多是根据用户的查询关键词,从文档中提取与查询关键词最相关的部分,这种方法对于文章内容类查询或者结构简单的网页能获得良好的效果。但对于特定需求查询,不同用户所关注的信息点是不同的,比如论坛页的发帖时间、浏览数、回复数;博客页的发表时间、评论数、浏览数;下载页的软件大小、更新时间、软件语言、下载次数;小说页的小说作者、小说标题;视频页的视频数、作者、标题、演员、剧情等等。现有摘要生成方法,很难对这些页面因子进行合理提取和组织,然而这些页面因子却是用户用于判断是否点击该搜索结果的链接以浏览相应页面的重要参考因素。
因此,如何提供一种基于搜索结果所对应文档的类型信息生成文档摘要的方法,使得摘要在较好满足用户的查询需求的同时,还能兼顾文档类型,从而为用户提供更多的摘要内容,成为目前急需解决的问题之一。
发明内容
本发明的目的是提供一种用于基于搜索结果所对应文档的类型信息生成文档摘要的方法与设备。
根据本发明的一个方面,提供了一种计算机实现的用于基于搜索结果所对应文档的类型信息生成文档摘要的方法,其中,该方法包括以下步骤:
a获取与用户经由用户设备输入的查询序列相对应的搜索结果;
b获取所述搜索结果所对应的文档的类型信息;
c根据所述类型信息,从所述文档中提取与所述类型信息相对应的页面因子;
d根据所述页面因子,生成与所述搜索结果相对应的文档摘要。
根据本发明的另一个方面,还提供了一种用于基于搜索结果所对应文档的类型信息生成文档摘要的设备,其中,该设备包括:
结果获取装置,用于获取与用户经由用户设备输入的查询序列相对应的搜索结果;
类型获取装置,用于获取所述搜索结果所对应的文档的类型信息;
因子提取装置,用于根据所述类型信息,从所述文档中提取与所述类型信息相对应的页面因子;
摘要生成装置,用于根据所述页面因子,生成与所述搜索结果相对应的文档摘要。
与现有技术相比,本发明基于搜索结果所对应文档的类型信息生成文档摘要,使得文档摘要在满足用户基本查询需求的同时,兼顾文档的类型信息对相应文档摘要的特殊要求,诸如论坛页的发帖时间、浏览数、回复数;博客页的发表时间、评论数、浏览数等;使得用户获得更好的摘要阅读体验以及搜索体验,并且能够更加快速的查找、定位到有效信息。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于基于搜索结果所对应文档的类型信息生成文档摘要的设备的示意图;
图2示出根据本发明另一个方面的用于基于搜索结果所对应文档的类型信息生成文档摘要的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的设备示意图,示出一种用于基于搜索结果所对应文档的类型信息生成文档摘要的设备。其中,摘要生成设备1包括结果获取装置11、类型获取装置12、因子提取装置13和摘要生成装置14。具体地,结果获取装置11获取与用户经由用户设备输入的查询序列相对应的搜索结果;随后,类型获取装置12获取所述搜索结果所对应的文档的类型信息;接着,因子提取装置13根据所述类型信息,从所述文档中提取与所述类型信息相对应的页面因子;随后,摘要生成装置14根据所述页面因子,生成与所述搜索结果相对应的文档摘要。在此,摘要生成设备1包括但不限于搜索引擎、或者与搜索引擎相连的网络设备,其中,该网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合。本领域技术人员应能理解上述摘要生成设备仅为举例,其他现有的或今后可能出现的摘要生成设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更具体地,结果获取装置11获取与用户经由用户设备输入的查询序列相对应的搜索结果。具体地,结果获取装置11通过诸如在摘要生成设备1或者第三方设备的搜索信息库中进行查询、或者接收第三方设备发送的与用户经由用户设备输入的查询序列相对应的搜索结果,从而获取与用户经由用户设备输入的查询序列相对应的搜索结果。例如,用户通过鼠标、键盘或者手写板等输入设备向用户设备输入查询序列,用户设备将该查询序列发送至搜索引擎,该搜索引擎将基于该查询序列的搜索结果发送至摘要生成设备1,摘要生成设备1的结果获取装置11获取该搜索结果。本领域技术人员应能理解上述获取搜索结果的方式仅为举例,其他现有的或今后可能出现的获取搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,类型获取装置12获取所述搜索结果所对应的文档的类型信息。具体地,类型获取装置12根据结果获取装置11获取的搜索结果所对应的文档,通过诸如分析该文档的页面内容,或者该文档所属站点的站点属性,获取该文档的类型信息,如论坛页、博客页、下载页、视频页等。例如,结果获取装置11获取与用户输入查询序列相对应的搜索结果,类型获取装置12通过对该搜索结果所对应文档的页面内容进行分析,获取该文档的类型信息,如页面内容中包括发帖时间、回复数等的,则确定该文档的类型信息为论坛页。又如,类型获取装置12通过对该搜索结果所对应文档的URL进行分析,获取该文档所属的站点,并查询预设的站点属性库,获得该文档的类型信息。本领域技术人员应能理解上述获取文档类型信息的方式仅为举例,其他现有的或今后可能出现的获取文档类型信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,因子提取装置13根据所述类型信息,从所述文档中提取与所述类型信息相对应的页面因子。具体地,因子提取装置13根据类型获取装置12获取的搜索结果所对应文档的类型信息,通过查询预设的类型信息-页面因子对照表等方式,确定该类型信息所对应的页面因子信息,并据此从该文档中提取相应的页面因子。在此,页面因子包括与文档的类型信息相关的页面内容块,不同类型的文档对应有不同的页面因子。例如,类型获取装置12获取的搜索结果所对应文档的类型信息为博客页,因子提取装置13查询预设的类型信息-页面因子对照表,获取相应的页面因子信息包括发表时间、浏览数、评论数、博客内容等,据此对该文档进行页面内容分析,并从中提取相应的页面因子。本领域技术人员应能理解上述获取页面因子信息以及提取页面因子的方式仅为举例,其他现有的或今后可能出现的获取页面因子信息或者提取页面因子的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,摘要生成装置14根据所述页面因子,生成与所述搜索结果相对应的文档摘要。具体地,摘要生成装置14根据因子提取装置13提取的页面因子,通过诸如合并、去重、筛选等方式,生成与搜索结果相对应的文档摘要。例如,类型获取装置12获取的搜索结果所对应文档的类型信息为下载页;因子提取装置13提取的对应页面因子包括软件名称、软件版本、软件大小、更新时间、软件分类、顶踩数量、下载次数、软件语言、运行环境、软件介绍等;摘要生成装置14将这些页面因子合并,生成相应的文档摘要。本领域技术人员应能理解上述生成文档摘要的方式仅为举例,其他现有的或今后可能出现的生成文档摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,结果获取装置11、类型获取装置12、因子提取装置13和摘要生成装置14是持续不断工作的。具体地,结果获取装置11获取与用户经由用户设备输入的查询序列相对应的搜索结果;随后,类型获取装置12获取所述搜索结果所对应的文档的类型信息;接着,因子提取装置13根据所述类型信息,从所述文档中提取与所述类型信息相对应的页面因子;随后,摘要生成装置14根据所述页面因子,生成与所述搜索结果相对应的文档摘要。在此,本领域技术人员应理解“持续”是指摘要生成设备1的结果获取装置11、类型获取装置12、因子提取装置13和摘要生成装置14分别按照设定的或实时调整的工作模式要求进行搜索结果的获取,文档类型信息的获取,页面因子的提取,以及摘要的生成,直至用户在较长时间内停止向用户设备输入查询序列。
在一个优选实施例中(参照图1),摘要生成装置14还根据所述页面因子,结合所述页面因子的权值,生成所述文档摘要。具体地,摘要生成装置14根据因子提取装置13提取的页面因子,结合这些页面因子的权值,通过诸如选择权值最高的页面因子、选择权值超过预定阈值的页面因子等方式,生成与搜索结果相对应的文档摘要。例如,因子提取装置13提取多个页面因子,摘要生成装置14选择权值最高的5个页面因子,并合并这5个页面因子获得相应的文档摘要。本领域技术人员应能理解上述生成文档摘要的方式仅为举例,其他现有的或今后可能出现的生成文档摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述页面因子的权值基于但不限于,以下至少任一项:
1)所述页面因子中句子的基础权值;
2)所述页面因子中句子的匹配权值;
3)所述页面因子的需求权值。
具体地,页面因子的权值基于但不限于,以下至少任一项:1)页面因子中句子的基础权值,该基础权值基于页面因子中的句子与文档主题的相似度确定,相似度越高的句子,其基础权值也越高;2)页面因子中句子的匹配权值,该匹配权值基于页面因子中的句子与用户输入查询序列的匹配度确定,匹配度越高的句子,其匹配权值也越高;3)页面因子的需求权值,该需求权值基于页面因子与用户查询需求的相符度确定,相符度越高的页面因子,其需求权值也越高。
需要说明的是,本领域技术人员应能理解,上述各项页面因子权值的参考因素不仅可以单独确定页面因子的权值,还可以将其一个或多个页面因子任意结合用于确定页面因子的权值。本领域技术人员还应能理解上述页面因子的权值的参考因素仅为举例,其他现有的或今后可能出现的页面因子的权值的参考因素如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中(参照图1),因子提取装置13还根据所述类型信息,结合页面因子的摘要属性,从所述文档中提取所述页面因子。具体地,因子提取装置13还根据类型获取装置12获取的类型信息,结合页面因子的摘要属性,诸如页面因子的可读性、页面因子的内容重复度等,从搜索结果所对应的文档中提取与该类型信息相对应的页面因子。例如,当页面因子的内容较多时,如下载页对应的软件介绍、博客页对应的博客内容等,因子提取装置13从搜索结果所对应的文档中提取相应部分的内容后,根据页面因子的可读性,删除该部分句子中的乱码、增加句子中查询关键词的前后扩展字数,并根据页面因子的内容重复度,删除内容重复度高的句子,从而获得相应的页面因子。本领域技术人员应能理解上述提取页面因子的方式仅为举例,其他现有的或今后可能出现的提取页面因子的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述摘要属性包括但不限于,以下至少任一项:
1)所述页面因子的可读性;
2)所述页面因子中的标点符号分布信息;
3)所述页面因子的内容重复度。
具体地,页面因子的摘要属性包括但不限于,以下至少任一项:1)页面因子的可读性,可通过删除页面因子中的乱码、增加页面因子中查询关键词的前后扩展字数等方式实现,例如,假设查询序列为“宫穿越”,已提取的页面因子的内容为“******宫****,......****穿越****”,此处“*”表示与查询关键词相连的字符,即查询关键词“宫”和“穿越”的前后扩展字符,由于查询关键词“宫”和“穿越”的前后扩展字数较少,使得该页面因子的可读性较差,此时,可通过增加查询关键词的前后扩展字数,将该页面因子的内容扩展为“************宫****,......**********穿越**********”,从而使得用户能够通过浏览摘要判断相应的搜索结果是否符合其查询需求;2)页面因子中的标点符号分布信息,当页面因子的内容较多时,如软件介绍、博客内容等,保留相关内容中的标点符号,以及根据标点符号的位置来确定页面因子中的内容取舍,例如,文档中的相关内容为“******宫****,......****穿越**。********”,根据句号的位置确定页面因子中的内容为******宫****,......****穿越**。”;3)页面因子的内容重复度,包括页面因子与查询序列的内容重复度、页面因子中内容之间的内容重复度和页面因子与文档标题的内容重复度,页面因子与查询序列的内容重复度较高的内容一般会作为较相关内容纳入页面因子,以用于生成文档摘要,为了增加文档摘要中的有效内容,并且文档标题多会作为搜索结果的标题,故与文档标题的内容重复度较高的内容,不会被纳入页面因子,而页面因子中相互重复的内容则可以经过去重处理,根据去重后的页面因子生成文档摘要。
需要说明的是,本领域技术人员应能理解,上述各项页面因子的摘要属性不仅可以单独用于辅助页面因子的提取,还可以将其中一项或多项页面因子的摘要属性任意结合用于辅助页面因子的提取。本领域技术人员还应能理解上述页面因子的摘要属性仅为举例,其他现有的或今后可能出现的页面因子的摘要属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在再一个优选实施例中(参照图1),因子提取装置13还根据所述类型信息,基于预设的类型信息-页面因子对照表,从所述文档中提取所述页面因子。具体地,因子提取装置13还根据类型获取装置12获取的搜索结果对应文档的类型信息,基于预设的类型信息-页面因子对照表,从该文档中提取与其类型信息相对应的页面因子。例如,类型获取装置12获取的搜索结果对应文档的类型信息,如论坛页,因子提取装置13根据该类型信息,基于预设的类型信息-页面因子对照表,从该文档中提取与其类型信息相对应的页面因子,如发帖时间、回复数、帖子内容等。又如,类型获取装置12获取的搜索结果对应文档的类型信息为问答页,因子提取装置13基于预设的类型信息-页面因子对照表,从该文档中提取与问答页相对应的页面因子,包括问题、作者、时间、最佳答案、其他答案、问题补充、回答作者、回答时间等。本领域技术人员应能理解上述提取页面因子的方式仅为举例,其他现有的或今后可能出现的提取页面因子的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,摘要生成设备1还包括更新装置(未示出),该更新装置根据文档访问记录,建立或更新所述类型信息-页面因子对照表。具体地,更新装置根据文档访问记录,诸如文档中相关页面因子的用户浏览量、用户点击的摘要中包括的页面因子等,建立或更新类型信息-页面因子对照表。例如,更新装置统计相同类型的文档中各页面因子的用户浏览量,如对小说页中名称、更新时间、作者、状态、最新章节、类别、简介、目录等各页面因子的用户浏览量进行统计,将用户浏览量超过一定阈值的页面因子作为与小说页相对应的页面因子,并据此建立或更新相应的类型信息-页面因子对照表。又如,更新装置统计当前用户对不同类型的文档中各页面因子的浏览次数、浏览时间等,如对小说页中名称、更新时间、作者、状态、最新章节、类别、简介、目录等各页面因子的浏览次数进行统计,将浏览次数超过一定阈值的页面因子作为与小说页相对应的页面因子,并据此建立或更新相应的类型信息-页面因子对照表。本领域技术人员应能理解上述建立或更新类型信息-页面因子对照表的方式仅为举例,其他现有的或今后可能出现的建立或更新类型信息-页面因子对照表的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在又一个优选实施例中(参照图1),摘要生成设备1还包括需求获取装置(未示出),该需求获取装置根据所述查询序列的查询相关属性,获取所述查询序列的需求类型;随后,摘要生成装置14还根据所述页面因子,结合所述需求类型,生成所述文档摘要。具体地,需求获取装置根据用户输入查询序列的查询相关属性,诸如用户历史查询记录、该查询序列的语义分析等,获取该查询序列的需求类型;随后,摘要生成装置14还根据因子提取装置13提取的页面因子,结合该需求类型,通过诸如根据该需求类型对页面因子进行筛选、排序等方式,生成搜索结果的文档摘要。例如,假设搜索结果所对应的文档的类型信息为下载页,相应的页面因子包括软件名称、软件版本、软件大小、更新时间、软件分类、软件评分、顶踩数量、下载次数、授权方式、软件语言、运行环境、站点名称、软件介绍等;需求获取装置对相应的用户输入查询序列,如“五笔输入法下载”进行切分,并对切分后的查询关键词“五笔输入法”和“下载”进行语义分析,获取该查询序列的需求类型为下载需求,摘要生成装置14根据该下载需求,从这些页面因子中选取软件名称、软件版本、软件大小、更新时间、软件分类、软件评分、顶踩数量、授权方式、软件语言、运行环境,并据此生成相应的文档摘要。接前例,如果相应的用户输入查询序列为“五笔输入法介绍”,需求获取装置获取该查询序列的需求类型为非下载类,摘要生成装置14据此从这些页面因子中选取软件名称、软件大小、更新时间、软件介绍,并生成相应的文档摘要。本领域技术人员应能理解上述获取查询序列需求类型以及生成文档摘要的方式仅为举例,其他现有的或今后可能出现的获取查询序列需求类型或者生成文档摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述查询相关属性包括但不限于,以下至少任一项:
1)用户历史查询记录;
2)所述查询序列的语义分析结果;
3)查询序列分类信息。
具体地,1)用户历史查询记录,包括当前输入该查询序列的用户的历史查询记录和大量用户对该查询序列的历史查询记录。例如,将当前输入该查询序列的用户的若干次连续查询行为当做一个单元,在该单元中,该当前用户的查询主题是相同的,而其每次输入的查询序列可能不一致,如先后输入“五笔输入法”、“五笔输入法下载”等,据此需求获取装置确定该用户的与查询关键词“五笔输入法”对应的需求类型为下载类。又如,用户输入的查询序列为“五笔输入法”,但是该用户点击的搜索结果均是关于五笔输入法的下载信息,据此需求获取装置获取该用户的与查询关键词“五笔输入法”对应的需求类型为下载类。还如,对于新闻类的查询需求,在特定时间内其查询次数会激增,如在元宵期间,大量用户对“赵本山元宵晚会”的查询次数会激增,而在元宵节之前和之后,查询次数均较少,据此需求获取装置确定该查询序列的需求类型为新闻类。
2)根据查询序列的语义分析结果,获取查询序列的需求类型的方式包括但不限于:对查询序列进行语义分析,根据获得的语义分析结果确定该查询序列的需求类型,如对“五笔输入法下载”进行语义分析,获得其需求类型为下载类;切分查询序列,对切分获得的查询关键词进行语义分析,如切分查询序列“2011年2月有哪些商场做促销”,获得查询关键词“2011年”、“2月”、“哪些”、“商场”和“促销”,根据“哪些”确定该查询序列的需求类型为问答型。
3)根据查询序列分类信息获取查询序列的需求类型的方式包括但不限于:切分查询序列,对切分获得的查询关键词与专有词进行匹配,当匹配成功时,该专有词的分类信息即为该查询序列的需求类型,在此,专有词的分类信息来源于对特定视频网站、特定小说网站等知名网站的资源挖掘,对从这些网站获取的专有词按照来源网站的属性进行分类,以获得相应专有词的分类信息。例如,对“小说阅读网”进行资源挖掘,获得专有词“绾青丝”,其分类信息为“小说”,相应地,当用户输入查询序列“绾青丝”时,确定该查询序列的需求类型为小说类。
本领域技术人员应能理解,上述各项查询相关属性不仅可以单独用于获取查询序列的需求类型,还可以将其中一项或多项查询相关信息任意结合共同用于获取查询序列的需求类型。本领域技术人员还应能理解上述查询相关属性仅为举例,其他现有的或今后可能出现的查询相关属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在还一个优选实施例中(参照图1),类型获取装置12还根据页面内容和/或站点属性库,对所述搜索结果所对应的文档进行分类,以获得所述类型信息。具体地,类型获取装置12通过分析搜索结果对应文档的页面内容,或者根据搜索结果对应文档的所属站点在站点属性库中进行匹配查询,或者根据两者的结合,对该文档进行分类,以获取该文档的类型信息,如论坛页、博客页、下载页、视频页等。例如,结果获取装置11获取与用户输入查询序列相对应的搜索结果,类型获取装置12通过对该搜索结果所对应文档的页面内容进行分析,获取该文档的类型信息,如页面内容中包括发帖时间、回复数等,则确定该文档的类型信息为论坛页。又如,类型获取装置12通过对该搜索结果所对应文档的URL进行分析,获取该文档所属的站点,并查询站点属性库,获得该文档的类型信息。再如,类型获取装置12通过对该搜索结果所对应文档的页面内容进行分析,获取该文档的类型信息可能为“下载”,并通过对该搜索结果所对应文档的URL进行分析,获取该文档所属的站点,并查询站点属性库,获得该文档的类型信息为“下载”,则确定该文档的类型信息为“下载”。本领域技术人员应能理解上述获取文档的类型信息的方式仅为举例,其他现有的或今后可能出现的获取文档的类型信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图1),摘要生成设备1还包括提供装置(未示出),该提供装置将所述文档摘要提供至所述用户设备。具体地,提供装置将摘要生成装置14生成的文档摘要提供至输入查询序列的用户设备。例如,摘要生成装置14生成与用户经由用户设备输入的查询序列相对应的文档摘要,提供装置将这些文档摘要置于搜索结果页面中,与该查询序列所对应的搜索结果一并发送至该用户设备;在此,文档摘要或者位于其对应搜索结果的下方,或者当用户的鼠标停留在某一搜索结果上时,该搜索结果所对应的文档摘要即以悬浮窗的形式显示,或者以逐个收起的形式统一显示在搜索结果页面的右侧,与该摘要对应的搜索结果相平行,当鼠标停留在某一搜索结果上时,其右侧的相应文档摘要则展开显示。本领域技术人员应能理解上述提供文档摘要的方式仅为举例,其他现有的或今后可能出现的提供文档摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,摘要生成设备1还包括摘要调整装置(未示出),该摘要调整装置还根据因子长度阈值,从所述文档摘要中获取一个或多个简短页面因子;将所述一个或多个简短页面因子与所述文档摘要中的其他页面因子组合,以获取调整后的文档摘要;随后,提供装置还将所述调整后的文档摘要提供至所述用户设备。具体地,摘要调整装置还根据因子长度阈值,从摘要生成装置14生成的文档摘要中获取一个或多个简短页面因子,诸如论坛页的发帖时间、回复数,博客页的发表时间、浏览数等;将这(些)简短页面因子与该文档摘要中的其他页面因子组合,包括这(些)简短页面因子相互组合后,再与该文档摘要中的其他页面因子组合,以及直接将这(些)简短页面因子与该文档摘要中的其他页面因子组合,以获取调整后的文档摘要;随后,提供装置还将该调整后的文档摘要提供至输入查询序列的用户设备。例如,假设搜索结果对应文档的类型信息为视频类,摘要调整装置根据因子长度阈值,从摘要生成装置14生成的文档摘要中获取多个简短页面因子,如视频数量、视频标题、播主ID等,将这些简短页面因子相互组合后,再与该文档摘要中的其他页面因子组合,获得调整后的文档摘要;随后,提供装置将该调整后的文档摘要发送给用户设备。又如,假设搜索结果对应文档的类型信息为新闻类,摘要调整装置根据因子长度阈值,从摘要生成装置14生成的文档摘要中获取一个简短页面因子,如新闻时间,将该简短页面因子与该文档摘要中的其他页面因子组合,获得调整后的文档摘要,如将新闻时间与新闻内容相结合,并将新闻时间至于文档摘要的首位;随后,提供装置将该调整后的文档摘要发送给用户设备。本领域技术人员应能理解上述调整文档摘要的方式仅为举例,其他现有的或今后可能出现的调整文档摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图2为根据本发明另一个方面的方法流程图,示出一种用于基于搜索结果所对应文档的类型信息生成文档摘要的过程。具体地,在步骤S1中,摘要生成设备1获取与用户经由用户设备输入的查询序列相对应的搜索结果;随后,在步骤S2中,摘要生成设备1获取所述搜索结果所对应的文档的类型信息;接着,在步骤S3中,摘要生成设备1根据所述类型信息,从所述文档中提取与所述类型信息相对应的页面因子;随后,在步骤S4中,摘要生成设备1根据所述页面因子,生成与所述搜索结果相对应的文档摘要。在此,摘要生成设备1包括但不限于搜索引擎、或者与之相连的专用设备,其中,该专用设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合。本领域技术人员应能理解上述摘要生成设备仅为举例,其他现有的或今后可能出现的摘要生成设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更具体地,在步骤S1中,摘要生成设备1获取与用户经由用户设备输入的查询序列相对应的搜索结果。具体地,在步骤S1中,摘要生成设备1通过诸如其自身或者第三方设备的搜索信息库中进行查询、或者接收第三方设备发送的与用户经由用户设备输入的查询序列相对应的搜索结果,从而获取与用户经由用户设备输入的查询序列相对应的搜索结果。例如,用户通过鼠标、键盘或者手写板等输入设备向用户设备输入查询序列,用户设备将该查询序列发送至搜索引擎,该搜索引擎将基于该查询序列的搜索结果发送至摘要生成设备1,摘要生成设备1获取该搜索结果。本领域技术人员应能理解上述获取搜索结果的方式仅为举例,其他现有的或今后可能出现的获取搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S2中,摘要生成设备1获取所述搜索结果所对应的文档的类型信息。具体地,在步骤S2中,摘要生成设备1根据其在步骤S1中获取的搜索结果所对应的文档,通过诸如分析该文档的页面内容,或者该文档所属站点的站点属性,获取该文档的类型信息,如论坛页、博客页、下载页、视频页等。例如,在步骤S1中,摘要生成设备1获取与用户输入查询序列相对应的搜索结果,在步骤S2中,摘要生成设备1通过对该搜索结果所对应文档的页面内容进行分析,获取该文档的类型信息,如页面内容中包括发帖时间、回复数等的,则确定该文档的类型信息为论坛页。又如,在步骤S2中,摘要生成设备1通过对该搜索结果所对应文档的URL进行分析,获取该文档所属的站点,并查询预设的站点属性库,获得该文档的类型信息。本领域技术人员应能理解上述获取文档类型信息的方式仅为举例,其他现有的或今后可能出现的获取文档类型信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,在步骤S3中,摘要生成设备1根据所述类型信息,从所述文档中提取与所述类型信息相对应的页面因子。具体地,在步骤S3中,摘要生成设备1根据其在步骤S2中获取的搜索结果所对应文档的类型信息,通过查询预设的类型信息-页面因子对照表等方式,确定该类型信息所对应的页面因子信息,并据此从该文档中提取相应的页面因子。在此,页面因子包括与文档的类型信息相关的页面内容块,不同类型的文档对应有不同的页面因子。例如,在步骤S2中,摘要生成设备1获取的搜索结果所对应文档的类型信息为博客页,在步骤S3中,摘要生成设备1查询预设的类型信息-页面因子对照表,获取相应的页面因子信息包括发表时间、浏览数、评论数、博客内容等,据此对该文档进行页面内容分析,并从中提取相应的页面因子。本领域技术人员应能理解上述获取页面因子信息以及提取页面因子的方式仅为举例,其他现有的或今后可能出现的获取页面因子信息或者提取页面因子的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S4中,摘要生成设备1根据所述页面因子,生成与所述搜索结果相对应的文档摘要。具体地,在步骤S4中,摘要生成设备1根据其在步骤S3中提取的页面因子,通过诸如合并、去重、筛选等方式,生成与搜索结果相对应的文档摘要。例如,在步骤S2中,摘要生成设备1获取的搜索结果所对应文档的类型信息为下载页;在步骤S3中,摘要生成设备1提取的对应页面因子包括软件名称、软件版本、软件大小、更新时间、软件分类、顶踩数量、下载次数、软件语言、运行环境、软件介绍等;在步骤S4中,摘要生成设备1将这些页面因子合并,生成相应的文档摘要。本领域技术人员应能理解上述生成文档摘要的方式仅为举例,其他现有的或今后可能出现的生成文档摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,摘要生成设备1在步骤S1、步骤S2、步骤S3和步骤S4是持续不断工作的。具体地,在步骤S1中,摘要生成设备1获取与用户经由用户设备输入的查询序列相对应的搜索结果;随后,在步骤S2中,摘要生成设备1获取所述搜索结果所对应的文档的类型信息;接着,在步骤S3中,摘要生成设备1根据所述类型信息,从所述文档中提取与所述类型信息相对应的页面因子;随后,在步骤S4中,摘要生成设备1根据所述页面因子,生成与所述搜索结果相对应的文档摘要。在此,本领域技术人员应理解“持续”是指摘要生成设备1在步骤S1、步骤S2、步骤S3和步骤S4分别按照设定的或实时调整的工作模式要求进行搜索结果的获取,文档类型信息的获取,页面因子的提取,以及摘要的生成,直至用户在较长时间内停止向用户设备输入查询序列。
在一个优选实施例中(参照图2),在步骤S4中,摘要生成设备1还根据所述页面因子,结合所述页面因子的权值,生成所述文档摘要。具体地,在步骤S4中,摘要生成设备1根据其在步骤S3中提取的页面因子,结合这些页面因子的权值,通过诸如选择权值最高的页面因子、选择权值超过预定阈值的页面因子等方式,生成与搜索结果相对应的文档摘要。例如,在步骤S3中,摘要生成设备1提取多个页面因子,在步骤S4中,摘要生成设备1选择权值最高的5个页面因子,并合并这5个页面因子获得相应的文档摘要。本领域技术人员应能理解上述生成文档摘要的方式仅为举例,其他现有的或今后可能出现的生成文档摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述页面因子的权值基于但不限于,以下至少任一项:
1)所述页面因子中句子的基础权值;
2)所述页面因子中句子的匹配权值;
3)所述页面因子的需求权值。
具体地,页面因子的权值基于但不限于,以下至少任一项:1)页面因子中句子的基础权值,该基础权值基于页面因子中的句子与文档主题的相似度确定,相似度越高的句子,其基础权值也越高;2)页面因子中句子的匹配权值,该匹配权值基于页面因子中的句子与用户输入查询序列的匹配度确定,匹配度越高的句子,其匹配权值也越高;3)页面因子的需求权值,该需求权值基于页面因子与用户查询需求的相符度确定,相符度越高的页面因子,其需求权值也越高。
需要说明的是,本领域技术人员应能理解,上述各项页面因子权值的参考因素不仅可以单独确定页面因子的权值,还可以将其一个或多个页面因子任意结合用于确定页面因子的权值。本领域技术人员还应能理解上述页面因子的权值的参考因素仅为举例,其他现有的或今后可能出现的页面因子的权值的参考因素如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中(参照图2),在步骤S3中,摘要生成设备1还根据所述类型信息,结合页面因子的摘要属性,从所述文档中提取所述页面因子。具体地,在步骤S3中,摘要生成设备1还根据其在步骤S2中获取的类型信息,结合页面因子的摘要属性,诸如页面因子的可读性、页面因子的内容重复度等,从搜索结果所对应的文档中提取与该类型信息相对应的页面因子。例如,当页面因子的内容较多时,如下载页对应的软件介绍、博客页对应的博客内容等,在步骤S3中,摘要生成设备1从搜索结果所对应的文档中提取相应部分的内容后,根据页面因子的可读性,删除该部分句子中的乱码、增加句子中查询关键词的前后扩展字数,并根据页面因子的内容重复度,删除内容重复度高的句子,从而获得相应的页面因子。本领域技术人员应能理解上述提取页面因子的方式仅为举例,其他现有的或今后可能出现的提取页面因子的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述摘要属性包括但不限于,以下至少任一项:
1)所述页面因子的可读性;
2)所述页面因子中的标点符号分布信息;
3)所述页面因子的内容重复度。
具体地,页面因子的摘要属性包括但不限于,以下至少任一项:1)页面因子的可读性,可通过删除页面因子中的乱码、增加页面因子中查询关键词的前后扩展字数等方式实现,例如,假设查询序列为“宫穿越”,已提取的页面因子的内容为“******宫****,......****穿越****”,此处“*”表示与查询关键词相连的字符,即查询关键词“宫”和“穿越”的前后扩展字符,由于查询关键词“宫”和“穿越”的前后扩展字数较少,使得该页面因子的可读性较差,此时,可通过增加查询关键词的前后扩展字数,将该页面因子的内容扩展为“************宫****,......**********穿越**********”,从而使得用户能够通过浏览摘要判断相应的搜索结果是否符合其查询需求;2)页面因子中的标点符号分布信息,当页面因子的内容较多时,如软件介绍、博客内容等,保留相关内容中的标点符号,以及根据标点符号的位置来确定页面因子中的内容取舍,例如,文档中的相关内容为“******宫****,......****穿越**。********”,根据句号的位置确定页面因子中的内容为******宫****,......****穿越**。”;3)页面因子的内容重复度,包括页面因子与查询序列的内容重复度、页面因子中内容之间的内容重复度和页面因子与文档标题的内容重复度,页面因子与查询序列的内容重复度较高的内容一般会作为较相关内容纳入页面因子,以用于生成文档摘要,为了增加文档摘要中的有效内容,并且文档标题多会作为搜索结果的标题,故与文档标题的内容重复度较高的内容,不会被纳入页面因子,而页面因子中相互重复的内容则可以经过去重处理,根据去重后的页面因子生成文档摘要。
需要说明的是,本领域技术人员应能理解,上述各项页面因子的摘要属性不仅可以单独用于辅助页面因子的提取,还可以将其中一项或多项页面因子的摘要属性任意结合用于辅助页面因子的提取。本领域技术人员还应能理解上述页面因子的摘要属性仅为举例,其他现有的或今后可能出现的页面因子的摘要属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在再一个优选实施例中(参照图2),在步骤S3中,摘要生成设备1还根据所述类型信息,基于预设的类型信息-页面因子对照表,从所述文档中提取所述页面因子。具体地,在步骤S3中,摘要生成设备1还根据其在步骤S2中获取的搜索结果对应文档的类型信息,基于预设的类型信息-页面因子对照表,从该文档中提取与其类型信息相对应的页面因子。例如,在步骤S2中,摘要生成设备1获取的搜索结果对应文档的类型信息,如论坛页,在步骤S3中,摘要生成设备1根据该类型信息,基于预设的类型信息-页面因子对照表,从该文档中提取与其类型信息相对应的页面因子,如发帖时间、回复数、帖子内容等。又如,在步骤S2中,摘要生成设备1获取的搜索结果对应文档的类型信息为问答页,在步骤S3中,摘要生成设备1基于预设的类型信息-页面因子对照表,从该文档中提取与问答页相对应的页面因子,包括问题、作者、时间、最佳答案、其他答案、问题补充、回答作者、回答时间等。本领域技术人员应能理解上述提取页面因子的方式仅为举例,其他现有的或今后可能出现的提取页面因子的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,该过程还包括步骤S5(未示出),在步骤S5中,摘要生成设备1根据文档访问记录,建立或更新所述类型信息-页面因子对照表。具体地,在步骤S5中,摘要生成设备1根据文档访问记录,诸如文档中相关页面因子的用户浏览量、用户点击的摘要中包括的页面因子等,建立或更新类型信息-页面因子对照表。例如,在步骤S5中,摘要生成设备1统计相同类型的文档中各页面因子的用户浏览量,如对小说页中名称、更新时间、作者、状态、最新章节、类别、简介、目录等各页面因子的用户浏览量进行统计,将用户浏览量超过一定阈值的页面因子作为与小说页相对应的页面因子,并据此建立或更新相应的类型信息-页面因子对照表。又如,在步骤S5中,摘要生成设备1统计当前用户对不同类型的文档中各页面因子的浏览次数、浏览时间等,如对小说页中名称、更新时间、作者、状态、最新章节、类别、简介、目录等各页面因子的浏览次数进行统计,将浏览次数超过一定阈值的页面因子作为与小说页相对应的页面因子,并据此建立或更新相应的类型信息-页面因子对照表。本领域技术人员应能理解上述建立或更新类型信息-页面因子对照表的方式仅为举例,其他现有的或今后可能出现的建立或更新类型信息-页面因子对照表的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在又一个优选实施例中(参照图2),该过程还包括步骤S6(未示出),在步骤S6中,摘要生成设备1根据所述查询序列的查询相关属性,获取所述查询序列的需求类型;随后,在步骤S4中,摘要生成设备1还根据所述页面因子,结合所述需求类型,生成所述文档摘要。具体地,在步骤S6中,摘要生成设备1根据用户输入查询序列的查询相关属性,诸如用户历史查询记录、该查询序列的语义分析等,获取该查询序列的需求类型;随后,在步骤S4中,摘要生成设备1还根据其在步骤S3中提取的页面因子,结合该需求类型,通过诸如根据该需求类型对页面因子进行筛选、排序等方式,生成搜索结果的文档摘要。例如,假设搜索结果所对应的文档的类型信息为下载页,相应的页面因子包括软件名称、软件版本、软件大小、更新时间、软件分类、软件评分、顶踩数量、下载次数、授权方式、软件语言、运行环境、站点名称、软件介绍等;在步骤S6中,摘要生成设备1对相应的用户输入查询序列,如“五笔输入法下载”进行切分,并对切分后的查询关键词“五笔输入法”和“下载”进行语义分析,获取该查询序列的需求类型为下载需求;随后,在步骤S4中,摘要生成设备1根据该下载需求,从这些页面因子中选取软件名称、软件版本、软件大小、更新时间、软件分类、软件评分、顶踩数量、授权方式、软件语言、运行环境,并据此生成相应的文档摘要。接前例,如果相应的用户输入查询序列为“五笔输入法介绍”,在步骤S6中,摘要生成设备1获取该查询序列的需求类型为非下载类;随后,在步骤S4中,摘要生成设备1据此从这些页面因子中选取软件名称、软件大小、更新时间、软件介绍,并生成相应的文档摘要。本领域技术人员应能理解上述获取查询序列需求类型以及生成文档摘要的方式仅为举例,其他现有的或今后可能出现的获取查询序列需求类型或者生成文档摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述查询相关属性包括但不限于,以下至少任一项:
1)用户历史查询记录;
2)所述查询序列的语义分析结果;
3)查询序列分类信息。
具体地,1)用户历史查询记录,包括当前输入该查询序列的用户的历史查询记录和大量用户对该查询序列的历史查询记录。例如,将当前输入该查询序列的用户的若干次连续查询行为当做一个单元,在该单元中,该当前用户的查询主题是相同的,而其每次输入的查询序列可能不一致,如先后输入“五笔输入法”、“五笔输入法下载”等,据此摘要生成设备1确定该用户的与查询关键词“五笔输入法”对应的需求类型为下载类。又如,用户输入的查询序列为“五笔输入法”,但是该用户点击的搜索结果均是关于五笔输入法的下载信息,据此摘要生成设备1获取该用户的与查询关键词“五笔输入法”对应的需求类型为下载类。还如,对于新闻类的查询需求,在特定时间内其查询次数会激增,如在元宵期间,大量用户对“赵本山元宵晚会”的查询次数会激增,而在元宵节之前和之后,查询次数均较少,据此摘要生成设备1确定该查询序列的需求类型为新闻类。
2)根据查询序列的语义分析结果,获取查询序列的需求类型的方式包括但不限于:对查询序列进行语义分析,根据获得的语义分析结果确定该查询序列的需求类型,如对“五笔输入法下载”进行语义分析,获得其需求类型为下载类;切分查询序列,对切分获得的查询关键词进行语义分析,如切分查询序列“2011年2月有哪些商场做促销”,获得查询关键词“2011年”、“2月”、“哪些”、“商场”和“促销”,根据“哪些”确定该查询序列的需求类型为问答型。
3)根据查询序列分类信息获取查询序列的需求类型的方式包括但不限于:切分查询序列,对切分获得的查询关键词与专有词进行匹配,当匹配成功时,该专有词的分类信息即为该查询序列的需求类型,在此,专有词的分类信息来源于对特定视频网站、特定小说网站等知名网站的资源挖掘,对从这些网站获取的专有词按照来源网站的属性进行分类,以获得相应专有词的分类信息。例如,对“小说阅读网”进行资源挖掘,获得专有词“绾青丝”,其分类信息为“小说”,相应地,当用户输入查询序列“绾青丝”时,确定该查询序列的需求类型为小说类。
本领域技术人员应能理解,上述各项查询相关属性不仅可以单独用于获取查询序列的需求类型,还可以将其中一项或多项查询相关信息任意结合共同用于获取查询序列的需求类型。本领域技术人员还应能理解上述查询相关属性仅为举例,其他现有的或今后可能出现的查询相关属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在还一个优选实施例中(参照图2),在步骤S2中,摘要生成设备1还根据页面内容和/或站点属性库,对所述搜索结果所对应的文档进行分类,以获得所述类型信息。具体地,在步骤S2中,摘要生成设备1通过分析搜索结果对应文档的页面内容,或者根据搜索结果对应文档的所属站点在站点属性库中进行匹配查询,或者根据两者的结合,对该文档进行分类,以获取该文档的类型信息,如论坛页、博客页、下载页、视频页等。例如,在步骤S1中,摘要生成设备1获取与用户输入查询序列相对应的搜索结果,在步骤S2中,摘要生成设备1通过对该搜索结果所对应文档的页面内容进行分析,获取该文档的类型信息,如页面内容中包括发帖时间、回复数等,则确定该文档的类型信息为论坛页。又如,在步骤S2中,摘要生成设备1通过对该搜索结果所对应文档的URL进行分析,获取该文档所属的站点,并查询站点属性库,获得该文档的类型信息。再如,在步骤S2中,摘要生成设备1通过对该搜索结果所对应文档的页面内容进行分析,获取该文档的类型信息可能为“下载”,并通过对该搜索结果所对应文档的URL进行分析,获取该文档所属的站点,并查询站点属性库,获得该文档的类型信息为“下载”,则确定该文档的类型信息为“下载”。本领域技术人员应能理解上述获取文档的类型信息的方式仅为举例,其他现有的或今后可能出现的获取文档的类型信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图2),该过程还包括步骤S7(未示出),在步骤S7中,摘要生成设备1将所述文档摘要提供至所述用户设备。具体地,在步骤S7中,摘要生成设备1将其在步骤S4中生成的文档摘要提供至输入查询序列的用户设备。例如,在步骤S4中,摘要生成设备1生成与用户经由用户设备输入的查询序列相对应的文档摘要,在步骤S7中,摘要生成设备1将这些文档摘要置于搜索结果页面中,与该查询序列所对应的搜索结果一并发送至该用户设备;在此,文档摘要或者位于其对应搜索结果的下方,或者当用户的鼠标停留在某一搜索结果上时,该搜索结果所对应的文档摘要即以悬浮窗的形式显示,或者以逐个收起的形式统一显示在搜索结果页面的右侧,与该摘要对应的搜索结果相平行,当鼠标停留在某一搜索结果上时,其右侧的相应文档摘要则展开显示。本领域技术人员应能理解上述提供文档摘要的方式仅为举例,其他现有的或今后可能出现的提供文档摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,该过程还包括步骤S8(未示出),在步骤S8中,摘要生成设备1还根据因子长度阈值,从所述文档摘要中获取一个或多个简短页面因子;将所述一个或多个简短页面因子与所述文档摘要中的其他页面因子组合,以获取调整后的文档摘要;随后,在步骤S7中,摘要生成设备1还将所述调整后的文档摘要提供至所述用户设备。具体地,在步骤S8中,摘要生成设备1还根据因子长度阈值,从摘要生成装置14生成的文档摘要中获取一个或多个简短页面因子,诸如论坛页的发帖时间、回复数,博客页的发表时间、浏览数等;将这(些)简短页面因子与该文档摘要中的其他页面因子组合,包括这(些)简短页面因子相互组合后,再与该文档摘要中的其他页面因子组合,以及直接将这(些)简短页面因子与该文档摘要中的其他页面因子组合,以获取调整后的文档摘要;随后,在步骤S7中,摘要生成设备1还将该调整后的文档摘要提供至输入查询序列的用户设备。例如,假设搜索结果对应文档的类型信息为视频类,在步骤S8中,摘要生成设备1根据因子长度阈值,从其在步骤S4中生成的文档摘要中获取多个简短页面因子,如视频数量、视频标题、播主ID等,将这些简短页面因子相互组合后,再与该文档摘要中的其他页面因子组合,获得调整后的文档摘要;随后,在步骤S7中,摘要生成设备1将该调整后的文档摘要发送给用户设备。又如,假设搜索结果对应文档的类型信息为新闻类,在步骤S8中,摘要生成设备1根据因子长度阈值,从其在步骤S4中生成的文档摘要中获取一个简短页面因子,如新闻时间,将该简短页面因子与该文档摘要中的其他页面因子组合,获得调整后的文档摘要,如将新闻时间与新闻内容相结合,并将新闻时间至于文档摘要的首位;随后,在步骤S7中,摘要生成设备1将该调整后的文档摘要发送给用户设备。本领域技术人员应能理解上述调整文档摘要的方式仅为举例,其他现有的或今后可能出现的调整文档摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (24)

1.一种计算机实现的用于基于搜索结果所对应文档的类型信息生成文档摘要的方法,其中,该方法包括以下步骤:
a获取与用户经由用户设备输入的查询序列相对应的搜索结果;
b获取所述搜索结果所对应的文档的类型信息;
c根据所述类型信息,从所述文档中提取与所述类型信息相对应的页面因子;
d根据所述页面因子,生成与所述搜索结果相对应的文档摘要。
2.根据权利要求1所述的方法,其中,所述步骤d还包括:
-根据所述页面因子,结合所述页面因子的权值,生成所述文档摘要。
3.根据权利要求2所述的方法,其中,所述页面因子的权值基于以下至少任一项:
-所述页面因子中句子的基础权值;
-所述页面因子中句子的匹配权值;
-所述页面因子的需求权值。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤c还包括:
-根据所述类型信息,结合页面因子的摘要属性,从所述文档中提取所述页面因子。
5.根据权利要求4所述的方法,其中,所述摘要属性包括以下至少任一项:
-所述页面因子的可读性;
-所述页面因子中的标点符号分布信息;
-所述页面因子的内容重复度。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤c还包括:
-根据所述类型信息,基于预设的类型信息-页面因子对照表,从所述文档中提取所述页面因子。
7.根据权利要求6所述的方法,其中,该方法还包括:
-根据用户的文档访问记录,建立或更新所述类型信息-页面因子对照表。
8.根据权利要求1至7中任一项所述的方法,其中,该方法还包括:
-根据所述查询序列的查询相关属性,获取所述查询序列的需求类型;
其中,所述步骤d还包括:
-根据所述页面因子,结合所述需求类型,生成所述文档摘要。
9.根据权利要求8所述的方法,其中,所述查询相关属性包括以下至少任一项:
-用户历史查询记录;
-所述查询序列的语义分析结果;
-查询序列分类信息。
10.根据权利要求1至9中任一项所述的方法,其中,所述步骤b还包括:
-根据页面内容和/或站点属性库,对所述搜索结果所对应的文档进行分类,以获得所述类型信息。
11.根据权利要求1至10中任一项所述的方法,其中,该方法还包括:
e将所述文档摘要提供至所述用户设备。
12.根据权利要求11所述的方法,其中,该方法还包括:
-根据因子长度阈值,从所述文档摘要中获取一个或多个简短页面因子;
-将所述一个或多个简短页面因子与所述文档摘要中的其他页面因子组合,以获取调整后的文档摘要;
其中,所述步骤e还包括:
-将所述调整后的文档摘要提供至所述用户设备。
13.一种用于基于搜索结果所对应文档的类型信息生成文档摘要的设备,其中,该设备包括:
结果获取装置,用于获取与用户经由用户设备输入的查询序列相对应的搜索结果;
类型获取装置,用于获取所述搜索结果所对应的文档的类型信息;
因子提取装置,用于根据所述类型信息,从所述文档中提取与所述类型信息相对应的页面因子;
摘要生成装置,用于根据所述页面因子,生成与所述搜索结果相对应的文档摘要。
14.根据权利要求13所述的设备,其中,所述摘要生成装置还用于:
-根据所述页面因子,结合所述页面因子的权值,生成所述文档摘要。
15.根据权利要求14所述的设备,其中,所述页面因子的权值基于以下至少任一项:
-所述页面因子中句子的基础权值;
-所述页面因子中句子的匹配权值;
-所述页面因子的需求权值。
16.根据权利要求13至15中任一项所述的设备,其中,所述因子提取装置还用于:
-根据所述类型信息,结合页面因子的摘要属性,从所述文档中提取所述页面因子。
17.根据权利要求16所述的设备,其中,所述摘要属性包括以下至少任一项:
-所述页面因子的可读性;
-所述页面因子中的标点符号分布信息;
-所述页面因子的内容重复度。
18.根据权利要求13至17中任一项所述的设备,其中,所述因子提取装置还用于:
-根据所述类型信息,基于预设的类型信息-页面因子对照表,从所述文档中提取所述页面因子。
19.根据权利要求18所述的设备,其中,该设备还包括:
更新装置,用于根据用户的文档访问记录,建立或更新所述类型信息-页面因子对照表。
20.根据权利要求13至19中任一项所述的设备,其中,该设备还包括:
需求获取装置,用于根据所述查询序列的查询相关属性,获取所述查询序列的需求类型;
其中,所述摘要生成装置还用于:
-根据所述页面因子,结合所述需求类型,生成所述文档摘要。
21.根据权利要求20所述的方法,其中,所述查询相关属性包括以下至少任一项:
-用户历史查询记录;
-所述查询序列的语义分析结果;
-查询序列分类信息。
22.根据权利要求13至21中任一项所述的设备,其中,所述类型获取装置还用于:
-根据页面内容和/或站点属性库,对所述搜索结果所对应的文档进行分类,以获得所述类型信息。
23.根据权利要求13至22中任一项所述的设备,其中,该设备还包括:
提供装置,用于将所述文档摘要提供至所述用户设备。
24.根据权利要求23所述的设备,其中,该设备还包括摘要调整装置,所述摘要调整装置还用于:
-根据因子长度阈值,从所述文档摘要中获取一个或多个简短页面因子;
-将所述一个或多个简短页面因子与所述文档摘要中的其他页面因子组合,以获取调整后的文档摘要;
其中,所述提供装置还用于:
-将所述调整后的文档摘要提供至所述用户设备。
CN201110105472XA 2011-04-26 2011-04-26 基于搜索结果对应文档的类型信息生成摘要的方法与设备 Pending CN102169501A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110105472XA CN102169501A (zh) 2011-04-26 2011-04-26 基于搜索结果对应文档的类型信息生成摘要的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110105472XA CN102169501A (zh) 2011-04-26 2011-04-26 基于搜索结果对应文档的类型信息生成摘要的方法与设备

Publications (1)

Publication Number Publication Date
CN102169501A true CN102169501A (zh) 2011-08-31

Family

ID=44490663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110105472XA Pending CN102169501A (zh) 2011-04-26 2011-04-26 基于搜索结果对应文档的类型信息生成摘要的方法与设备

Country Status (1)

Country Link
CN (1) CN102169501A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402603A (zh) * 2011-11-18 2012-04-04 百度在线网络技术(北京)有限公司 一种用于提供缩略图所对应的图片摘要信息的方法与设备
CN104077388A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN104641371A (zh) * 2012-07-19 2015-05-20 脸谱公司 社交网络系统中基于上下文的对象检索
CN104820685A (zh) * 2012-06-28 2015-08-05 北京奇虎科技有限公司 一种社交类网络搜索方法及社交类网络搜索系统
CN105827580A (zh) * 2015-01-09 2016-08-03 阿里巴巴集团控股有限公司 页面访问方法、装置及系统
CN106126561A (zh) * 2016-06-16 2016-11-16 北京百度网讯科技有限公司 搜索结果摘要的生成方法及装置
CN106528764A (zh) * 2016-10-28 2017-03-22 北京百度网讯科技有限公司 基于人工智能的提问型检索词的检索方法及装置
CN106708932A (zh) * 2016-11-21 2017-05-24 百度在线网络技术(北京)有限公司 问答类网站的回复的摘要提取方法及装置
CN106777080A (zh) * 2016-12-13 2017-05-31 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
CN110489542A (zh) * 2019-08-10 2019-11-22 刘莎 一种互联网网页和文本信息的自动摘要方法
CN112149391A (zh) * 2020-09-28 2020-12-29 平安证券股份有限公司 信息处理方法、信息处理装置、终端设备及存储介质
CN114880520A (zh) * 2022-05-06 2022-08-09 北京百度网讯科技有限公司 视频标题生成方法、装置、电子设备和介质
CN115080816A (zh) * 2022-06-16 2022-09-20 抖音视界(北京)有限公司 摘要信息生成与搜索结果展示方法、装置、设备和介质
CN116108165A (zh) * 2023-04-04 2023-05-12 中电科大数据研究院有限公司 文本摘要生成方法、装置、存储介质及电子设备

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402603A (zh) * 2011-11-18 2012-04-04 百度在线网络技术(北京)有限公司 一种用于提供缩略图所对应的图片摘要信息的方法与设备
CN104820685A (zh) * 2012-06-28 2015-08-05 北京奇虎科技有限公司 一种社交类网络搜索方法及社交类网络搜索系统
CN104820686A (zh) * 2012-06-28 2015-08-05 北京奇虎科技有限公司 一种网络搜索方法及网络搜索系统
CN104820686B (zh) * 2012-06-28 2019-06-21 北京奇虎科技有限公司 一种网络搜索方法及网络搜索系统
CN104820685B (zh) * 2012-06-28 2019-02-22 北京奇虎科技有限公司 一种社交类网络搜索方法及社交类网络搜索系统
US10311063B2 (en) 2012-07-19 2019-06-04 Facebook, Inc. Context-based object retrieval in a social networking system
CN104641371A (zh) * 2012-07-19 2015-05-20 脸谱公司 社交网络系统中基于上下文的对象检索
CN104641371B (zh) * 2012-07-19 2019-07-30 脸谱公司 社交网络系统中基于上下文的对象检索
CN104077388A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN105827580A (zh) * 2015-01-09 2016-08-03 阿里巴巴集团控股有限公司 页面访问方法、装置及系统
CN105827580B (zh) * 2015-01-09 2020-04-10 阿里巴巴集团控股有限公司 页面访问方法、装置及系统
CN106126561A (zh) * 2016-06-16 2016-11-16 北京百度网讯科技有限公司 搜索结果摘要的生成方法及装置
CN106528764B (zh) * 2016-10-28 2019-11-08 北京百度网讯科技有限公司 基于人工智能的提问型检索词的检索方法及装置
CN106528764A (zh) * 2016-10-28 2017-03-22 北京百度网讯科技有限公司 基于人工智能的提问型检索词的检索方法及装置
CN106708932A (zh) * 2016-11-21 2017-05-24 百度在线网络技术(北京)有限公司 问答类网站的回复的摘要提取方法及装置
CN106777080B (zh) * 2016-12-13 2020-04-24 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
CN106777080A (zh) * 2016-12-13 2017-05-31 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
CN110489542B (zh) * 2019-08-10 2023-12-12 刘莎 一种互联网网页信息和文本信息的自动摘要方法
CN110489542A (zh) * 2019-08-10 2019-11-22 刘莎 一种互联网网页和文本信息的自动摘要方法
CN112149391A (zh) * 2020-09-28 2020-12-29 平安证券股份有限公司 信息处理方法、信息处理装置、终端设备及存储介质
CN114880520B (zh) * 2022-05-06 2023-03-10 北京百度网讯科技有限公司 视频标题生成方法、装置、电子设备和介质
CN114880520A (zh) * 2022-05-06 2022-08-09 北京百度网讯科技有限公司 视频标题生成方法、装置、电子设备和介质
CN115080816A (zh) * 2022-06-16 2022-09-20 抖音视界(北京)有限公司 摘要信息生成与搜索结果展示方法、装置、设备和介质
CN116108165A (zh) * 2023-04-04 2023-05-12 中电科大数据研究院有限公司 文本摘要生成方法、装置、存储介质及电子设备
CN116108165B (zh) * 2023-04-04 2023-06-13 中电科大数据研究院有限公司 文本摘要生成方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN102043833B (zh) 一种基于查询词进行搜索的方法和搜索装置
US9613008B2 (en) Dynamic aggregation and display of contextually relevant content
CN105022827B (zh) 一种面向领域主题的Web新闻动态聚合方法
US9015156B2 (en) Interactive computing recommendation facility with learning based on user feedback and interaction
US9195771B2 (en) System for creating and method for providing a news feed website and application
KR101463974B1 (ko) 마케팅을 위한 빅데이터 분석 시스템 및 방법
CN102163229B (zh) 一种用于生成搜索结果的摘要的方法与设备
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
Chen et al. SMS-based web search for low-end mobile devices
CN102184185A (zh) 一种用于多媒体资源搜索的方法与设备
JP2006309515A (ja) 情報配信方法および情報配信サーバ
US9858332B1 (en) Extracting and leveraging knowledge from unstructured data
CN105518661A (zh) 经由挖掘的超链接文本的片段来浏览图像
CN102722501A (zh) 搜索引擎及其实现方法
CN102722499A (zh) 搜索引擎及其实现方法
CN104503988A (zh) 搜索方法及装置
CN104090757A (zh) 针对浏览器的富媒体信息展示方法
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
US8949254B1 (en) Enhancing the content and structure of a corpus of content
JP6147629B2 (ja) ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法
CN105095383A (zh) 信息发布方法、搜索方法及相应装置
JP4840914B2 (ja) システム、端末、サーバ、及び、動的情報提供方法
KR20110050823A (ko) 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법
JP5462591B2 (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110831