CN102163229B - 一种用于生成搜索结果的摘要的方法与设备 - Google Patents

一种用于生成搜索结果的摘要的方法与设备 Download PDF

Info

Publication number
CN102163229B
CN102163229B CN 201110092453 CN201110092453A CN102163229B CN 102163229 B CN102163229 B CN 102163229B CN 201110092453 CN201110092453 CN 201110092453 CN 201110092453 A CN201110092453 A CN 201110092453A CN 102163229 B CN102163229 B CN 102163229B
Authority
CN
China
Prior art keywords
search sequence
fragment
document
sequence
search results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110092453
Other languages
English (en)
Other versions
CN102163229A (zh
Inventor
郑枫耀
兰芳
乔勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 201110092453 priority Critical patent/CN102163229B/zh
Publication of CN102163229A publication Critical patent/CN102163229A/zh
Application granted granted Critical
Publication of CN102163229B publication Critical patent/CN102163229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于生成搜索结果的摘要的方法与设备。其中,摘要生成设备获取与查询序列相对应的搜索结果以及所述搜索结果所对应的文档的摘要提取参数;根据所述查询序列,从所述文档中提取与所述查询序列相对应的摘要片段;根据所述摘要片段,结合所述摘要提取参数,生成与所述查询序列相对应的摘要。与现有技术相比,本发明通过获取查询序列的需求类型,使得生成的摘要能够满足用户的查询需求,同时提升用户的搜索体验;本发明还通过获取查询序列与搜索结果的匹配信息,使得生成的摘要能够包含更多的信息,提高用户的搜索效率,也使得生成的摘要具有更好的可读性。

Description

一种用于生成搜索结果的摘要的方法与设备
技术领域
本发明涉及网络搜索技术领域,尤其涉及一种用于生成搜索结果的摘要的技术。
背景技术
在网络信息极大丰富的今天,为了快速而准确的找到所需的信息,搜索引擎应运而生。虽然搜索引擎提供了较准确的搜索结果排序,但是由于搜索引擎是基于全文索引技术提供服务的,只要文档中包含查询关键词就会作为搜索结果返回,经常会有一些靠前的搜索结果并不是用户所需要的。因此,用户会通过阅读摘要来判断搜索结果的价值,此时,摘要中是否包括用户需要的信息就成了至关重要的问题。
现有的摘要生成方法主要有两种,一种是静态摘要生成方法,以文档的主题为中心,即“全文摘要”,这种方法生成的摘要虽然很好的表达了文档的中心意思,但是文档中与用户查询相关的信息未必是文档主题,该信息却可能对用户很有价值,故静态摘要生成方法很难满足用户的查询需求;另一种是动态摘要生成方法,根据用户的查询关键词,从文档中提取与查询关键词最相关的部分,但是很多时候查询关键词并不直接体现用户的查询需求,故动态摘要生成方法同样很难满足用户的查询需求,并且当查询关键词分散在文档中的多个段落时,提取出来的摘要更是很难包括用户需要的信息。
因此,如何提供一种生成搜索结果的摘要的方法,使得摘要能够较好的满足用户的查询需求,以及包含较多的相关信息,成为目前急需解决的问题之一。
发明内容
本发明的目的是提供一种用于生成搜索结果的摘要的方法与设备。
根据本发明的一个方面,提供了一种计算机实现的用于生成搜索结果的摘要的方法,其中,该方法包括以下步骤:
a获取与用户经由用户设备输入的查询序列相对应的搜索结果;
b获取所述搜索结果所对应的文档的摘要提取参数;
其中,该方法还包括:
x根据所述查询序列,从所述文档中提取与所述查询序列相对应的摘要片段;
y根据所述摘要片段,结合所述摘要提取参数,生成所述摘要。
根据本发明的另一个方面,还提供了一种用于生成搜索结果的摘要的设备,其中,该设备包括:
结果获取装置,用于获取与用户经由用户设备输入的查询序列相对应的搜索结果;
参数获取装置,用于获取所述搜索结果所对应的文档的摘要提取参数;
其中,该设备还包括:
片段提取装置,用于根据所述查询序列,从所述文档中提取与所述查询序列相对应的摘要片段;
摘要生成装置,用于根据所述摘要片段,结合所述摘要提取参数,生成所述摘要。
与现有技术相比,本发明根据摘要提取参数,诸如查询序列的需求类型、查询序列与搜索结果的匹配信息等,生成搜索结果的摘要。本发明通过获取查询序列的需求类型,使得生成的摘要能够满足用户的查询需求,例如,当查询序列的需求类型为问答型时,本发明可以从文档的答案资源块中提取问题的全部答案作为摘要,使得用户不用点击搜索结果的链接即可获得问题的答案,同时提升用户的搜索体验。本发明还通过获取查询序列与搜索结果的匹配信息,使得生成的摘要能够包含更多的信息,提高用户的搜索效率,例如,当查询序列与搜索结果的匹配信息为完全匹配时,即查询序列中的查询关键词连续或者非连续出现在文档的同一段落内,本发明可以将该文档段落作为相应的摘要。更进一步地,本发明还可以根据摘要提取参数确定摘要的长度,也使得生成的摘要具有更好的可读性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于生成搜索结果的摘要的设备的示意图;
图2示出根据本发明一个优选实施例的用于生成搜索结果的摘要的设备的示意图;
图3示出根据本发明另一个方面的用于生成搜索结果的摘要的方法流程图;
图4示出根据本发明一个优选实施例的用于生成搜索结果的摘要的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的设备示意图,示出一种用于生成搜索结果的摘要的设备。其中,摘要生成设备1包括结果获取装置11、参数获取装置12、片段提取装置13和摘要生成装置14。具体地,结果获取装置11获取与用户经由用户设备输入的查询序列相对应的搜索结果;接着,参数获取装置12获取所述搜索结果所对应的文档的摘要提取参数;片段提取装置13根据所述查询序列,从所述文档中提取与所述查询序列相对应的摘要片段;随后,摘要生成装置14根据所述摘要片段,结合所述摘要提取参数,生成所述摘要。在此,摘要生成设备1包括但不限于搜索引擎、或者与搜索引擎相连的网络设备,其中,该网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合。本领域技术人员应能理解上述摘要生成设备仅为举例,其他现有的或今后可能出现的摘要生成设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更具体地,结果获取装置11获取与用户经由用户设备输入的查询序列相对应的搜索结果。具体地,结果获取装置11通过诸如在摘要生成设备1或者第三方设备的搜索信息库中进行查询、或者接收第三方设备发送的与用户经由用户设备输入的查询序列相对应的搜索结果,从而获取与用户经由用户设备输入的查询序列相对应的搜索结果。例如,用户通过鼠标、键盘或者手写板等输入设备向用户设备输入查询序列,用户设备将该查询序列发送至搜索引擎,该搜索引擎将基于该查询序列的搜索结果发送至摘要生成设备1,摘要生成设备1的结果获取装置11获取该搜索结果。本领域技术人员应能理解上述获取搜索结果的方式仅为举例,其他现有的或今后可能出现的获取搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,参数获取装置12获取所述搜索结果所对应的文档的摘要提取参数。具体地,参数获取装置12获取结果获取装置11获取的搜索结果所对应的文档的摘要提取参数,诸如用户输入查询序列的需求类型、搜索结果与查询序列的匹配信息等。例如,结果获取装置11获取与用户输入查询序列相对应的搜索结果,参数获取装置12根据该搜索结果,获取该搜索结果与该查询序列的匹配信息,如完全匹配或部分匹配,以作为该文档的摘要提取参数。在此,完全匹配指切分查询序列获得的查询关键词连续或者非连续出现在该文档的同一段落内;部分匹配指查询关键词分散出现在不同的文档段落,即该文档中不存在一个同时包含这(些)查询关键词的段落。又如,参数获取装置12对用户经由用户设备输入的查询序列进行切分,并对切分后的查询词进行语义分析,以获得该查询序列的需求类型,以作为该文档的摘要提取参数。本领域技术人员应能理解上述获取摘要提取参数的方式仅为举例,其他现有的或今后可能出现的获取摘要提取参数的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
片段提取装置13根据所述查询序列,从所述文档中提取与所述查询序列相对应的摘要片段。具体地,片段提取装置13根据用户输入的查询序列,从结果获取装置11获取的搜索结果所对应的文档中提取与该查询序列相对应的摘要片段。例如,结果获取装置11获取与用户输入查询序列相对应的搜索结果,片段提取装置13根据该查询序列,从该搜索结果所对应的文档中提取与该查询序列、或者该查询序列所包括的查询关键词相匹配的摘要片段。本领域技术人员应能理解上述提取摘要片段的方式仅为举例,其他现有的或今后可能出现的提取摘要片段的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
需要说明的是,本领域技术人员应能理解,参数获取装置12获取摘要提取参数的操作,与片段提取装置13提取摘要片段的操作之间不具有顺序关系,而是相互独立执行的。在结果获取装置11获取搜索结果之后,既可以参数获取装置12先获取摘要提取参数,然后片段提取装置13再提取摘要片段;也可以片段提取装置13先提取摘要片段,然后参数获取装置12再获取摘要提取参数;还可以参数获取装置12获取摘要提取参数,同时片段提取装置13提取摘要片段。
随后,摘要生成装置14根据所述摘要片段,结合所述摘要提取参数,生成与所述查询序列相对应的摘要。具体地,摘要生成装置14根据片段提取装置13提取的摘要片段,结合参数获取装置12获取的摘要提取参数,生成与用户输入查询序列相对应的摘要。例如,假设用户经由用户设备输入的查询序列为“2011年2月上映的电影有哪些”,结果获取装置11获取与该查询序列相对应的搜索结果,参数获取装置12对该查询序列进行语义分析,获得其需求类型为问答型,片段提取装置13从该搜索结果中提取与该查询序列相匹配的摘要片段,摘要生成装置14从这些摘要片段中选择符合该需求类型的摘要片段,如根据这些摘要片段在文档中所属区域,选择位于答案区的摘要片段,并将这些相符的摘要片段合并,以生成与该查询序列相对应的摘要。又如,假设用户经由用户设备输入的查询序列为“杏仁 薏仁”,结果获取装置11获取与该查询序列相对应的搜索结果,参数获取装置12获取该查询序列与该搜索结果的匹配信息为部分匹配,即“杏仁”和“薏仁”出现在不同的文档段落,片段提取装置13从该搜索结果中提取与“杏仁”或者“薏仁”相匹配的摘要片段,摘要生成装置14从这些摘要片段中选择“杏仁”出现最多的摘要片段和“薏仁”出现最多的摘要片段,将这两个摘要片段合并,以生成与该查询序列相对应的摘要。本领域技术人员应能理解上述生成摘要的方式仅为举例,其他现有的或今后可能出现的生成摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于止。
优选地,结果获取装置11、参数获取装置12、片段提取装置13和摘要生成装置14是持续不断工作的。具体地,结果获取装置11获取与用户经由用户设备输入的查询序列相对应的搜索结果;接着,参数获取装置12获取所述搜索结果所对应的文档的摘要提取参数;片段提取装置13根据所述查询序列,从所述文档中提取与所述查询序列相对应的摘要片段;随后,摘要生成装置14根据所述摘要片段,结合所述摘要提取参数,生成所述摘要。在此,本领域技术人员应理解“持续”是指摘要生成设备1的结果获取装置11、参数获取装置12、片段提取装置13和摘要生成装置14分别按照设定的或实时调整的工作模式要求进行搜索结果的获取,摘要提取参数的获取,摘要片段的提取,以及摘要的生成,直至用户在较长时间内停止向用户设备输入查询序列。
图2为根据本发明一个优选实施例的设备示意图,示出一种用于生成搜索结果的摘要的设备。其中,摘要生成装置14’包括长度确定单元141’和摘要生成单元142’。具体地,长度确定单元141’根据所述摘要提取参数,确定与所述摘要提取参数相对应的摘要长度;摘要生成单元142’根据所述摘要片段,结合所述摘要长度,生成所述摘要。
更具体地,长度确定单元141’根据所述摘要提取参数,确定或调整与所述摘要提取参数相对应的摘要长度。具体地,长度确定单元141’根据参数获取装置12获取的摘要提取参数,诸如用户输入查询序列的需求类型、搜索结果与查询序列的匹配信息等,确定与这(些)摘要提取参数相对应的摘要长度。例如,假设用户输入查询序列的需求类型为问答型,长度确定单元141’根据该需求类型,确定相应的摘要长度为答案的长度。又如,假设预设摘要长度为2行,用户输入查询序列与其相应搜索结果的匹配信息为部分匹配,长度确定单元141’根据该匹配信息,调整相应的摘要长度,如将摘要程度增至4行。还如,假设摘要提取参数包括用户输入查询序列的需求类型和查询序列与其相应搜索结果的匹配信息,长度确定单元141’根据该需求类型确定初始摘要长度,再根据该匹配信息调整该初始摘要长度,从而得到最终的摘要长度。本领域技术人员应能理解上述确定摘要长度的方式仅为举例,其他现有的或今后可能出现的确定摘要长度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
摘要生成单元142’根据所述摘要片段,结合所述摘要长度,生成所述摘要。具体地,摘要生成单元142’根据片段提取装置13提取的摘要片段,结合长度确定单元141’根据摘要提取参数确定的摘要长度,生成与用户输入查询序列相对应的摘要。例如,片段提取装置13提取与查询序列相对应的摘要片段,摘要提取参数为查询序列的需求类型“问答型”,长度确定单元141’根据该“问答型”确定相应的摘要长度为全部答案的长度,则摘要生成单元142’选择该查询序列的答案所在的摘要片段,如最佳答案所在的摘要片段,如果该摘要片段未完全包括最佳答案,则将该摘要片段扩展至完整的最佳答案,并根据该“最佳答案”摘要片段生成相应的摘要。优选地,如果还有其他摘要片段包括或者部分包括其他答案,摘要生成单元142’还可以将该其他摘要片段与完全包括“最佳答案”的摘要片段结合,生成相应的摘要;更优选地,摘要生成设备1还可以将该其他摘要片段扩展至完整的其他答案,并将该完全包括“其他答案”的摘要片段与完全包括“最佳答案”的摘要片段结合,生成相应的摘要。本领域技术人员应能理解上述生成摘要的方式仅为举例,其他现有的或今后可能出现的生成摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,长度确定单元141’还根据所述摘要提取参数,结合大量用户的摘要点击记录的统计信息,确定所述摘要长度。具体地,长度确定单元141’还根据参数获取装置12获取的摘要提取参数,结合大量用户的摘要点击记录的统计信息,诸如在相同查询序列需求类型所对应的搜索结果页面中,大量用户首次点击同一顺序的搜索结果的时间,或者在查询序列与搜索结果的匹配信息相同的搜索结果页面中,大量用户对不同长度的摘要的点击量,确定摘要长度。例如,假设查询序列的需求类型为软件下载,在该需求类型所对应的搜索结果页面中有10个搜索结果,统计大量用户首次点击每一个搜索结果的时间,该时间即为用户浏览摘要的时间,如大量用户浏览第5个摘要的统计平均时间=大量用户首次点击第5个搜索结果的时间的平均值-大量用户首次点击第4个搜索结果的时间的平均值,据此可以得到用户浏览每一顺序的摘要的统计平均时间,并对该统计平均时间求均值,从而长度确定单元141’得到该需求类型下,用户浏览一个摘要的时间,并根据该时间确定相应的摘要长度,如用户浏览摘要的时间低于3S的,则确定相应的摘要长度为3行,用户浏览摘要的时间超过3S的,则确定相应的摘要长度为4行。又如,假设查询序列与搜索结果的匹配信息为部分匹配,统计部分匹配的搜索结果页面中,用户点击量最大的搜索结果所对应的摘要长度L,长度确定单元141’确定该摘要长度L为该匹配信息所对应的摘要长度。本领域技术人员应能理解上述确定摘要长度的方式仅为举例,其他现有的或今后可能出现的确定摘要长度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图1),摘要生成装置14还根据所述摘要片段,结合所述摘要提取参数,以及所述摘要片段的段权值,生成所述摘要。具体地,摘要生成装置14还根据片段提取装置13提取的摘要片段,结合参数获取装置12获取的摘要提取参数,以及这些摘要片段的段权值,生成与用户输入查询序列相对应的摘要。例如,片段提取装置13提取多个摘要片段,摘要提取参数为用户输入查询序列的需求类型,摘要生成装置14从这些摘要片段中选择与该需求类型相符的摘要片段,再根据这些相符的摘要片段的段权值,选择段权值最高的4个相符的摘要片段生成摘要。本领域技术人员应能理解上述生成摘要的方式仅为举例,其他现有的或今后可能出现的生成摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述段权值基于但不限于,以下至少任一项:
1)所述摘要片段中与所述查询序列相对应的查询关键词的个数;
2)所述摘要片段中与所述查询序列相对应的查询关键词的权值;
3)所述摘要片段在所述文档中的位置;
4)所述摘要片段与所述文档的标题的相似度。
具体地,1)摘要片段的段权值可以基于该摘要片段中查询关键词的个数,在此,查询关键词由对查询序列进行切分获得;例如,假设查询序列为“杏仁 薏仁”,对该查询序列进行切分,得到查询关键词“杏仁”和“薏仁”,则摘要片段中包括“杏仁”和“薏仁”的个数越多,该摘要片段的段权值越大。2)摘要片段的段权值还可以基于该摘要片段中查询关键词的权值,在此,查询关键词由对查询序列进行切分获得,不同查询关键词的权值也不相同;例如,假设查询序列为“宫 穿越”,对该查询序列进行切分,得到查询关键词“宫”和“穿越”,且“宫”的权值>“穿越”的权值,则包括“宫”和“穿越”的摘要片段的段权值>仅包括“宫”的摘要片段的段权值>仅包括“穿越”的摘要片段的段权值。3)摘要片段的段权值还可以基于该摘要片段在搜索结果所对应文档中的位置,例如,位于文档首段的摘要片段的段权值>位于文档中间的摘要片段的段权值>位于文档末尾的摘要片段的段权值。4)摘要片段的段权值还可以基于该摘要片段与搜索结果所对应文档的标题的相似度,摘要片段与该文档标题的相似度越高,其段权值也越大。
需要说明的是,本领域技术人员应能理解,上述摘要片段段权值的每一个参考因素不仅可以单独用于确定摘要片段的段权值,还可以将其中多个参考因素相结合用于确定摘要片段的段权值。本领域技术人员还应能理解上述摘要片段段权值的参考因素仅为举例,其他现有的或今后可能出现的摘要片段段权值的参考因素如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图1),片段提取装置13还从所述搜索结果所对应的文档中提取与所述查询序列相对应的匹配句;根据所述匹配句,参照所述匹配句的相关信息,生成所述摘要片段。具体地,片段提取装置13还从搜索结果所对应的文档中提取与用户输入查询序列相对应的匹配句,并根据这些匹配句,结合这些匹配句的相关信息,诸如匹配句之间的紧密度、匹配句在文档中的位置、匹配句的内容重复度等,生成相应的摘要片段。例如,片段提取装置13对用户输入的查询序列进行切分,获得查询关键词,从该查询序列的搜索结果所对应的文档中提取包括查询关键词的匹配句,再根据这些匹配句之间的紧密度以及这些匹配句在文档中的位置,选择紧密度较高且在文档位置较靠前的匹配句,将这些匹配句合并生成摘要片段。本领域技术人员应能理解上述生成摘要的方式仅为举例,其他现有的或今后可能出现的生成摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述相关信息包括但不限于,以下至少任一项:
1)所述匹配句之间的紧密度;
2)所述匹配句在文档中的位置;
3)所述匹配句在文档段落中的位置;
4)所述匹配句的内容重复度;
5)所述匹配句的基础权值;
6)所述匹配句的匹配权值。
具体地,匹配句的相关信息包括但不限于,以下至少任一项:1)匹配句之间的紧密度,包括匹配句所处位置之间的紧密度、匹配句内容之间的相关度等,其中,匹配句所处位置之间的紧密度指匹配句是否处于相同的内容块,如最佳答案块、补充答案块、其他问题块等,相互之间紧密度越高的匹配句,被选中生成摘要片段的可能性越高;2)匹配句在文档中的位置,包括匹配句位于文档的标题、正文、侧边栏、脚注等,位于文档正文的匹配句被选中生成摘要片段的可能性更高;3)匹配句在文档段落中的位置,包括匹配句位于文档段落的首句、中间、或者末句等,位于文档段落的首句和末句的匹配句被选中生成摘要片段的可能性更高;4)匹配句的内容重复度,包括匹配句与查询序列的内容重复度、匹配句之间的内容重复度和匹配句与文档标题的内容重复度,其中,匹配句与查询序列的内容重复度较高的内容一般会作为较相关内容纳入摘要片段,由于文档标题多会作为搜索结果的标题,同时为了提高摘要片段的可读性和增加摘要片段的有效内容,与文档标题的内容重复度较高的内容,不会被纳入摘要片段,而匹配句之间相互重复的内容则可以经过去重处理,将去重后的内容纳入摘要片段;5)匹配句的基础权值,根据匹配句与文档主题的相关度确定,匹配句与文档主题的相关度越高,其相应的基础权值越高,被选中生成摘要片段的可能性越高;6)匹配句的匹配权值,根据匹配句与查询序列中查询关键词的匹配程度确定,当匹配句与查询序列完全匹配时,即该匹配句包括所有查询关键词,其相应的匹配权值最高,还可以进一步结合该匹配句中查询关键词的个数,包括单个出现的查询关键词的个数以及各查询关键词的重复次数,根据该匹配句中查询关键词的个数和各查询关键词的重复次数调高其匹配权值,当匹配句与查询序列部分匹配时,即该匹配句包括部分查询关键词,其相应的匹配权值由该匹配句中包括的查询关键词的权值决定,该查询关键词的权值越高的,其所在的匹配句的匹配权值也越高,同样可以进一步结合该匹配句中查询关键词的个数,并根据该匹配句中查询关键词的个数调高其匹配权值。
需要说明的是,本领域技术人员应能理解,上述各项匹配句的相关信息不仅可以单独用于匹配句的选择,还可以将其中多项匹配句的相关信息相结合用于匹配句的选择。本领域技术人员还应能理解上述匹配句的相关信息仅为举例,其他现有的或今后可能出现的匹配句的相关信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中(参照图1),所述摘要提取参数包括但不限于,以下至少任一项:
1)所述查询序列的需求类型;
2)所述搜索结果与所述查询序列的匹配信息。
具体地,摘要提取参数包括但不限于,以下至少任一项:1)用户输入查询序列的需求类型,诸如问答类、商情类、下载类、小说类等;参数获取装置12可以对用户输入的查询序列进行切分,获得查询关键词,再根据查询关键词确定相应的需求类型,如查询序列“2011年2月有哪些商场做促销”,切分后获得查询关键词“2011年”、“2月”、“哪些”、“商场”和“促销”,根据“哪些”确定该查询序列的需求类型为问答型;2)搜索结果与查询序列的匹配信息包括完全匹配和部分匹配,在此,完全匹配指切分查询序列获得的查询关键词连续或者非连续出现在该文档的同一段落内;部分匹配指查询关键词分散出现在不同的文档段落,即该文档中不存在一个同时包含这(些)查询关键词的段落。本领域技术人员应能理解,上述各项摘要提取参数不仅可以单独作为摘要生成的参考因素,还可以共同作为摘要生成的参考因素。本领域技术人员还应能理解上述摘要提取参数仅为举例,其他现有的或今后可能出现的摘要提取参数如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述摘要提取参数包括所述查询序列的需求类型;参数获取装置12还根据所述查询序列的查询相关属性,获取所述查询序列的需求类型。具体地,摘要提取参数包括用户输入查询序列的需求类型,参数获取装置12根据用户输入查询序列的查询相关属性,诸如用户历史查询记录、该查询序列的语义分析结果等,获取该查询序列的需求类型。例如,当摘要提取参数包括用户输入查询序列的需求类型时,假设查询序列为“2011年2月有哪些商场做促销”,参数获取装置12对该查询序列切分后获得查询关键词“2011年”、“2月”、“哪些”、“商场”和“促销”,根据“哪些”确定该查询序列的需求类型为问答型。本领域技术人员应能理解上述获取查询序列的需求类型的方式仅为举例,其他现有的或今后可能出现的获取查询序列的需求类型的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述查询相关属性包括但不限于,以下至少任一项:
1)用户历史查询记录;
2)所述查询序列的语义分析结果;
3)查询序列分类信息。
具体地,1)用户历史查询记录,包括当前输入该查询序列的用户的历史查询记录和大量用户对该查询序列的历史查询记录。例如,将当前输入该查询序列的用户的若干次连续查询行为当做一个单元,在该单元中,该当前用户的查询主题是相同的,而其每次输入的查询序列可能不一致,如先后输入“五笔输入法”、“五笔输入法 下载”等,据此参数获取装置12确定该用户的与查询关键词“五笔输入法”对应的序列类型为下载类。又如,用户输入的查询序列为“五笔输入法”,但是该用户点击的搜索结果均是关于五笔输入法的下载信息,据此参数获取装置12获取该用户的与查询关键词“五笔输入法”对应的序列类型为下载类。还如,对于新闻类的查询需求,在特定时间内其查询次数会激增,如在元宵期间,大量用户对“赵本山 元宵晚会”的查询次数会激增,而在元宵节之前和之后,查询次数均较少,据此参数获取装置12确定该查询序列的需求类型为新闻类。
2)根据查询序列的语义分析结果获取查询序列的需求类型的方式包括但不限于:对查询序列进行语义分析,根据获得的语义分析结果确定该查询序列的需求类型,如对“五笔输入法 下载”进行语义分析,获得其需求类型为下载类;切分查询序列,对切分获得的查询关键词进行语义分析,如切分查询序列“2011年2月有哪些商场做促销”,获得查询关键词“2011年”、“2月”、“哪些”、“商场”和“促销”,根据“哪些”确定该查询序列的需求类型为问答型。
3)根据查询序列分类信息获取查询序列的需求类型的方式包括但不限于:切分查询序列,对切分获得的查询关键词与专有词进行匹配,当匹配成功时,该专有词的分类信息即为该查询序列的需求类型,在此,专有词的分类信息来源于对特定视频网站、特定小说网站等知名网站的资源挖掘,对从这些网站获取的专有词按照来源网站的属性进行分类,以获得相应专有词的分类信息。例如,对“小说阅读网”进行资源挖掘,获得专有词“绾青丝”,其分类信息为“小说”,据此确定当用户输入查询序列“绾青丝”时,该查询序列的需求类型为小说类。
本领域技术人员应能理解,上述各项查询相关属性不仅可以单独用于获取查询序列的需求类型,还可以将其中多项查询相关属性相结合共同用于获取查询序列的需求类型。本领域技术人员还应能理解上述查询相关属性仅为举例,其他现有的或今后可能出现的查询相关属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述摘要提取参数包括所述搜索结果与所述查询序列的匹配信息;摘要生成装置14当所述搜索结果与所述查询序列的匹配信息包括部分匹配时,根据所述查询序列中各查询关键词的权重,对所述摘要片段进行筛选处理,以获取筛选后的所述摘要片段;根据所述筛选后的摘要片段,生成所述摘要。具体地,摘要提取参数包括搜索结果与用户输入查询序列的匹配信息;摘要生成装置14当该匹配信息包括部分匹配时,根据该查询序列中各查询关键词的权重,对片段提取装置13提取的摘要片段进行筛选处理,以获取筛选后的摘要片段,并根据这些筛选后的摘要片段,生成与该查询序列相对应的摘要。例如,摘要提取参数包括搜索结果与用户输入查询序列的匹配信息,当该匹配信息为部分匹配时,根据该查询序列中各查询关键词的权重,如查询序列“宫 穿越”,切分获得查询关键词“宫”和“穿越”,其中,“宫”的权重>“穿越”的权重,片段提取装置13提取出仅包括“宫”的摘要片段和仅包括“穿越”的摘要片段,摘要生成装置14对这些摘要片段进行筛选处理,获得仅包括“宫”的摘要片段,并据此生成摘要。本领域技术人员应能理解上述生成摘要的方式仅为举例,其他现有的或今后可能出现的生成摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在再一个优选实施例中(参照图1),摘要生成设备1还包括提供装置(未示出),该提供装置将所述摘要提供至所述用户设备。具体地,提供装置将摘要生成装置14生成的摘要提供至输入查询序列的用户设备。例如,摘要生成装置14生成与用户经由用户设备输入的查询序列相对应的摘要,提供装置将这些摘要置于搜索结果页面中,与该查询序列所对应的搜索结果一并发送至该用户设备;在此,摘要或者位于其对应搜索结果的下方,或者当用户的鼠标停留在某一搜索结果上时,该搜索结果所对应的摘要即以悬浮窗的形式显示,或者以逐个收起的形式统一显示在搜索结果页面的右侧,与该摘要对应的搜索结果相平行,当鼠标停留在某一搜索结果上时,其右侧的相应文档摘要则展开显示。本领域技术人员应能理解上述提供摘要的方式仅为举例,其他现有的或今后可能出现的提供摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图3为根据本发明另一个方面的方法流程图,示出一种用于生成搜索结果的摘要的过程。具体地,在步骤S1中,摘要生成设备1获取与用户经由用户设备输入的查询序列相对应的搜索结果;接着,在步骤S2中,摘要生成设备1获取所述搜索结果所对应的文档的摘要提取参数;在步骤S3中,摘要生成设备1根据所述查询序列,从所述文档中提取与所述查询序列相对应的摘要片段;随后,在步骤S4中,摘要生成设备1根据所述摘要片段,结合所述摘要提取参数,生成所述摘要。在此,摘要生成设备1包括但不限于搜索引擎、或者与之相连的专用设备,其中,该专用设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合。本领域技术人员应能理解上述摘要生成设备仅为举例,其他现有的或今后可能出现的摘要生成设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更具体地,在步骤S1中,摘要生成设备1获取与用户经由用户设备输入的查询序列相对应的搜索结果。具体地,在步骤S1中,摘要生成设备1通过诸如在其自身或者第三方设备的搜索信息库中进行查询、或者接收第三方设备发送的与用户经由用户设备输入的查询序列相对应的搜索结果,从而获取与用户经由用户设备输入的查询序列相对应的搜索结果。例如,用户通过鼠标、键盘或者手写板等输入设备向用户设备输入查询序列,用户设备将该查询序列发送至搜索引擎,该搜索引擎将基于该查询序列的搜索结果发送至摘要生成设备1,摘要生成设备1据此获取该搜索结果。本领域技术人员应能理解上述获取搜索结果的方式仅为举例,其他现有的或今后可能出现的获取搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,在步骤S2中,摘要生成设备1获取所述搜索结果所对应的文档的摘要提取参数。具体地,在步骤S2中,摘要生成设备1获取其在步骤S1中获取的搜索结果所对应的文档的摘要提取参数,诸如用户输入查询序列的需求类型、搜索结果与查询序列的匹配信息等。例如,在步骤S1中,摘要生成设备1获取与用户输入查询序列相对应的搜索结果,在步骤S2中,摘要生成设备1根据该搜索结果,获取该搜索结果与该查询序列的匹配信息,如完全匹配或部分匹配,以作为该文档的摘要提取参数。在此,完全匹配指切分查询序列获得的查询关键词连续或者非连续出现在该文档的同一段落内;部分匹配指查询关键词分散出现在不同的文档段落,即该文档中不存在一个同时包含这(些)查询关键词的段落。又如,在步骤S2中,摘要生成设备1对用户经由用户设备输入的查询序列进行切分,并对切分后的查询词进行语义分析,以获得该查询序列的需求类型,以作为该文档的摘要提取参数。本领域技术人员应能理解上述获取摘要提取参数的方式仅为举例,其他现有的或今后可能出现的获取摘要提取参数的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S3中,摘要生成设备1根据所述查询序列,从所述文档中提取与所述查询序列相对应的摘要片段。具体地,在步骤S3中,摘要生成设备1根据用户输入的查询序列,从其在步骤S1中获取的搜索结果所对应的文档中提取与该查询序列相对应的摘要片段。例如,在步骤S1中,摘要生成设备1获取与用户输入查询序列相对应的搜索结果,在步骤S3中,摘要生成设备1根据该查询序列,从该搜索结果所对应的文档中提取与该查询序列、或者该查询序列所包括的查询关键词相匹配的摘要片段。本领域技术人员应能理解上述提取摘要片段的方式仅为举例,其他现有的或今后可能出现的提取摘要片段的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
需要说明的是,本领域技术人员应能理解,步骤S2中摘要生成设备1获取摘要提取参数的操作,与步骤S3中摘要生成设备1提取摘要片段的操作之间不具有顺序关系,而是相互独立执行的。在步骤S1摘要生成设备1获取搜索结果之后,摘要生成设备1既可以向执行步骤S2获取摘要提取参数,然后再执行步骤S3提取摘要片段;也可以先执行步骤S3提取摘要片段,然后再执行步骤S2获取摘要提取参数;还可以执行步骤S2获取摘要提取参数的同时,执行步骤S3提取摘要片段。
随后,在步骤S4中,摘要生成设备1根据所述摘要片段,结合所述摘要提取参数,生成与所述查询序列相对应的摘要。具体地,在步骤S4中,摘要生成设备1根据其在步骤S3中提取的摘要片段,结合其在步骤S2中获取的摘要提取参数,生成与用户输入查询序列相对应的摘要。例如,假设用户经由用户设备输入的查询序列为“2011年2月上映的电影有哪些”,在步骤S1中,摘要生成设备1获取与该查询序列相对应的搜索结果;在步骤S2中,摘要生成设备1对该查询序列进行语义分析,获得其需求类型为问答型;在步骤S3中,摘要生成设备1从该搜索结果中提取与该查询序列相匹配的摘要片段;在步骤S4中,摘要生成设备1从这些摘要片段中选择符合该需求类型的摘要片段,如根据这些摘要片段在文档中所属区域,选择位于答案区的摘要片段,并将这些相符的摘要片段合并,以生成与该查询序列相对应的摘要。又如,假设用户经由用户设备输入的查询序列为“杏仁 薏仁”,在步骤S1中,摘要生成设备1获取与该查询序列相对应的搜索结果;在步骤S2中,摘要生成设备1获取该查询序列与该搜索结果的匹配信息为部分匹配,即“杏仁”和“薏仁”出现在不同的文档段落;在步骤S3中,摘要生成设备1从该搜索结果中提取与“杏仁”或者“薏仁”相匹配的摘要片段;在步骤S4中,摘要生成设备1从这些摘要片段中选择“杏仁”出现最多的摘要片段和“薏仁”出现最多的摘要片段,将这两个摘要片段合并,以生成与该查询序列相对应的摘要。本领域技术人员应能理解上述生成摘要的方式仅为举例,其他现有的或今后可能出现的生成摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,摘要生成设备1在步骤S1、步骤S2、步骤S3和步骤S4是持续不断工作的。具体地,在步骤S1中,摘要生成设备1获取与用户经由用户设备输入的查询序列相对应的搜索结果;接着,在步骤S2中,摘要生成设备1获取所述搜索结果所对应的文档的摘要提取参数;在步骤S3中,摘要生成设备1根据所述查询序列,从所述文档中提取与所述查询序列相对应的摘要片段;随后,在步骤S4中,摘要生成设备1根据所述摘要片段,结合所述摘要提取参数,生成所述摘要。在此,本领域技术人员应理解“持续”是指摘要生成设备1在步骤S1、步骤S2、步骤S3和步骤S4分别按照设定的或实时调整的工作模式要求进行搜索结果的获取,摘要提取参数的获取,摘要片段的提取,以及摘要的生成,直至用户在较长时间内停止向用户设备输入查询序列。
图4为根据本发明一个优选实施例的方法流程图,示出一种用于生成搜索结果的摘要的过程。其中,图4中步骤S1’、步骤S2’和步骤S3’的内容与图3中步骤S1、步骤S2和步骤S3的内容相同,为简明起见,不再赘述,以引用方式包含于此。
在步骤S41’中,摘要生成设备1根据所述摘要提取参数,确定与所述摘要提取参数相对应的摘要长度;在步骤S42’中,摘要生成设备1根据所述摘要片段,结合所述摘要长度,生成所述摘要。
具体地,在步骤S41’中,摘要生成设备1根据所述摘要提取参数,确定或调整与所述摘要提取参数相对应的摘要长度。具体地,在步骤S41’中,摘要生成设备1根据其在步骤S3’中获取的摘要提取参数,诸如用户输入查询序列的需求类型、搜索结果与查询序列的匹配信息等,确定与这(些)摘要提取参数相对应的摘要长度。例如,假设用户输入查询序列的需求类型为问答型,在步骤S41’中,摘要生成设备1根据该需求类型,确定相应的摘要长度为答案的长度。又如,假设预设摘要长度为2行,用户输入查询序列与其相应搜索结果的匹配信息为部分匹配,在步骤S41’中,摘要生成设备1根据该匹配信息,调整相应的摘要长度,如将摘要程度增至4行。还如,假设摘要提取参数包括用户输入查询序列的需求类型和查询序列与其相应搜索结果的匹配信息,在步骤S41’中,摘要生成设备1根据该需求类型确定初始摘要长度,再根据该匹配信息调整该初始摘要长度,从而得到最终的摘要长度。本领域技术人员应能理解上述确定摘要长度的方式仅为举例,其他现有的或今后可能出现的确定摘要长度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S42’中,摘要生成设备1根据所述摘要片段,结合所述摘要长度,生成所述摘要。具体地,在步骤S42’中,摘要生成设备1根据其在步骤S3’中提取的摘要片段,结合其在步骤S41’中根据摘要提取参数确定的摘要长度,生成与用户输入查询序列相对应的摘要。例如,在步骤S3’中,摘要生成设备1提取与查询序列相对应的摘要片段,摘要提取参数为查询序列的需求类型“问答型”;在步骤S41’中,摘要生成设备1根据该“问答型”确定相应的摘要长度为全部答案的长度;则在步骤S42’中,摘要生成设备1选择该查询序列的答案所在的摘要片段,如最佳答案所在的摘要片段,如果该摘要片段未完全包括最佳答案,则将该摘要片段扩展至完整的最佳答案,并根据该“最佳答案”摘要片段生成相应的摘要。优选地,如果还有其他摘要片段包括或者部分包括其他答案,在步骤S42’中,摘要生成设备1还可以将该其他摘要片段与完全包括“最佳答案”的摘要片段结合,生成相应的摘要;更优选地,摘要生成设备1还可以将该其他摘要片段扩展至完整的其他答案,并将该完全包括“其他答案”的摘要片段与完全包括“最佳答案”的摘要片段结合,生成相应的摘要。本领域技术人员应能理解上述生成摘要的方式仅为举例,其他现有的或今后可能出现的生成摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在步骤S41’中,摘要生成设备1还根据所述摘要提取参数,结合大量用户的摘要点击记录的统计信息,确定所述摘要长度。具体地,在步骤S41’中,摘要生成设备1还根据其在步骤S2’中获取的摘要提取参数,结合大量用户的摘要点击记录的统计信息,诸如在相同查询序列需求类型所对应的搜索结果页面中,大量用户首次点击同一顺序的搜索结果的时间,或者在查询序列与搜索结果的匹配信息相同的搜索结果页面中,大量用户对不同长度的摘要的点击量,确定摘要长度。例如,假设查询序列的需求类型为软件下载,在该需求类型所对应的搜索结果页面中有10个搜索结果,统计大量用户首次点击每一个搜索结果的时间,该时间即为用户浏览摘要的时间,如大量用户浏览第5个摘要的统计平均时间=大量用户首次点击第5个搜索结果的时间的平均值-大量用户首次点击第4个搜索结果的时间的平均值,据此可以得到用户浏览每一顺序的摘要的统计平均时间,并对该统计平均时间求均值,从而摘要生成设备1得到该需求类型下,用户浏览一个摘要的时间,并根据该时间确定相应的摘要长度,如用户浏览摘要的时间低于3S的,则确定相应的摘要长度为3行,用户浏览摘要的时间超过3S的,则确定相应的摘要长度为4行。又如,假设查询序列与搜索结果的匹配信息为部分匹配,统计部分匹配的搜索结果页面中,用户点击量最大的搜索结果所对应的摘要长度L,摘要生成设备1确定该摘要长度L为该匹配信息所对应的摘要长度。本领域技术人员应能理解上述确定摘要长度的方式仅为举例,其他现有的或今后可能出现的确定摘要长度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图3),在步骤S4中,摘要生成设备1还根据所述摘要片段,结合所述摘要提取参数,以及所述摘要片段的段权值,生成所述摘要。具体地,在步骤S4中,摘要生成设备1还根据其在步骤S3中提取的摘要片段,结合其在步骤S2中获取的摘要提取参数,以及这些摘要片段的段权值,生成与用户输入查询序列相对应的摘要。例如,在步骤S3中,摘要生成设备1提取多个摘要片段,摘要提取参数为用户输入查询序列的需求类型;在步骤S4中,摘要生成设备1从这些摘要片段中选择与该需求类型相符的摘要片段,再根据这些相符的摘要片段的段权值,选择段权值最高的4个相符的摘要片段生成摘要。本领域技术人员应能理解上述生成摘要的方式仅为举例,其他现有的或今后可能出现的生成摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述段权值基于但不限于,以下至少任一项:
1)所述摘要片段中与所述查询序列相对应的查询关键词的个数;
2)所述摘要片段中与所述查询序列相对应的查询关键词的权值;
3)所述摘要片段在所述文档中的位置;
4)所述摘要片段与所述文档的标题的相似度。
具体地,1)摘要片段的段权值可以基于该摘要片段中查询关键词的个数,在此,查询关键词由对查询序列进行切分获得;例如,假设查询序列为“杏仁 薏仁”,对该查询序列进行切分,得到查询关键词“杏仁”和“薏仁”,则摘要片段中包括“杏仁”和“薏仁”的个数越多,该摘要片段的段权值越大。2)摘要片段的段权值还可以基于该摘要片段中查询关键词的权值,在此,查询关键词由对查询序列进行切分获得,不同查询关键词的权值也不相同;例如,假设查询序列为“宫 穿越”,对该查询序列进行切分,得到查询关键词“宫”和“穿越”,且“宫”的权值>“穿越”的权值,则包括“宫”和“穿越”的摘要片段的段权值>仅包括“宫”的摘要片段的段权值>仅包括“穿越”的摘要片段的段权值。3)摘要片段的段权值还可以基于该摘要片段在搜索结果所对应文档中的位置,例如,位于文档首段的摘要片段的段权值>位于文档中间的摘要片段的段权值>位于文档末尾的摘要片段的段权值。4)摘要片段的段权值还可以基于该摘要片段与搜索结果所对应文档的标题的相似度,摘要片段与该文档标题的相似度越高,其段权值也越大。
需要说明的是,本领域技术人员应能理解,上述摘要片段段权值的每一个参考因素不仅可以单独用于确定摘要片段的段权值,还可以将其中多个参考因素相结合用于确定摘要片段的段权值。本领域技术人员还应能理解上述摘要片段段权值的参考因素仅为举例,其他现有的或今后可能出现的摘要片段段权值的参考因素如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图3),在步骤S3中,摘要生成设备1还从所述搜索结果所对应的文档中提取与所述查询序列相对应的匹配句;根据所述匹配句,参照所述匹配句的相关信息,生成所述摘要片段。具体地,在步骤S3中,摘要生成设备1还从搜索结果所对应的文档中提取与用户输入查询序列相对应的匹配句,并根据这些匹配句,结合这些匹配句的相关信息,诸如匹配句之间的紧密度、匹配句在文档中的位置、匹配句的内容重复度等,生成相应的摘要片段。例如,在步骤S3中,摘要生成设备1对用户输入的查询序列进行切分,获得查询关键词,从该查询序列的搜索结果所对应的文档中提取包括查询关键词的匹配句,再根据这些匹配句之间的紧密度以及这些匹配句在文档中的位置,选择紧密度较高且在文档位置较靠前的匹配句,将这些匹配句合并生成摘要片段。本领域技术人员应能理解上述生成摘要的方式仅为举例,其他现有的或今后可能出现的生成摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述相关信息包括但不限于,以下至少任一项:
1)所述匹配句之间的紧密度;
2)所述匹配句在文档中的位置;
3)所述匹配句在文档段落中的位置;
4)所述匹配句的内容重复度;
5)所述匹配句的基础权值;
6)所述匹配句的匹配权值。
具体地,匹配句的相关信息包括但不限于,以下至少任一项:1)匹配句之间的紧密度,包括匹配句所处位置之间的紧密度、匹配句内容之间的相关度等,其中,匹配句所处位置之间的紧密度指匹配句是否处于相同的内容块,如最佳答案块、补充答案块、其他问题块等,相互之间紧密度越高的匹配句,被选中生成摘要片段的可能性越高;2)匹配句在文档中的位置,包括匹配句位于文档的标题、正文、侧边栏、脚注等,位于文档正文的匹配句被选中生成摘要片段的可能性更高;3)匹配句在文档段落中的位置,包括匹配句位于文档段落的首句、中间、或者末句等,位于文档段落的首句和末句的匹配句被选中生成摘要片段的可能性更高;4)匹配句的内容重复度,包括匹配句与查询序列的内容重复度、匹配句之间的内容重复度和匹配句与文档标题的内容重复度,其中,匹配句与查询序列的内容重复度较高的内容一般会作为较相关内容纳入摘要片段,由于文档标题多会作为搜索结果的标题,同时为了提高摘要片段的可读性和增加摘要片段的有效内容,与文档标题的内容重复度较高的内容,不会被纳入摘要片段,而匹配句之间相互重复的内容则可以经过去重处理,将去重后的内容纳入摘要片段;5)匹配句的基础权值,根据匹配句与文档主题的相关度确定,匹配句与文档主题的相关度越高,其相应的基础权值越高,被选中生成摘要片段的可能性越高;6)匹配句的匹配权值,根据匹配句与查询序列中查询关键词的匹配程度确定,当匹配句与查询序列完全匹配时,即该匹配句包括所有查询关键词,其相应的匹配权值最高,还可以进一步结合该匹配句中查询关键词的个数,包括单个出现的查询关键词的个数以及各查询关键词的重复次数,根据该匹配句中查询关键词的个数和各查询关键词的重复次数调高其匹配权值,当匹配句与查询序列部分匹配时,即该匹配句包括部分查询关键词,其相应的匹配权值由该匹配句中包括的查询关键词的权值决定,该查询关键词的权值越高的,其所在的匹配句的匹配权值也越高,同样可以进一步结合该匹配句中查询关键词的个数,并根据该匹配句中查询关键词的个数调高其匹配权值。
需要说明的是,本领域技术人员应能理解,上述各项匹配句的相关信息不仅可以单独用于匹配句的选择,还可以将其中多项匹配句的相关信息相结合用于匹配句的选择。本领域技术人员还应能理解上述匹配句的相关信息仅为举例,其他现有的或今后可能出现的匹配句的相关信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中(参照图3),所述摘要提取参数包括但不限于,以下至少任一项:
1)所述查询序列的需求类型;
2)所述搜索结果与所述查询序列的匹配信息。
具体地,摘要提取参数包括但不限于,以下至少任一项:1)用户输入查询序列的需求类型,诸如问答类、商情类、下载类、小说类等;摘要生成设备1可以对用户输入的查询序列进行切分,获得查询关键词,再根据查询关键词确定相应的需求类型,如查询序列“2011年2月有哪些商场做促销”,切分后获得查询关键词“2011年”、“2月”、“哪些”、“商场”和“促销”,根据“哪些”确定该查询序列的需求类型为问答型;2)搜索结果与查询序列的匹配信息包括完全匹配和部分匹配,在此,完全匹配指切分查询序列获得的查询关键词连续或者非连续出现在该文档的同一段落内;部分匹配指查询关键词分散出现在不同的文档段落,即该文档中不存在一个同时包含这(些)查询关键词的段落。本领域技术人员应能理解,上述各项摘要提取参数不仅可以单独作为摘要生成的参考因素,还可以共同作为摘要生成的参考因素。本领域技术人员还应能理解上述摘要提取参数仅为举例,其他现有的或今后可能出现的摘要提取参数如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述摘要提取参数包括所述查询序列的需求类型;在步骤S2中,摘要生成设备1还根据所述查询序列的查询相关属性,获取所述查询序列的需求类型。具体地,摘要提取参数包括用户输入查询序列的需求类型,在步骤S2中,摘要生成设备1根据用户输入查询序列的查询相关属性,诸如用户历史查询记录、该查询序列的语义分析结果等,获取该查询序列的需求类型。例如,当摘要提取参数包括用户输入查询序列的需求类型时,假设查询序列为“2011年2月有哪些商场做促销”,在步骤S2中,摘要生成设备1对该查询序列切分后获得查询关键词“2011年”、“2月”、“哪些”、“商场”和“促销”,根据“哪些”确定该查询序列的需求类型为问答型。本领域技术人员应能理解上述获取查询序列的需求类型的方式仅为举例,其他现有的或今后可能出现的获取查询序列的需求类型的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述查询相关属性包括但不限于,以下至少任一项:
1)用户历史查询记录;
2)所述查询序列的语义分析结果;
3)查询序列分类信息。
具体地,1)用户历史查询记录,包括当前输入该查询序列的用户的历史查询记录和大量用户对该查询序列的历史查询记录。例如,将当前输入该查询序列的用户的若干次连续查询行为当做一个单元,在该单元中,该当前用户的查询主题是相同的,而其每次输入的查询序列可能不一致,如先后输入“五笔输入法”、“五笔输入法 下载”等,据此摘要生成设备1确定该用户的与查询关键词“五笔输入法”对应的序列类型为下载类。又如,用户输入的查询序列为“五笔输入法”,但是该用户点击的搜索结果均是关于五笔输入法的下载信息,据此摘要生成设备1获取该用户的与查询关键词“五笔输入法”对应的序列类型为下载类。还如,对于新闻类的查询需求,在特定时间内其查询次数会激增,如在元宵期间,大量用户对“赵本山 元宵晚会”的查询次数会激增,而在元宵节之前和之后,查询次数均较少,据此摘要生成设备1确定该查询序列的需求类型为新闻类。
2)根据查询序列的语义分析结果获取查询序列的需求类型的方式包括但不限于:对查询序列进行语义分析,根据获得的语义分析结果确定该查询序列的需求类型,如对“五笔输入法 下载”进行语义分析,获得其需求类型为下载类;切分查询序列,对切分获得的查询关键词进行语义分析,如切分查询序列“2011年2月有哪些商场做促销”,获得查询关键词“2011年”、“2月”、“哪些”、“商场”和“促销”,根据“哪些”确定该查询序列的需求类型为问答型。
3)根据查询序列分类信息获取查询序列的需求类型的方式包括但不限于:切分查询序列,对切分获得的查询关键词与专有词进行匹配,当匹配成功时,该专有词的分类信息即为该查询序列的需求类型,在此,专有词的分类信息来源于对特定视频网站、特定小说网站等知名网站的资源挖掘,对从这些网站获取的专有词按照来源网站的属性进行分类,以获得相应专有词的分类信息。例如,对“小说阅读网”进行资源挖掘,获得专有词“绾青丝”,其分类信息为“小说”,据此确定当用户输入查询序列“绾青丝”时,该查询序列的需求类型为小说类。
本领域技术人员应能理解,上述各项查询相关属性不仅可以单独用于获取查询序列的需求类型,还可以将其中多项查询相关属性相结合共同用于获取查询序列的需求类型。本领域技术人员还应能理解上述查询相关属性仅为举例,其他现有的或今后可能出现的查询相关属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述摘要提取参数包括所述搜索结果与所述查询序列的匹配信息;在步骤S4中,摘要生成设备1当所述搜索结果与所述查询序列的匹配信息包括部分匹配时,根据所述查询序列中各查询关键词的权重,对所述摘要片段进行筛选处理,以获取筛选后的所述摘要片段;根据所述筛选后的摘要片段,生成所述摘要。具体地,摘要提取参数包括搜索结果与用户输入查询序列的匹配信息;在步骤S4中,摘要生成设备1当该匹配信息包括部分匹配时,根据该查询序列中各查询关键词的权重,对其在步骤S3中提取的摘要片段进行筛选处理,以获取筛选后的摘要片段,并根据这些筛选后的摘要片段,生成与该查询序列相对应的摘要。例如,摘要提取参数包括搜索结果与用户输入查询序列的匹配信息,当该匹配信息为部分匹配时,根据该查询序列中各查询关键词的权重,如查询序列“宫 穿越”,切分获得查询关键词“宫”和“穿越”,其中,“宫”的权重>“穿越”的权重;在步骤S3中,摘要生成设备1提取出仅包括“宫”的摘要片段和仅包括“穿越”的摘要片段;在步骤S4中,摘要生成设备1对这些摘要片段进行筛选处理,获得仅包括“宫”的摘要片段,并据此生成摘要。本领域技术人员应能理解上述生成摘要的方式仅为举例,其他现有的或今后可能出现的生成摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在再一个优选实施例中(参照图3),该过程还包括步骤S5(未示出),在步骤S5中,摘要生成设备1将所述摘要提供至所述用户设备。具体地,在步骤S5中,摘要生成设备1将其在步骤S4中生成的摘要提供至输入查询序列的用户设备。例如,在步骤S4中,摘要生成设备1生成与用户经由用户设备输入的查询序列相对应的摘要;在步骤S5中,摘要生成设备1将这些摘要置于搜索结果页面中,与该查询序列所对应的搜索结果一并发送至该用户设备;在此,摘要或者位于其对应搜索结果的下方,或者当用户的鼠标停留在某一搜索结果上时,该搜索结果所对应的摘要即以悬浮窗的形式显示,或者以逐个收起的形式统一显示在搜索结果页面的右侧,与该摘要对应的搜索结果相平行,当鼠标停留在某一搜索结果上时,其右侧的相应文档摘要则展开显示。本领域技术人员应能理解上述提供摘要的方式仅为举例,其他现有的或今后可能出现的提供摘要的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (22)

1.一种计算机实现的用于生成搜索结果的摘要的方法,其中,该方法包括以下步骤:
a获取与用户经由用户设备输入的查询序列相对应的搜索结果;
b获取所述搜索结果所对应的文档的摘要提取参数;
其中,所述摘要提取参数包括以下至少任一项:
-所述查询序列的需求类型;
-所述搜索结果与所述查询序列的匹配信息;
其中,该方法还包括:
x根据所述查询序列,从所述文档中提取与所述查询序列相对应的摘要片段;
y根据所述摘要片段,结合所述摘要提取参数,生成与所述查询序列相对应的摘要。
2.根据权利要求1所述的方法,其中,所述步骤y还包括:
y1根据所述摘要提取参数,确定或调整与所述摘要提取参数相对应的摘要长度;
y2根据所述摘要片段,结合所述摘要长度,生成所述摘要。
3.根据权利要求2所述的方法,其中,所述步骤y1还包括:
-根据所述摘要提取参数,结合大量用户的摘要点击记录的统计信息,确定所述摘要长度。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤y还包括:
-根据所述摘要片段,结合所述摘要提取参数,以及所述摘要片段的段权值,生成所述摘要。
5.根据权利要求4所述的方法,其中,所述段权值基于以下至少任一项:
-所述摘要片段中与所述查询序列相对应的查询关键词的个数;
-所述摘要片段中与所述查询序列相对应的查询关键词的权值;
-所述摘要片段在所述文档中的位置;
-所述摘要片段与所述文档的标题的相似度。
6.根据权利要求1所述的方法,其中,所述步骤x还包括:
-从所述搜索结果所对应的文档中提取与所述查询序列相对应的匹配句;
-根据所述匹配句,参照所述匹配句的相关信息,生成所述摘要片段。
7.根据权利要求6所述的方法,其中,所述相关信息包括以下至少任一项:
-所述匹配句之间的紧密度;
-所述匹配句在文档中的位置;
-所述匹配句在文档段落中的位置;
-所述匹配句的内容重复度;
-所述匹配句的基础权值;
-所述匹配句的匹配权值。
8.根据权利要求1所述的方法,其中,所述摘要提取参数包括所述查询序列的需求类型;
其中,所述步骤b还包括:
-根据所述查询序列的查询相关属性,获取所述查询序列的需求类型。
9.根据权利要求8所述的方法,其中,所述查询相关属性包括以下至少任一项:
-用户历史查询记录;
-所述查询序列的语义分析结果;
-查询序列分类信息。
10.根据权利要求1或8所述的方法,其中,所述摘要提取参数包括所述搜索结果与所述查询序列的匹配信息;
其中,所述步骤y还包括:
-当所述搜索结果与所述查询序列的匹配信息包括部分匹配时,根据所述查询序列中各查询关键词的权重,对所述摘要片段进行筛选处理,以获取筛选后的所述摘要片段,其中,部分匹配指各查询关键词分散出现在不同的文档段落;
-根据所述筛选后的摘要片段,生成所述摘要。
11.根据权利要求1所述的方法,其中,该方法还包括:
z将所述摘要提供至所述用户设备。
12.一种用于生成搜索结果的摘要的设备,其中,该设备包括:
结果获取装置,用于获取与用户经由用户设备输入的查询序列相对应的搜索结果;
参数获取装置,用于获取所述搜索结果所对应的文档的摘要提取参数;
其中,所述摘要提取参数包括以下至少任一项:
-所述查询序列的需求类型;
-所述搜索结果与所述查询序列的匹配信息;
其中,该设备还包括:
片段提取装置,用于根据所述查询序列,从所述文档中提取与所述查询序列相对应的摘要片段;
摘要生成装置,用于根据所述摘要片段,结合所述摘要提取参数,生成与所述查询序列相对应的摘要。
13.根据权利要求12所述的设备,其中,所述摘要生成装置还包括:
长度确定单元,用于根据所述摘要提取参数,确定或调整与所述摘要提取参数相对应的摘要长度;
摘要生成单元,用于根据所述摘要片段,结合所述摘要长度,生成所述摘要。
14.根据权利要求13所述的设备,其中,所述长度确定单元还用于:
-根据所述摘要提取参数,结合大量用户的摘要点击记录的统计信息,确定所述摘要长度。
15.根据权利要求12至14中任一项所述的设备,其中,所述摘要生成装置还用于:
-根据所述摘要片段,结合所述摘要提取参数,以及所述摘要片段的段权值,生成所述摘要。
16.根据权利要求15所述的设备,其中,所述段权值基于以下至少任一项:
-所述摘要片段中与所述查询序列相对应的查询关键词的个数;
-所述摘要片段中与所述查询序列相对应的查询关键词的权值;
-所述摘要片段在所述文档中的位置;
-所述摘要片段与所述文档的标题的相似度。
17.根据权利要求12所述的设备,其中,所述片段提取装置还用于:
-从所述搜索结果所对应的文档中提取与所述查询序列相对应的匹配句;
-根据所述匹配句,参照所述匹配句的相关信息,生成所述摘要片段。
18.根据权利要求17所述的设备,其中,所述相关信息包括以下至少任一项:
-所述匹配句之间的紧密度;
-所述匹配句在文档中的位置;
-所述匹配句在文档段落中的位置;
-所述匹配句的内容重复度;
-所述匹配句的基础权值;
-所述匹配句的匹配权值。
19.根据权利要求12所述的设备,其中,所述摘要提取参数包括所述查询序列的需求类型;
其中,所述参数获取装置还用于:
-根据所述查询序列的查询相关属性,获取所述查询序列的需求类型。
20.根据权利要求19所述的设备,其中,所述查询相关属性包括以下至少任一项:
-用户历史查询记录;
-所述查询序列的语义分析结果;
-查询序列分类信息。
21.根据权利要求12或19所述的设备,其中,所述摘要提取参数包括所述搜索结果与所述查询序列的匹配信息;
其中,所述摘要生成装置还用于:
-当所述搜索结果与所述查询序列的匹配信息包括部分匹配时,根据所述查询序列中各查询关键词的权重,对所述摘要片段进行筛选处理,以获取筛选后的所述摘要片段,其中,部分匹配指各查询关键词分散出现在不同的文档段落;
-根据所述筛选后的摘要片段,生成所述摘要。
22.根据权利要求12所述的设备,其中,该设备还包括:
提供装置,用于将所述摘要提供至所述用户设备。
CN 201110092453 2011-04-13 2011-04-13 一种用于生成搜索结果的摘要的方法与设备 Active CN102163229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110092453 CN102163229B (zh) 2011-04-13 2011-04-13 一种用于生成搜索结果的摘要的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110092453 CN102163229B (zh) 2011-04-13 2011-04-13 一种用于生成搜索结果的摘要的方法与设备

Publications (2)

Publication Number Publication Date
CN102163229A CN102163229A (zh) 2011-08-24
CN102163229B true CN102163229B (zh) 2013-04-17

Family

ID=44464456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110092453 Active CN102163229B (zh) 2011-04-13 2011-04-13 一种用于生成搜索结果的摘要的方法与设备

Country Status (1)

Country Link
CN (1) CN102163229B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105706079A (zh) * 2013-10-31 2016-06-22 隆沙有限公司 主题方面的协作集成
CN108984650B (zh) * 2014-03-26 2020-10-16 上海智臻智能网络科技股份有限公司 计算机可读记录介质及计算机设备
CN104077388A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
WO2016004584A1 (en) * 2014-07-08 2016-01-14 Yahoo! Inc. Method and system for providing a personalized snippet
CN105786853A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种论坛帖子智能摘要的显示方法和系统
CN105786841A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种对新闻类的网页智能摘要的生成方法与系统
CN105786849A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种文档类网页自定义摘要的生成方法和系统
CN104636465B (zh) * 2015-02-10 2018-11-16 百度在线网络技术(北京)有限公司 网页摘要生成方法、展示方法及相应装置
CN105740362A (zh) * 2016-01-26 2016-07-06 百度在线网络技术(北京)有限公司 信息显示方法及显示装置
CN106126561A (zh) * 2016-06-16 2016-11-16 北京百度网讯科技有限公司 搜索结果摘要的生成方法及装置
CN106776860A (zh) * 2016-11-28 2017-05-31 北京三快在线科技有限公司 一种搜索摘要生成方法及装置
JP6415619B2 (ja) * 2017-03-17 2018-10-31 ヤフー株式会社 解析装置、解析方法、およびプログラム
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN111782798B (zh) * 2019-04-03 2024-01-12 阿里巴巴集团控股有限公司 摘要生成方法、装置和设备以及项目管理方法
CN110196901B (zh) * 2019-06-28 2022-02-11 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质
CN110489543B (zh) * 2019-08-14 2020-09-15 北京金堤科技有限公司 一种新闻摘要的提取方法及装置
CN113836296A (zh) * 2021-09-28 2021-12-24 平安科技(深圳)有限公司 一种佛学问答摘要的生成方法、装置、设备及存储介质
CN115080816B (zh) * 2022-06-16 2024-06-18 抖音视界有限公司 摘要信息生成与搜索结果展示方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373486A (zh) * 2008-10-16 2009-02-25 北京航空航天大学 一种基于用户兴趣模型的个性化摘要系统
CN101458718A (zh) * 2009-01-05 2009-06-17 北京大学 一种搜索引擎动态摘要提取方法
EP2159715A3 (en) * 2008-08-28 2010-04-21 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
CN102004802A (zh) * 2010-12-30 2011-04-06 北京大学 Xml关键词检索的摘要生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853587B2 (en) * 2008-01-31 2010-12-14 Microsoft Corporation Generating search result summaries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2159715A3 (en) * 2008-08-28 2010-04-21 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
CN101373486A (zh) * 2008-10-16 2009-02-25 北京航空航天大学 一种基于用户兴趣模型的个性化摘要系统
CN101458718A (zh) * 2009-01-05 2009-06-17 北京大学 一种搜索引擎动态摘要提取方法
CN102004802A (zh) * 2010-12-30 2011-04-06 北京大学 Xml关键词检索的摘要生成方法

Also Published As

Publication number Publication date
CN102163229A (zh) 2011-08-24

Similar Documents

Publication Publication Date Title
CN102163229B (zh) 一种用于生成搜索结果的摘要的方法与设备
US9348934B2 (en) Systems and methods for facilitating open source intelligence gathering
CN1882943B (zh) 使用超单元的搜索处理的系统和方法
Lu et al. A content-based method to enhance tag recommendation
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
US20140201180A1 (en) Intelligent Supplemental Search Engine Optimization
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
WO2011137125A1 (en) Vertical search-based query method, system and apparatus
CN102567290B (zh) 用于对待处理的短文本信息进行扩展的方法、装置和设备
CN102402619A (zh) 一种搜索方法和装置
US8423554B2 (en) Content category scoring for nodes in a linked database
Tseng et al. Tomographic clustering to visualize blog communities as mountain views
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN104503988B (zh) 搜索方法及装置
CN102880609A (zh) 一种用于提供与查询序列相对应的搜索结果的设备和方法
CN102063468B (zh) 一种用于确定查询序列的查询类别的设备及其方法
CN102004772A (zh) 一种用于根据检索词进行搜索结果排序的方法及设备
CN101909018A (zh) 根据用户浏览网页返回即时通信群组的方法与系统
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN102541946B (zh) 基于超链接的推荐属性确定超链推荐度的方法与设备
KR100869545B1 (ko) 검색 히스토리를 생성하는 되풀이 검색시스템
KR101866411B1 (ko) 문서 추천 정보를 제공하는 방법 및 이를 이용하는 문서 추천 정보 제공 장치
JP2010123036A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
KR102675245B1 (ko) 응집도 점수를 기반으로 한 소셜 빅데이터의 효율적인 키워드 추출방법
CN102446174B (zh) 一种在网络设备中用于确定关键子词权重的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant