CN105574185A - 一种提供聚合类型的智能摘要的方法和装置 - Google Patents

一种提供聚合类型的智能摘要的方法和装置 Download PDF

Info

Publication number
CN105574185A
CN105574185A CN201510976108.9A CN201510976108A CN105574185A CN 105574185 A CN105574185 A CN 105574185A CN 201510976108 A CN201510976108 A CN 201510976108A CN 105574185 A CN105574185 A CN 105574185A
Authority
CN
China
Prior art keywords
search result
result items
page
query word
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510976108.9A
Other languages
English (en)
Inventor
郑思晴
吴凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510976108.9A priority Critical patent/CN105574185A/zh
Publication of CN105574185A publication Critical patent/CN105574185A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供了一种提供聚合类型的智能摘要的方法和装置,所述方法包括:对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;获取与用户查询词对应的搜索结果项;检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;如果是,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。该方法可以缩短用户信息寻找路径,改善用户的体验,有效的提高信息获取效率。

Description

一种提供聚合类型的智能摘要的方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种提供聚合类型的智能摘要的方法和装置。
背景技术
随着互联网技术的不断发展,用户对于互联网信息的需求越来越高,搜索引擎成为用户获取互联网信息的重要工具。用户在搜索引擎对应应用中的搜索框中,输入查询词,即搜索关键词,由应用将搜索关键词发送给搜索引擎;而搜索引擎根据搜索关键词,在数据库中进行搜索,以获得与搜索关键词匹配的资源,以作为若干个搜索结果项,返回给应用进行输出。
现有技术中,搜索结果项一般包括标题、页面URL以及摘要,其中,摘要为对搜索结果项对应页面的概括性描述。当用户使用搜索引擎进行搜索时,如果输入的查询词为泛词类型,即存在对应于查询词的多个页面内容,而非某一精确页面结果。该搜索结果项的普通摘要信息包括对搜索结果项指向落地页的概括性文字说明或缩略图。现有技术的缺点在于:
1)用户需要点击搜索结果项并进入相应落地页,随后从落地页中再去寻找其所需要的内容,即用户从开始执行搜索行为到最终查找到其想要的内容至少需要执行两个步骤,查询路径偏长;因此导致用户操作不便且耗时较长,体验不佳;
2)普通搜索结果项的摘要通常为概括性文字说明,一般无法直接向用户提供对搜索结果项对应页面具体内容的决策性意见。
3)会增加应用与搜索引擎之间的数据交互,从而增加了搜索引擎的处理负担。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种提供聚合类型的智能摘要的方法和装置。
根据本发明的一个方面,提供了一种提供聚合类型的智能摘要的方法,包括:
对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;
获取与用户查询词对应的搜索结果项;
检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;
如果是,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
进一步的,所述对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理包括:
根据对多个历史查询词基于热度信息进行排序的排序结果,选取排序靠前的预定数量的查询词进行聚合,得到聚合后的热门历史查询词;
根据所述聚合后的热门历史查询词来确定相应的经排序的搜索结果项,并选取与每一聚合后的查询词相应的排序靠前的预定数量的搜索结果项作为热门搜索结果项;
提取所述热门搜索结果项对应链接的热门落地页;
检测所述热门搜索结果项对应链接的热门落地页中是否包含平级图文列表字段;
如果是,则对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理。
进一步的,所述对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理,包括:
首先生成与所述热门搜索结果项相匹配的列表摘要模板,然后根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理。
进一步的,所述根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理,包括:
提取所述热门搜索结果项对应链接的热门落地页的平级图文列表字段的数据信息;
基于所述平级图文列表字段的数据信息,填充所述列表摘要模板,从而重新生成包含列表摘要信息的搜索结果项。
进一步的,所述提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,包括:
从所述重新生成的包含列表摘要信息的搜索结果项中提取与图片信息及标题信息相关联记录的标记语言字段作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
进一步的,所述平级图文列表字段包括以下一种或多种的组合:
列表类型标记语言字段;
统一资源定位符、标题信息相关联记录的多个标记语言字段;
统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段。
根据本发明的另一方面,提供了一种提供聚合类型的智能摘要的装置,包括:
聚类模块,用于对群体用户历史查询词进行聚类;
结构化数据模板处理模块,用于对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;
获取模块,用于获取与用户查询词对应的搜索结果项;
检测模块,用于检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;
生成模块,用于当检测模块的检测结果为“是”的时候,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
进一步的,所述聚类模块对群体用户历史查询词进行聚类,结构化数据模板处理模块对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理包括:
根据对多个历史查询词基于热度信息进行排序的排序结果,选取排序靠前的预定数量的查询词进行聚合,得到聚合后的热门历史查询词;
根据所述聚合后的热门历史查询词来确定相应的经排序的搜索结果项,并选取与每一聚合后的查询词相应的排序靠前的预定数量的搜索结果项作为热门搜索结果项;
提取所述热门搜索结果项对应链接的热门落地页;
检测所述热门搜索结果项对应链接的热门落地页中是否包含平级图文列表字段;
如果是,则对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理。
进一步的,所述对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理,包括:
首先生成与所述热门搜索结果项相匹配的列表摘要模板,然后根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理。
进一步的,所述根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理,包括:
提取所述热门搜索结果项对应链接的热门落地页的平级图文列表字段的数据信息;
基于所述平级图文列表字段的数据信息,填充所述列表摘要模板,从而重新生成包含列表摘要信息的搜索结果项。
进一步的,所述提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,包括:
从所述重新生成的包含列表摘要信息的搜索结果项中提取与图片信息及标题信息相关联记录的标记语言字段作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
进一步的,所述平级图文列表字段包括以下一种或多种的组合:
列表类型标记语言字段;
统一资源定位符、标题信息相关联记录的多个标记语言字段;
统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段。
本发明的有益效果为:
本发明提供了一种提供聚合类型的智能摘要的方法和装置,所述方法包括:对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;获取与用户查询词对应的搜索结果项;检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;如果是,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。该方法可以缩短用户信息寻找路径,改善用户的体验,使得用户界面更加友好。此外,本发明的技术方案还能够有效的提高信息获取效率,将原来需要多次劳动才能得到的结论通过将查询词进行聚合方式进行集成综合处理,同时直接向用户提供对搜索结果项对应页面具体内容的决策性意见,从而大大简化了用户的操作。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文具体实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出具体实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明的提供聚合类型的智能摘要的方法流程图;
图2为本发明的聚类和结构化数据模板处理方法流程图;
图3为本发明的根据列表摘要模板对搜索结果项进行结构化数据模板处理方法流程图;
图4为本发明的提供聚合类型的智能摘要的装置示意图。
具体实施方式
下面结合附图和具体的实施方式对本发明的技术方案作进一步的描述。
图1为本发明的提供聚合类型的智能回答的方法流程图。
根据本发明的一个方面,提供了一种提供聚合类型的智能摘要的方法,包括:
步骤1、对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;
步骤2、获取与用户查询词对应的搜索结果项;
步骤3、检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;
步骤4、如果是,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
本发明的方法可以由网络设备执行。其中,网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
下面对方法的每一个步骤做进一步详细具体的说明。
图2为本发明的聚类和结构化数据模板处理方法流程图。
具体的,所述对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理包括:
S101、根据对多个历史查询词基于热度信息进行排序的排序结果,选取排序靠前的预定数量的查询词进行聚合,得到聚合后的热门历史查询词;
S102、根据所述聚合后的热门历史查询词来确定相应的经排序的搜索结果项,并选取与每一聚合后的查询词相应的排序靠前的预定数量的搜索结果项作为热门搜索结果项;
S103、提取所述热门搜索结果项对应链接的热门落地页;
S104、检测所述热门搜索结果项对应链接的热门落地页中是否包含平级图文列表字段;
S105、如果是,则对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理。
具体地,用户通过用户终端设备在搜索引擎的输入框中输入查询词,并通过用户终端设备发送至网络设备;网络设备接收到该查询词,对该查询词进行切词处理,来确定一个或多个查询关键词;随后,基于一个或多个查询关键词在网页索引库中进行匹配来获取相应的搜索结果项,随后对搜索结果项进行排序,获取与查询词相匹配的排序后的一个或多个搜索结果项。
对查询词进行聚合具体为:对该查询词进行语义匹配处理,从而获取与所述查询词匹配的聚合问题。其中,语义匹配的方法包括但不限于最少词数法和最大匹配法。
落地页是指搜索结果项对应URL链接指向的页面。进一步地,落地页中可包括满足用户查询需求的多个子页面信息。
热度信息可通过在一定时间内用户的搜索次数、对搜索结果的浏览时长等维度来确定,对用户输入的多个查询词基于热度信息来排序后,选择排序靠前的第一预定数量的查询词作为热门查询词;对热门查询词进行搜索、排序等处理后,获取每一查询词相应的经排序的搜索结果项,选取与每一热门查询词相应的排序靠前的第二预定数量的搜索结果项,如排序前两位的搜索结果项,作为热门搜索结果项;提取热门搜索结果项对应URL指向的热门落地页;根据从热门落地页中提取到的平级图文列表字段,生成与热门搜索结果项相匹配的列表摘要模板。
图3为本发明的根据列表摘要模板对搜索结果项进行结构化数据模板处理方法流程图。具体的,所述对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理,包括:
首先生成与所述热门搜索结果项相匹配的列表摘要模板,然后根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理。
具体的,所述根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理,包括:
S201、提取所述热门搜索结果项对应链接的热门落地页的平级图文列表字段的数据信息;
S202、基于所述平级图文列表字段的数据信息,填充所述列表摘要模板,从而重新生成包含列表摘要信息的搜索结果项。
具体的,所述提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,包括:
从所述重新生成的包含列表摘要信息的搜索结果项中提取与图片信息及标题信息相关联记录的标记语言字段作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
具体的,当检测到搜索结果项的链接对应落地页的HTML文件中包括预定的平级图文列表字段,则将已提取到落地页中平级图文列表字段的数据信息,填充至预生成的列表摘要模板进行结构化处理,重新生成包含列表摘要信息的搜索结果项。例如,列表摘要模板包括标题、图片及URL相应的填充位置,落地页的HTML文件中每组data数组包括url/title/img三个字段数据,提取每组data数组包括的url/title/img字段的数据;接着,在列表摘要模板的每个填充位置处相应写入url/title/img字段的数据,可生成列表摘要信息;接着再与排序后的一个或多个搜索结果的标题和URL相结合,重新生成包含列表摘要信息的搜索结果项。
例如,预先从互联网中爬取到可作为落地页的一个或多个网页,对一个或多个落地页的HTML文件进行解析,基于预定义的平级图文列表字段在HTML文件进行查找并提取一个或多个落地页的HTML文件中的平级图文列表字段,根据所提取的平级图文列表字段,生成与一个或多个落地页相匹配的列表摘要模板,其中,列表摘要模板中包括待填充位置,用于填充相应的字段数据。
具体的,所述平级图文列表字段包括以下一种或多种的组合:
列表类型标记语言字段;
统一资源定位符、标题信息相关联记录的多个标记语言字段;
统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段。
其中,平级图文列表字段包括以下一种或多种的组合:
列表类型标记语言字段;例如,在网页的HTML文件中,列表类型标记语言字段可包括type定值中的datalist字段,指示HTML文件中包括多个data数组,在网页中可展现为列表形式;
统一资源定位符、标题信息相关联记录的多个标记语言字段;例如,网页的HTML文件中包括多个data数组,每一data数组均包括url/title两个字段,分别对应于URL和标题,多个data数组在网页中可展现为列表形式;
统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段;例如,网页的HTML文件中包括多个data数组,每一data数组均包括url/title/img三个字段,分别对应于URL、标题和图片,多个data数组在网页中可展现为列表形式。可选地,网页的HTML文件中还可包括imgsize字段,该imgsize字段表示每个data数组中的图片大小;例如,imgsize字段取值为:big:大图;或small:小图;或noimg:无图。
具体地,检测排序后的一个或多个搜索结果项对应链接的落地页是否包含平级图文列表字段的方式可为:读取排序后的一个或多个搜索结果项对应链接的落地页的HTML文件,并检测HTML文件中是否包括预定的平级图文列表字段。
根据本发明的另一方面,提供了一种提供聚合类型的智能摘要的装置,包括:
聚类模块,用于对群体用户历史查询词进行聚类;
结构化数据模板处理模块,用于对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;
获取模块,用于获取与用户查询词对应的搜索结果项;
检测模块,用于检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;
生成模块,用于当检测模块的检测结果为“是”的时候,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
本发明的上述功能模块可以但并不限于由网络设备执行。其中,网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
下面对装置的每一个功能模块做进一步详细具体的说明。
具体的,所述对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理包括:
根据对多个历史查询词基于热度信息进行排序的排序结果,选取排序靠前的预定数量的查询词进行聚合,得到聚合后的热门历史查询词;
根据所述聚合后的热门历史查询词来确定相应的经排序的搜索结果项,并选取与每一聚合后的查询词相应的排序靠前的预定数量的搜索结果项作为热门搜索结果项;
提取所述热门搜索结果项对应链接的热门落地页;
检测所述热门搜索结果项对应链接的热门落地页中是否包含平级图文列表字段;
如果是,则对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理。
具体地,用户通过用户终端设备在搜索引擎的输入框中输入查询词,并通过用户终端设备发送至网络设备;网络设备接收到该查询词,对该查询词进行切词处理,来确定一个或多个查询关键词;随后,基于一个或多个查询关键词在网页索引库中进行匹配来获取相应的搜索结果项,随后对搜索结果项进行排序,获取与查询词相匹配的排序后的一个或多个搜索结果项。
对查询词进行聚合具体为:对该查询词进行语义匹配处理,从而获取与所述查询词匹配的聚合问题。其中,语义匹配的方法包括但不限于最少词数法和最大匹配法。
落地页是指搜索结果项对应URL链接指向的页面。进一步地,落地页中可包括满足用户查询需求的多个子页面信息。
例如,热度信息可通过在一定时间内用户的搜索次数、对搜索结果的浏览时长等维度来确定,对用户输入的多个查询词基于热度信息来排序后,选择排序靠前的第一预定数量的查询词作为热门查询词;对热门查询词进行搜索、排序等处理后,获取每一查询词相应的经排序的搜索结果项,选取与每一热门查询词相应的排序靠前的第二预定数量的搜索结果项,如排序前两位的搜索结果项,作为热门搜索结果项;提取热门搜索结果项对应URL指向的热门落地页;根据从热门落地页中提取到的平级图文列表字段,生成与热门搜索结果项相匹配的列表摘要模板。
具体的,所述对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理,包括:
首先生成与所述热门搜索结果项相匹配的列表摘要模板,然后根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理。
具体的,所述根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理,包括:
提取所述热门搜索结果项对应链接的热门落地页的平级图文列表字段的数据信息;
基于所述平级图文列表字段的数据信息,填充所述列表摘要模板,从而重新生成包含列表摘要信息的搜索结果项。
具体的,所述提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,包括:
从所述重新生成的包含列表摘要信息的搜索结果项中提取与图片信息及标题信息相关联记录的标记语言字段作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
具体的,当检测到搜索结果项的链接对应落地页的HTML文件中包括预定的平级图文列表字段,则将已提取到落地页中平级图文列表字段的数据信息,填充至预生成的列表摘要模板进行结构化处理,重新生成包含列表摘要信息的搜索结果项。例如,列表摘要模板包括标题、图片及URL相应的填充位置,落地页的HTML文件中每组data数组包括url/title/img三个字段数据,提取每组data数组包括的url/title/img字段的数据;接着,在列表摘要模板的每个填充位置处相应写入url/title/img字段的数据,可生成列表摘要信息;接着再与排序后的一个或多个搜索结果的标题和URL相结合,重新生成包含列表摘要信息的搜索结果项。
例如,预先从互联网中爬取到可作为落地页的一个或多个网页,对一个或多个落地页的HTML文件进行解析,基于预定义的平级图文列表字段在HTML文件进行查找并提取一个或多个落地页的HTML文件中的平级图文列表字段,根据所提取的平级图文列表字段,生成与一个或多个落地页相匹配的列表摘要模板,其中,列表摘要模板中包括待填充位置,用于填充相应的字段数据。
具体的,所述平级图文列表字段包括以下一种或多种的组合:
列表类型标记语言字段;
统一资源定位符、标题信息相关联记录的多个标记语言字段;
统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段。
其中,平级图文列表字段包括以下一种或多种的组合:
列表类型标记语言字段;例如,在网页的HTML文件中,列表类型标记语言字段可包括type定值中的datalist字段,指示HTML文件中包括多个data数组,在网页中可展现为列表形式;
统一资源定位符、标题信息相关联记录的多个标记语言字段;例如,网页的HTML文件中包括多个data数组,每一data数组均包括url/title两个字段,分别对应于URL和标题,多个data数组在网页中可展现为列表形式;
统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段;例如,网页的HTML文件中包括多个data数组,每一data数组均包括url/title/img三个字段,分别对应于URL、标题和图片,多个data数组在网页中可展现为列表形式。可选地,网页的HTML文件中还可包括imgsize字段,该imgsize字段表示每个data数组中的图片大小;例如,imgsize字段取值为:big:大图;或small:小图;或noimg:无图。
具体地,检测排序后的一个或多个搜索结果项对应链接的落地页是否包含平级图文列表字段的方式可为:读取排序后的一个或多个搜索结果项对应链接的落地页的HTML文件,并检测HTML文件中是否包括预定的平级图文列表字段。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置。这样的实现本发明的程序可以存储在计算机可读介质上。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
此外,还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种提供聚合类型的智能摘要的方法,其特征在于,包括:
对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;
获取与用户查询词对应的搜索结果项;
检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;
如果是,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
2.如权利要求1所述的提供聚合类型的智能摘要的方法,其特征在于,所述对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理包括:
根据对多个历史查询词基于热度信息进行排序的排序结果,选取排序靠前的预定数量的查询词进行聚合,得到聚合后的热门历史查询词;
根据所述聚合后的热门历史查询词来确定相应的经排序的搜索结果项,并选取与每一聚合后的查询词相应的排序靠前的预定数量的搜索结果项作为热门搜索结果项;
提取所述热门搜索结果项对应链接的热门落地页;
检测所述热门搜索结果项对应链接的热门落地页中是否包含平级图文列表字段;
如果是,则对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理。
3.如权利要求1-2中任一项所述的提供聚合类型的智能摘要的方法,其特征在于,所述对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理,包括:
首先生成与所述热门搜索结果项相匹配的列表摘要模板,然后根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理。
4.如权利要求1-3中任一项所述的提供聚合类型的智能摘要的方法,其特征在于,所述根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理,包括:
提取所述热门搜索结果项对应链接的热门落地页的平级图文列表字段的数据信息;
基于所述平级图文列表字段的数据信息,填充所述列表摘要模板,从而重新生成包含列表摘要信息的搜索结果项。
5.如权利要求1-4中任一项所述的提供聚合类型的智能摘要的方法,其特征在于,所述提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,包括:
从所述重新生成的包含列表摘要信息的搜索结果项中提取与图片信息及标题信息相关联记录的标记语言字段作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
6.如权利要求1-5中任一项所述的提供聚合类型的智能摘要的方法,其特征在于,所述平级图文列表字段包括以下一种或多种的组合:
列表类型标记语言字段;
统一资源定位符、标题信息相关联记录的多个标记语言字段;
统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段。
7.一种提供聚合类型的智能摘要的装置,其特征在于,包括:
聚类模块,用于对群体用户历史查询词进行聚类;
结构化数据模板处理模块,用于对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;
获取模块,用于获取与用户查询词对应的搜索结果项;
检测模块,用于检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;
生成模块,用于当检测模块的检测结果为“是”的时候,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
8.如权利要求7所述的提供聚合类型的智能摘要的装置,其特征在于,所述聚类模块对群体用户历史查询词进行聚类,结构化数据模板处理模块对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理包括:
根据对多个历史查询词基于热度信息进行排序的排序结果,选取排序靠前的预定数量的查询词进行聚合,得到聚合后的热门历史查询词;
根据所述聚合后的热门历史查询词来确定相应的经排序的搜索结果项,并选取与每一聚合后的查询词相应的排序靠前的预定数量的搜索结果项作为热门搜索结果项;
提取所述热门搜索结果项对应链接的热门落地页;
检测所述热门搜索结果项对应链接的热门落地页中是否包含平级图文列表字段;
如果是,则对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理。
9.如权利要求7-8中任一项所述的提供聚合类型的智能摘要的装置,其特征在于,所述对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理,包括:
首先生成与所述热门搜索结果项相匹配的列表摘要模板,然后根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理。
10.如权利要求7-9中任一项所述的提供聚合类型的智能摘要的装置,其特征在于,所述根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理,包括:
提取所述热门搜索结果项对应链接的热门落地页的平级图文列表字段的数据信息;
基于所述平级图文列表字段的数据信息,填充所述列表摘要模板,从而重新生成包含列表摘要信息的搜索结果项。
CN201510976108.9A 2015-12-22 2015-12-22 一种提供聚合类型的智能摘要的方法和装置 Pending CN105574185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510976108.9A CN105574185A (zh) 2015-12-22 2015-12-22 一种提供聚合类型的智能摘要的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510976108.9A CN105574185A (zh) 2015-12-22 2015-12-22 一种提供聚合类型的智能摘要的方法和装置

Publications (1)

Publication Number Publication Date
CN105574185A true CN105574185A (zh) 2016-05-11

Family

ID=55884316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510976108.9A Pending CN105574185A (zh) 2015-12-22 2015-12-22 一种提供聚合类型的智能摘要的方法和装置

Country Status (1)

Country Link
CN (1) CN105574185A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189916A (zh) * 2018-08-17 2019-01-11 杜林蔚 英文摘要关键信息提取方法、装置及电子设备
CN110990710A (zh) * 2019-12-24 2020-04-10 北京百度网讯科技有限公司 资源推荐方法及装置
CN113656733A (zh) * 2021-08-17 2021-11-16 北京百度网讯科技有限公司 一种落地页生成方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984423A (zh) * 2010-10-21 2011-03-09 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法
CN103593373A (zh) * 2012-08-16 2014-02-19 北京百度网讯科技有限公司 一种用于搜索结果排序的方法与设备
CN104699841A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 提供搜索结果的列表摘要信息的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984423A (zh) * 2010-10-21 2011-03-09 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法
CN103593373A (zh) * 2012-08-16 2014-02-19 北京百度网讯科技有限公司 一种用于搜索结果排序的方法与设备
CN104699841A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 提供搜索结果的列表摘要信息的方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189916A (zh) * 2018-08-17 2019-01-11 杜林蔚 英文摘要关键信息提取方法、装置及电子设备
CN109189916B (zh) * 2018-08-17 2022-04-22 杜林蔚 英文摘要关键信息提取方法、装置及电子设备
CN110990710A (zh) * 2019-12-24 2020-04-10 北京百度网讯科技有限公司 资源推荐方法及装置
CN110990710B (zh) * 2019-12-24 2023-07-04 北京百度网讯科技有限公司 资源推荐方法及装置
CN113656733A (zh) * 2021-08-17 2021-11-16 北京百度网讯科技有限公司 一种落地页生成方法、装置、电子设备及存储介质
CN113656733B (zh) * 2021-08-17 2024-01-19 北京百度网讯科技有限公司 一种落地页生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN102693271B (zh) 一种网络信息推荐方法及系统
AU2009276354B2 (en) Providing posts to discussion threads in response to a search query
US9396262B2 (en) System and method for enhancing search relevancy using semantic keys
CN104699841A (zh) 提供搜索结果的列表摘要信息的方法和装置
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
US7577671B2 (en) Using attribute inheritance to identify crawl paths
CN107193987B (zh) 获取与页面相关的搜索词的方法、装置和系统
CN102567494B (zh) 网站分类方法及装置
CN104679783B (zh) 一种网络搜索方法和装置
CN111460289B (zh) 新闻资讯的推送方法和装置
CN104090976A (zh) 搜索引擎爬虫抓取网页的方法及装置
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN104778208A (zh) 一种搜索引擎 seo 网站数据的优化抓取方法及系统
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
WO2020238070A1 (zh) 一种基于网页分割和搜索算法的服务包装方法
CN102193798B (zh) 基于Internet的OpenAPI自动获取方法
CN103873318A (zh) 一种网站自动化测试方法及自动化测试系统
US11263062B2 (en) API mashup exploration and recommendation
CN105447192A (zh) 在导航页上推荐个性化搜索词方法和装置
CN105095175A (zh) 获取截短的网页标题的方法及装置
CN108763369B (zh) 一种视频搜索方法和装置
CN105653600A (zh) 一种试题摘要信息的生成方法以及装置
CN105574185A (zh) 一种提供聚合类型的智能摘要的方法和装置
CN103618742A (zh) 获取子域名的方法和系统以及网站管理员权限验证方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160511

RJ01 Rejection of invention patent application after publication