发明内容
鉴于上述问题,提出了本发明以便提供一种提供图文引导步骤的智能摘要方法及相应装置,以克服上述问题或者至少部分地解决或者减缓上述问题的缺点。
根据本发明的一个方面,提供了一种提供图文引导步骤的智能摘要方法,包括:
根据查询词,获取所述查询词的搜索结果所对应的网页数据;
提取所述网页数据中的文字数据和图片数据;
对提取到的所述文字数据和所述图片数据进行组合;
将组合后的文字数据和图片数据以图文引导步骤的方式生成智能摘要。
可选地,所述获取所述查询词的搜索结果对应的网页数据包括:
获取所述查询词的搜索结果对应的URL,根据获取的URL从数据库中获取网页数据。
可选地,所述提取所述网页数据中的文字数据和图片数据包括:
识别网页中的文字和图片部分;
对识别得到的所述文字数据和所述图片数据进行预处理;
基于设定的切分算法,对预处理后的文字数据进行分段、分句和分词处理;
遍历各个分句,查找包含有预先创建的用于描述步骤序号的关键词的步骤目标分句;
标记步骤目标分句和各步骤目标分句对应的图片。
可选地,所述对提取到的所述文字数据和所述图片数据进行组合包括:
判断文字数据对应的图片数据是否大于等于四张;
如果是,则对提取到的所述文字数据和所述图片数据进行组合;
如果否,则只保留文字数据。
可选地,所述以图文引导步骤的方式生成智能摘要包括:
得到各步骤的摘要之后,按照步骤序号从小到大的顺序,对组合后的相同步骤对应的步骤的文字摘要和步骤的图片摘要进行排序,得到整体步骤的智能摘要。
可选地,所述查询词的搜索结果包括多个网页数据,将获取的多个网页中的一个作为目标网页,得到该目标网页的图文引导步骤的智能摘要后;将所获取的多个网页中的下一个网页作为新的目标网页,得到所述下一个网页的图文引导步骤的智能摘要,继续循环处理,直到得到所获取的所有网页的图文引导步骤的智能摘要并结束。
可选地,将包含智能摘要的搜索结果项在搜索结果展示页进行展示。
可选地所述搜索结果项包括:
含有以图文引导步骤的方式生成的智能摘要的搜索结果项和含有以文字引导步骤的方式生成的智能摘要的搜索结果项。
本发明实施例的提供图文引导步骤的智能摘要方法,通过将网页中的步骤类内容以图文引导步骤的智能摘要形式展现给用户,更加高效地帮助用户提取有效信息,用户根据搜索结果页提供的智能摘要即可判断某条结果是否为自己所需要的内容,帮助用户筛选数据,从而减少不必要的点击,更加准确的选择自己所需要的结果,进一步提高了用户体验。同时,降低了搜索引擎的处理负担。
根据本发明的另一个方面,提供了提供图文引导步骤的智能摘要装置,包括:获取模块、提取模块、组合模块、生成模块;其中,
所述获取模块根据查询词,获取所述查询词的搜索结果所对应的网页数据;
所述提取模块提取所述网页数据中的文字数据和图片数据;
所述组合模块对提取到的所述文字数据和所述图片数据进行组合;
所述生成模块将组合后的文字数据和图片数据以图文引导步骤的方式生成智能摘要。
可选地,所述获取所述查询词的搜索结果对应的网页数据包括:
获取所述查询词的搜索结果对应的URL,根据获取的URL从数据库中获取网页数据。
可选地,所述提取模块包括:
识别子模块,识别网页中的文字和图片部分;
预处理子模块,对识别得到的所述文字数据和所述图片数据进行预处理;
切分子模块,基于设定的切分算法,对预处理后的文字数据进行分段、分句和分词处理;
查找子模块,遍历各个分句,查找包含有预先创建的用于描述步骤序号的关键词的步骤目标分句;
标记子模块,标记步骤目标分句和各步骤目标分句对应的图片。
可选地,所述组合模块包括:
判断子模块,判断文字数据对应的图片数据是否大于等于四张;
如果是,则组合子模块对提取到的所述文字数据和所述图片数据进行组合;
如果否,则组合子模块只保留文字数据。
可选地,所述生成模块将组合后的文字数据和图片数据以图文引导步骤的方式生成智能摘要包括:
得到各步骤的摘要之后,按照步骤序号从小到大的顺序,对组合后的相同步骤对应的步骤的文字摘要和步骤的图片摘要进行排序,得到整体步骤的智能摘要。
可选地,所述查询词的搜索结果包括多个网页数据,将获取的多个网页中的一个作为目标网页,得到该目标网页的图文引导步骤的智能摘要后;将所获取的多个网页中的下一个网页作为新的目标网页,得到所述下一个网页的图文引导步骤的智能摘要,继续循环处理,直到得到所获取的所有网页的图文引导步骤的智能摘要并结束。
可选地,展示模块,将包含智能摘要的搜索结果项在搜索结果展示页进行展示。
可选地,所述搜索结果项包括:
含有以图文引导步骤的方式生成的智能摘要的搜索结果项和含有以文字引导步骤的方式生成的智能摘要的搜索结果项。
本发明实施例的提供图文引导步骤的智能摘要装置,通过将网页中的步骤类内容以图文引导步骤的智能摘要形式展现给用户,更加高效地帮助用户提取有效信息,用户根据搜索结果页提供的智能摘要即可判断某条结果是否为自己所需要的内容,帮助用户筛选数据,从而减少不必要的点击,更加准确的选择自己所需要的结果,进一步提高了用户体验。同时,降低了搜索引擎的处理负担。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
具体实施例
下面结合附图和具体的实施方式对本发明作进一步的描述。
图2为本发明提供图文引导步骤的智能摘要方法一个实施例的流程图,如图2所示,所述提供图文引导步骤的智能摘要方法可以包括:
步骤101,根据查询词,获取所述查询词的搜索结果所对应的网页数据。
具体地,用户可通过搜索栏输入查询词,例如,用户使用搜索引擎进行对美食的查询时,输入查询词“青椒炒蛋”。
获取所述查询词的搜索结果对应的网页数据可以为:从搜索结果项中获取需要处理的网页数据的URL(UniformResourceLocator,统一资源定位符),根据获取的URL从数据库中获取需要处理的网页数据。
搜索结果项对应的网页内容中包含图文信息时,例如,菜谱类站点一般都包括菜谱的步骤和每个步骤对应的图片,因此,可对所述图文信息进行分析,以生成图文引导步骤。
需要说明的是,搜索结果一般包括多个搜索结果项,即对应多个网页内容。本实施例中,将获取的多个网页中的一个目标网页,得到该目标网页的图文引导步骤的智能摘要后;将所获取的多个网页中的下一个网页作为新的目标网页,得到所述下一个网页的图文引导步骤的智能摘要,继续循环处理,直到得到所获取的所有网页的图文引导步骤的智能摘要并结束。
步骤102,提取所述网页数据中的文字数据和图片数据。
图3为本发明一个实施例提取所述网页数据中的文字数据和图片数据的流程图,如图3所示,包括以下子步骤:
步骤1021,识别网页中的文字和图片部分;
通过通用的网页文字识别工具识别所述网页数据中的文字数据;通过通用的网页图片识别工具识别所述网页数据中的图片数据。
步骤1022,对识别得到的所述文字数据和所述图片数据进行预处理;
具体地,对识别得到的所述文字数据进行预处理可以为:对识别得到的所述文字数据进行垃圾数据过滤;由于网页中存在很多不必要的信息,比如说一些广告,导航栏,html、js代码,注释等等,需要对文本中的信息进行筛选,将不感兴趣的垃圾数据过滤掉。
具体地,对识别得到的所述图片数据进行预处理可以为:对识别得到的所述图片数据进行垃圾数据过滤,对其与文字数据的关联关系进行分析处理。
步骤1023,基于设定的切分算法,对预处理后的文字数据进行分段、分句和分词处理;
步骤1024,遍历各个分句,查找包含有预先创建的用于描述步骤序号的关键词的目标分句;
在本实施例中,可基于N元语法模型,对分句进行切词,其中,N为大于或等于一的整数。用于描述步骤序号的关键词,可以是诸如“步骤一、步骤二……”、“第一步、第二步……”、“1、2……”、“1、2……”等之类的关键词。
在本实施例中,可基于位于图片名称中的或位于图片下部的图片编号来判断其与文字数据中步骤的关联关系。用于描述图片变化的关键词,可以是诸如“图一、图二…..”、“附图一、附图二……”、“1、2……”等之类的关键词。
步骤1025,标记步骤目标分句和各步骤目标分句对应的图片。
步骤103,对提取到的所述文字数据和所述图片数据进行组合。
具体地,对提取到的所述文字数据和所述图片数据进行组合可以为:
判断文字数据对应的图片数据是否大于等于四张;
如果是,则对提取到的所述文字数据和所述图片数据进行组合;将网页的文字数据中位于目标分句之后的下一分句,作为步骤的文字摘要;也可将目标分句以及位于目标分句之后的下一分句,共同作为步骤的文字摘要;将相同步骤对应的步骤的文字摘要和步骤的图片摘要组合在一起;
如果否,则只保留文字数据;将网页的文字数据中位于目标分句之后的下一分句,作为步骤的文字摘要;也可将目标分句以及位于目标分句之后的下一分句,共同作为步骤的文字摘要;将相同步骤对应的步骤的文字摘要组合在一起。
步骤104,将组合后的文字数据和图片数据以图文引导步骤的方式生成智能摘要。
具体地,所述智能摘要包括:以图文引导步骤的方式生成的智能摘要和以文字引导步骤的方式生成的智能摘要。
其中,以图文引导步骤的方式生成智能摘要可以为:
得到各步骤的摘要之后,可按照步骤序号从小到大的顺序,对组合后的相同步骤对应的步骤的文字摘要和步骤的图片摘要进行排序,得到整体步骤的智能摘要。
进一步的,可以将步骤序号嵌入到智能摘要的图片中,如图4所示,即将图片对应的步骤序号与该图片进行融合,使得用户在看到图片的同时也可以一目了然的知道其所对应的步骤。
进一步的,为了在搜索结果页上节省显示空间,所述智能摘要可以只包括步骤一到四所对应的文字摘要和图片摘要。
步骤105,将包含步骤104生成的智能摘要的搜索结果项在搜索结果展示页进行展示,搜索结果项示意图如图4所示。
具体地,将包含步骤104生成的智能摘要的搜索结果项在搜索结果展示页进行展示,包括:含有以图文引导步骤的方式生成的智能摘要的搜索结果项和含有以文字引导步骤的方式生成的智能摘要的搜索结果项。
本发明实施例的提供图文引导步骤的智能摘要方法,通过将网页中的步骤类内容以图文化形式展现给用户,更加高效地帮助用户提取有效信息,根据搜索结果页提供的摘要即可判断某条结果是否为自己所需要的内容,帮助用户筛选数据,从而减少不必要的点击,更加准确的选择自己所需要的结果,进一步提高了用户体验。同时,降低了搜索引擎的处理负担。
图5为本发明一个实施例的提供图文引导步骤的智能摘要装置示意图,本实施例中的提供图文引导步骤的智能摘要装置可以作为搜索引擎,或搜索引擎的一部分实现本发明图2所示实施例的流程,如图5所示,该搜索引擎中提供图文引导步骤的智能摘要装置可以包括:获取模块、提取模块、组合模块、生成模块和展现模块;
其中,获取模块,用于根据查询词,获取所述查询词的搜索结果所对应的网页数据。
具体地,用户可通过搜索栏输入查询词,例如,用户使用搜索引擎进行对美食的查询时,输入查询词“青椒炒蛋”。
获取所述查询词的搜索结果对应的网页数据可以为:从搜索结果项中获取需要处理的网页数据的URL(UniformResourceLocator,统一资源定位符),根据获取的URL从数据库中获取需要处理的网页数据。
搜索结果项对应的网页内容中包含图文信息时,例如,菜谱类站点一般都包括菜谱的步骤和每个步骤对应的图片,因此,可对所述图文信息进行分析,以生成图文引导步骤。
需要说明的是,搜索结果一般包括多个搜索结果项,即对应多个网页内容。本实施例中,将获取的多个网页中的一个目标网页,得到该目标网页的图文引导步骤后;将所获取的多个网页中的下一个网页作为新的目标网页,得到所述下一个网页的图文引导步骤,继续循环处理,直到得到所获取的所有网页的图文引导步骤并结束。
提取模块,提取所述网页数据中的文字数据和图片数据。
具体地,如图6所示,提取模块包括以下子模块:
识别子模块,用于识别网页中的文字和图片部分;
通过通用的网页文字识别工具识别所述网页数据中的文字数据;通过通用的网页图片识别工具识别所述网页数据中的图片数据。
预处理子模块,用于对识别得到的所述文字数据和所述图片数据进行预处理;
具体地,对识别得到的所述文字数据进行预处理可以为:对识别得到的所述文字数据进行垃圾数据过滤;由于网页中存在很多不必要的信息,比如说一些广告,导航栏,html、js代码,注释等等,需要对文本中的信息进行筛选,将不感兴趣的垃圾数据过滤掉。
具体地,对识别得到的所述图片数据进行预处理可以为:对识别得到的所述图片数据进行垃圾数据过滤,对其与文字数据的关联关系进行分析处理。
切分子模块,基于设定的切分算法,对过滤后的文字数据进行分段、分句和分词处理;
查找子模块,遍历各个分句,查找包含有预先创建的用于描述步骤序号的关键词的目标分句作为步骤目标分句。
在本实施例中,可基于N元语法模型,对分句进行切词,其中,N为大于或等于一的整数。用于描述步骤序号的关键词,可以是诸如“步骤一、步骤二……”、“第一步、第二步……”等之类的关键词。
在本实施例中,可基于位于图片名称中的或位于图片下部的图片编号来判断其与文字数据中步骤的关联关系。用于描述图片变化的关键词,可以是诸如“图一、图二…..”、“附图一、附图二……”、“1、2……”等之类的关键词。
标记子模块,用于查找到的步骤目标分句和各步骤目标分句对应的图片。
组合模块,用于对提取到的所述文字数据和所述图片数据进行组合。
具体地,所述组合模块包括判断子模块和组合子模块:
所述判断子模块判断文字数据对应的图片数据是否大于等于四张;
如果是,则组合子模块对提取到的所述文字数据和所述图片数据进行组合;将网页的文字数据中位于目标分句之后的下一分句,作为步骤的文字摘要;也可将目标分句以及位于目标分句之后的下一分句,共同作为步骤的文字摘要;将相同步骤对应的步骤的文字摘要和步骤的图片摘要组合在一起;
如果否,则组合子模块只保留文字数据;将网页的文字数据中位于目标分句之后的下一分句,作为步骤的文字摘要。也可将目标分句以及位于目标分句之后的下一分句,共同作为步骤的文字摘要;将相同步骤对应的步骤的文字摘要组合在一起。
生成模块,用于将组合后的文字数据和图片数据以图文引导步骤的方式生成智能摘要。
具体地,所述智能摘要包括:以图文引导步骤的方式生成的智能摘要和以文字引导步骤的方式生成的智能摘要。
其中,以图文引导步骤的方式生成智能摘要可以为:
得到各步骤的摘要之后,可按照步骤序号从小到大的顺序,对组合后的相同步骤对应的步骤的文字摘要和步骤的图片摘要进行排序,得到整体步骤的智能摘要。
进一步的,可以将步骤序号嵌入到搜索结果项的对应图片中,如图4所示,即将图片对应的步骤序号与该图片进行融合,使得用户在看到图片的同时也可以一目了然的知道其所对应的步骤。
进一步的,为了在搜索结果页上节省显示空间,所述智能摘要可以只包括步骤一到四所对应的文字摘要和图片摘要。
展示模块,用于将包含智能摘要的搜索结果项在搜索结果展示页进行展示。
具体地,将包含智能摘要的搜索结果项在搜索结果展示页进行展示,包括:含有以图文引导步骤的方式生成的智能摘要的搜索结果项和含有以文字引导步骤的方式生成的智能摘要的搜索结果项。
本发明实施例的提供图文引导步骤的智能摘要装置,通过将网页中的步骤类内容以图文化形式展现给用户,更加高效地帮助用户提取有效信息,根据搜索结果页提供的摘要即可判断某条结果是否为自己所需要的内容,帮助用户筛选数据,从而减少不必要的点击,更加准确的选择自己所需要的结果,进一步提高了用户体验。同时,降低了搜索引擎的处理负担。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
此外,还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。