CN104376114B - 一种搜索结果展示方法及装置 - Google Patents

一种搜索结果展示方法及装置 Download PDF

Info

Publication number
CN104376114B
CN104376114B CN201410720166.0A CN201410720166A CN104376114B CN 104376114 B CN104376114 B CN 104376114B CN 201410720166 A CN201410720166 A CN 201410720166A CN 104376114 B CN104376114 B CN 104376114B
Authority
CN
China
Prior art keywords
picture
webpage
search
text
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410720166.0A
Other languages
English (en)
Other versions
CN104376114A (zh
Inventor
雷小强
鲁晓莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410720166.0A priority Critical patent/CN104376114B/zh
Publication of CN104376114A publication Critical patent/CN104376114A/zh
Application granted granted Critical
Publication of CN104376114B publication Critical patent/CN104376114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种搜索结果展示方法及装置,该方法包括:根据客户端发送的搜索式从网页数据库中搜索出匹配网页;从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中,搜索出所述匹配网页所包含的图片的索引记录,所述索引记录包括网页标识、图片标识、以及图片配文;根据所述搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录,将所述最相关索引记录的图片标识对应的图片作为所述匹配网页的当前配图;将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示,通过将网页所包含的图片中与用户搜索式最相关的图片在搜索结果中展示出来,可以使搜索结果更贴近用户需求。

Description

一种搜索结果展示方法及装置
技术领域
本发明涉及网络搜索技术领域,具体涉及一种搜索结果展示方法及装置。
背景技术
随着搜索技术的不断发展,搜索结果通过单一的文字不足以满足用户的需求,很多时候,图片表达的含义远远超过大段的文字信息,展示图文并茂的搜索结果更能够方便用户获取所求。
现有的网络搜索技术中,有的搜索引擎也会为客户端呈现图文并茂的搜索结果,用户在搜索引擎中输入搜索式,只能显示固定的图片,无论搜索式怎么变化,同一个搜索结果只能对应同一张图片,不会随着搜索式的变化而变化。这种做法一定程度上能够满足用户的读图需求,但是不能较为精确地满足用户不同搜索式的需求。
例如,对于电子公告牌系统BBS帖子页,以及索引页等网页包含多个主题,一张图片往往无法表达出网页内容,现有的搜索引擎使用单一图片对多主题网页进行配图实际上是很难达到理想的效果,很容易出现图片和用户需求相差很大甚至不相关的结果。另外对于这种多主题网页,目前的搜索引擎因为无法确定网页的主图,也使得很多网页无法配图,导致配图的覆盖率不足,影响用户体验。
例如,在贴吧这种带论坛性质的网站中,用户输入“离婚证”后,搜索结果如图1所述,用户输入“想想你们的孩子,美好的曾经”,搜索结果如图2 所述,比对图1和图2可知,两个搜索式所检索到的第一条信息匹配网页相同,并且搜索结果中展示该匹配网页所使用的配图也是相同的。很显然,搜索式“离婚证”出的图片明显不太合适,不能满足用户需求。
发明内容
有鉴于此,本发明实施例提供一种搜索结果展示方法及装置,以展现更贴近用户需求的搜索结果。
第一方面,本发明实施例提供了一种搜索结果展示方法,包括:
根据客户端发送的搜索式从网页数据库中搜索出匹配网页;
从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中,搜索出所述匹配网页所包含的图片的索引记录,所述索引记录包括网页标识、图片标识、以及图片配文;
根据所述搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录,将所述最相关索引记录的图片标识对应的图片作为所述匹配网页的当前配图;
将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示。
第二方面,本发明实施例还提供了一种搜索结果展示装置,包括:
匹配网页搜索单元,用于根据客户端发送的搜索式从网页数据库中搜索出匹配网页;
索引记录搜索单元,用于从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中,搜索出所述匹配网页所包含的图片的索引记录,所述索引记录包括网页标识、图片标识、以及图片配文;
索引记录筛选单元,用于根据所述搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录,将所述最相关索引记录的图片标识对应的图片作为所述匹配网页的当前配图;
结果展示单元,用于将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示。
本发明实施例通过搜索引擎根据客户端的搜索式搜索出匹配网页,从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中搜索出所述匹配网页所包含的图片的索引记录,根据所述搜索式与图片配文的相关度筛选最相关的图片作为所述匹配网页的当前配图,将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示,可以在搜索结果中展示网页所包含的图片中与用户搜索式最相关的图片,可以使搜索结果更贴近用户需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是背景技术中第一搜索结果显示效果图;
图2是背景技术中第二搜索结果显示效果图;
图3是本发明实施例一所述的搜索结果展示方法流程图;
图4是本发明实施例二所述的搜索结果展示方法流程图;
图5是本发明实施例三所述的搜索结果展示方法流程图;
图6是本发明实施例四所述的搜索结果展示装置的结构框图;
图7是本发明实施例五所述的搜索结果展示装置的结构框图;
图8是本发明实施例六所述的搜索结果展示装置的结构框图;
图9是本发明实施例七所述的搜索结果展示方法流程图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
实施例一
图3是本发明实施例一提供的搜索结果展示方法流程图,本实施例可适用于搜索引擎根据客户端的搜索式搜索出匹配网页,并从搜索的匹配网页中挖掘和搜索式最相关的图片,在搜索结果中同时展示网页和所述图片的情况,该方法可以由配置在搜索引擎中的搜索结果展示装置来执行,如图3所示,本实施例所述的搜索结果展示方法包括:
S301、根据客户端发送的搜索式从网页数据库中搜索出匹配网页。
其中所述网页数据库为所述搜索引擎对应的网页数据库。
具体地,本步骤根据搜索式搜索匹配网页的方法在此不用限定,例如可采用现有技术中现有的搜索引擎根据搜索式搜索出匹配网页的方法,例如用户在客户端浏览器中输入检索式后,提交给服务端的搜索引擎,搜索引擎根据所述搜索式从网页数据库中搜索出匹配网页。一般来说,若搜索成功,搜索出匹配网页包括多个。
通常,由于用户输入的搜索式往往隐含着多重的搜索意图,在通常的搜索引擎中,一般都需要对搜索式进行扩展或改写,以生成新搜索式。在本步骤中,根据客户端发送的搜索式从网页数据库中搜索出匹配网页,可以基于语义词典的查询扩展和用户点击反馈日志的方法对搜索式进行扩展或者改写,形成能够让计算机更好地理解的形式的搜索式。
S302、从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中,搜索出所述匹配网页所包含的图片的索引记录。
其中,所述图片索引库中所述索引记录包括网页标识、图片标识、以及图片配文。
网页标识可以是网页的URL(Uniform Resource Locator,统一资源定位符),图片标识可以是图片的URI(Uniform Resource Identifier,通用资源标识符)。图片配文是指用来对图片进行描述的文字,主要是指对图片内容进行描述的文字。
本步骤的操作可具体包括:对S301搜索到的每一个匹配网页来说,在所述图片索引库中查找各匹配网页的网页标识(例如网页URL)对应的索引记录。一般来说,匹配网页的核心区域有几张图片,则在图片索引库中就有相应数目的索引记录,并且这些索引记录均记载了该匹配网页的网页标识(例如网页URL)。通过该匹配网页的网页标识即可查询到记录这些图片的索引记录。
需要说明的是,若未找到对应的索引记录,则可能是图片索引库中未记录该匹配网页的图片信息,也可能是该匹配网页的核心区没有图片。对于第一种情况,可以通过其他方式获取该匹配网页的配图,将所述匹配网页以及所述配图展示给所述客户端,也可以仅将所述匹配网页展示给所述客户端即可。对于第二种情况,仅需将所述匹配网页展示给所述客户端即可。
S303、根据所述搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录,将所述最相关索引记录的图片标识对应的图片作为所述匹配网页的当前配图。
对S301搜索到的每一个匹配网页来说,本步骤用于将S302搜索得到的该匹配网页的索引记录中的图片配文分别与所述搜索式进行语义相关度计算,将计算结果作为索引记录对应图片的权重,取权重满足设定要求(例如大于预设权重阀值)的图片或权重排序靠前的图片作为该匹配网页的搜索结果配图。一般来说,搜索结果中一个匹配网页配置至多一个配图。当然,若两个或两个以上的图片的权重均较大,或为了向客户端展示匹配网页的更多的配图,也可为一个匹配网页设置两个或两个以上配图。若匹配网页的索引记录对应的图片的权重均较小,或没有搜索到该匹配网页的索引记录,则可不为该匹配网页配图。
需要说明的是,若匹配网页是在本实施例的S301中对搜索式进行了扩展或者改写后获得的,则本步骤中计算索引记录中的图片配文与所述搜索式的语义相关度时,优选为将S302搜索得到的该匹配网页的索引记录中的图片配文分别与所述扩展或者改写后获得的搜索式进行语义相关度计算,将计算结果作为索引记录对应图片的权重,将权重满足设定要求(例如大于预设权重阀值)的图片或权重排序靠前的图片作为该匹配网页的搜索结果配图。
S304、将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示。
具体地,将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示的方法在此不作限定,例如可采用现有技术中现有的方法向客户端展示匹配网页及其配图,例如将图片和网页文字摘要进行拼接后展示给客户端。
本实施例通过搜索引擎根据客户端的搜索式搜索出匹配网页,从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中搜索出所述匹配网页所包含的图片的索引记录,根据所述搜索式与图片配文的相关度筛选最相关的图片作为所述匹配网页的当前配图,将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示,可以在搜索结果中展示网页所包含的图片中与用户搜索式最相关的图片,可以使搜索结果更贴近用户需求。
实施例二
图4是本发明实施例二所述的搜索结果展示方法流程图,如图4所示,本实施例所述的搜索结果展示方法包括:
S401、获取所述客户端的搜索意图信息,根据所述搜索意图信息和所述搜索式生成新搜索式。
通常,由于用户输入的搜索式往往隐含着多重的搜索意图,在通常的搜索引擎中,一般都需要对搜索式进行扩展或改写,以生成新搜索式。
例如,用户输入搜索式“苹果”,客户端的搜索意图可包括搜索苹果旗舰店的网页、苹果公司主页、水果苹果的百科网页、电影苹果的视频在线网页等搜索意图,根据这些搜索意图信息可生成新搜索式:“苹果旗舰店”、“苹果官网”、“苹果and水果and百科”、“苹果and电影”等。
S402、根据所述新搜索式从所述网页数据库中搜索出匹配网页。
搜索引擎分别根据所述新搜索式从所述网页数据库中搜索出匹配网页。通常,若搜索成功,根据一个新搜索式可搜索出一个或一个以上匹配网页。例如,根据新搜索式“苹果and水果and百科”可分别搜索出维基百科中关于水果苹果的百科网页、百度百科中关于水果苹果的百科网页、凤凰网百科中关于水果苹果的百科网页、以及互动百科中关于水果苹果的百科网页等。
S403、从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中,搜索出所述匹配网页所包含的图片的索引记录。
对上一步所获取的每一个匹配网页,根所匹配网页的网页标识从图片索引库中分别搜索各匹配网页所包含的图片的索引记录。
S404、根据所述新搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录。
对于上一步所获取的每一个匹配网页,均有对应的获取该匹配网页时的新搜索式,将通过S403搜索得到的匹配网页的索引记录中的图片配文,分别与该匹配网页对应的新搜索式进行语义相关度计算,从中获取相关度最大的索引记录。
例如根据新搜索式“苹果and水果and百科”搜索的百度百科中关于水果苹果的百科网页包含了图片一,其图片配文为“在树上没有熟的苹果”;图片二,其图片配文为“吃苹果”;图片三,其图片配文为“煮苹果”;图片四,其图片配文为“苹果果脯”;图片五,其图片配文为“切开的苹果”;图片六,其图片配文为“苹果图”。
则对这些图片,分别计算上述新搜索式“苹果and水果and百科”与上述图片配文的相关度,根据相关度的大小从上述五个图片对应的索引记录中筛选一个索引记录作为最相关索引记录。
S405、将所述最相关索引记录的图片标识对应的图片作为所述匹配网页的当前配图。
S406、将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示。
本实施例为了描述简便以筛选一个最相关索引记录,本领域技术人员需要明确的是,具体地根据相关度筛选索引记录的数目不限于一个,具体数目可根据具体需求进行设置。
本实施例在实施例一的基础之上,公开了一种根据客户端的搜索意图信息和搜索式生成新搜索式,根据所述新搜索式搜索出匹配网页,以及根据所述新搜索式与图片配文的相关度筛选所述匹配网页的当前配图的技术方案,能进一步展现更贴近用户需求。
实施例三
图5是本发明实施例二所述的搜索结果展示方法流程图,如图5所示,本实施例所述的搜索结果展示方法包括:
S501、获取网页数据库中的网页。
本实施例中,S501-S504用于预先为搜索引擎对应的网页数据库的网页所包含的图片所创建的图片索引库,这些步骤的执行主体可以是搜索引擎,也可以是其他服务器。
S502、识别所获取的网页的核心区域的图片。
本领域技术人员需要明确的是,由于不同浏览器对图片显示的方式不同,因此将图片展示给客户端时,要求图片拥有和该搜索引擎对应的浏览器基本一致的各种属性值。因此,预先为网页数据库的网页所包含的图片所创建的图片索引库时,所述索引库中所存储的索引记录的图片需要拥有和该搜索引擎对应的浏览器基本一致的各种属性值。
为了实现上述目的,本步骤可通过如下方式实现:
识别所获取的网页的核心区域;
对所述网页的超文本标记语言(HTML)源代码进行解析,得到符合万维网联盟W3C标准的文件对象模型(DOM)树;
对所述DOM树进行渲染,以使所述网页所包含的图片具有与搜索引擎的浏览器一致的属性;
按照预设算法根据所述DOM树获取所述网页的核心区域的图片。
其中所述核心区域是指网页中主要正文区域块,例如网页中去除背景、网页的相关记录、时间、帮助信息等的正文区域块。
具体地,对所述DOM树进行渲染可具体使用Webkit的渲染引擎对所述DOM树进行渲染。渲染后网页拥有和该搜索引擎对应的浏览器基本一致的各种属性值,包括视觉属性。
由于网页主要分为索引页,内容页两种类型,不同类型的网页,其包含的图片的特点不同,因此,可进一步依据不同的网页类型采取不同的图片提取方式来提取网页图片。
例如,识别所述网页所属的网页类型,所述网页类型包括索引页和内容页;
若所述网页为内容页,则根据所述网页的属性中的视觉属性按照机器学习方法,识别出内容页中的核心区域并进行标注,从标注好的节点中获取图片子节点,作为所述网页的核心区域的图片;
若所述网页为索引页,则对图片列表和图文混排分块进行标注,根据标注结果和图片的大小和坐标识别出所述索引页的核心区域的图片。
S503、按照预设算法给所识别的图片配上文字作为所述图片的图片配文。
例如,本步骤的操作可具体包括:根据多页面关系、图片与周围文字关系、图像识别技术中的一种或至少两种相结合,给所识别的图片配上文字作为所述图片的图片配文。
S504、将所述网页的网页标识、所述图片的图片标识、以及所述图片配文作为索引记录添加到预设的图片索引库。
S505、根据客户端发送的搜索式从网页数据库中搜索出匹配网页。
S506、从所述图片索引库中,搜索出所述匹配网页所包含的图片的索引记录。
S507、根据所述搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录,将所述最相关索引记录的图片标识对应的图片作为所述匹配网页的当前配图。
S508、将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示。
本实施例在实施例一和实施例二的基础之上,公开了一种预先为搜索引擎对应的网页数据库的网页所包含的图片所创建的包括网页标识、图片标识、以及图片配文的图片索引库的方法,以使搜索引擎从所述图片索引库搜索出根据检索式获取的匹配网页所包含的图片的索引记录,提供了一种完整全面的实现本发明的发明目的的实施方式。
实施例四
图6是本发明实施例四所述的搜索结果展示装置的结构框图,如图6所示,本实施例所述的搜索结果展示装置包括:
匹配网页搜索单元610,用于根据客户端发送的搜索式从网页数据库中搜索出匹配网页;
索引记录搜索单元620,用于从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中,搜索出所述匹配网页所包含的图片的索引记录,所述索引记录包括网页标识、图片标识、以及图片配文;
索引记录筛选单元630,用于根据所述搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录,将所述最相关索引记录的图片标识对应的图片作为所述匹配网页的当前配图;
结果展示单元640,用于将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示。
进一步地,所述索引记录筛选单元630具体用于:
按照相关度匹配算法分别计算所述搜索式与所搜索的索引记录中的图片配文的相关度,将相关度最大的图片配文对应的索引记录作为最相关索引记录。
进一步地,所述结果展示单元640具体用于:
将所述匹配网页的摘要文字以及所述匹配网页的当前配图进行拼接,将拼接结果展示给所述客户端。
本实施例提供的搜索结果展示装置可执行本发明实施例一所提供的搜索结果展示方法,具备执行方法相应的功能模块和有益效果。
实施例五
图7是本发明实施例五所述的搜索结果展示装置的结构框图,如图7所示,本实施例所述的搜索结果展示装置包括:
匹配网页搜索单元710,用于:
获取所述客户端的搜索意图信息,根据所述搜索意图信息和所述搜索式生成新搜索式;
根据所述新搜索式从所述网页数据库中搜索出匹配网页。
进一步地,根据所述搜索意图信息和所述搜索式生成新搜索式具体包括:
根据所述搜索意图信息对所述搜索式进行扩展或改写,以生成新搜索式。
索引记录搜索单元720,用于从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中,搜索出所述匹配网页所包含的图片的索引记录,所述索引记录包括网页标识、图片标识、以及图片配文。
索引记录筛选单元730,用于根据所述新搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录。
进一步地,所述索引记录筛选单元730具体用于:按照相关度匹配算法分别计算所述新搜索式与所搜索的索引记录中的图片配文的相关度,将相关度最大的图片配文对应的索引记录作为最相关索引记录。
结果展示单元740,用于将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示。
进一步地,所述结果展示单元740具体用于:将所述匹配网页的摘要文字以及所述匹配网页的当前配图进行拼接,将拼接结果展示给所述客户端。
本实施例提供的搜索结果展示装置可执行本发明实施例二所提供的搜索结果展示方法,具备执行方法相应的功能模块和有益效果。
实施例六
图8是本发明实施例六所述的搜索结果展示装置的结构框图,如图8所示,本实施例所述的搜索结果展示装置包括:
图片索引库的创建单元810,用于在根据客户端发送的搜索式从网页数据库中搜索出匹配网页之前,预先为所述网页数据库的网页所包含的图片所创建的图片索引库。
所述图片索引库的创建单元810包括网页获取子单元811、图片识别子单元812、图片配文子单元813、以及记录添加子单元814。
所述网页获取子单元用于811,获取网页数据库中的网页;
所述图片识别子单元用于812,识别所获取的网页的核心区域的图片;
所述图片配文子单元用于813,按照预设算法给所识别的图片配上文字作为所述图片的图片配文;
所述记录添加子单元用于814,将所述网页的网页标识、所述图片的图片标识、以及所述图片配文作为索引记录添加到预设的图片索引库。
进一步地,所述图片识别子单元812具体用于:
识别所获取的网页的核心区域;
对所述网页的超文本标记语言HTML源代码进行解析,得到符合万维网联盟W3C标准的文件对象模型DOM树;
对所述DOM树进行渲染,以使所述网页所包含的图片具有与搜索引擎的浏览器一致的属性;
按照预设算法根据所述DOM树获取所述网页的核心区域的图片。
进一步地,对所述DOM树进行渲染具体包括:使用Webkit的渲染引擎对所述DOM树进行渲染。
进一步地,按照预设算法根据所述DOM树获取所述网页的核心区域的图片具体包括:
识别所述网页所属的网页类型,所述网页类型包括索引页和内容页;
若所述网页为内容页,则根据所述网页的属性中的视觉属性按照机器学习装置,识别出内容页中的核心正文区域块并进行标注,从标注好的节点中获取图片子节点,作为所述网页的核心区域的图片;
若所述网页为索引页,则对图片列表和图文混排分块进行标注,根据标注结果和图片的大小和坐标识别出所述索引页的核心区域的图片。
进一步地,所述图片配文子单元813具体用于:根据多页面关系、图片与周围文字关系、和/或图像识别技术,给所识别的图片配上文字作为所述图片的图片配文。
匹配网页搜索单元820,用于根据客户端发送的搜索式从网页数据库中搜索出匹配网页;
索引记录搜索单元830,用于从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中,搜索出所述匹配网页所包含的图片的索引记录,所述索引记录包括网页标识、图片标识、以及图片配文;
索引记录筛选单元840,用于根据所述搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录,将所述最相关索引记录的图片标识对应的图片作为所述匹配网页的当前配图;
结果展示单元850,用于将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示。
进一步地,所述索引记录筛选单元840具体用于:
按照相关度匹配算法分别计算所述搜索式与所搜索的索引记录中的图片配文的相关度,将相关度最大的图片配文对应的索引记录作为最相关索引记录。
进一步地,所述匹配网页搜索单元820具体用于:
获取所述客户端的搜索意图信息,根据所述搜索意图信息和所述搜索式生成新搜索式;
根据所述新搜索式从所述网页数据库中搜索出匹配网页;
所述索引记录筛选单元840具体用于:
根据所述新搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录。
进一步地,根据所述搜索意图信息和所述搜索式生成新搜索式具体包括:
根据所述搜索意图信息对所述搜索式进行扩展或改写,以生成新搜索式。
进一步地,结果展示单元850具体用于:
将所述匹配网页的摘要文字以及所述匹配网页的当前配图进行拼接,将拼接结果展示给所述客户端。
本实施例提供的搜索结果展示装置可执行本发明实施例三所提供的搜索结果展示方法,具备执行方法相应的功能模块和有益效果。
实施例七
图9是本发明实施例七所述的搜索结果展示方法流程图,如图9所示,本实施例所述的搜索结果展示方法包括:
S901、使用页面分析技术识别网页核心区域的图片。
获取网页核心区域的图片,首先需要识别出网页的核心区域,对于任意网页,使用基于Webkit的HTMLParser对输入的超文本标记语言HTML源代码进行解析,得到一棵符合W3C标准的文件对象模型DOM树,然后使用Webkit的渲染引擎对DOM树进行渲染,这样,DOM树上的每个节点即拥有了和浏览器基本一致的各种属性值,包括节点的宽度、高度、级联样式表CSS属性等视觉属性。结合这些视觉特征和DOM树节点本身的一些特性,通过组合,即可得到更多的基础特征。基于基础特征,使用机器学习的方法,对网页进行分类,主要分为索引页和内容页。不同的页面类型,采用不同的识别方法,对于内容页,则根据所述网页的属性中的视觉属性按照机器学习方法识别出内容页中的核心区域并进行标注,从标注好的节点中获取图片子节点,即为网页的主要区域图片。对于索引页,则通过对图片列表和图文混排分块进行标注,根据标注结果和图片的大小和坐标识别出所述索引页的主要区域图片。
S902、对于网页核心区域的图片,使用多页面,图片周围文字关系、图像识别技术给图片配上文字。
对于网页中的图片,通常最能够描述其语义的是其周围的文字。例如可通过如下方式对网页核心区域的图片配上文字作为图片配文。
方式一、若图片上方或者下方有一个简短的描述文本来描述该图片,结合文本的字体大小,加粗以及文本长度等特征,取该描述性文字作为图片部分图片配文,并赋予相应的权值。
方式二、若图片上方或者下方有分段的文字,取周围的N(N为预设的自然数)段文字,使用关键词抽取算法抽取N段文字的关键词,根据图片离N段文字的距离给相应的关键词设置相应的权值,用来作为该图片的部分图片配文
方式三、互联网上同一张图片可能在多个网页中同时出现,同时也会有很多相似的图片,基于这个事实,当某个网页上的某张图片没有合适的图片配文时,可对图片进行签名,然后使用图片相似度算法,使用其他网页的相同的图片或者相似的图片的图片配文作为当前网页上图片的图片配文或部分图片配文。
综合上述,通过上述三种方式或其结合,可以为每张图片配上合适的文字描述,为后续的步骤提供计算依据。
S903、使用搜索式分析技术,分析用户搜索式意图。
通常用户输入的搜索式往往隐含着多重的意图,如果仅将用户输入的原始搜索式和图片培文进行匹配,图片的准确和召回都无法满足需求,在通常的搜索引擎中,一般都需要对搜索式扩展,变换,改写。我们基于语义词典的查询扩展和用户点击反馈日志的方法将搜索式扩展或者改写成能够让计算机更好地理解的形式。
S904、将搜索式分析得到的结果、以及搜索引擎摘要文本与图片配文分别进行语义相关度计算,对计算的得到两个相关度值进行加权,取权重最大的图片作为该搜索结果中该网页的配图。
一方面,经过搜索式分析通常会扩展或者变换为一种或者多种形式,扩展或变换后的搜索式文本与图片的图片配文,使用相关度匹配算法,和每张图片的图片配文进行计算,得到一系列的相关度值K1;另外一方面,对于同一个网页,通过不同搜索式检索得到结果的摘要信息也是不相同的,摘要信息反映了该网页和搜索式最相关的部分,因此将摘要信息和图片配文进行相关度计算也能够反映出图片和当前搜索式下和搜索结果部分和最相关的部分。结合图片配文和摘要文本以及摘要文本和网页图片的相对位置信息,使用相关度匹配算法,计算每张图片和摘要的相关度值K2。对K1和K2进行加权,选择权重最大的图片作为该网页结果的配图。
S905、将图片和网页文字摘要拼接,返回给搜索结果前端。
本实施例公开了一种预先为搜索引擎对应的网页数据库的网页所包含的图片所创建的包括网页标识、图片标识、以及图片配文的图片索引库的方法,以及从所述图片索引库中,搜索出所述匹配网页所包含的图片的索引记录,以使搜索引擎从所述图片索引库搜索出根据检索式获取的匹配网页所包含的图片的索引记录,提供了一种完整全面的实现本发明的发明目的的实施方式。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (16)

1.一种搜索结果展示方法,其特征在于,包括:
根据客户端发送的搜索式从网页数据库中搜索出匹配网页;
从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中,搜索出所述匹配网页所包含的图片的索引记录,所述索引记录包括网页标识、图片标识、以及图片配文;
根据所述搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录,将所述最相关索引记录的图片标识对应的图片作为所述匹配网页的当前配图;
将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示;
根据客户端发送的搜索式从网页数据库中搜索出匹配网页的操作具体包括:
获取所述客户端的搜索意图信息,根据所述搜索意图信息和所述搜索式生成新搜索式;
根据所述新搜索式从所述网页数据库中搜索出匹配网页;
根据所述搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录的操作具体包括:
根据所述新搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录;
根据所述搜索意图信息和所述搜索式生成新搜索式的操作具体包括:
根据所述搜索意图信息,基于语义词典的查询扩展对所述搜索式进行扩展或改写,以生成新搜索式。
2.根据权利要求1所述的搜索结果展示方法,其特征在于,根据所述搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录的操作具体包括:
按照相关度匹配算法分别计算所述搜索式与所搜索的索引记录中的图片配文的相关度,将相关度最大的图片配文对应的索引记录作为最相关索引记录。
3.根据权利要求1所述的搜索结果展示方法,其特征在于,将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示的操作具体包括:
将所述匹配网页的摘要文字以及所述匹配网页的当前配图进行拼接,将拼接结果展示给所述客户端。
4.根据权利要求1-3任一所述的搜索结果展示方法,其特征在于,所述图片索引库的创建方法包括:
获取网页数据库中的网页;
识别所获取的网页的核心区域的图片;
按照预设算法给所识别的图片配上文字作为所述图片的图片配文;
将所述网页的网页标识、所述图片的图片标识、以及所述图片配文作为索引记录添加到预设的图片索引库。
5.根据权利要求4所述的搜索结果展示方法,其特征在于,识别所获取的网页的核心区域的图片的操作具体包括:
识别所获取的网页的核心区域;
对所述网页的超文本标记语言HTML源代码进行解析,得到符合万维网联盟W3C标准的文件对象模型DOM树;
对所述DOM树进行渲染,以使所述网页所包含的图片具有与搜索引擎的浏览器一致的属性;
按照预设算法根据所述DOM树获取所述网页的核心区域的图片。
6.根据权利要求5所述的搜索结果展示方法,其特征在于,对所述DOM树进行渲染的操作具体包括:使用Webkit的渲染引擎对所述DOM树进行渲染。
7.根据权利要求5或6所述的搜索结果展示方法,其特征在于,按照预设算法根据所述DOM树获取所述网页的核心区域的图片的操作具体包括:
识别所述网页所属的网页类型,所述网页类型包括索引页和内容页;
若所述网页为内容页,则根据所述网页的属性中的视觉属性按照机器学习方法,识别出内容页中的核心正文区域块并进行标注,从标注好的节点中获取图片子节点,作为所述网页的核心区域的图片;
若所述网页为索引页,则对图片列表和图文混排分块进行标注,根据标注结果和图片的大小和坐标识别出所述索引页的核心区域的图片。
8.根据权利要求4所述的搜索结果展示方法,其特征在于,按照预设算法给所识别的图片配上文字作为所述图片的图片配文的操作具体包括:根据多页面关系、图片与周围文字关系和/或图像识别技术,给所识别的图片配上文字作为所述图片的图片配文。
9.一种搜索结果展示装置,其特征在于,包括:
匹配网页搜索单元,用于根据客户端发送的搜索式从网页数据库中搜索出匹配网页;
索引记录搜索单元,用于从预先为所述网页数据库的网页所包含的图片所创建的图片索引库中,搜索出所述匹配网页所包含的图片的索引记录,所述索引记录包括网页标识、图片标识、以及图片配文;
索引记录筛选单元,用于根据所述搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录,将所述最相关索引记录的图片标识对应的图片作为所述匹配网页的当前配图;
结果展示单元,用于将所述匹配网页以及所述匹配网页的当前配图发送给所述客户端进行展示;
所述匹配网页搜索单元具体用于:
获取所述客户端的搜索意图信息,根据所述搜索意图信息和所述搜索式生成新搜索式;
根据所述新搜索式从所述网页数据库中搜索出匹配网页;
所述索引记录筛选单元具体用于:
根据所述新搜索式与图片配文的相关度从所搜索的索引记录中筛选索引记录作为最相关索引记录;
根据所述搜索意图信息和所述搜索式生成新搜索式具体包括:
根据所述搜索意图信息,基于语义词典的查询扩展对所述搜索式进行扩展或改写,以生成新搜索式。
10.根据权利要求9所述的搜索结果展示装置,其特征在于,所述索引记录筛选单元具体用于:
按照相关度匹配算法分别计算所述搜索式与所搜索的索引记录中的图片配文的相关度,将相关度最大的图片配文对应的索引记录作为最相关索引记录。
11.根据权利要求9所述的搜索结果展示装置,其特征在于,所述结果展示单元具体用于:
将所述匹配网页的摘要文字以及所述匹配网页的当前配图进行拼接,将拼接结果展示给所述客户端。
12.根据权利要求9-11任一所述的搜索结果展示装置,其特征在于,所述装置还包括图片索引库的创建单元,用于在根据客户端发送的搜索式从网页数据库中搜索出匹配网页之前,预先为所述网页数据库的网页所包含的图片所创建的图片索引库;
所述图片索引库的创建单元包括网页获取子单元、图片识别子单元、图片配文子单元、以及记录添加子单元;
所述网页获取子单元用于,获取网页数据库中的网页;
所述图片识别子单元用于,识别所获取的网页的核心区域的图片;
所述图片配文子单元用于,按照预设算法给所识别的图片配上文字作为所述图片的图片配文;
所述记录添加子单元用于,将所述网页的网页标识、所述图片的图片标识、以及所述图片配文作为索引记录添加到预设的图片索引库。
13.根据权利要求12所述的搜索结果展示装置,其特征在于,所述图片识别子单元具体用于:
识别所获取的网页的核心区域;
对所述网页的超文本标记语言HTML源代码进行解析,得到符合万维网联盟W3C标准的文件对象模型DOM树;
对所述DOM树进行渲染,以使所述网页所包含的图片具有与搜索引擎的浏览器一致的属性;
按照预设算法根据所述DOM树获取所述网页的核心区域的图片。
14.根据权利要求13所述的搜索结果展示装置,其特征在于,对所述DOM树进行渲染具体包括:使用Webkit的渲染引擎对所述DOM树进行渲染。
15.根据权利要求13或14所述的搜索结果展示装置,其特征在于,按照预设算法根据所述DOM树获取所述网页的核心区域的图片具体包括:
识别所述网页所属的网页类型,所述网页类型包括索引页和内容页;
若所述网页为内容页,则根据所述网页的属性中的视觉属性按照机器学习装置,识别出内容页中的核心正文区域块并进行标注,从标注好的节点中获取图片子节点,作为所述网页的核心区域的图片;
若所述网页为索引页,则对图片列表和图文混排分块进行标注,根据标注结果和图片的大小和坐标识别出所述索引页的核心区域的图片。
16.根据权利要求12所述的搜索结果展示装置,其特征在于,所述图片配文子单元具体用于:根据多页面关系、图片与周围文字关系和/或图像识别技术,给所识别的图片配上文字作为所述图片的图片配文。
CN201410720166.0A 2014-12-01 2014-12-01 一种搜索结果展示方法及装置 Active CN104376114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410720166.0A CN104376114B (zh) 2014-12-01 2014-12-01 一种搜索结果展示方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410720166.0A CN104376114B (zh) 2014-12-01 2014-12-01 一种搜索结果展示方法及装置

Publications (2)

Publication Number Publication Date
CN104376114A CN104376114A (zh) 2015-02-25
CN104376114B true CN104376114B (zh) 2018-01-30

Family

ID=52555021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410720166.0A Active CN104376114B (zh) 2014-12-01 2014-12-01 一种搜索结果展示方法及装置

Country Status (1)

Country Link
CN (1) CN104376114B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699841A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 提供搜索结果的列表摘要信息的方法和装置
CN104699837B (zh) * 2015-03-31 2017-04-12 北京奇虎科技有限公司 网页配图选取方法、装置及服务器
US10691746B2 (en) 2015-07-13 2020-06-23 Google Llc Images for query answers
CN106610983A (zh) * 2015-10-22 2017-05-03 中兴通讯股份有限公司 一种图片管理方法、装置及一种终端
CN108804445B (zh) * 2017-04-28 2022-06-07 北京京东尚科信息技术有限公司 热力图生成方法和装置
CN108595583B (zh) * 2018-04-18 2022-12-02 平安科技(深圳)有限公司 动态图表类页面数据爬取方法、装置、终端及存储介质
CN110232137B (zh) * 2019-05-10 2021-09-03 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845100A (zh) * 2006-05-15 2006-10-11 南京大学 Web搜索中的图像摘录反馈方法
CN101944104A (zh) * 2010-08-19 2011-01-12 百度在线网络技术(北京)有限公司 一种网页分块的重要度评估方法和设备
CN104063489A (zh) * 2014-07-04 2014-09-24 百度在线网络技术(北京)有限公司 一种确定网页图片相关度及显示检索结果的方法及装置
CN104123363A (zh) * 2014-07-21 2014-10-29 北京奇虎科技有限公司 网页主图提取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845100A (zh) * 2006-05-15 2006-10-11 南京大学 Web搜索中的图像摘录反馈方法
CN101944104A (zh) * 2010-08-19 2011-01-12 百度在线网络技术(北京)有限公司 一种网页分块的重要度评估方法和设备
CN104063489A (zh) * 2014-07-04 2014-09-24 百度在线网络技术(北京)有限公司 一种确定网页图片相关度及显示检索结果的方法及装置
CN104123363A (zh) * 2014-07-21 2014-10-29 北京奇虎科技有限公司 网页主图提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于分块重要性模型与Xpath的Web信息抽取的研究;庞秋奔等;《计算机与现代化》;20091231;第73-75页 *

Also Published As

Publication number Publication date
CN104376114A (zh) 2015-02-25

Similar Documents

Publication Publication Date Title
CN104376114B (zh) 一种搜索结果展示方法及装置
US10140368B2 (en) Method and apparatus for generating a recommendation page
US11847124B2 (en) Contextual search on multimedia content
US8639680B1 (en) Hidden text detection for search result scoring
US7895595B2 (en) Automatic method and system for formulating and transforming representations of context used by information services
KR102310650B1 (ko) 검색 결과에서의 논리적인 질문 응답 기법
RU2696305C2 (ru) Браузинг изображений через интеллектуально проанализированные связанные гиперссылкой фрагменты текста
US20090077056A1 (en) Customization of search results
US8655648B2 (en) Identifying topically-related phrases in a browsing sequence
US9582486B2 (en) Apparatus and method for classifying and analyzing documents including text
US20060212446A1 (en) Method and system for assessing relevant properties of work contexts for use by information services
US20100281417A1 (en) Providing a search-result filters toolbar
US20120005686A1 (en) Annotating HTML Segments With Functional Labels
CN109815386B (zh) 一种基于用户画像的构建方法、装置及存储介质
CN105637509B (zh) 在图像内搜索和注释
CN105786977A (zh) 基于人工智能的移动搜索方法和装置
Liu et al. Main content extraction from web pages based on node characteristics
CN104881428A (zh) 一种信息图网页的信息图提取、检索方法和装置
CN105243120A (zh) 一种检索方法及装置
KR20130113275A (ko) 색상 속성값을 이용한 하이퍼링크 가시화 장치 및 그 방법
US20110099134A1 (en) Method and System for Agent Based Summarization
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
WO2014049310A2 (en) Method and apparatuses for interactive searching of electronic documents
US20160078025A1 (en) Search support apparatus and method
CN103678400B (zh) 基于群体搜索行为的网页分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant