CN104504108B - 信息搜索方法及装置 - Google Patents

信息搜索方法及装置 Download PDF

Info

Publication number
CN104504108B
CN104504108B CN201410843273.2A CN201410843273A CN104504108B CN 104504108 B CN104504108 B CN 104504108B CN 201410843273 A CN201410843273 A CN 201410843273A CN 104504108 B CN104504108 B CN 104504108B
Authority
CN
China
Prior art keywords
picture
keyword
information
material information
current key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410843273.2A
Other languages
English (en)
Other versions
CN104504108A (zh
Inventor
秦首科
张泽明
韩友
陈志扬
程小华
徐培治
马小林
文石磊
陈世佳
李旭斌
江焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410843273.2A priority Critical patent/CN104504108B/zh
Publication of CN104504108A publication Critical patent/CN104504108A/zh
Priority to US15/541,159 priority patent/US20180018348A1/en
Priority to PCT/CN2015/083394 priority patent/WO2016107125A1/zh
Priority to JP2017510347A priority patent/JP6498750B2/ja
Priority to EP15874815.2A priority patent/EP3242221A4/en
Application granted granted Critical
Publication of CN104504108B publication Critical patent/CN104504108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种信息搜索方法及装置,其中,信息搜索方法包括:获得当前关键词;获得与当前关键词相关的物料信息,物料信息包括图片片段、文字片段和/或图像实体;以及将物料信息合成为图片,以用于在搜索结果页中展现图片。上述信息搜索方法及装置,通过获得与当前关键词相关的物料信息,使得获得的物料信息与当前关键词的相关性较高,通过将获得的物料信息进行合成,可以提高图片的质量和信息量,从而可以大大提升用户浏览信息的速度,以方便用户尽快地从众多信息中获取到自己所需的信息。

Description

信息搜索方法及装置
技术领域
本发明涉及信息技术领域,尤其涉及一种信息搜索方法及装置。
背景技术
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,并将检索到的相关信息展示给用户的系统。
在搜索引擎领域,当用户搜索一个查询信息(query)时,搜索引擎会展现出一条或者多条搜索结果,其中,包括广告信息和自然结果。目前,由于图片所蕴含的信息量更丰富,用户从图片获取信息的速度相对于文字更快,故期望在搜索结果中展现更多的图片。
但是,目前的图片大多为搜索引擎获得后直接返回给客户端以用于展现,或者只是进行简单的剪裁、缩放后返回给客户端进行展现,因此,图片的质量和数量都存在缺失。另外,随着用户对图片的需求越来越大,使得图片的质量和信息量丰富度更加重要,图片含有的信息越丰富,用户从图片获取信息的速度较之文字越迅速,因此,图片的质量和信息量有待于进一步提升。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种信息搜索方法,可实现将符合用户搜索需求的图片展现给用户,提高了用户的搜索体验度和满意度。
本发明的第二个目的在于提出一种信息搜索装置。
为达上述目的,根据本发明第一方面实施例提出了一种信息搜索方法,包括:获得当前关键词;获得与所述当前关键词相关的物料信息,所述物料信息包括图片片段、文字片段和图像实体中的至少两种;其中,所述图像实体为图片中除文字之外的内容;以及将所述物料信息合成为图片,以用于在搜索结果页中展现所述图片。
本发明实施例的信息搜索方法,通过获得当前关键词,并获得与当前关键词相关的物料信息,物料信息包括图片片段、文字片段和/或图像实体;然后将物料信息合成为图片,以用于在搜索结果页中展现图片,由此可见,该实施例中通过获得与当前关键词相关的物料信息,使得获得的物料信息与当前关键词的相关性较高,通过将获得的物料信息进行合成,可以提高图片的质量和信息量,从而可以大大提升用户浏览信息的速度,以方便用户尽快地从众多信息中获取到自己所需的信息。
为达上述目的,根据本发明第二方面实施例提出了一种信息搜索装置,包括:第一获得模块,用于获得当前关键词;第二获得模块,用于获得与所述当前关键词相关的物料信息,所述物料信息包括图片片段、文字片段和图像实体中的至少两种;其中,所述图像实体为图片中除文字之外的内容;以及合成模块,用于将所述物料信息合成为图片,以用于在搜索结果页中展现所述图片。
本发明实施例的信息搜索装置,通过第一获得模块获得当前关键词,通过第二获得模块获得与上述当前关键词相关的物料信息,上述物料信息包括图片片段、文字片段和/或图像实体;然后通过合成模块将上述物料信息合成为图片,以用于在搜索结果页中展现上述图片,由此可见,该实施例中通过获得与当前关键词相关的物料信息,使得获得的物料信息与当前关键词的相关性较高,通过将获得的物料信息进行合成,可以提高图片的质量和信息量,从而可以大大提升用户浏览信息的速度,以方便用户尽快地从众多信息中获取到自己所需的信息。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明一个实施例的信息搜索方法流程图。
图2是本发明另一个实施例的信息搜索方法流程图。
图3是本发明实施例的图片合成示例图一。
图4是本发明实施例的图片合成示例图二。
图5是本发明实施例的图片合成示例图三。
图6是本发明实施例的图片合成示例图四。
图7是本发明实施例的图片合成示例图五。
图8是本发明一个实施例建立并保存关键词与相关图片集合的对应关系的流程图。
图9是本发明一个实施例的信息搜索装置的结构示意图。
图10是本发明另一个实施例的信息搜索装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的信息搜索方法及装置。
图1是本发明一个实施例的信息搜索方法流程图,该方法从搜索引擎侧进行描述。
如图1所示,该信息搜索方法包括:
S101,获得当前关键词。
在该实施例中,用户可以在搜索框中输入查询信息,客户端获得该查询信息后,并从该查询信息中获得当前关键词,然后向搜索引擎发送当前关键词,这样,搜索引擎就可以获得当前关键词。
当然,客户端也可以通过其他方式获得当前关键词,例如用户在浏览网页时,客户端可以基于用户浏览的网页内容提取出当前关键词,并向搜索引擎发送当前关键词等等。本发明实施例不对当前关键词的获得方式进行限定。
S102,获得与当前关键词相关的物料信息,物料信息包括图片片段、文字片段和图像实体中的至少两种,其中,所述图像实体为图片中除文字之外的内容。
在该实施例中,在S102之前还可以包括:S100a,建立并保存关键词与相关图片集合的对应关系,如图2所示。
另外,在S102之前还可以包括S100b和S100c,如图2所示,其中,S100b,获取并保存图片及其对应的文字信息;S100c,将图片及其对应的文字信息处理成对应的物料信息,并将图片及其对应的物料信息保存至物料信息库中。
具体地,可以抓取并存储互联网上各统一资源定位符(URL)上的图片、文字等信息,并将抓取到的图片、文字等信息通过图像处理技术、文字处理技术处理成单独的图片片段、文字片段、图像实体等,以构建成物料信息库。
需要说明的是,S100a和S100b-S100c并无严格的执行顺序,并且,S100a和S100b-S100c还可以位于S101和S102之间。
具体地,获得与当前关键词相关的物料信息可以为:根据当前关键词和预存的关键词与相关图片集合的对应关系获得与当前关键词相关的图片,并根据图片从预建立的物料信息库中获得与当前关键词相关的物料信息。
S103,将物料信息合成为图片,以用于在搜索结果页中展现图片。
在该实施例中,可以通过图片合成技术将获得的物料信息合成为图片,例如可以将获得的图片与文本、图片与图片、文本与文本合成为图片,具体地,合成示例可参见图3-图7。
由于合成后的图片中包含了更多的信息,因此,合成后图片的质量和信息量得到大幅提升,从而可以大大提升用户浏览信息的速度,以方便用户尽快地从众多信息中获取到自己所需的信息。
上述信息搜索方法,通过获得当前关键词,并获得与当前关键词相关的物料信息,物料信息包括图片片段、文字片段和/或图像实体;然后将物料信息合成为图片,以用于在搜索结果页中展现图片,由此可见,该实施例中通过获得与当前关键词相关的物料信息,使得获得的物料信息与当前关键词的相关性较高,通过将获得的物料信息进行合成,可以提高图片的质量和信息量,从而可以大大提升用户浏览信息的速度,以方便用户尽快地从众多信息中获取到自己所需的信息。
图8是本发明一个实施例建立并保存关键词与相关图片集合的对应关系的流程图,该实施例是基于获取的大量样本完成关键词与相关图片集合的对应关系的建立。
如图8所示,该过程包括:
S801,抓取图片,并获取图片对应的文本特征和视觉特征。
具体地,可以抓取不同统一资源定位符(URL)中的图片,并可以获取对应图片的标题、图片描述、子链接和上下文信息中的一种或几种,同时将获取到的信息作为对应的文本特征的一部分。
另外,还可以采用光学字符识别(OCR)技术识别对应图片中的文字信息和实体信息等,并可以将识别出的信息作为对应的文本特征的一部分。
由此可见,图片的文本特征可以包括对应图片的标题、图片描述、子链接、上下文信息以及对应图片中包含的文字和实体信息中的一种或几种。
具体地,针对抓取到的每个图片,可以将其的视觉特征转换为第一向量,即可以用第一向量表示对应的图片,其中,第一向量的维度可以为N维。上述第一向量可以作为对应图片的视觉特征的一部分。
S802,获得关键词及关键词的相关图片,并提取相关图片的文本特征和视觉特征。
在该实施例中,可以获得关键词,并搜索获得该关键词的相关图片,然后提取相关图片的文本特征和视觉特征。
其中,文本特征的提取方式与S801相同,具体的内容也是对应图片的标题、图片描述、子链接、上下文信息以及对应图片中包含的文字和实体信息中的一种或几种。
而对视觉特征的提取过程可以为:将该关键词的相关图片的视觉特征转换为对应的第二向量,即用第二向量表示该关键词的相关图片,其中,第一向量和第二向量具有相同的维度,例如均为N维。
S803,通过计算图片的视觉特征和相关图片的视觉特征间的相关性来获得关键词与图片间的相关性。
在该实施例中,通过计算图片的视觉特征和相关图片的视觉特征间的相关性来获得关键词与图片间的相关性,即通过计算第一向量和第二向量之间的相关性来获得关键词与图片间的相关性。
S804,根据关键词与图片间的相关性以及关键词的相关图片和图片文本特征之间的相关性获得关键词的相关图片集合,并保存关键词与相关图片集合的对应关系。
需要说明的是,关键词与图片间的相关性仅仅是建立关键词与相关图片集合的对应关系的一个指标,即除了根据关键词与图片间的相关性,还可以根据不同图片的文本特征之间的相关性来获得相关图片集合。这样,保存的与关键词相关的图片更多、更全,且相关性高,有利于搜索引擎后续为用户提高较好的搜索结果。
由此可见,通过上述S801-S804可以完成建立并保存关键词与相关图片集合的对应关系的过程。
为了实现上述实施例,本发明还提出一种信息搜索装置。
图9是本发明一个实施例的信息搜索装置的结构示意图。
如图9所示,该信息搜索装置包括第一获得模块91、第二获得模块92和合成模块93,其中:
第一获得模块91用于获得当前关键词;第二获得模块92用于获得与上述当前关键词相关的物料信息,上述物料信息包括图片片段、文字片段和图像实体中的至少两种;其中,所述图像实体为图片中除文字之外的内容;合成模块93用于将上述物料信息合成为图片,以用于在搜索结果页中展现上述图片。
在该实施例中,用户可以在搜索框中输入查询信息,客户端获得该查询信息后,并从该查询信息中获得当前关键词,然后向第一获得模块91发送当前关键词,这样,第一获得模块91就可以获得当前关键词。
当然,客户端也可以通过其他方式获得当前关键词,例如用户在浏览网页时,客户端可以基于用户浏览的网页内容提取出当前关键词,并向第一获得模块91发送当前关键词等等。本发明实施例不对当前关键词的获得方式进行限定。
另外,如图10所示,该装置还可以包括建立保存模块94,该建立保存模块94用于在第二获得模块92根据上述当前关键词和预存的关键词与相关图片集合的对应关系获得与上述当前关键词相关的图片之前,建立并保存上述关键词与相关图片集合的对应关系。
具体地,建立保存模块94可以包括第一获取单元941、第二获取单元942、计算单元943和保存单元944,其中:
第一获取单元941用于抓取图片,并获取上述图片对应的文本特征和视觉特征;第二获取单元942用于获得关键词及上述关键词的相关图片,并获取上述相关图片的文本特征和视觉特征;计算单元943用于通过计算上述图片的视觉特征和相关图片的视觉特征间的相关性来获得上述关键词与图片间的相关性;保存单元944用于根据计算单元943计算出的上述关键词与图片间的相关性以及上述关键词的相关图片和上述图片文本特征之间的相关性获得上述关键词的相关图片集合,并保存上述关键词与相关图片集合的对应关系。
具体地,第一获取单元941可以抓取不同统一资源定位符(URL)中的图片,并可以获取对应图片的标题、图片描述、子链接和上下文信息中的一种或几种,同时将获取到的信息作为对应的文本特征的一部分。
另外,第一获取单元941还可以采用光学字符识别(OCR)技术识别对应图片中的文字信息和实体信息等,并可以将识别出的信息作为对应的文本特征的一部分。
由此可见,图片的文本特征可以包括对应图片的标题、图片描述、子链接、上下文信息以及对应图片中包含的文字和实体信息中的一种或几种。
具体地,第一获取单元941针对抓取到的每个图片,可以将其视觉特征转换为第一向量,即可以用第一向量表示对应的图片,其中,第一向量的维度可以为N维。上述第一向量可以作为对应图片的视觉特征的一部分。
同样地,第二获取单元942可以采用同第一获取单元94同样的提取方式获取关键词相关图片的文本特征,具体的内容也是对应图片的标题、图片描述、子链接、上下文信息以及对应图片中包含的文字和实体信息中的一种或几种。
另外,第二获取单元942可以将上述相关图片的视觉特征转换为对应的第二向量;其中,上述第一向量和上述第二向量具有相同的维度,例如均为N维。
具体地,计算单元943通过计算上述图片的视觉特征和相关图片的视觉特征间的相关性来获得关键词与图片间的相关性,即通过计算第一向量和第二向量之间的相关性来获得关键词与图片间的相关性。
需要说明的是,关键词与图片间的相关性仅仅是建立关键词与相关图片集合的对应关系的一个指标,即除了根据关键词与图片间的相关性,还可以根据不同图片的文本特征之间的相关性来获得相关图片集合。这样,保存的与关键词相关的图片更多、更全,且相关性高,有利于搜索引擎后续为用户提高较好的搜索结果。
进一步地,如图10所示,该装置还可以包括获取保存模块95,该获取保存模块95用于在第二获得模块92根据上述图片从预建立的物料信息库中获得与上述当前关键词相关的物料信息之前,获取并保存图片及其对应的文字信息;以及将上述图片及其对应的文字信息处理成对应的物料信息,并将图片及其对应的物料信息保存至上述物料信息库中。
具体地,获取保存模块95可以抓取并存储互联网上各统一资源定位符(URL)上的图片、文字等信息,并将抓取到的图片、文字等信息通过图像处理技术、文字处理技术处理成单独的图片片段、文字片段、图像实体等,以构建成物料信息库。
基于图9或图10所示的信息搜索装置,第二获得模块92可以根据上述当前关键词和建立保存模块94建立的关键词与相关图片集合的对应关系获得与上述当前关键词相关的图片,并根据上述图片从获取保存模块95保存的物料信息库中获得与上述当前关键词相关的物料信息。第二获得模块92获得与上述当前关键词相关的物料信息后,合成模块93可以通过图片合成技术将获得的物料信息合成为图片,例如可以将获得的图片与文本、图片与图片、文本与文本合成为图片,具体地,合成示例可参见图3-图7。
由于合成后的图片中包含了更多的信息,因此,合成后图片的质量和信息量得到大幅提升,从而可以大大提升用户浏览信息的速度,以方便用户尽快地从众多信息中获取到自己所需的信息。
上述信息搜索装置,通过第一获得模块获得当前关键词,通过第二获得模块获得与上述当前关键词相关的物料信息,上述物料信息包括图片片段、文字片段和/或图像实体;然后通过合成模块将上述物料信息合成为图片,以用于在搜索结果页中展现上述图片,由此可见,该实施例中通过获得与当前关键词相关的物料信息,使得获得的物料信息与当前关键词的相关性较高,通过将获得的物料信息进行合成,可以提高图片的质量和信息量,从而可以大大提升用户浏览信息的速度,以方便用户尽快地从众多信息中获取到自己所需的信息。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种信息搜索方法,其特征在于,包括:
获得当前关键词;
获得与所述当前关键词相关的物料信息,所述物料信息包括图片片段、文字片段和图像实体中的至少两种;其中,所述图像实体为图片中除文字之外的内容;以及
将所述物料信息合成为图片,以用于在搜索结果页中展现所述图片;
其中,所述获得与所述当前关键词相关的物料信息,包括:
根据所述当前关键词和预存的关键词与相关图片集合的对应关系获得与所述当前关键词相关的图片,并根据所述图片从预建立的物料信息库中获得与所述当前关键词相关的物料信息。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述当前关键词和预存的关键词与相关图片集合的对应关系获得与所述当前关键词相关的图片之前,还包括:
建立并保存所述关键词与相关图片集合的对应关系。
3.根据权利要求2所述的方法,其特征在于,所述建立并保存所述关键词与相关图片集合的对应关系,包括:
抓取图片,并获取所述图片对应的文本特征和视觉特征;
获得关键词及所述关键词的相关图片,并获取所述相关图片的文本特征和视觉特征;
通过计算所述图片的视觉特征和相关图片的视觉特征间的相关性来获得所述关键词与图片间的相关性;以及
根据所述关键词与图片间的相关性以及所述关键词的相关图片和所述图片文本特征之间的相关性获得所述关键词的相关图片集合,并保存所述关键词与相关图片集合的对应关系。
4.根据权利要求3所述的方法,其特征在于,所述获取所述图片对应的视觉特征,包括:将所述图片的视觉特征转换为对应的第一向量;
所述获取所述相关图片的视觉特征,包括:将所述相关图片的视觉特征转换为对应的第二向量,其中,所述第一向量和所述第二向量具有相同的维度。
5.根据权利要求4所述的方法,其特征在于,所述通过计算所述图片的视觉特征和相关图片的视觉特征间的相关性来获得所述关键词与图片间的相关性,包括:
通过计算所述第一向量和所述第二向量之间的相关性来获得所述关键词与图片的相关性。
6.根据权利要求3所述的方法,其特征在于,所述文本特征包括对应图片的标题、图片描述、子链接、上下文信息以及对应图片中包含的文字和实体信息中的一种或几种。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述图片从预建立的物料信息库中获得与所述当前关键词相关的物料信息之前,还包括:
获取并保存图片及其对应的文字信息;以及
将所述图片及其对应的文字信息处理成对应的物料信息,并将图片及其对应的物料信息保存至所述物料信息库中。
8.一种信息搜索装置,其特征在于,包括:
第一获得模块,用于获得当前关键词;
第二获得模块,用于获得与所述当前关键词相关的物料信息,所述物料信息包括图片片段、文字片段和图像实体中的至少两种;其中,所述图像实体为图片中除文字之外的内容;以及
合成模块,用于将所述物料信息合成为图片,以用于在搜索结果页中展现所述图片;
所述第二获得模块,具体用于:
根据所述当前关键词和预存的关键词与相关图片集合的对应关系获得与所述当前关键词相关的图片,并根据所述图片从预建立的物料信息库中获得与所述当前关键词相关的物料信息。
9.根据权利要求8所述的装置,其特征在于,还包括:
建立保存模块,用于在所述第二获得模块根据所述当前关键词和预存的关键词与相关图片集合的对应关系获得与所述当前关键词相关的图片之前,建立并保存所述关键词与相关图片集合的对应关系。
10.根据权利要求9所述的装置,其特征在于,所述建立保存模块包括:
第一获取单元,用于:抓取图片,并获取所述图片对应的文本特征和视觉特征;
第二获取单元,用于:获得关键词及所述关键词的相关图片,并获取所述相关图片的文本特征和视觉特征;
计算单元,用于:通过计算所述图片的视觉特征和相关图片的视觉特征间的相关性来获得所述关键词与图片间的相关性;以及
保存单元,用于根据所述关键词与图片间的相关性以及所述关键词的相关图片和所述图片文本特征之间的相关性获得所述关键词的相关图片集合,并保存所述关键词与相关图片集合的对应关系。
11.根据权利要求10所述的装置,其特征在于,所述第一获取单元,具体用于:将所述图片的视觉特征转换为对应的第一向量;
第二获取单元,具体用于:将所述相关图片的视觉特征转换为对应的第二向量;其中,所述第一向量和所述第二向量具有相同的维度。
12.根据权利要求11所述的装置,其特征在于,所述计算单元,具体用于:
通过计算所述第一向量和所述第二向量之间的相关性来获得所述关键词与图片间的相关性。
13.根据权利要求10所述的装置,其特征在于,所述文本特征包括对应图片的标题、图片描述、子链接、上下文信息以及对应图片中包含的文字和实体信息中的一种或几种。
14.根据权利要求9所述的装置,其特征在于,还包括:
获取保存模块,用于在所述第二获得模块根据所述图片从预建立的物料信息库中获得与所述当前关键词相关的物料信息之前,获取并保存图片及其对应的文字信息;以及将所述图片及其对应的文字信息处理成对应的物料信息,并将图片及其对应的物料信息保存至所述物料信息库中。
CN201410843273.2A 2014-12-30 2014-12-30 信息搜索方法及装置 Active CN104504108B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201410843273.2A CN104504108B (zh) 2014-12-30 2014-12-30 信息搜索方法及装置
US15/541,159 US20180018348A1 (en) 2014-12-30 2015-07-06 Method And Apparatus For Searching Information
PCT/CN2015/083394 WO2016107125A1 (zh) 2014-12-30 2015-07-06 信息搜索方法及装置
JP2017510347A JP6498750B2 (ja) 2014-12-30 2015-07-06 情報検索方法及び装置
EP15874815.2A EP3242221A4 (en) 2014-12-30 2015-07-06 Information searching method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410843273.2A CN104504108B (zh) 2014-12-30 2014-12-30 信息搜索方法及装置

Publications (2)

Publication Number Publication Date
CN104504108A CN104504108A (zh) 2015-04-08
CN104504108B true CN104504108B (zh) 2018-07-13

Family

ID=52945505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410843273.2A Active CN104504108B (zh) 2014-12-30 2014-12-30 信息搜索方法及装置

Country Status (5)

Country Link
US (1) US20180018348A1 (zh)
EP (1) EP3242221A4 (zh)
JP (1) JP6498750B2 (zh)
CN (1) CN104504108B (zh)
WO (1) WO2016107125A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504108B (zh) * 2014-12-30 2018-07-13 百度在线网络技术(北京)有限公司 信息搜索方法及装置
CN106294803A (zh) * 2016-08-15 2017-01-04 马岩 搜图在大数据搜索中的应用方法及系统
US10496698B2 (en) * 2016-08-24 2019-12-03 Baidu Usa Llc Method and system for determining image-based content styles
CN108804448A (zh) * 2017-04-28 2018-11-13 百度在线网络技术(北京)有限公司 生成待推送信息的方法和装置
CN109543060A (zh) * 2018-10-25 2019-03-29 深圳壹账通智能科技有限公司 车型图片的展示方法、装置及存储介质、服务器
CN110287349A (zh) * 2019-06-10 2019-09-27 天翼电子商务有限公司 图形生成方法、装置、介质及终端
US11933986B2 (en) * 2022-03-11 2024-03-19 Bank Of America Corporation Apparatus and methods to extract data with smart glasses

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096881A (zh) * 2011-01-27 2011-06-15 朱丹 远程可控自动商品导购系统
CN102110304A (zh) * 2011-03-29 2011-06-29 华南理工大学 一种基于素材引擎的漫画自动生成方法
CN103902679A (zh) * 2014-03-21 2014-07-02 百度在线网络技术(北京)有限公司 搜索推荐方法和装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8626752B2 (en) * 2002-09-23 2014-01-07 Peach Wiz, Inc. Broadcast network platform system
JP2004287670A (ja) * 2003-03-20 2004-10-14 Dainippon Printing Co Ltd 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体
JP4725408B2 (ja) * 2006-05-10 2011-07-13 株式会社ニコン 被写体認識装置および被写体認識プログラム
GB2444535A (en) * 2006-12-06 2008-06-11 Sony Uk Ltd Generating textual metadata for an information item in a database from metadata associated with similar information items
JP2008217428A (ja) * 2007-03-05 2008-09-18 Fujitsu Ltd 画像検索プログラム、方法及び装置
JP2011070412A (ja) * 2009-09-25 2011-04-07 Seiko Epson Corp 画像検索装置および画像検索方法
JP5346756B2 (ja) * 2009-09-25 2013-11-20 Kddi株式会社 画像分類装置
US8391611B2 (en) * 2009-10-21 2013-03-05 Sony Ericsson Mobile Communications Ab Methods, systems and computer program products for identifying descriptors for an image
JP5197680B2 (ja) * 2010-06-15 2013-05-15 ヤフー株式会社 特徴情報作成装置、方法及びプログラム
JP5552987B2 (ja) * 2010-09-24 2014-07-16 富士通株式会社 検索結果出力装置、検索結果出力方法及び検索結果出力プログラム
US9286390B2 (en) * 2011-12-30 2016-03-15 Microsoft Technology Licensing, Llc Presentation of rich search results in delineated areas
US8838432B2 (en) * 2012-02-06 2014-09-16 Microsoft Corporation Image annotations on web pages
CN103559220B (zh) * 2013-10-18 2017-08-25 北京奇虎科技有限公司 图片搜索设备、方法及系统
CN104504104B (zh) * 2014-12-30 2018-09-07 百度在线网络技术(北京)有限公司 用于搜索引擎的图片物料处理方法、装置和搜索引擎
CN104504108B (zh) * 2014-12-30 2018-07-13 百度在线网络技术(北京)有限公司 信息搜索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096881A (zh) * 2011-01-27 2011-06-15 朱丹 远程可控自动商品导购系统
CN102110304A (zh) * 2011-03-29 2011-06-29 华南理工大学 一种基于素材引擎的漫画自动生成方法
CN103902679A (zh) * 2014-03-21 2014-07-02 百度在线网络技术(北京)有限公司 搜索推荐方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Filtering Internet image search results towards keyword based category recognition";K Wnuk et al.;《2008 IEEE Conference on Computer Vision and Pattern Recognition》;20080805;全文 *
"基于词汇树的图片搜索";陈赟 等;《计算机工程》;20100331;第36卷(第6期);全文 *

Also Published As

Publication number Publication date
CN104504108A (zh) 2015-04-08
WO2016107125A1 (zh) 2016-07-07
JP6498750B2 (ja) 2019-04-10
US20180018348A1 (en) 2018-01-18
EP3242221A1 (en) 2017-11-08
JP2017530451A (ja) 2017-10-12
EP3242221A4 (en) 2018-05-30

Similar Documents

Publication Publication Date Title
CN104504108B (zh) 信息搜索方法及装置
CN104462590B (zh) 信息搜索方法及装置
US8577882B2 (en) Method and system for searching multilingual documents
CN104268192B (zh) 一种网页信息提取方法、装置及终端
CN108959586A (zh) 响应于可视化查询标识文本词汇
CN109815386B (zh) 一种基于用户画像的构建方法、装置及存储介质
CN104809195B (zh) 搜索结果的推荐方法和装置
CN109144954A (zh) 编辑文档的资源推荐方法、装置及电子设备
CN105631051A (zh) 基于文字识别的移动增强现实阅读方法及其阅读系统
US20110307482A1 (en) Search result driven query intent identification
CN106557554B (zh) 基于人工智能的搜索结果的显示方法和装置
Karthika et al. Digital video copy detection using steganography frame based fusion techniques
CN104376114B (zh) 一种搜索结果展示方法及装置
CN102662959A (zh) 利用空间混合索引机制检测钓鱼网页的方法
Zhang et al. Web video thumbnail recommendation with content-aware analysis and query-sensitive matching
JP5103051B2 (ja) 情報処理システム及び情報処理方法
CN106504020A (zh) 一种基于seo的智能网络营销系统
CN104504104B (zh) 用于搜索引擎的图片物料处理方法、装置和搜索引擎
CN104462151B (zh) 评估网页发布时间的方法和相关装置
CN113570687A (zh) 一种文件处理方法及装置
Kuhn et al. The VAT: enhanced video analysis
Zhou et al. Multimedia metadata-based forensics in human trafficking web data
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN105787032B (zh) 网页快照的生成方法及装置
CN107491456A (zh) 图像排序方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant