CN104462282A - 信息搜索方法和装置 - Google Patents

信息搜索方法和装置 Download PDF

Info

Publication number
CN104462282A
CN104462282A CN201410697238.4A CN201410697238A CN104462282A CN 104462282 A CN104462282 A CN 104462282A CN 201410697238 A CN201410697238 A CN 201410697238A CN 104462282 A CN104462282 A CN 104462282A
Authority
CN
China
Prior art keywords
information
search results
information source
document
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410697238.4A
Other languages
English (en)
Other versions
CN104462282B (zh
Inventor
何中军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410697238.4A priority Critical patent/CN104462282B/zh
Publication of CN104462282A publication Critical patent/CN104462282A/zh
Application granted granted Critical
Publication of CN104462282B publication Critical patent/CN104462282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息搜索方法和装置,其中,方法包括:接收查询信息,获得与查询信息对应的搜索结果,并对搜索结果对应的文档进行聚类处理,以获得至少一个集合;以及针对每个集合,提取出当前集合中每个文档的发布时间,并根据发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项。本发明实施例通过对搜索结果对应的文档进行聚类处理获得至少一个集合,并确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项,可快速地定位至信息来源,增强了信息的可信度,从而使用户能够准确地了解信息的真实情况。

Description

信息搜索方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息搜索方法和装置。
背景技术
随着互联网技术的高速发展,信息传播速度大幅度提高。新闻事件在发生后,可迅速地通过互联网进行传播。如果某家媒体发布了一条信息,备受关注,则可能在极短的时间内被其他媒体或个人转载或转发。用户可及时地了解相关的信息,并进行追踪关注。
但是,在新闻事件被反复转载的过程中,有些内容可能会被篡改例如夸张事实、造谣等,当用户在搜索某一新闻事件时,获得的可能不是最初的新闻事件来源,因此无法准确地判断出该新闻事件的真实性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种信息搜索方法,该方法可快速地定位至信息来源,增强信息的可信度,从而使用户能够准确地了解信息的真实情况。
本发明的第二个目的在于提出一种信息搜索装置。
为达上述目的,根据本发明第一方面实施例提出了一种信息搜索方法,包括:接收查询信息,获得与所述查询信息对应的搜索结果,并对所述搜索结果对应的文档进行聚类处理,以获得至少一个集合;以及针对每个集合,提取出当前集合中每个文档的发布时间,并根据所述发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项。
本发明实施例的信息搜索方法,通过接收查询信息,获得与所述查询信息对应的搜索结果,并对所述搜索结果对应的文档进行聚类处理,以获得至少一个集合,以及针对每个集合,提取出当前集合中每个文档的发布时间,并根据所述发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项,可快速地定位至信息来源,增强了信息的可信度,从而使用户能够准确地了解信息的真实情况。
为达上述目的,根据本发明第二方面实施例提出了另一种信息搜索方法,包括:接收查询信息;获得与所述查询信息对应的搜索结果及其信息来源的链接信息;以及根据所述链接信息在搜索结果页中展现所述搜索结果及其对应的信息来源搜索选项,以在所述信息来源搜索选项被触发后展现对应的信息来源。
本发明实施例的信息搜索方法,通过接收查询信息,获得与所述查询信息对应的搜索结果及其信息来源的链接信息,根据所述链接信息在搜索结果页中展现所述搜索结果及其对应的信息来源搜索选项,以在所述信息来源搜索选项被触发后展现对应的信息来源,可快速地定位至信息来源,增强了信息的可信度,从而使用户能够准确地了解信息的真实情况。
为达上述目的,根据本发明第三方面实施例提出了一种信息搜索装置,包括:处理模块,用于接收查询信息,获得与所述查询信息对应的搜索结果,并对所述搜索结果对应的文档进行聚类处理,以获得至少一个集合;以及确定模块,用于针对每个集合,提取出当前集合中每个文档的发布时间,并根据所述发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项。
本发明实施例的信息搜索装置,通过接收查询信息,获得与所述查询信息对应的搜索结果,并对所述搜索结果对应的文档进行聚类处理,以获得至少一个集合,以及针对每个集合,提取出当前集合中每个文档的发布时间,并根据所述发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项,可快速地定位至信息来源,增强了信息的可信度,从而使用户能够准确地了解信息的真实情况。
为达上述目的,根据本发明第四方面实施例提出了另一种信息搜索装置,包括:接收模块,用于接收查询信息;获得模块,用于获得与所述查询信息对应的搜索结果及其信息来源的链接信息;以及展现模块,用于根据所述链接信息在搜索结果页中展现所述搜索结果及其对应的信息来源搜索选项,以在所述信息来源搜索选项被触发后展现对应的信息来源。
本发明实施例的信息搜索装置,通过接收查询信息,获得与所述查询信息对应的搜索结果及其信息来源的链接信息,根据所述链接信息在搜索结果页中展现所述搜索结果及其对应的信息来源搜索选项,以在所述信息来源搜索选项被触发后展现对应的信息来源,可快速地定位至信息来源,增强了信息的可信度,从而使用户能够准确地了解信息的真实情况。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为根据本发明一个实施例的信息搜索方法的流程图。
图2为根据本发明一个实施例的文档一时间戳显示效果图。
图3为根据本发明一个实施例的文档二时间戳显示效果图。
图4为根据本发明一个实施例的提取文档对应的信息来源的链接信息的效果图。
图5为根据本发明另一个实施例的信息搜索方法的流程图。
图6为根据本发明另一个实施例的展现对应的信息来源搜索选项的效果示意图。
图7为根据本发明另一个实施例的展现搜索结果对应的信息来源的效果示意图。
图8为根据本发明一个实施例的信息搜索装置的结构示意图。
图9为根据本发明另一个实施例的信息搜索装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的信息搜索方法和装置。
图1为根据本发明一个实施例的信息搜索方法的流程图,本实施例从搜索引擎侧进行描述。
如图1所示,该信息搜索方法包括:
S11,接收查询信息,获得与查询信息对应的搜索结果,并对搜索结果对应的文档进行聚类处理,以获得至少一个集合。
在本发明的实施例中,搜索引擎可接收查询信息,获得与查询信息对应的搜索结果,然后可对搜索结果对应的文档进行聚类处理,以获得至少一个集合。
具体地,可根据搜索结果确定出至少一个事件,使用聚类算法如:k-means(基于距离的聚类算法)、PLSA(概率潜语义分析)等基于事件对搜索结果对应的文档进行聚类,以获得至少一个集合。其中,根据搜索结果确定出至少一个事件可通过两种方法实现:第一种方法,可对搜索结果进行聚类,例如可以对搜索结果页上第一页的搜索结果进行聚类,获得的类别即为事件;第二种方法,可将每个搜索结果作为一个事件。
举例来说,搜索引擎接收的查询信息为“APEC”,则可获得多个与“APEC”相关的搜索结果。其中,一些搜索结果是与“放假”相关的,可使用k-means、PLSA等聚类算法,对包含“放假”的文档进行聚类,确定出“放假”这一事件。
S12,针对每个集合,提取出当前集合中每个文档的发布时间,并根据发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项。
在获得至少一个集合后,搜索引擎可针对每个集合,提取出当前集合中每个文档的发布时间,并根据发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项。其中,信息来源的链接信息可为一个或多个。
具体地,搜索引擎可提取出当前集合中每个文档的时间戳,并根据时间戳确定当前集合中发布时间最早的文档,然后从当前集合中发布时间最早的文档中提取出对应的信息来源的链接信息。举例来说,如图2所示,文档一的时间戳为2014年10月9日15点16分,如图3所示,文档二的时间戳为2014年10月10日11点24分18秒,则可确定文档一为发布时间最早的文档。
然后,可提取文档对应的信息来源的链接信息,链接信息对应的信息来源为父亲节点,本文档为孩子节点。举例来说,如图4所示,方框中的为新闻链接,则表示“人民日报”为“新浪新闻”的父亲节点。以此类推,根据链接信息建立传播树或者传播森林。如果建立的是一棵树,即根节点唯一,则树的根节点为信息来源;如果建立的是个森林,即根节点不唯一,则对应的新闻事件有多个信息来源,例如多家媒体发布同一新闻事件。
本发明实施例的信息搜索方法,通过接收查询信息,获得与查询信息对应的搜索结果,并对搜索结果对应的文档进行聚类处理,以获得至少一个集合,以及针对每个集合,提取出当前集合中每个文档的发布时间,并根据发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项,可快速地定位至信息来源,增强了信息的可信度,从而使用户能够准确地了解信息的真实情况。
图5为根据本发明另一个实施例的信息搜索方法的流程图,本实施例从客户端侧进行描述。
如图5所示,该信息搜索方法包括:
S21,接收查询信息。
在本发明的实施例中,客户端可接收用户输入的查询信息。例如:用户可在搜索框中输入“APEC”。
S22,获得与查询信息对应的搜索结果及其信息来源的链接信息。
在搜索引擎对查询信息进行搜索后,客户端可获得与查询信息对应的搜索结果及其信息来源的链接信息。其中,信息来源的链接信息为一个或多个。
S23,根据链接信息在搜索结果页中展现搜索结果及其对应的信息来源搜索选项,以在信息来源搜索选项被触发后展现对应的信息来源。
当信息来源的链接信息为一个时,可在信息来源搜索选项被触发后直接展现对应的信息来源。
当信息来源的链接信息为多个时,可在信息来源搜索选项被触发后展现对应信息来源的链接信息及对应的摘要信息,例如,可以以搜索结果的展现样式来展现信息来源,从而使用户可预览相关信息;在链接信息被触发后可展现对应的信息来源。
例如:查询信息为“APEC”,则可在搜索结果页中展现“APEC”相关的搜索结果,在每条搜索结果的后面,可展现对应的信息来源搜索选项,如图6所示,可展现“源搜索”选项。如果某一搜索结果的信息来源的链接信息为一个,则可在用户点击“源搜索”后,如图7所示,直接展现该搜索结果对应的信息来源。如果该搜索结果的信息来源的链接信息为多个,则可在用户点击“源搜索”后,展现对应信息来源的链接信息及对应的摘要信息,用户可选择点击其中任意一个链接信息,从而展现该链接信息对应的信息来源。
本发明实施例的信息搜索方法,通过接收查询信息,获得与查询信息对应的搜索结果及其信息来源的链接信息,根据链接信息在搜索结果页中展现搜索结果及其对应的信息来源搜索选项,以在信息来源搜索选项被触发后展现对应的信息来源,可快速地定位至信息来源,增强了信息的可信度,从而使用户能够准确地了解信息的真实情况。
为了实现上述实施例,本发明还提出一种信息搜索装置。
图8为根据本发明一个实施例的信息搜索装置的结构示意图。
如图8所示,该信息搜索装置包括:处理模块110和确定模块120。
处理模块110用于接收查询信息,获得与查询信息对应的搜索结果,并对搜索结果对应的文档进行聚类处理,以获得至少一个集合。
在本发明的实施例中,处理模块110可接收查询信息,获得与查询信息对应的搜索结果,然后可对搜索结果对应的文档进行聚类处理,以获得至少一个集合。
具体地,处理模块110可根据搜索结果确定出至少一个事件,使用聚类算法如:k-means(基于距离的聚类算法)、PLSA(概率潜语义分析)等基于事件对搜索结果对应的文档进行聚类,以获得至少一个集合。其中,根据搜索结果确定出至少一个事件可通过两种方法实现:第一种方法,可对搜索结果进行聚类,例如可以对搜索结果页上第一页的搜索结果进行聚类,获得的类别即为事件;第二种方法,可将每个搜索结果作为一个事件。
举例来说,搜索引擎接收的查询信息为“APEC”,则可获得多个与“APEC”相关的搜索结果。其中,一些搜索结果是与“放假”相关的,可使用k-means、PLSA等聚类算法,对包含“放假”的文档进行聚类,确定出“放假”这一事件。
确定模块120用于针对每个集合,提取出当前集合中每个文档的发布时间,并根据发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项。
在获得至少一个集合后,确定模块120可针对每个集合,提取出当前集合中每个文档的发布时间,并根据发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项。其中,信息来源的链接信息可为一个或多个。
具体地,确定模块120可提取出当前集合中每个文档的时间戳,并根据时间戳确定当前集合中发布时间最早的文档,然后从当前集合中发布时间最早的文档中提取出对应的信息来源的链接信息。举例来说,如图2所示,文档一的时间戳为2014年10月9日15点16分,如图3所示,文档二的时间戳为2014年10月10日11点24分18秒,则可确定文档一为发布时间最早的文档。
然后,可提取文档对应的信息来源的链接信息,链接信息对应的信息来源为父亲节点,本文档为孩子节点。举例来说,如图4所示,方框中的为新闻链接,则表示“人民日报”为“新浪新闻”的父亲节点。以此类推,根据链接信息建立传播树或者传播森林。如果建立的是一棵树,即根节点唯一,则树的根节点为信息来源;如果建立的是个森林,即根节点不唯一,则对应的新闻事件有多个信息来源,例如多家媒体发布同一新闻事件。
本发明实施例的信息搜索装置,通过接收查询信息,获得与查询信息对应的搜索结果,并对搜索结果对应的文档进行聚类处理,以获得至少一个集合,以及针对每个集合,提取出当前集合中每个文档的发布时间,并根据发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项,可快速地定位至信息来源,增强了信息的可信度,从而使用户能够准确地了解信息的真实情况。
图9为根据本发明另一个实施例的信息搜索装置的结构示意图。
如图9所示,该信息搜索装置包括:接收模块210、获得模块220和展现模块230。
接收模块210用于接收查询信息。
在本发明的实施例中,接收模块210可接收用户输入的查询信息。例如:用户可在搜索框中输入“APEC”。
获得模块220用于获得与查询信息对应的搜索结果及其信息来源的链接信息。
在搜索引擎对查询信息进行搜索后,获得模块220可获得与查询信息对应的搜索结果及其信息来源的链接信息。其中,信息来源的链接信息为一个或多个。
展现模块230用于根据链接信息在搜索结果页中展现搜索结果及其对应的信息来源搜索选项,以在信息来源搜索选项被触发后展现对应的信息来源。
当信息来源的链接信息为一个时,展现模块230可在信息来源搜索选项被触发后直接展现对应的信息来源。
当信息来源的链接信息为多个时,展现模块230可在信息来源搜索选项被触发后展现对应信息来源的链接信息及对应的摘要信息,例如,可以以搜索结果的展现样式来展现信息来源,从而使用户可预览相关信息;在链接信息被触发后可展现对应的信息来源。
例如:查询信息为“APEC”,则可在搜索结果页中展现“APEC”相关的搜索结果,在每条搜索结果的后面,可展现对应的信息来源搜索选项,如图6所示,可展现“源搜索”选项。如果某一搜索结果的信息来源的链接信息为一个,则可在用户点击“源搜索”后,如图7所示,直接展现该搜索结果对应的信息来源。如果该搜索结果的信息来源的链接信息为多个,则可在用户点击“源搜索”后,展现对应信息来源的链接信息及对应的摘要信息,用户可选择点击其中任意一个链接信息,从而展现该链接信息对应的信息来源。
本发明实施例的信息搜索装置,通过接收查询信息,获得与查询信息对应的搜索结果及其信息来源的链接信息,根据链接信息在搜索结果页中展现搜索结果及其对应的信息来源搜索选项,以在信息来源搜索选项被触发后展现对应的信息来源,可快速地定位至信息来源,增强了信息的可信度,从而使用户能够准确地了解信息的真实情况。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种信息搜索方法,其特征在于,包括:
S11,接收查询信息,获得与所述查询信息对应的搜索结果,并对所述搜索结果对应的文档进行聚类处理,以获得至少一个集合;以及
S12,针对每个集合,提取出当前集合中每个文档的发布时间,并根据所述发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项。
2.根据权利要求1所述的方法,其特征在于,所述对所述搜索结果对应的文档进行聚类处理,包括:
根据所述搜索结果确定出至少一个事件,使用聚类算法基于所述事件对所述搜索结果对应的文档进行聚类。
3.根据权利要求1所述的方法,其特征在于,所述提取出当前集合中每个文档的发布时间,并根据所述发布时间确定出当前集合中文档的信息来源的链接信息,包括:
提取出当前集合中每个文档的时间戳,并根据所述时间戳确定当前集合中发布时间最早的文档;以及
从当前集合中发布时间最早的文档中提取出对应的信息来源的链接信息。
4.根据权利要求3所述的方法,其特征在于,所述信息来源的链接信息为一个或多个。
5.一种信息搜索方法,其特征在于,包括:
S21,接收查询信息;
S22,获得与所述查询信息对应的搜索结果及其信息来源的链接信息;以及
S23,根据所述链接信息在搜索结果页中展现所述搜索结果及其对应的信息来源搜索选项,以在所述信息来源搜索选项被触发后展现对应的信息来源。
6.根据权利要求5所述的方法,其特征在于,所述信息来源的链接信息为一个或多个。
7.根据权利要求6所述的方法,其特征在于,当所述信息来源的链接信息为一个时,在所述信息来源搜索选项被触发后直接展现对应的信息来源;
当所述信息来源的链接信息为多个时,在所述信息来源搜索选项被触发后展现对应信息来源的链接信息,在所述链接信息被触发后展现对应的信息来源。
8.一种信息搜索装置,其特征在于,包括:
处理模块,用于接收查询信息,获得与所述查询信息对应的搜索结果,并对所述搜索结果对应的文档进行聚类处理,以获得至少一个集合;以及
确定模块,用于针对每个集合,提取出当前集合中每个文档的发布时间,并根据所述发布时间确定出当前集合中文档的信息来源的链接信息,以在搜索结果页上展现当前集合中的搜索结果及其对应的信息来源搜索选项。
9.根据权利要求8所述的装置,其特征在于,所述处理模块,具体用于:
根据所述搜索结果确定出至少一个事件,使用聚类算法基于所述事件对所述搜索结果对应的文档进行聚类。
10.根据权利要求8所述的装置,其特征在于,所述确定模块,具体用于:
提取出当前集合中每个文档的时间戳,并根据所述时间戳确定当前集合中发布时间最早的文档;以及
从当前集合中发布时间最早的文档中提取出对应的信息来源的链接信息。
11.根据权利要求10所述的装置,其特征在于,所述信息来源的链接信息为一个或多个。
12.一种信息搜索装置,其特征在于,包括:
接收模块,用于接收查询信息;
获得模块,用于获得与所述查询信息对应的搜索结果及其信息来源的链接信息;以及
展现模块,用于根据所述链接信息在搜索结果页中展现所述搜索结果及其对应的信息来源搜索选项,以在所述信息来源搜索选项被触发后展现对应的信息来源。
13.根据权利要求12所述的装置,其特征在于,所述信息来源的链接信息为一个或多个。
14.根据权利要求13所述的装置,其特征在于,当所述信息来源的链接信息为一个时,在所述信息来源搜索选项被触发后直接展现对应的信息来源;
当所述信息来源的链接信息为多个时,在所述信息来源搜索选项被触发后展现对应信息来源的链接信息,在所述链接信息被触发后展现对应的信息来源。
CN201410697238.4A 2014-11-26 2014-11-26 信息搜索方法和装置 Active CN104462282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410697238.4A CN104462282B (zh) 2014-11-26 2014-11-26 信息搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410697238.4A CN104462282B (zh) 2014-11-26 2014-11-26 信息搜索方法和装置

Publications (2)

Publication Number Publication Date
CN104462282A true CN104462282A (zh) 2015-03-25
CN104462282B CN104462282B (zh) 2018-05-08

Family

ID=52908318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410697238.4A Active CN104462282B (zh) 2014-11-26 2014-11-26 信息搜索方法和装置

Country Status (1)

Country Link
CN (1) CN104462282B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794242A (zh) * 2015-05-11 2015-07-22 何杨洲 一种搜索方法
CN106682532A (zh) * 2016-12-08 2017-05-17 宇龙计算机通信科技(深圳)有限公司 一种消息处理方法及装置
CN107203592A (zh) * 2017-04-25 2017-09-26 武汉大学 一种基于三点定位法的推送信息采信检测方法
CN111046271A (zh) * 2018-10-15 2020-04-21 阿里巴巴集团控股有限公司 用于搜索的挖掘方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152245A1 (en) * 2001-04-05 2002-10-17 Mccaskey Jeffrey Web publication of newspaper content
CN102012917A (zh) * 2010-11-26 2011-04-13 百度在线网络技术(北京)有限公司 信息处理装置以及处理方法
CN102236710A (zh) * 2011-06-30 2011-11-09 百度在线网络技术(北京)有限公司 一种用于在查询结果中展现新闻信息的方法与设备
CN102651012A (zh) * 2012-03-09 2012-08-29 华中科技大学 互联网新闻文本之间的转载关系识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152245A1 (en) * 2001-04-05 2002-10-17 Mccaskey Jeffrey Web publication of newspaper content
CN102012917A (zh) * 2010-11-26 2011-04-13 百度在线网络技术(北京)有限公司 信息处理装置以及处理方法
CN102236710A (zh) * 2011-06-30 2011-11-09 百度在线网络技术(北京)有限公司 一种用于在查询结果中展现新闻信息的方法与设备
CN102651012A (zh) * 2012-03-09 2012-08-29 华中科技大学 互联网新闻文本之间的转载关系识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794242A (zh) * 2015-05-11 2015-07-22 何杨洲 一种搜索方法
CN106682532A (zh) * 2016-12-08 2017-05-17 宇龙计算机通信科技(深圳)有限公司 一种消息处理方法及装置
CN107203592A (zh) * 2017-04-25 2017-09-26 武汉大学 一种基于三点定位法的推送信息采信检测方法
CN107203592B (zh) * 2017-04-25 2019-11-22 武汉大学 一种基于三点定位法的推送信息采信检测方法
CN111046271A (zh) * 2018-10-15 2020-04-21 阿里巴巴集团控股有限公司 用于搜索的挖掘方法、装置、存储介质及电子设备
CN111046271B (zh) * 2018-10-15 2023-04-25 阿里巴巴集团控股有限公司 用于搜索的挖掘方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN104462282B (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
CN108268582B (zh) 信息查询方法及装置
Mehmood et al. Implementing big data lake for heterogeneous data sources
WO2018072071A1 (zh) 知识图谱构建系统及方法
US9817908B2 (en) Systems and methods for news event organization
CN108268600B (zh) 基于ai的非结构化数据管理方法及装置
CN112015949A (zh) 视频生成方法和装置、存储介质及电子设备
US11061968B2 (en) Method, system and computer-readable recording medium for recommending query word using domain property
US20160055164A1 (en) News alert system and method
CN103902697A (zh) 组合搜索方法、客户端和服务器
US8661004B2 (en) Representing incomplete and uncertain information in graph data
US10762140B2 (en) Identifying content in a content management system relevant to content of a published electronic document
KR20160107187A (ko) 검색 결과에서의 논리적인 질문 응답 기법
CN105531700A (zh) 通过扩充服务的内容的自动扩充
Yao et al. Temporal and social context based burst detection from folksonomies
CN102959542A (zh) 用于管理视频内容的方法和装置
US9535921B2 (en) Automatic media naming using facial recognization and/or voice based identification of people within the named media content
CN111368141B (zh) 视频标签的扩展方法、装置、计算机设备和存储介质
CN109564576A (zh) 视频管理系统中的视频片段播放列表生成
CN110489649B (zh) 标签关联内容的方法及装置
CN103207917A (zh) 标注多媒体内容的方法、生成推荐内容的方法及系统
CN104462282A (zh) 信息搜索方法和装置
CN104462212A (zh) 信息展示方法和装置
US20170185690A1 (en) System and method for providing content recommendations based on personalized multimedia content element clusters
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
CN112307318A (zh) 一种内容发布方法、系统及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant