CN107526744B - 一种基于搜索的信息展示方法和装置 - Google Patents

一种基于搜索的信息展示方法和装置 Download PDF

Info

Publication number
CN107526744B
CN107526744B CN201610454599.5A CN201610454599A CN107526744B CN 107526744 B CN107526744 B CN 107526744B CN 201610454599 A CN201610454599 A CN 201610454599A CN 107526744 B CN107526744 B CN 107526744B
Authority
CN
China
Prior art keywords
information
webpage
word
matched
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610454599.5A
Other languages
English (en)
Other versions
CN107526744A (zh
Inventor
涂畅
张扬
王砚峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201610454599.5A priority Critical patent/CN107526744B/zh
Publication of CN107526744A publication Critical patent/CN107526744A/zh
Application granted granted Critical
Publication of CN107526744B publication Critical patent/CN107526744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供了一种基于搜索的信息展示方法和装置,该方法包括:依据接收的查询信息进行查询,确定与所述查询信息匹配的网页;从预设的标签信息库中,获取各匹配的网页对应的标签信息;依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈。本实施例在搜索结果中添加与查询信息匹配的各网页对应的标签信息,以辅助用户判断各网页结果的网页内容是否为需要的内容,从而可以减少用户无效点击的次数,提高搜索效率。

Description

一种基于搜索的信息展示方法和装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种基于搜索的信息展示方法和一种基于搜索的信息展示装置。
背景技术
随着网络技术的发展,搜索引擎得到了不断的完善,通过搜索引擎可以从互联网上获取各种信息。搜索引擎是当前互联网帮助用户快速获取信息的主要途径之一。
通常,用户提交一个查询词给搜索引擎,搜索引擎返回给用户与该查询词相关的搜索结果,如网页结果。具体的,在向用户展现每一个搜索结果的时候,搜索引擎都是从网页中抽取部分描述信息作为网页的简介,即作为网页的主要描述信息。但是,对用户而言,部分描述信息未必能帮助用户尽快了解网页的内容。用户通常需要打开网页,以查看网页内容,才能确定该网页内容是否为其所需要的内容。
显然,现有搜索引擎将网页的部分描述信息作为搜索结果的简介,不方便用户了解搜索结果的内容,即不利于用户判断各搜索结果是否为其所需要查找的信息。
发明内容
鉴于上述问题,本发明实施例提供一种基于搜索的信息展示方法和相应的一种基于搜索的信息展示装置,以解决不利于用户判断各搜索结果是否为其所需要查找的信息的问题,提高搜索操作的简便性。
为了解决上述问题,本发明实施例公开了一种基于搜索的信息展示方法,包括:
依据接收的查询信息进行查询,确定与所述查询信息匹配的网页;
从预设的标签信息库中,获取各匹配的网页对应的标签信息;
依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈。
优选地,该方法还包括预先建立标签信息库的步骤,所述步骤包括:
对网页包括的网页内容进行分词,确定每个词出现的次数;
按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重;
基于所述权重对所述网页包括的各个词进行排序,确定与网页内容相关的标签词,将所述标签词作为所述标签信息;
建立所述网页与所述标签信息的对应关系,保存在标签信息库中。
优选地,按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重,包括:
基于每个词出现的次数,确定每个词在所述网页中的第一词频;
在指定的网页数据库中遍历每个词,确定每个词对应的逆向文件频率;
依据每个词的第一词频和逆向文件频率计算得到每个词的权重。
优选地,所述依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面,包括:
将各匹配的网页构成搜索结果信息,将所述搜索结果信息配置于所述第一搜索结果页面的第一展示区域内;以及
将所述匹配的网页的标签信息生成搜索关联信息,将所述搜索关系信息配置于所述第一搜索结果页面的第二展示区域内。
优选地,所述方法还包括:
对所述匹配的网页的标签信息进行统计,确定各标签信息的第二词频;
按照所述第二词频的大小对各标签信息进行排序,将排序较高的标签信息确定为所述查询信息对应的关键信息;或者,将第二词频达到预置的数量阈值的标签信息确定为所述查询信息对应的关键信息;
将所述查询信息对应的各关键信息配置于所述第一搜索结果页面的第三展示区域内。
优选地,所述方法还包括:
接收在所述第一搜索结果页面上反馈的选中操作,确定选中项,所述选中项包括标签信息或关键信息;
采用选中项对与所述查询信息匹配的网页进行过滤,确定包含所述选中项的特征网页;
基于所述包含选中项的特征网页生成第二搜索结果页面并反馈。
优选地,还包括:
接收针对各标签信息的反馈信息,其中,所述反馈信息包括以下至少一项:编辑信息、修正信息、评价信息;
基于所述反馈信息对所述匹配的网页的标签信息进行修改。
本发明实施例还公开了一种基于搜索的信息展示装置,包括:
匹配网页确定模块,用于依据接收的查询信息进行查询,确定与所述查询信息匹配的网页;
标签信息获取模块,用于从预设的标签信息库中,获取各匹配的网页对应的标签信息;
第一页面生成模块,用于依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈。
优选地,还包括标签信息库建立模块,用于建立标签信息库。其中,所述标签信息库建立模块包括:分词子模块,用于对网页包括的网页内容进行分词,确定每个词出现的次数;权重确定子模块,用于按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重;标签词确定子模块,用于基于所述权重对所述网页包括的各个词进行排序,确定与网页内容相关的标签词,将所述标签词作为所述标签信息;保存子模块,用于建立所述网页与所述标签信息的对应关系,保存在标签信息库中。
优选地,权重确定子模块,具体用于基于每个词出现的次数,确定每个词在所述网页中的第一词频;在指定的网页数据库中遍历每个词,确定每个词对应的逆向文件频率;对每个词的第一词频和逆向文件频率进行计算,得到每个词的权重。
优选地,所述第一页面生成模块包括:
结果信息配置子模块,用于将各匹配的网页构成搜索结果信息,将所述搜索结果信息配置于所述第一搜索结果页面的第一展示区域内;
关联信息配置子模块,用于将所述匹配的网页的标签信息生成搜索关联信息,将所述搜索关系信息配置于所述第一搜索结果页面的第二展示区域内。
优选地,所述装置还包括:
标签统计模块,用于对所有匹配的网页的标签信息进行统计,确定各标签信息的第二词频;
关键信息确定模块,用于按照所述第二词频的大小对各标签信息进行排序,将排序较高的标签信息确定为所述查询信息对应的关键信息;或者,将第二词频达到预置的数量阈值的标签信息确定为所述查询信息对应的关键信息;
关键信息配置模块,用于将所述查询信息对应的各关键信息配置于所述第一搜索结果页面的第三展示区域内。
优选地,所述装置还包括:
选中项确定模块,用于接收在所述第一搜索结果页面上反馈的选中操作,确定选中项,所述选中项包括标签信息或关键信息;
特征网页确定模块,用于采用选中项对与所述查询信息匹配的网页进行过滤,确定包含所述选中项的特征网页;
第二页面生成模块,用于基于所述包含选中项的特征网页生成第二搜索结果页面并反馈。
优选地,所述装置还包括:
反馈信息接收模块,用于接收针对各标签信息的反馈信息,其中,所述反馈信息包括以下至少一项:编辑信息、修正信息、评价信息;
标签信息修改模块,用于基于所述反馈信息对所述匹配的网页的标签信息进行修改。
本发明实施例还公开了另一种基于搜索的信息展示装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据接收的查询信息进行查询,确定与所述查询信息匹配的网页;
从预设的标签信息库中,获取各匹配的网页对应的标签信息;
依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈。
本发明实施例包括以下优点:
首先,本实施例在搜索结果中添加与查询信息匹配的各网页对应的标签信息,以辅助用户判断各网页结果的网页内容是否为需要的内容,方便用户选择是否点击打开网页,从而可以减少用户无效点击的次数,提高搜索效率。
其次,本实施例可以依据用户在第一搜索结果页面提交的选中操作进行二次过滤,生成第二搜索结果页面并反馈,可以提高搜索的精确度,进一步提高搜索效率。
附图说明
图1是本发明实施例的一种基于搜索的信息展示方法的步骤流程图;
图2是本发明实施例的另一种基于搜索的信息展示方法的步骤流程图;
图3是本发明实施例的一种基于搜索的信息展示装置的结构框图;
图4是本发明一个具体示例中基于搜索的信息展示装置的结构框图;
图5是本发明实施例中服务器的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,预先确定各网页对应的标签信息,当确定与查询信息匹配的网页,可以依据匹配的网页和匹配网页的标签信息生成第一搜索结果页面并反馈给用户,从而可以通过网页的标签信息辅助用户判断网页内容是否是所需要的内容,即方便用户快速了解各网页结果的网页主要内容,从而减少用户无效点击的次数,提高搜索效率。
参照图1,示出了本发明实施例的一种基于搜索的信息展示方法的步骤流程图,具体可以包括如下步骤:
步骤102,依据接收的查询信息进行查询,确定与所述查询信息匹配的网页。
当用户输入查询信息时,搜索引擎可以接收到用户所输入的查询信息,如当用户在浏览器的网页上输入查询词时,浏览器的搜索引擎可以接收到用户所输入的查询词。在接收到查询信息后,搜索引擎可以将该查询信息发送到服务器,以通过服务器查找与该查询信息匹配的网页。例如,服务器可以在数据库中查找与该查询信息匹配的网页;当查找到与该查询信息匹配的网页时,可以提取与该查询信息匹配的网页,以及将所提取的各匹配的网页反馈给搜索引擎,从而使得搜索引擎可以确定与所述查询信息匹配的网页。
步骤104,从预设的标签信息库中,获取各匹配的网页对应的标签信息。
在本实施例中,搜索引擎可以预先从互联上爬取网页信息,存储到服务器中。例如,搜索引擎的爬虫可以将爬取到的网页信息发送给服务器。服务器在接收到网页信息后,可以对该网页信息进行存储,如存储到数据库中。具体的,服务器在接收到搜索引擎所发送的网页信息后,可以按照预设算法从各网页中抽取部分词作为网页内容相关的标签词,即确定各网页对应的标签信息,并且可以建立各网页与标签信息之间的对应关系,保存在标签信息库中。其中,所述标签信息库可以是网页数据库的一部分,也可以独立于所述网页数据库存在,在此不做限定。
因此,搜索引擎在从服务器的网页数据库中获取网页时,可以同时从预先建立的标签信息库中获取到该网页对应的标签信息,以及可以将该标签信息作为网页的主要描述信息。其中,搜索引擎可以根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户。
作为本申请的一个具体示例,搜索引擎的爬虫可以从互联网中爬取网页信息,即为搜索引擎从万维网上下载网页。具体的,爬虫是一种自动获取网页内容的程序,可以按照预设规则,自动的抓取万维网信息的程序或者脚本,如从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的预设停止条件。因此,搜索引擎可以通过调用爬虫对预设网络之间互连的协议(Internet Protocol,IP)地址范围内的互联网网站进行检索,若发现新的网站,则可以自动提取网站的信息和网址加入自己的数据库,即保存到对应的服务器中。服务器在接收到网页信息时,可以按照预设算法,如TF-IDF(Term Frequency–Inverse DocumentFrequency),从网页内容中提取网页对应的标签词,作为该网页对应的标签信息。在确定网页对应的标签信息后,服务器可以对网页对应的标签信息进行保存,从而在后续处理中搜索引擎可以从服务器中获取到网页对应的标签信息。
因此,搜索引擎在确定与查询信息匹配的网页后,可以从标签信息库中获取该匹配网页对应预设的标签信息,以生成该匹配网页对应的显示信息。
当然,服务器也可以采用其他预设的文本特征抽取算法,如文档频次(DocumentFrequency)、互信息(Mutual Information),期望交叉熵(Expected Cross Entropy)、词频方法(Word Frequency)等,来确定网页的标签信息,本申请实施例对此不作限制。
步骤106,依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈。
在本实施例中,搜索引擎在确定与查询信息匹配的网页后,可以按照各匹配的网页与查询信息之间的匹配程度,如各匹配的网页对应权重,对各匹配的网页进行排序,从而确定各匹配的网页对应的显示优选级顺序。搜索引擎可以基于所确定的显示优选级顺序,确定各匹配的网页在第一搜索结果页面中显示位置,进而采用各匹配的网页生成第一搜索结果网页,并且可以将该第一搜索结果页面反馈给用户,如在显示屏上展示该第一搜索结果页面,使得用户可以查看第一搜索结果页面,获取到与查询信息对应的查询结果。其中,第一搜索结果网页的网页内容可以包括各匹配网页对应的搜索结果项,其中各搜索结果项包括对应网页的摘要信息和网页标签信息。其中,网页的标签信息可以用于描述网页的主要内容,可以作为网页结果的关联信息显示在该网页对应的搜索结果项中,以辅助用户迅速了解网页的主要内容。
可选的,搜索引擎可以采用各匹配的网页摘要信息构成搜索结果信息,即确定各网页结果,如当搜索引擎接收到查询信息为“机器学习十大算法”,通过查询得到一个匹配的网页结果,从而可以从该匹配的网页中抽取一段连续文字“2012年3月29日-最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),也就是将隐藏变……”作为该匹配网页的摘要信息。搜索引擎可以采用各匹配网页的标签信息作为各网页结果对应的搜索关联信息,显示在各网页结果项的右侧或左侧等对应的展示区域中,以助于用户在不用打开网页就能了解这个网页结果的主要内容,辅助用户判断是否需要点开该网页,减少用户无效点击的次数。如结合上述例子,从上述匹配的网页中抽取到的标签词可以包括十大算法的具体名字,如:C4.5,SVM,PageRank等,以及与每个算法具体思想相关的一些关键词。显然,在展示各网页结果的摘要信息的同时,在各网页结果对应的位置给用户展示从网页中提取的一些标签信息,使得用户可以通过网页的标签信息获知网页结果的网页主要内容,进而可以判断网页内容是否为所需要的内容,无需点击打开网页以查看网页内容。
进一步的,该标签信息还可以用于表示对应网页的类型信息。例如,同样是针对某一方面的网页,有些网页是学术类的,有些网页是娱乐类的,有些网页是技术类的,在显示查询信息对应的各搜索结果项时,还可以显示各搜索结果项对应网页的标签信息,从而向用户指明该网页的类型信息,使得用户可以根据自己的需求打开相应的网页进行查看。
本实施例预先确定了各网页对应的标签信息,从而可以在搜索结果中添加与查询信息匹配的各网页对应的标签信息,以辅助用户判断各网页结果的网页内容是否为需要的内容,方便用户选择是否点击打开网页,从而可以减少用户无效点击的次数,提高搜索效率。
参照图2,示出了本发明实施例的另一种基于搜索的信息展示方法的步骤流程图,具体可以包括如下步骤:
步骤202,预先建立标签信息库。
在本申请的一种优选实施例中,建立标签信息库,具体可以包括如下子步骤:
子步骤2022,针对各网页,对该网页包括的网页内容进行分词,确定每个词出现的次数。
本实施例在对网页内容进行分词的过程中,可以过滤网页中无意义的词,如过滤“的”、“我们”、“了”等,从网页中提取出具有实际意义的词,并统计具有意义的各词出现的次数,以减少确定网页的标签信息的计算量。具体的,服务器在接收到搜索引擎爬取到的网页信息后,可以针对同一网页,对所有网页内容进行分词,确定每个词出现的次数,如在对同一网页的全部网页内容进行分词后,可以确定在该网页所包括的各个词,即确定在该网页中出现的每一个词;并且可以针对同一个词,统计该词在网页中出现的次数,即确定每个词出现的次数;还可以采用字典保存每个词出现的次数。
子步骤2024,按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重。
在确定每个词在网页中出现的次数后,可以采用预设算法对每个词出现的次数进行计算,从而确定出每个词在该网页中对应的权重,即确定每个词在网页中的特征重要性。
可选的,按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重,具体可以包括:基于每个词出现的次数,确定每个词在网页中的第一词频;以及,在指定的网页数据库中遍历每个词,确定每个词对应的逆向文件频率;对每个词的第一词频和逆向文件频率进行计算,得到每个词的权重。
作为本实施例的一个具体示例,服务器可以采用预设特征抽取算法,如TF-IDF算法,来确定每个词对应的权重。其中,TF为词频(Term Frequency),可以表示词条在某个文档中出现的频率,即可以表示词在当前网页中出现的频率。IDF为逆向文件频率(InverseDocument Frequency),可以表征一个词语普遍重要性。具体的,首先,可以统计当前网页中所有词出现的总次数,以及可以分别采用每个词出现的次数除以总次数,可以得到每个词在该网页中出现的频率,即确定每个词在网页中的第一词频。其次,针对每个词,可以对指定的网页数据库中包括的网页进行遍历,从而可以确定包含该词的网页数,以及可以统计所有遍历网页总数,采用含该词的网页数除以遍历网页总数得到对应的商,然后对商取得对数,得到该词对应的逆向文件频率。最后,计算第一词频与逆向文件频率的乘积,从而可以得到TF*IDF值,可以将TF*IDF值作为词的权重。
其中,上述指定的网页数据库中可以是包括一定时间段内所抓取的网页的数据库;也可以是包括特定类型网页的数据库等等,本发明实施对此不作限制。
当然,在实际应用中,还可以直接依据每个词在所述网页中出现的次数的多少来确定每个词对应的权重,此时,所述按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重,具体可以包括:基于每个词出现的次数的多少,确定每个词对应的权重;其中,每个词出现的次数越多,该词对应的权重越高,反之,每个词出现的次数越少,该词对应的权重越低。本实施例对确定网页中每个词对应的权重的方式不作具体的限制。
子步骤2024,基于权重对所述网页包括的各个词进行排序,确定与网页内容相关的标签词,将所述标签词作为所述标签信息。
本实施例中,针对同一网页,可以按照该网页包括的各词的权重的大小对所有词进行排序,从而可以将权重较大的若干个词确定为网页内容相关的标签词,以及可以将所确定的标签词作为该网页对应的标签信息。
在本申请的一个具体示例中,服务器可以采用一个字典来保存所有的词信息,如保存出现的次数、每个词的第一词频、每个词对应的TF*IDF值等,然后按照TF*IDF值对同一网页中的词进行排序,从而可以抽取TF*IDF值较大的前几个词作为标签词,确定该网页的标签信息。
当然,本实施可以采用其他算法从同一网页中抽取具有区分性和代表性的标签词或者关键词,如基于分离模型的关键词提取算法、基于高维聚类技术的关键词提取算法、TF-IWF文档关键词自动提取算法、基于朴素贝叶斯模型的关键词提取算法、基于语义的中文文本关键词提取算法(即SKE算法)等,可以依据具体的数据分布、网页类别以及应用来确定,本实施例对此不作限制。
子步骤2025,建立所述网页与标签信息之间的对应关系,并保存在标签信息库中。
其中,所述标签信息库可以包括在所述网页数据库中。
步骤204,依据接收的查询信息进行查询,确定与所述查询信息匹配的网页。
步骤206,依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈。
本实施例中,搜索引擎依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面,具体可以包括:将各匹配的网页构成搜索结果信息,将所述搜索结果信息配置于所述第一搜索结果页面的第一展示区域内;以及将所述匹配的网页的标签信息生成搜索关联信息,将所述搜索关联信息配置于所述第一搜索结果页面的第二展示区域内。具体的,搜索引擎可以将匹配得到各网页作为搜索对应的网页结果,采用匹配得到各网页生成第一搜索结果页面,以及可以将所生成的第一搜索结果页面反馈给用户,如在显示屏上展示第一搜索结果页面。
作为本申请的一种具体应用,在生成第一搜索结果页面的过程中,可以分别提取各匹配网页的网页内容中连续的一段文字,如一篇文章中一个包含标签词或关键词的连续的片段,作为各匹配网页的摘要信息,从而可以确定出第一搜索结果页面的搜索结果信息,并且可以将各匹配网页的摘要信息配置于预设的第一展示区域中,从而可以在显示屏上展示第一搜索结果页面时,在搜索结果页面的第一展示区域中显示各匹配网页的摘要信息,如匹配网页中文章主题、所提取的连续文字等。由于有时候文章所要表达的内容是分散的,即所匹配网页所表达的网页内容是分散的,若只提取包含一个关键词的连续的片段,无法帮助用户判断整篇文章的内容,因此,为了充分地展示各匹配网页的网页内容,本实施例还在第一搜索结果页面中配置了第二展示区域,以便展示各匹配网页的关联信息,如各匹配网页对应的标签信息,从而帮助用户迅速了解各匹配网页的内容。具体的,搜索引擎在生成第一搜索结果页面的过程中,还可以将各匹配网页对应的标签信息作为各匹配网页的关联信息,以及配置于第一搜索结果页面预设的第二展示区域中,从而可以在第一搜索结果页面的第二展示区域中显示各匹配网页的关联信息,如在各匹配网页的摘要信息显示区域的右侧或左侧空白区域中显示对应的标签信息,使得用户可以通过匹配网页的关联信息了解该匹配网页的内容,以决定是否点击查看。
当然,第二展示区域可以嵌入到第一展示区域中,从而使得将每个匹配网页的标签信息紧随着该匹配网页的摘要信息进行显示,以便用户可以确定标签信息对应哪一个网页结果。本实施例对网页的标签信息的具体显示位置不作限制。
可选的,本实施还可以对所有匹配的网页的标签信息进行统计,确定各标签信息的第二词频,所述第二词频用于表示各标签信息在所有匹配网页中出现的总次数,按照所述第二词频的大小对各标签信息进行排序,可以将排序较高的标签信息确定为查询信息对应的关键信息,如可以将第二词频较大的N个标签信息确定为所述查询信息对应的关键信息,其中N为整数;或者,当标签信息的第二词频达到预置的数量阈值时,将所述第二词频达到预置的数量阈值的标签信息确定为所述查询信息的关键信息。因此,在本申请的一种优选实施例中,依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面还可以包括:将查询信息对应的关键信息配置于所述第一搜索结果的第三展示区域内。
本实施例可以针对每一个标签信息,如标签词,统计该标签信息在所有匹配得到的网页中出现的总次数,如对每个标签词在各匹配网页中出现的次数进行求和,从而确定每一个标签信息对应的第二词频,如可以按照确定第一词频的方法确定第二词频,即采用每个标签信息在所有匹配得到的网页中出现的总次数A除以所有匹配网页中所有词出现的总次数B得到每个标签信息对应的第二词频T,即T=A/B。在确定每个标签信息的第二词频后,可以按照预设的关键词数量阈值N,抽取N个具有代表性的标签信息构成搜索关键信息,如将第二词频最大的N个标签信息确定为所述输入信息对应的关键信息。当然,本实施例可以按照其他预设规则确定查询信息对应的关键信息,如在标签信息的第二词频达到预置的数量阈值时,可以将该标签信息确定为查询信息对应的关键信息,本实施对此不作具体限制。
搜索引擎在生成第一搜索结果页面的过程中,可以将查询信息对应的关键信息配置于预设的第三展示区域中,从而可以在显示屏上展示该第一搜索结果页面时,向用户展示该关键信息,即向用户推荐关键信息。
优选的,本实施例可以在展示关键信息时,展示各关键信息对应的网页结果数,如在每个关键词下面显示包含该关键词的匹配网页的数量。当然,也可以在每个关键词的上面、左侧或右侧的区域展示对应的网页结果数,本申请实施例对此不作限制。
在本发明的一个优选实施例中,依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈,包括:对所述匹配的网页的标签信息进行统计,确定所述标签信息对应的统计信息;其中,所述统计信息包括:各标签信息对应的匹配网页数量和/或所有标签信息对应的标签总数,所述第一搜索结果页面包含所述统计信息。
具体的,本实施在搜索结果页面生成之前,可以针对每个搜索结果项对应的标签信息进行统计,确定所有搜索结果中包含某一标签信息的匹配网页和对应的匹配网页数,该匹配网页数可以用于表示该标签信息对应的匹配网页的个数;也可以计算查询信息对应的标签信息的数量,即确定所有标签对应的标签总数。在对标签信息进行统计后,可以生成标签信息对应的统计信息,如各标签信息对应的匹配网页数量、所有标签信息对应的标签总数等,以基于该统计信息生成查询信息对应的第一搜索结果页面,使得第一搜索结果页面可以包含该统计信息,方便用户查找其所需要的信息,即提高搜索效率。具体的,搜索引擎在反馈第一搜索结果页面后,还可以依据选中的标签信息,从所述统计信息中获取对应的各特征网页;采用所述特征网页生成第二搜索结果页面并反馈。
需要说明的是,第一展示区域、第二展示区域,以及第三展示区域在网页中的具体显示位置可以依据预设设置参数确定,如第一展示区域可以在页面的中间位置;第二展示区域可以在第一展示区域的右侧空白的区域中;第三展示区域可以在页面的搜索输入区域的下面且在第一展示区域上面,本实施例对此不作限制。
进一步的,在对各匹配网页对应的标签信息进行统计之后,所述方法还可以包括,依据统计后的标签信息,获取包括与某一标签信息对应的所有匹配网页的搜索结果。具体的,在步骤202至204所述方法的基础上,还可以包括:
步骤208,接收在所述第一搜索结果页面上反馈的选中操作,确定选中项。
当第一搜索结果页面展示在显示屏上,用户可以查看第一搜索结果页面所包含的网页信息,如各匹配页面的摘要信息、各匹配页面的标签信息、查询信息对应的关键信息等;并且可以在第一搜索结果页面上进行操作,如点击或双击第一搜索结果页面上的某一关键信息、标签信息或摘要信息。搜索引擎可以依据用户在第一搜索结果页面上提交的选中操作,确定选中项,并进行反馈。其中,选中项可以包括标签信息、关键信息或摘要信息等。具体的,当用户在第一搜索结果页面上提交的选中操作,搜索引擎可以接收到该选中操作,从而可以依据该选中操作对应的操作位置,确定选中项,如将用户所点击的关键信息或者标签信息作为选中项。
步骤210,采用选中项对第一搜索结果页面中包括的与所述查询信息匹配的网页进行过滤,确定包含所述选中项的特征网页。
在确定选中项后,本实施例可以基于该选中项对第一搜索结果进行过滤,确定包含选中项的特征网页,如从与查询信息匹配的所有网页中提取包含选中项的网页,确定为特征网页。
步骤212,基于所述包含选中项的特征网页生成第二搜索结果页面并反馈。
需要说明的是,基于特征网页生成第二搜索结果页面的具体过程与基于匹配网页生成第一搜索结果页面的具体过程基本一致,为避免重复,本实施例不再赘述。
具体的,当所述选中项包括某一标签信息时,所述特征网页包括所有对应与所述标签信息的网页。即为,当用户点击某一搜索结果项对应的网页的某一标签信息或点击关键信息中包括的某一标签信息时,搜索引擎对当前查询信息对应的所有匹配的网页进行过滤,仅保留对应所述标签信息的匹配网页,并构建特征网页,展示给该用户。由此可以使得,对查询信息对应的匹配网页进行过滤,仅保留用户感兴趣的标签信息对应的匹配网页,从而提高搜索的效率。
当所述选中项包括关键信息时,所述特征网页包括所述关键信息中各标签信息分别对应的网页。即为,当用户点击搜索结果页中展示的关键信息时,搜索引擎对当前查询信息对应的所有匹配的网页进行过滤,仅保留所述关键信息中包括的各标签信息分别对应的匹配网页,并构建特征网页,展示给该用户。具体的,通过前述实施例可知,关键信息一般包括该查询信息对应的所有匹配网页对应的标签信息中,出现次数较高的部分标签信息,因此,基于该方法,可以实现对匹配网页的过滤,仅保留出现次数较高的标签信息对应的匹配网页展示给用户,从而提高搜索的效率。
作为本申请的一个具体示例,当用户输入查询信息“数据挖掘算法”,搜索引擎可以给出一系列与数据挖掘算法相关的网页结果,即确定与查询信息“数据挖掘算法”匹配的网页。通过特定的方法,如通过词频高低、TF-IDF算法等,可以从每个页面结果中抽取特定的标签词,作为搜索关联信息;以及可以统计所有网页结果的标签词,取出词频较高的一部分标签词作为搜索的相关关键词,从而可以获取到一部分与“数据挖掘算法”相关的词,如:SVM、K-means、PageRank、机器学习、神经网络等,即确定查询信息对应的关键信息。搜索引擎可以将这部分词作为查询信息对应的关键词推荐给用户,并且可以在每个关键词下面展示含有该关键词的网页结果数,使得用户可以依据该网页结果数判断该关键词是否适合作为第二次搜索的查询信息,从而提高搜索效率。用户可以通过点击特定的关键词,进行二次过滤,从而打开一个新的含有特定相关关键词的搜索结果页。即搜索引擎依据用户在第一搜索结果页面上反馈的选中操作,确定选中项,以及基于该选中项对第一搜索的网页结果进行过滤,确定包含选中项的网页结果,并基于包含选中项的网页结果生成第二搜索结果页面,将第二搜索结果页面反馈给用户。
本实施例可以依据用户在第一搜索结果页面提交的选中操作进行二次过滤,生成第二搜索结果页面并反馈,可以提高搜索的精确度,以及可以提高搜索效率。
进一步的,本实施例还可以依据用户针对各网页定义的标签词确定各网页的标签信息。例如,浏览器可以向用户提供输入标签词的入口,从而使得用户可以依据网页的具体内容为该网页定义对应的标签词,以及可以通过该入口向浏览器提交该网页定义对应的标签词,以更新该网页对应的标签信息。具体的,浏览器可以通过监测向用户提供输入标签词的入口,以该入口接收到用户针对某一网页输入的标签词,从而可以依据用户所定义的标签词确定该网页对应的标签信息,并建立该网页与所确定的标签信息的对应关系,保存到标签信息库中,从而可以在匹配到该网页时,将用户所定义的标签信息显示在搜索结果页面中。
可选的,为了避免某一网页对应的标签信息比较多,搜索引擎可以在预设的时间范围内对接收到的用户所定义的标签词进行统计,以选择出现次数较高的几个标签词作为该网页对应的标签信息,以保证该标签信息的标识作用,方便用户了解该网页的具体内容。
在本发明的一种优选实施例中,基于搜索的信息展示方法还可以包括:接收针对各网页对应的标签信息的反馈信息;基于所述反馈信息对所述匹配的网页的标签信息进行修正。其中,反馈信息包括以下至少一项:编辑信息、修正信息、评价信息等。
具体的,用户可以对网页对应的标签信息进行反馈,如针对标签信息输入评价信息、修正信息、编辑信息等反馈信息,以使服务器可以基于该反馈信息对网页的标签信息进行修正,从而保证网页的标签信息的准确度,提高用户体检。例如,评价信息可以依据用户对网页的标签信息的评价生成的,如评价等级、评价分数;编辑信息可以包括依据用户针对网页的标签信息输入的信息,且可以用于增加该网页的标签信息;修正信息可以依据用户针对网页的标签信息提交的操作生成的,可以用于修改或删除网页的标签信息。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的一种基于搜索的信息展示装置实施例的结构框图,具体可以包括如下模块:
匹配网页确定模块302,用于依据接收的查询信息进行查询,确定与所述查询信息匹配的网页。
标签信息获取模块304,用于从预设的标签信息库中,获取各匹配的网页对应的标签信息。
第一页面生成模块306,用于依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈。
在本发明的一个优选实施例中,基于搜索的信息展示装置还可以包括:标签信息库建立模块,用于建立标签信息库。
本实施例中,标签信息库建立模块,具体可以包括如下子模块:
分词子模块,用于对网页包括的网页内容进行分词,确定每个词出现的次数。
权重确定子模块,用于按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重。
标签词确定子模块,用于基于权重对所述网页包括的各个词进行排序,确定与网页内容相关的标签词,将所述标签词作为所述标签信息。
保存子模块,用于建立所述网页与所述标签信息的对应关系,保存在标签信息库中。
可选的,权重确定子模块,具体可以用于基于每个词出现的次数,确定每个词在网页中的第一词频;在指定的网页数据库中遍历每个词,确定每个词对应的逆向文件频率;对每个词的第一词频和逆向文件频率进行计算,得到每个词的权重。
在本申请的一种优选实施例中,第一页面生成模块具体可以包括以下子模块:
结果信息配置子模块,用于将各匹配的网页构成搜索结果信息,将所述搜索结果信息配置于所述第一搜索结果页面的第一展示区域内。
关联信息配置子模块,用于将所述匹配的网页的标签信息生成搜索关联信息,将所述搜索关系信息配置于所述第一搜索结果页面的第二展示区域内。
可选的,该基于搜索的信息展示装置还可以包括:标签统计模块、关键信息确定模块和关键信息配置模块。
其中,标签统计模块,用于对所述匹配的网页的标签信息进行统计,确定各标签信息的第二词频。
关键信息确定模块,用于按照所述第二词频的大小对各标签信息进行排序,将排序较高的标签信息确定为所述查询信息对应的关键信息;或者,用于将第二词频达到预置的数量阈值的标签信息确定为查询信息对应的关键信息。
关键信息配置模块,用于将查询信息对应的各关键信息配置于所述第一搜索结果页面的第三展示区域内。
在本申请的一种优选实施例中,该基于搜索的信息展示装置还可以包括如下模块:
选中项确定模块,用于接收在所述第一搜索结果页面上反馈的选中操作,确定选中项。其中,选中项包括标签信息或关键信息。
特征网页确定模块,用于采用选中项对与所述查询信息匹配的网页进行过滤,确定包含所述选中项的特征网页。
第二页面生成模块,用于基于所述包含选中项的特征网页生成第二搜索结果页面并反馈。
反馈信息接收模块,用于接收针对各标签信息的反馈信息。其中,所述反馈信息包括以下至少一项:编辑信息、修正信息、评价信息。
标签信息修改模块,用于基于所述反馈信息对所述匹配的网页的标签信息进行修改。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图4是根据一示例性实施例示出的一种用于基于搜索的信息展示装置400的框图。例如,装置400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理部件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件406为装置400的各种组件提供电力。电力组件406可以包括电源管理系统,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到设备400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种基于搜索的信息展示方法,所述方法包括:依据接收的查询信息进行查询,确定与所述查询信息匹配的网页;从预设的标签信息库中,获取各匹配的网页对应的标签信息;依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈。
图5是本发明实施例中服务器的结构示意图。该服务器1600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1522(例如,一个或一个以上处理器)和存储器1532,一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1522可以设置为与存储介质1530通信,在服务器1500上执行存储介质1530中的一系列指令操作。
服务器1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,一个或一个以上键盘1556,和/或,一个或一个以上操作系统1541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种基于搜索的信息展示方法和一种基于搜索的信息展示装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (19)

1.一种基于搜索的信息展示方法,其特征在于,包括:
依据接收的查询信息进行查询,确定与所述查询信息匹配的网页;
从预设的标签信息库中,获取各匹配的网页对应的标签信息,所述标签信息包括网页内容相关的标签词,所述网页内容相关的标签词为按照预设算法从各网页中抽取的部分词;
依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈;
所述依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面,包括:
将所述匹配的网页的标签信息生成搜索关联信息,将所述搜索关系信息配置于所述第一搜索结果页面的第二展示区域内,所述第一搜索结果页面中的每个所述匹配的网页均有对应的所述第二展示区域;
对所述匹配的网页的标签信息进行统计,确定各标签信息的第二词频,所述第二词频用于表示各标签信息在所有匹配网页中出现的总次数;
按照所述第二词频的大小对各标签信息进行排序,将排序较高的标签信息确定为所述查询信息对应的关键信息;或者,将第二词频达到预置的数量阈值的标签信息确定为所述查询信息对应的关键信息;
将所述查询信息对应的关键信息配置于所述第一搜索结果页面的第三展示区域内。
2.根据权利要求1所述的方法,其特征在于,还包括:预先建立标签信息库的步骤,所述步骤包括:
对网页包括的网页内容进行分词,确定每个词出现的次数;
按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重;
基于所述权重对所述网页包括的各个词进行排序,确定与网页内容相关的标签词,将所述标签词作为所述标签信息;
建立所述网页与所述标签信息的对应关系,保存在标签信息库中。
3.根据权利要求2所述的方法,其特征在于,按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重,包括:
基于每个词出现的次数,确定每个词在所述网页中的第一词频;
在指定的网页数据库中遍历每个词,确定每个词对应的逆向文件频率;
依据每个词的第一词频和逆向文件频率计算得到每个词的权重。
4.根据权利要求1所述的方法,其特征在于,所述依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面,包括:
将各匹配的网页构成搜索结果信息,将所述搜索结果信息配置于所述第一搜索结果页面的第一展示区域内。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收在所述第一搜索结果页面上反馈的选中操作,确定选中项,所述选中项包括标签信息或关键信息;
采用选中项对与所述查询信息匹配的网页进行过滤,确定包含所述选中项的特征网页;
基于所述包含选中项的特征网页生成第二搜索结果页面并反馈。
6.根据权利要求1所述的方法,其特征在于,还包括:
接收针对各标签信息的反馈信息,其中,所述反馈信息包括以下至少一项:编辑信息、修正信息、评价信息;
基于所述反馈信息对所述匹配的网页的标签信息进行修正。
7.一种基于搜索的信息展示装置,其特征在于,包括:
匹配网页确定模块,用于依据接收的查询信息进行查询,确定与所述查询信息匹配的网页;
标签信息获取模块,用于从预设的标签信息库中,获取各匹配的网页对应的标签信息,所述标签信息包括网页内容相关的标签词,所述网页内容相关的标签词为按照预设算法从各网页中抽取的部分词;
第一页面生成模块,用于依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈;
所述第一页面生成模块包括:
关联信息配置子模块,用于将所述匹配的网页的标签信息生成搜索关联信息,将所述搜索关系信息配置于所述第一搜索结果页面的第二展示区域内,所述第一搜索结果页面中的每个所述匹配的网页均有对应的所述第二展示区域;
标签统计模块,用于对所有匹配的网页的标签信息进行统计,确定各标签信息的第二词频,所述第二词频用于表示各标签信息在所有匹配网页中出现的总次数;
关键信息确定模块,用于按照所述第二词频的大小对各标签信息进行排序,将排序较高的标签信息确定为所述查询信息对应的关键信息;或者,将第二词频达到预置的数量阈值的标签信息确定为所述查询信息对应的关键信息;
关键信息配置模块,用于将所述查询信息对应的各关键信息配置于所述第一搜索结果页面的第三展示区域内。
8.根据权利要求7所述的装置,其特征在于,还包括标签信息库建立模块,用于建立标签信息库;
其中,所述标签信息库建立模块包括:
分词子模块,用于对网页包括的网页内容进行分词,确定每个词出现的次数;
权重确定子模块,用于按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重;
标签词确定子模块,用于基于所述权重对所述网页包括的各个词进行排序,确定与网页内容相关的标签词,将所述标签词作为所述标签信息;
保存子模块,用于建立所述网页与所述标签信息的对应关系,保存在标签信息库中。
9.根据权利要求8所述的装置,其特征在于,所述权重确定子模块,具体用于基于每个词出现的次数,确定每个词在所述网页中的第一词频;在指定的网页数据库中遍历每个词,确定每个词对应的逆向文件频率;对每个词的第一词频和逆向文件频率进行计算,得到每个词的权重。
10.根据权利要求7所述的装置,其特征在于,所述第一页面生成模块还包括:
结果信息配置子模块,用于将各匹配的网页构成搜索结果信息,将所述搜索结果信息配置于所述第一搜索结果页面的第一展示区域内。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
选中项确定模块,用于接收在所述第一搜索结果页面上反馈的选中操作,确定选中项,所述选中项包括标签信息或关键信息;
特征网页确定模块,用于采用选中项对与所述查询信息匹配的网页进行过滤,确定包含所述选中项的特征网页;
第二页面生成模块,用于基于所述包含选中项的特征网页生成第二搜索结果页面并反馈。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
反馈信息接收模块,用于接收针对各标签信息的反馈信息,其中,所述反馈信息包括以下至少一项:编辑信息、修正信息、评价信息;
标签信息修改模块,用于基于所述反馈信息对所述匹配的网页的标签信息进行修改。
13.一种基于搜索的信息展示装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据接收的查询信息进行查询,确定与所述查询信息匹配的网页;
从预设的标签信息库中,获取各匹配的网页对应的标签信息,所述标签信息包括网页内容相关的标签词,所述网页内容相关的标签词为按照预设算法从各网页中抽取的部分词;
依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面并反馈;
所述依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面,包括:
将所述匹配的网页的标签信息生成搜索关联信息,将所述搜索关系信息配置于所述第一搜索结果页面的第二展示区域内,所述第一搜索结果页面中的每个所述匹配的网页均有对应的所述第二展示区域;
对所述匹配的网页的标签信息进行统计,确定各标签信息的第二词频,所述第二词频用于表示各标签信息在所有匹配网页中出现的总次数;
按照所述第二词频的大小对各标签信息进行排序,将排序较高的标签信息确定为所述查询信息对应的关键信息;或者,将第二词频达到预置的数量阈值的标签信息确定为所述查询信息对应的关键信息;
将所述查询信息对应的关键信息配置于所述第一搜索结果页面的第三展示区域内。
14.根据权利要求13所述的装置,其特征在于,还包含用于进行预先建立标签信息库的指令:
对网页包括的网页内容进行分词,确定每个词出现的次数;
按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重;
基于所述权重对所述网页包括的各个词进行排序,确定与网页内容相关的标签词,将所述标签词作为所述标签信息;
建立所述网页与所述标签信息的对应关系,保存在标签信息库中。
15.根据权利要求14所述的装置,其特征在于,按照预置算法对每个词出现的次数进行计算,确定每个词对应的权重,包括:
基于每个词出现的次数,确定每个词在所述网页中的第一词频;
在指定的网页数据库中遍历每个词,确定每个词对应的逆向文件频率;
依据每个词的第一词频和逆向文件频率计算得到每个词的权重。
16.根据权利要求13所述的装置,其特征在于,所述依据各匹配的网页和所述匹配的网页的标签信息,生成第一搜索结果页面,包括:
将各匹配的网页构成搜索结果信息,将所述搜索结果信息配置于所述第一搜索结果页面的第一展示区域内。
17.根据权利要求13所述的装置,其特征在于,所述装置还包含用于进行以下操作的指令:
接收在所述第一搜索结果页面上反馈的选中操作,确定选中项,所述选中项包括标签信息或关键信息;
采用选中项对与所述查询信息匹配的网页进行过滤,确定包含所述选中项的特征网页;
基于所述包含选中项的特征网页生成第二搜索结果页面并反馈。
18.根据权利要求13所述的装置,其特征在于,还包含用于进行以下操作的指令:
接收针对各标签信息的反馈信息,其中,所述反馈信息包括以下至少一项:编辑信息、修正信息、评价信息;
基于所述反馈信息对所述匹配的网页的标签信息进行修正。
19.一种可读存储介质,其特征在于,当所述存储介质中的指令由基于搜索的信息展示装置的处理器执行时,使得基于搜索的信息展示装置能够执行如方法权利要求1-6任一所述的基于搜索的信息展示方法。
CN201610454599.5A 2016-06-21 2016-06-21 一种基于搜索的信息展示方法和装置 Active CN107526744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610454599.5A CN107526744B (zh) 2016-06-21 2016-06-21 一种基于搜索的信息展示方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610454599.5A CN107526744B (zh) 2016-06-21 2016-06-21 一种基于搜索的信息展示方法和装置

Publications (2)

Publication Number Publication Date
CN107526744A CN107526744A (zh) 2017-12-29
CN107526744B true CN107526744B (zh) 2022-11-18

Family

ID=60735315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610454599.5A Active CN107526744B (zh) 2016-06-21 2016-06-21 一种基于搜索的信息展示方法和装置

Country Status (1)

Country Link
CN (1) CN107526744B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110133594B (zh) * 2018-02-09 2023-04-28 北京搜狗科技发展有限公司 一种声源定位方法、装置和用于声源定位的装置
CN108537599B (zh) * 2018-04-17 2023-11-07 北京三快在线科技有限公司 基于关键词聚合的查询反馈方法、装置以及存储介质
CN110399548A (zh) * 2018-04-20 2019-11-01 北京搜狗科技发展有限公司 一种搜索处理方法、装置、电子设备以及存储介质
CN108897846B (zh) * 2018-06-27 2023-12-15 努比亚技术有限公司 信息搜索方法、设备及计算机可读存储介质
CN110889279B (zh) * 2018-08-15 2024-06-25 珠海金山办公软件有限公司 一种在文档中显示展示信息的方法及装置
CN110968989B (zh) * 2018-09-27 2023-03-31 北京国双科技有限公司 在前端页面展示纠错信息的方法及装置
CN111159527A (zh) * 2018-11-07 2020-05-15 北大方正集团有限公司 主页的识别处理方法、装置、设备及存储介质
CN110460643A (zh) * 2019-07-16 2019-11-15 盐城师范学院 一种智能化的数字内容筛选系统
CN111382364B (zh) * 2020-03-19 2023-08-18 北京字节跳动网络技术有限公司 处理信息的方法及装置
CN111625723A (zh) * 2020-05-28 2020-09-04 北京搜狗科技发展有限公司 一种信息相关性查询方法及装置
CN111951077A (zh) * 2020-08-13 2020-11-17 中国民航信息网络股份有限公司 一种购票方案的展示方法及系统
CN112948665A (zh) * 2021-01-14 2021-06-11 北京搜狗科技发展有限公司 一种搜索方法、装置和介质
CN113515686A (zh) * 2021-07-09 2021-10-19 北京字节跳动网络技术有限公司 内容搜索方法、装置、设备和存储介质
CN114428902B (zh) * 2021-12-31 2023-11-14 北京百度网讯科技有限公司 信息搜索方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421441B1 (en) * 2005-09-20 2008-09-02 Yahoo! Inc. Systems and methods for presenting information based on publisher-selected labels
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN103853822A (zh) * 2014-02-24 2014-06-11 北京奇虎科技有限公司 一种在浏览器中推送新闻信息的方法和装置
CN103942257A (zh) * 2014-03-19 2014-07-23 百度在线网络技术(北京)有限公司 一种视频搜索的方法与装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079031A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种网页主题提取系统和方法
CN101963966A (zh) * 2009-07-24 2011-02-02 李占胜 一种为搜索结果添加标签的搜索结果分类方法
CN102262625B (zh) * 2009-12-24 2014-02-26 华为技术有限公司 网页关键词提取方法及装置
CN102760142A (zh) * 2011-04-29 2012-10-31 北京百度网讯科技有限公司 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN102591971B (zh) * 2011-12-31 2015-03-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备
CN105302810B (zh) * 2014-06-12 2019-07-09 北京搜狗科技发展有限公司 一种信息搜索方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421441B1 (en) * 2005-09-20 2008-09-02 Yahoo! Inc. Systems and methods for presenting information based on publisher-selected labels
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN103853822A (zh) * 2014-02-24 2014-06-11 北京奇虎科技有限公司 一种在浏览器中推送新闻信息的方法和装置
CN103942257A (zh) * 2014-03-19 2014-07-23 百度在线网络技术(北京)有限公司 一种视频搜索的方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Study on Website Search Engine Optimization;Zhou Hui 等;《 2012 International Conference on Computer Science and Service System》;20121231;930-933 *
基于实例的Deep Web数据源结果模式匹配技术;聂铁铮 等;《计算机科学与探索》;20081231;第2卷(第06期);601-613 *

Also Published As

Publication number Publication date
CN107526744A (zh) 2017-12-29

Similar Documents

Publication Publication Date Title
CN107526744B (zh) 一种基于搜索的信息展示方法和装置
US11520824B2 (en) Method for displaying information, electronic device and system
CN111291069B (zh) 一种数据处理方法、装置和电子设备
CN107992604B (zh) 一种任务条目的分发方法及相关装置
WO2020082938A1 (zh) 标签的处理方法、装置、电子设备及存储介质
CN110232137B (zh) 一种数据处理方法、装置和电子设备
CN110399548A (zh) 一种搜索处理方法、装置、电子设备以及存储介质
CN109918565B (zh) 一种搜索数据的处理方法、装置及电子设备
CN109783656B (zh) 音视频数据的推荐方法、系统及服务器和存储介质
CN110598098A (zh) 一种信息推荐方法、装置和用于信息推荐的装置
CN108874827B (zh) 一种搜索方法及相关装置
CN106815291B (zh) 搜索结果项展现方法、装置和用于搜索结果项展现的装置
CN106649781B (zh) 应用推荐方法及装置
CN110309324B (zh) 一种搜索方法及相关装置
US11546663B2 (en) Video recommendation method and apparatus
CN107506441B (zh) 一种数据排列方法、装置、电子设备以及存储介质
CN111368161B (zh) 一种搜索意图的识别方法、意图识别模型训练方法和装置
CN107491453B (zh) 一种识别作弊网页的方法及装置
CN112612949B (zh) 推荐数据集合的建立方法及装置
CN111241844A (zh) 一种信息推荐方法及装置
CN108959316B (zh) 一种将网页添加至收藏夹的方法和装置
CN110110046B (zh) 同名实体推荐方法及装置
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN112052395B (zh) 一种数据处理方法及装置
CN112463827B (zh) 查询方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant