CN101359332A - 具有语义分类功能的可视化搜索界面的设计方法 - Google Patents

具有语义分类功能的可视化搜索界面的设计方法 Download PDF

Info

Publication number
CN101359332A
CN101359332A CNA2008101206843A CN200810120684A CN101359332A CN 101359332 A CN101359332 A CN 101359332A CN A2008101206843 A CNA2008101206843 A CN A2008101206843A CN 200810120684 A CN200810120684 A CN 200810120684A CN 101359332 A CN101359332 A CN 101359332A
Authority
CN
China
Prior art keywords
classification
search
semantic
search results
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101206843A
Other languages
English (en)
Inventor
徐颂华
金涛
刘智满
潘云鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNA2008101206843A priority Critical patent/CN101359332A/zh
Publication of CN101359332A publication Critical patent/CN101359332A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种具有语义分类功能的可视化搜索界面的设计方法。该设计提供了一种新型的信息检索服务,使用户可以便捷地从搜索结果候选集中找到所需的关键信息,尤其有利于用户浏览相关信息。本发明说明书中描述的界面设计的关键实现步骤是:通过现有的商业搜索引擎获得搜索结果候选集;对候选搜索结果进行语义分类,并提取主题分类信息;在各分类中,将选定的搜索结果以摘要形式汇报给用户,并以多级和屏幕分块的方式来分类显示搜索结果。本发明公开的搜索界面可以将搜索结果集中的有用信息全面地展现给用户,帮助用户高效地进行网络搜索,使用户可以从搜索结果候选集中快速地定位所需信息而无须接触搜索结果候选集中的大量重复信息。

Description

具有语义分类功能的可视化搜索界面的设计方法
技术领域
本发明涉及计算机网络应用与信息检索领域,尤其涉及一种具有语义分类功能的可视化搜索界面的设计方法。
背景技术
当前正处在一个信息时代,人们正不断地淹没在大量的在线信息中。为了帮助人们在信息的海洋中寻找有用的信息,搜索引擎已越来越不可缺少。搜索引擎已经成为了现代社会最有用的工具之一。它改变了人们获取信息的方式,同时改变了信息的组织形式。至今,对搜索引擎已经进行了有大量的研究,其中大多集中在检索过程中。
由施乐公司开发的分散与聚集(scatter/gather)工具,它提供了一种基于分类的文档浏览方法。它们的系统将文档分类成个组,用户可以通过查找这些文档组或其子组来浏览内容。他们早期的工作在1993年信息检索专业组论文集(Proc.of SIGIR’92,pages 318-329)中提到,主要是使用分散/聚集(scatter/gather)工具来浏览大型或超大型的文档集,其重点在于分类的效率。
最早的网页可视化系统由McCrickard和Kehoe在1997年的国际互联网年会(Proc.of WWW,1997)中为设计交互式可视化搜索结果提供。Nation在1997年的第三届用户因素与网络会议(In Proc.of the 3rd Conference on HumanFactors and the Web,1997)中建议使用一种多级表格内容的方法来可视化网站。Beale等人在1997年的国际信息可视化论文集(Proc IEEE InformationVisualization,p57)中提出使用三维空间结构来可视化搜索关键字与其结果的关系,以此方便用户浏览搜索结果。
为了帮助人们更有效的解析文档和获得潜在的有用信息,大量的关于自动文档摘要提取技术已经被开发。这些技术对于搜索引擎来说尤其重要,因为它们能够有效的帮助人们快速的从搜索结果中识别内容。自动文档摘要提取技术广义上可以分为两类:基于提取和基于摘要。提取综述就是文档中识别关键部分,而摘要综述就是组织新的语句来总结文档的主要内容。摘要综述要比提取综述在实现上要困难些,因为它包含了更多的自然语言理解和处理过程。当前的摘要综述技术仍没有达到商业应用的程度。因此在自动文档摘要提取技术上,还是以基于提取的技术为主。
发明内容
本发明的目的是克服现有技术的不足,提供一种具有语义分类功能的可视化搜索界面的设计方法。
具有语义分类功能的可视化搜索界面的设计方法包括如下步骤:
1)通过使用现有的成熟商业搜索引擎或开源搜索引擎,选定任意需要的内容,进行网络搜索,获得搜索结果,并以设定的格式进行组织;
2)对所获得的格式化搜索结果运用语义分类算法进行自然语言分析理解,对搜索结果按照语义内容分类,各个语义分类中包含属于该类的搜索结果和分类主题信息;
3)将各个语义分类,按照设计的布局算法分配显示区域;
4)对每个语义分类中的搜索结果,进行内容提取,并同样地使用设计的布局算法分配显示区域,其中内容显示的形式包括单独的文本,单独的图片和文字图片混合;
5)将获得的语义分类主题信息,格式化搜索结果,按照设定的多级和分块显示的方法以可视化的形式展现给用户,多级显示的内容帮助用户快速地浏览语义分类之间层次关系,分块显示的内容帮助用户更加详细的了解语义分类中所包含的内容。
所述的通过使用现有的成熟商业或开源搜索引擎,选定任意需要的内容,进行网络搜索,获得搜索结果,并以设定的格式进行组织步骤:
1)选择一个成熟的商业搜索引擎,比如Google,百度,给定某个搜索关键字,并向搜索引擎服务器提交该关键字的搜索请求;
2)将搜索引擎服务器返回的N条搜索结果,按照标题,概要描述和目标地址的格式组织成XML文档,如下:
<SearchResult>
  <Query>苹果</Query>
  <Document>
    <Id>0</Id>
    <Title>Apple中国</Title>
    <Summary>
苹果电脑公司,提供相关的操作系统和视频软件等。
</Summary>
<Url>
www.apple.com.cn
  </Url>
  </Document>
  <Document>
      ...
  </Document>
  ...
</SearchResult>
以别的格式组成的文档,也属于本发明权利要求之内;
所述的对所获得的格式化搜索结果按照语义分类算法进行自然语言分析理解,对搜索结果按照语义内容分类,各个语义分类中包含属于该类的搜索结果和分类主题信息步骤:
1)对格式化后的搜索结果,使用在1993年信息检索专业组论文集(In Proc.of SIGIR’03,pages 267-273.)中提出的基于非负矩阵因式分解的分析技术,进行语义分类,使用其他语义分类算法进行语义分类也属于此权利要求之内;
2)将语义分类的结果,按照分类格式组织成XML文档,每个分类中包含了搜索结果的索引值和分类主题信息;
<ClusterResult>
<Query>苹果</Query>
<Group>
<Title>
公司
</Title>
<Document Id=″0″/>
<Document Id=″1″/>
</Group>
<Group>
  ...
</Group>
</ClusterResult>
以别的格式组成的文档,也属于本发明权利要求之内;
所述的将各个语义分类,按照设计的布局算法分配显示区域:
1)首先为各个分类分配显示区域,假设在搜索结果集上有n个分类,dc1,dc2,...,dcn,它们在搜索引擎上的平均网页排名分别为r1,r2,...,rn,搜索排名的计算是通过搜索引擎返回的索引值得到。假设可视化搜索界面占据整个屏幕显示空间,并记为S,那么理想情况下,文档主题分类dci应该分配的区域大小为si
s i = &Delta; 1 r i &Sigma; i = l n 1 r l S .
2)然后为所有的分类显示区域,使用1997年在启发式规则学报(Journal ofHeuristics,2(4):321-342,1997)中提出的一种自动黄页分页和布局算法进行整体布局,在布局算法中,引入限制条件ψ, &psi; = &Delta; &Sigma; i = 1 &kappa; ( GS i ( x ) + GS i ( y ) ) , 其中GSi(x)和GSi(y)的值分别是第i个显示区域中心到整个显示窗口左上角的水平和垂直距离,使用其他布局算法进行显示区域布局也属于此权利要求之内;
所述的对每个语义分类中的搜索结果,进行内容提取,并同样地使用设计的布局算法分配显示区域步骤:
1)内容提取包括文字和图片两部分,具体如下:
a)对每个语义分类中的搜索结果,使用2005年自然语言处理国际联合会议(Proceedings of the International Joint Conference on Natural LanguageProcessing(IJCNLP),Korea,October 2005)中由Mihalcea和Tarau提出的一种迭代式基于图的摘要提取算法,进行关键句提取,使用其他摘要提取算法进行提取关键句也属于此权利要求之内;
b)对每个语义分类中的搜索结果,使用设计的图片大小过滤和图片内容分类算法,进行图片的提取,使用其他的方法来提取图片也属于此权利要求之内;
2)在分类内,针对提取的文字或图片,同样地使用设计的布局算法分配显示区域;
所述的将获得的语义分类主题信息,格式化搜索结果,按照设定的多级和分块显示界面显示步骤:
1)根据语义分类的结果,将语义分类以树型和多级结构显示,树型和多级结构显示的内容帮助用户快速地浏览语义分类之间层次关系;
2)根据所设定的显示区域和现实内容,将搜索结果分块显示,分块显示的内容帮助用户更加详细的了解语义分类中所包含的内容;
本发明与现有技术相比具有的有益效果:
1)www.cuil.com(cuil),该搜索有很好搜索界面,同时它也拥有一个自己的网页索引体系。在此仅仅比较两者的界面。虽然cuil也提供搜索分类,但他没有将分类层级化,分类的作用变得不是很大。用户也不能从分类中获得较好的浏览体验。在数据的显示上,cuil给出了一种较新颖的方式,将文本与图像同时呈现给用户,这显然可以帮助用户更加快速的进行内容获取。
2)demo.carrot2.org(Carrot2),Carrot2是一个开源搜索引擎界面,它使用了许多现有的搜索引擎,并将结果进行分类,用户可以对分类进行浏览,并且它也为分类提供了很好的层级浏览。值得一提的是该搜索引擎的自动分类功能,它可以提供普通分类,以及多级的分类方式。在整个搜索界面看来,Carrot2更像是一个文本分类界面,它可以帮助用户较好的查找内容,但却没有能够帮助用户快速的获得需要的内容。同时在数据的显示在存在的单薄的弱点。对于设计的可视化界面,在分析了这些优缺点之后,引入了更多的界面表现力,能够更快速的帮助用户寻找需要的内容。
3)live.grokker.com(Grokker),Grokker是一个基于搜索结果分类的可视化界面。它如Carrot2那样提供了一个文档分类。同时它还提供了一个新颖的分类层级查看视图“map view”。但显然的这样的“map view”不能很好的给用户快速或许内容的帮助,因为用户不能够看到分类中的具体内容,更多的只是分类名。
附图说明
图1是本发明的搜索界面,主题分类示意图;
图2是本发明的搜索界面,搜索结果示意图。
具体实施方式
本发明引入一种新型的信息检索服务,这将为用户从搜索结果中提供合适的摘要和关键信息,以方便进一步的由用户进行选择。这项服务是一种新的可视化搜索界面(图1显示了一个简单的例子)。本文中关键的概念是,将搜索结果进行分组归类,并将选定的搜寻结果以摘要形式表现给用户,同时用户也可以通过多级的浏览来查看网页或文件。通过这个新的搜索界面,用户可以从搜索结果中快速地掌握主题和内容而不需要接触过多的细节信息。本发明公布的具有语义分类功能的可视化搜索界面为用户提供面向内容的搜索结果快速浏览服务,可以有助于提高用户网络搜索的效率,减少他们对于搜索结果候选集中大量重复信息的人工筛选工作。
使用本发明可视化界面进行搜索过程如下。在向搜索界面提交查询之后,该界面将会返回一个针对所有搜索结果进行概括的视图。不像传统的搜索界面仅仅返回一个搜索结果列表,设计的可视化界面将搜索结果组织成自上而下的层次,并按照分组的多级表现,如同电子地图(比如Google Earth)般进行缩放表示。
更具体地说,最初用户看到的是将搜索结果按主题形式给出的一个高层次概要视图。每个主题以屏幕区域形式表示。区域的大小和位置由主题与搜索关键字的关系以及用户关心度来决定,大区域一般放置于顶部位置,而小区域放置于底部位置。当用户单击某个主题时,将出现一个放大的视图,这将出现一些有关该主题的更加详细信息。根据该主题所关联的信息多少,用户将会看到一个关于该主题放大后的另外一个概要视图(关于该主题的子主题),或者可以直接看到搜索结果的的摘要。在此原型系统中,设计中最多三层的结构;即,用户将需要最多点击四次到达最底层的主题结构,对应的搜索结果摘要将会可以查看到。
本发明给出一个查询关键字,首先使用一些现有的商业搜索引擎(比如Google,Yahoo)来获得前N项结果。根据这些搜索结果,应用基于语义的文档分类来获得分类主题,并将所有的搜索结果分类到个主题。在可视化界面中为每个主题的分组在窗口中创建一个板块。在每个版块中,将显示从网页上自动获得的关键字或关键图片并给予一些文字描述。通过浏览这些板块,用户可以点击最感兴趣的板块,这些板块同时提供关于主题分组的缩放视图。在每个主题区域中显示的文档和图片的数量将根据区域的大小来决定。
具有语义分类功能的可视化搜索界面的设计方法包括如下步骤:
1)通过使用现有的成熟商业搜索引擎或开源搜索引擎,选定任意需要的内容,进行网络搜索,获得搜索结果,并以设定的格式进行组织;
2)对所获得的格式化搜索结果运用语义分类算法进行自然语言分析理解,对搜索结果按照语义内容分类,各个语义分类中包含属于该类的搜索结果和分类主题信息;
3)将各个语义分类,按照设计的布局算法分配显示区域;
4)对每个语义分类中的搜索结果,进行内容提取,并同样地使用设计的布局算法分配显示区域,其中内容显示的形式包括单独的文本,单独的图片和文字图片混合;
5)将获得的语义分类主题信息,格式化搜索结果,按照设定的多级和分块显示界面显示,多级显示的内容帮助用户快速地浏览语义分类之间层次关系,分块显示的内容帮助用户更加详细的了解语义分类中所包含的内容。
所述的通过使用现有的成熟商业或开源搜索引擎,选定任意需要的内容,进行网络搜索,获得搜索结果,并以设定的格式进行组织步骤:
1)选择一个成熟的商业搜索引擎,比如Google,百度,给定某个搜索关键字,并向搜索引擎服务器提交该关键字的搜索请求;
2)将搜索引擎服务器返回的N条搜索结果,按照标题,概要描述和目标地址的格式组织成XML文档,如下:
<SearchResult>
  <Query>苹果</Query>
  <Document>
     <Id>0</Id>
     <Title>Apple中国</Title>
     <Summary>
苹果电脑公司,提供相关的操作系统和视频软件等。
     </Summary>
     <Url>
     www.apple.com.cn
     </Url>
  </Document>
  <Document>
      ...
  </Document>
  ...
</SearchResult>
以别的格式组成的文档,也属于本发明权利要求之内;
所述的对所获得的格式化搜索结果运用语义分类算法进行自然语言分析理解,对搜索结果按照语义内容分类,各个语义分类中包含属于该类的搜索结果和分类主题信息步骤:
1)对格式化后的搜索结果,使用在1993年信息检索专业组论文集(In Proc.of SIGIR’03,pages 267-273.)中提出的基于非负矩阵因式分解的分析技术,进行语义分类,使用其他语义分类算法进行语义分类也属于此权利要求之内;在设计中,本发明的文档分类基于非负矩阵因式分解。使用非负矩阵因式分解的分析技术在文本数据挖掘中有许多成功的应用例子。在对文档集进行分组的过程上,基于非负矩阵因式分解的文档分类算法拥有出色的表现。同时文档分类的结果也很好的体现了文档的实际内容。
2)将语义分类的结果,按照分类格式组织成XML文档,每个分类中包含了搜索结果的索引值和分类主题信息;
<ClusterResult>
<Query>苹果</Query>
<Group>
<Title>
公司
</Title>
<Document Id=″0″/>
<Document Id=″1″/>
</Group>
<Group>
   ...
</Group>
</ClusterResult>
以别的格式组成的文档,也属于本发明权利要求之内;
所述的将各个语义分类,按照设计的布局算法分配显示区域:
1)首先为各个分类分配显示区域,假设在搜索结果集上有n个分类,dc1,dc2,...,dcn,它们在搜索引擎上的平均网页排名分别为r1,r2,...,rn,搜索排名的计算是通过搜索引擎返回的索引值得到。假设可视化搜索界面占据整个屏幕显示空间,并记为S,那么理想情况下,文档主题分类dci应该分配的区域大小为si
s i = &Delta; 1 r i &Sigma; i = l n 1 r l S .
主题的显示区域将根据主题的重要性来决定,越重要的主题将给与更大的空间显示。在一个搜索结果集上,使用网页排名的方法来估算主题的重要性。基本上,针对每个搜索主题分类,计算该主题所有搜索结果的平均网页排名,网页排名可以通过现有的搜索引擎提供,比如Google,Yahoo。通过现有的商业搜索引擎提供的关键字搜索排名,认为平均排名越小,那么该主题的分类就越重要。假设在搜索结果集上有n个主题分类,dc1,dc2,...,dcn,它们在Google上的平均网页排名分别为r1,r2,...,rn。假设可视化搜索界面占据整个屏幕显示空间,并记为S,那么理想情况下,文档主题分类dci应该分配的区域大小为si
s i = &Delta; 1 r i &Sigma; i = l n 1 r l S .
为了追求简约及优雅的可视化风格,为每个文档主题分类分配一个矩形区域。根据这样的设定,那么布局分配问题就简化为一个矩形中的矩形分配的问题。
2)然后为所有的分类显示区域,使用自动分页和布局算法进行整体布局,在布局算法中,引入限制条件ψ, &psi; = &Delta; &Sigma; i = l &kappa; ( GS i ( x ) + GS i ( y ) ) , 其中GSi(x)和GSi(y)的值分别是第i个显示区域中心到整个显示窗口左上角的水平和垂直距离,使用其他布局算法进行显示区域布局也属于此权利要求之内;
为了确定所有显示主题的区域布局,使用1997年在启发式规则学报(Journalof Heuristics,2(4):321-342,1997)中提出的一种自动黄页分页和布局算法进行整体布局,其中有一点修改,在它们原始函数中引入一个限制条件ψ来保证布局按照设计的要求,越大的主题显示区域,比如越有意义的或用户更感兴趣的主题,将会被放置在窗口的左上角位置附近,而较小的主题显示区域,比如用户兴趣不大的主题,将会被放置在窗口的右下角位置附近。限制条件ψ定义为 &psi; = &Delta; &Sigma; i = 1 &kappa; ( GS i ( x ) + GS i ( y ) ) , 其中GSi(x)和GSi(y)的值分别是第i个显示区域中心到屏幕左上角的水平和垂直距离。假设从搜索结果的分类中获得κ个主题。显然,在左上角较大的主题显示区域的增加,ψ值将会减小。在原始布局目标函数中限制条件ψ设置为200的经验值时将会与别的变量达到平衡。
所述的对每个语义分类中的搜索结果,进行内容提取,并同样地使用设计的布局算法分配显示区域步骤:
1)内容提取包括文字和图片两部分,具体如下:
a)对每个语义分类中的搜索结果,使用2005年自然语言处理国际联合会议(Proceedings of the International Joint Conference on Natural LanguageProcessing(IJCNLP),Korea,October 2005)中由Mihalcea和Tarau提出的一种迭代式基于图的摘要提取算法,进行关键句提取,使用其他摘要提取算法进行提取关键句也属于此权利要求之内;
b)对每个语义分类中的搜索结果,使用设计的图片大小过滤和图片内容分类算法,进行图片的提取,使用其他的方法来提取图片也属于此权利要求之内;
2)在分类内,针对提取的文字或图片,同样地使用设计的布局算法分配显示区域;
如何来选择最有用的搜索结果和为搜索结果自动创建摘要文字。在此仅仅考虑选取搜索结果文档中存在的文字和图片信息,具体如下。
选择文档显示,针对任意一个搜索结果文档,使用2005年自然语言处理国际联合会议(Proceedings of the International Joint Conference on Natural LanguageProcessing(IJCNLP),Korea,October 2005)中由Mihalcea和Tarau提出的一种迭代式基于图的摘要提取算法,因为它适用于不需要训练集的情况。但在原始算法中存在一个自由变量,即需要从文档中提取的关键句或关键字的数量。在某个搜索结果分类中,给定某个屏幕显示区域分配用于显示文字信息,首先在结果分类中找到一个与主题最接近的文档项,寻找的方法可以使用文档相似度算法。假设在该主题分类中的所有文档dc={d1,...,dn},那么将找到一个搜索结果文档该文档与其余文档的主题相似度之和最小,即:
Figure A20081012068400142
同样的可以从搜索结果集中找到第二个文档
Figure A20081012068400143
改文档与第一个文档在主题空间上距离最近,即:同样的,可以找到第三个文档
Figure A20081012068400145
该文档与前两个文档在主题空间中具有最大的相似度,即:
Figure A20081012068400146
基本上,可以通过比较现有的文档的相似度的方法来找到第j个文档即:
Figure A20081012068400148
继续以上的搜索程序,直到找到八个类似的文档,或在新找到的文档的与该分类中的文档相似度低于0.5。后者的意思是,剩下的文档之间非常相似,但除非还有额外的空间剩余,不然将不会添加新的显示文档。这个阈值0.5是可以由用户进行调整的。
一旦所有这些显示文档都确定了,就可以将剩下的文档链接到显示出来的文档上。未被显示出来的文档将会被链接到与它的主题相似度最高的显示文档上。将未被显示出来的文档链接到显示的文档
Figure A20081012068400149
的数目记录为nj。主题分类的显示区域大小为GS。显示文档
Figure A200810120684001410
的区域大小记录为:
size ( d x j ) = n j + 1 &Sigma; j n j + 1 GS .
所有的可显示文档的显示区域大小可以通过该方法来确定,在主题显示区域内,再次使用了黄页分页和布局算法来解决布局分配问题。
选择显示信息,从得到的显示文档中,可以获取图片和文字信息。在所设计的系统中,提供了三种模式:文本,图片以及文本图片混排。在前两个模式中,仅仅文字或图片信息将会被获取用来显示。在最后一个模式中,文字和图片都会被提取。选择图片和文字信息作为摘要来表示文档的方法首先由Woodruff在2002年《美国社会信息期刊》(Journal of the American Society forInformation Science and Technology)的第53卷第2期172-185页中提出,他指出使用混合文字和缩略图的方法比单独使用文字或图的形式能够达到更好的效果。在每个模式中提取信息的过程如下:
提取文本过程,使用2005年自然语言处理国际联合会议(Proceedings of theInternational Joint Conference on Natural Language Processing(IJCNLP),Korea,October 2005)中由Mihalcea和Tarau提出的一种迭代式基于图的摘要提取算法来获取关键句。在本节中提到的方法可以为显示的搜索结果文档
Figure A20081012068400151
计算出信息显示的屏幕区域大小。使用摘要提取算法来产生一些关键句,这样当显示这些句子时,占据屏幕空间将会与
Figure A20081012068400152
最接近。如果显示的空间大于裁剪掉获取的关键句的结尾字。
提取图片过程,给定一个显示的搜索结果文档,如果其中含有图片,首先区分出广告图片和网站的导航图片。这项工作可以由一些成熟的图片分类技术完成。在系统实现中,比如使用一种简单的想法:如果一张图片大小大于200x200像素并且放置在文档的中央区域,并且它不是悬浮图片,这些往往是广告,将认为是文档内容的图片。如果在一个文档中获得的内容图片超过了一定数量,将认为该文档是图片密集的。当前设置的阈值为5张图片。当一个文档含有的图片数少于5张,将选择前a×b张图片进行显示。否则,根据该文档显示图片的屏幕空间,限制每张选取的图片大小最小为50个像素大小。这样保证了图片显示的行列最大数量,如,a和b。如果在一个文档中的图片少于a×b张,将会找到一个最大的数值a′×b′,该值小于或等于该文档中的所有内容图片。一旦这些图片选取了,将这些图片进行排版成一个大的矩形图片,排版图片的过程可以使用开源图片库(http://jimage-mosaic.sourceforge.net)。对上述图片提取与图片排版过程具体实现方法的形变均视作本发明的变形。
提取文本与图片过程,这种模式中,文本和图片按照以上述说的方法提取,并显示给用户。显示窗口图片和文字部分被分别限制在左右或者上下两个区域,而所占用的比例也与文档中图片与文字的比例相同。
所述的将获得的语义分类主题信息,格式化搜索结果,按照设定的多级和分块显示界面显示步骤:
1)根据语义分类的结果,将语义分类以树型和多级结构显示,树型和多级结构显示的内容帮助用户快速地浏览语义分类之间层次关系;
2)根据所设定的显示区域和现实内容,将搜索结果分块显示,分块显示的内容帮助用户更加详细的了解语义分类中所包含的内容。
实施例
图1给出了使用可视化搜索界面原型系统的一个搜索举例。用户最初提交搜索关键字“苹果”。接下来,在图1的左侧将会罗列一个树型结构,表示该搜索结果所有主题的一个概要视图。搜索结果的数量将显示在树形结构的主题或者子主题后,并以括号括起。在屏幕的右侧,六个最重要的主题类由设计的算法得到,并且每个主题类将会被分配一定大小的显示区域,并用绿色边框区分。在每个区域内,主题标题,在该主题中一些显示的文档标题和它们的URL,以及一些推荐的缩略图片将会被显示。用户可以点击“更多”来请求获得更多的主题分类。同时用户也可以直接点击文档标题或URL来打开文档。同样地,也可以点击主题分类标题,这也存在于左侧的主题树型结构,而在右侧则显示在每个主题显示区域的顶部,进入到下一级主题中。在这个搜索举例中,在快速的浏览后,用户希望知道更多有关苹果股票的信息,因此他将点击“苹果股票(24)”。这将把他带到下一级,在该级中存在更多更详细的有关苹果股票的信息,如图2。
这个搜索例子中,苹果股票主题分类下没有子主题,所以该分类中都是搜索结果的文档。由于屏幕空间的限制,只有前12个搜索结果的摘要信息将会被显示,剩下的12个结果将隐藏。这里,用户可以点击文档标题或URL来打开文档。如果他点击左侧树型结构中或摘要显示区域顶部的“更多”,那么更多的搜索结果摘要将会被显示出来。通过屏幕左侧树状导航的帮助,用户能够自由的在新主题或子主题间切换。

Claims (6)

1.一种具有语义分类功能的可视化搜索界面的设计方法,其特征在于包括如下步骤:
1)通过使用现有的成熟商业搜索引擎或开源搜索引擎,选定任意需要的内容,进行网络搜索,获得搜索结果,并以设定的格式进行组织;
2)对所获得的格式化搜索结果运用语义分类算法进行自然语言分析理解,对搜索结果按照语义内容分类,各个语义分类中包含属于该类的搜索结果和分类主题信息;
3)将各个语义分类,按照设计的布局算法分配显示区域;
4)对每个语义分类中的搜索结果,进行内容提取,并同样地使用设计的布局算法分配显示区域,其中内容显示的形式包括单独的文本,单独的图片和文字图片混合;
5)将获得的语义分类主题信息,格式化搜索结果,按照设定的多级和分块显示的方法以可视化的形式展现给用户,多级显示的内容帮助用户快速地浏览语义分类之间的层次关系,分块显示的内容帮助用户更加详细地了解语义分类中所包含的内容。
2.根据权利要求1所述的一种具有语义分类功能的可视化搜索界面的设计方法,其特征在于所述的通过使用现有的成熟商业或开源搜索引擎,选定任意需要的内容,进行网络搜索,获得搜索结果,并以设定的格式进行组织步骤:
1)选择一个成熟的商业搜索引擎,比如Google,百度,给定某个搜索关键字,并向搜索引擎服务器提交该关键字的搜索请求;
2)将搜索引擎服务器返回的N条搜索结果,按照标题,概要描述和目标地址的格式组织成XML文档,如下:
<SearchResult>
  <Query>苹果</Query>
  <Document>
   <Id>0</Id>
   <Title>Apple中国</Title>
   <Summary>
   苹果电脑公司,提供相关的操作系统和视频软件等。
   </Summary>
   <Url>
   www.apple.com.cn
  </Url>
  </Document>
  <Document>
  ...
  </Document>
  ...
</SearchResult>
以别的格式组成的文档,也属于本发明权利要求之内;
3.根据权利要求1所述的一种具有语义分类功能的可视化搜索界面的设计方法,其特征在于所述的对所获得的格式化搜索结果运用语义分类算法进行自然语言分析理解,对搜索结果按照语义内容分类,各个语义分类中包含属于该类的搜索结果和分类主题信息步骤:
1)对格式化后的搜索结果,使用在1993年信息检索专业组论文集(In Proc.of SIGIR’03,pages 267-273.)中提出的基于非负矩阵因式分解的分析技术,进行语义分类,使用其他语义分类算法进行语义分类也属于此权利要求之内;
2)将语义分类的结果,按照分类格式组织成XML文档,每个分类中包含了搜索结果的索引值和分类主题信息,如下:
<ClusterResult>
<Query>苹果</Query>
<Group>
<Title>
公司
</Title>
<Document Id=″0″/>
<Document Id=″1″/>
</Group>
<Group>
...
</Group>
</ClusterResult>
以别的格式组成的文档,也属于本发明权利要求之内;
4.根据权利要求1所述的一种具有语义分类功能的可视化搜索界面的设计方法,其特征在于所述的将各个语义分类,按照设计的布局算法分配显示区域:
1)首先为各个分类分配显示区域,假设在搜索结果集上有n个分类,dc1,dc2,...,dcn,它们在搜索引擎上的平均网页排名分别为r1,r2,...,rn,搜索排名的计算是通过搜索引擎返回的索引值得到。假设可视化搜索界面占据整个屏幕显示空间,并记为S,那么理想情况下,文档主题分类dci应该分配的区域大小为si
s i = &Delta; 1 r i &Sigma; i = l n 1 r l S .
2)然后为所有的分类显示区域,使用1997年在启发式规则学报(Journal ofHeuristics,2(4):321-342,1997)中提出的一种自动黄页分页和布局算法进行整体布局,在布局算法中,引入限制条件ψ, &psi; = &Delta; &Sigma; i = 1 &kappa; ( G S i ( x ) + G S i ( y ) ) , 其中GSi(x)和GSi(y)的值分别是第i个显示区域中心到整个显示窗口左上角的水平和垂直距离,使用其他布局算法进行显示区域布局也属于此权利要求之内;
5.根据权利要求1所述的一种具有语义分类功能的可视化搜索界面的设计方法,其特征在于所述的对每个语义分类中的搜索结果,进行内容提取,并同样地使用设计的布局算法分配显示区域步骤:
1)内容提取包括文字和图片两部分,具体如下:
a)对每个语义分类中的搜索结果,使用2005年自然语言处理国际联合会议(Proceedings of the International Joint Conference on Natural LanguageProcessing(IJCNLP),Korea,October 2005)中由Mihalcea和Tarau提出的一种迭代式基于图的摘要提取算法,进行关键句提取,使用其他摘要提取算法进行提取关键句也属于此权利要求之内;
b)对每个语义分类中的搜索结果,使用设计的图片大小过滤和图片内容分类算法,进行图片的提取,使用其他的方法来提取图片也属于此权利要求之内;
2)在分类内,针对提取的文字或图片,同样地使用设计的布局算法分配显示区域;
6.根据权利要求1所述的一种具有语义分类功能的可视化搜索界面的设计方法,其特征在于所述的将获得的语义分类主题信息,格式化搜索结果,按照设定的多级和分块显示界面显示步骤:
1)根据语义分类的结果,将语义分类以树型和多级结构显示,树型和多级结构显示的内容帮助用户快速地浏览语义分类之间层次关系;
2)根据所设定的显示区域和现实内容,将搜索结果分块显示,分块显示的内容帮助用户更加详细的了解语义分类中所包含的内容。
CNA2008101206843A 2008-09-02 2008-09-02 具有语义分类功能的可视化搜索界面的设计方法 Pending CN101359332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008101206843A CN101359332A (zh) 2008-09-02 2008-09-02 具有语义分类功能的可视化搜索界面的设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008101206843A CN101359332A (zh) 2008-09-02 2008-09-02 具有语义分类功能的可视化搜索界面的设计方法

Publications (1)

Publication Number Publication Date
CN101359332A true CN101359332A (zh) 2009-02-04

Family

ID=40331784

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101206843A Pending CN101359332A (zh) 2008-09-02 2008-09-02 具有语义分类功能的可视化搜索界面的设计方法

Country Status (1)

Country Link
CN (1) CN101359332A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207963A (zh) * 2011-05-30 2011-10-05 何吴迪 一种云计算视窗平台的搜索后即时智能导航技术方法
CN102270331A (zh) * 2011-08-14 2011-12-07 黄斌 基于可视化搜索的网络购物导航方法
CN102279869A (zh) * 2010-06-09 2011-12-14 微软公司 对实体间的关系进行导航
CN102314461A (zh) * 2010-06-30 2012-01-11 北京搜狗科技发展有限公司 一种导航提示方法及系统
CN102339313A (zh) * 2010-09-24 2012-02-01 微软公司 用户查询结果的视觉提示细化
CN102713902A (zh) * 2009-12-02 2012-10-03 萨基姆通讯宽带公司 用于生成使用搜索引擎执行的搜索的结果的方法
CN102906744A (zh) * 2010-06-28 2013-01-30 雅虎公司 无限浏览
CN102968413A (zh) * 2011-08-31 2013-03-13 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN103081497A (zh) * 2010-07-26 2013-05-01 Lg电子株式会社 操作图像显示设备的方法
CN103294703A (zh) * 2012-02-28 2013-09-11 宇龙计算机通信科技(深圳)有限公司 终端和文档管理方法
CN103425389A (zh) * 2012-05-24 2013-12-04 腾讯科技(深圳)有限公司 微博信息交互显示的方法及微博客户端
CN103577049A (zh) * 2012-07-24 2014-02-12 百度在线网络技术(北京)有限公司 一种用于提供下载建议对象的方法、装置与设备
CN103617223A (zh) * 2012-03-31 2014-03-05 北京奇虎科技有限公司 网页收藏方法和装置
CN103699576A (zh) * 2013-11-29 2014-04-02 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备
CN103914535A (zh) * 2014-03-31 2014-07-09 百度在线网络技术(北京)有限公司 信息的获取方法及装置
CN103995881A (zh) * 2014-05-28 2014-08-20 百度在线网络技术(北京)有限公司 搜索结果的展现方法及装置
CN104133617A (zh) * 2014-07-31 2014-11-05 百度在线网络技术(北京)有限公司 用于移动智能终端的操作方法、操作装置和移动智能终端
CN104216631A (zh) * 2014-08-22 2014-12-17 百度在线网络技术(北京)有限公司 信息展示方法和装置
CN104699751A (zh) * 2014-12-30 2015-06-10 北京奇虎科技有限公司 一种基于搜索词进行搜索推荐的方法和装置
CN104915408A (zh) * 2015-06-02 2015-09-16 无锡天脉聚源传媒科技有限公司 一种社交化搜索结果展示的方法及装置
CN104933108A (zh) * 2015-06-02 2015-09-23 无锡天脉聚源传媒科技有限公司 一种社交化搜索结果展示的方法及装置
CN104933109A (zh) * 2015-06-02 2015-09-23 无锡天脉聚源传媒科技有限公司 一种搜索结果互动展示的方法及装置
CN105468627A (zh) * 2014-09-04 2016-04-06 纬创资通股份有限公司 屏蔽与过滤网页内容的方法与系统
CN101996193B (zh) * 2009-08-21 2016-08-24 北京搜狗科技发展有限公司 一种展现网络资源链接的处理方法、系统及互联网终端
CN107918615A (zh) * 2016-10-09 2018-04-17 北京优朋普乐科技有限公司 以树状下拉列表框呈现检索结果的检索方法和装置
WO2018098751A1 (en) * 2016-11-30 2018-06-07 Microsoft Technology Licensing, Llc Providing recommended contents
CN108182472A (zh) * 2018-01-30 2018-06-19 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111967931A (zh) * 2020-07-29 2020-11-20 上海悦易网络信息技术有限公司 一种用于列表数据元素混排的方法与设备
CN112818206A (zh) * 2021-02-25 2021-05-18 平安消费金融有限公司 一种数据分类方法、装置、终端及存储介质
CN116226494A (zh) * 2023-04-21 2023-06-06 一铭寰宇科技(北京)有限公司 一种用于信息搜索的爬虫系统及方法

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996193B (zh) * 2009-08-21 2016-08-24 北京搜狗科技发展有限公司 一种展现网络资源链接的处理方法、系统及互联网终端
CN102713902A (zh) * 2009-12-02 2012-10-03 萨基姆通讯宽带公司 用于生成使用搜索引擎执行的搜索的结果的方法
CN102713902B (zh) * 2009-12-02 2017-05-03 萨基姆通讯宽带公司 用于生成使用搜索引擎执行的搜索的结果的方法
CN102279869A (zh) * 2010-06-09 2011-12-14 微软公司 对实体间的关系进行导航
US9355185B2 (en) 2010-06-28 2016-05-31 Yahoo! Inc. Infinite browse
CN102906744B (zh) * 2010-06-28 2016-08-24 雅虎公司 无限浏览
CN102906744A (zh) * 2010-06-28 2013-01-30 雅虎公司 无限浏览
CN102314461A (zh) * 2010-06-30 2012-01-11 北京搜狗科技发展有限公司 一种导航提示方法及系统
CN103081497A (zh) * 2010-07-26 2013-05-01 Lg电子株式会社 操作图像显示设备的方法
CN107122400A (zh) * 2010-09-24 2017-09-01 微软技术许可有限责任公司 用户查询结果的视觉提示细化
US9355179B2 (en) 2010-09-24 2016-05-31 Microsoft Technology Licensing, Llc Visual-cue refinement of user query results
CN102339313A (zh) * 2010-09-24 2012-02-01 微软公司 用户查询结果的视觉提示细化
CN102207963A (zh) * 2011-05-30 2011-10-05 何吴迪 一种云计算视窗平台的搜索后即时智能导航技术方法
CN102270331A (zh) * 2011-08-14 2011-12-07 黄斌 基于可视化搜索的网络购物导航方法
CN102270331B (zh) * 2011-08-14 2014-05-07 黄斌 基于可视化搜索的网络购物导航方法
CN102968413B (zh) * 2011-08-31 2017-12-26 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN102968413A (zh) * 2011-08-31 2013-03-13 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN103294703A (zh) * 2012-02-28 2013-09-11 宇龙计算机通信科技(深圳)有限公司 终端和文档管理方法
CN103617223A (zh) * 2012-03-31 2014-03-05 北京奇虎科技有限公司 网页收藏方法和装置
CN103617223B (zh) * 2012-03-31 2018-03-20 北京奇虎科技有限公司 网页收藏方法和装置
CN103425389A (zh) * 2012-05-24 2013-12-04 腾讯科技(深圳)有限公司 微博信息交互显示的方法及微博客户端
CN103577049A (zh) * 2012-07-24 2014-02-12 百度在线网络技术(北京)有限公司 一种用于提供下载建议对象的方法、装置与设备
CN103699576A (zh) * 2013-11-29 2014-04-02 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备
WO2015078222A1 (zh) * 2013-11-29 2015-06-04 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备
CN103699576B (zh) * 2013-11-29 2018-03-23 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备
CN103914535B (zh) * 2014-03-31 2016-03-30 百度在线网络技术(北京)有限公司 信息的获取方法及装置
CN103914535A (zh) * 2014-03-31 2014-07-09 百度在线网络技术(北京)有限公司 信息的获取方法及装置
CN103995881A (zh) * 2014-05-28 2014-08-20 百度在线网络技术(北京)有限公司 搜索结果的展现方法及装置
CN103995881B (zh) * 2014-05-28 2018-04-13 百度在线网络技术(北京)有限公司 搜索结果的展现方法及装置
CN104133617A (zh) * 2014-07-31 2014-11-05 百度在线网络技术(北京)有限公司 用于移动智能终端的操作方法、操作装置和移动智能终端
CN104216631A (zh) * 2014-08-22 2014-12-17 百度在线网络技术(北京)有限公司 信息展示方法和装置
CN105468627A (zh) * 2014-09-04 2016-04-06 纬创资通股份有限公司 屏蔽与过滤网页内容的方法与系统
CN104699751A (zh) * 2014-12-30 2015-06-10 北京奇虎科技有限公司 一种基于搜索词进行搜索推荐的方法和装置
CN104933109B (zh) * 2015-06-02 2018-08-24 无锡天脉聚源传媒科技有限公司 一种搜索结果互动展示的方法及装置
CN104933108B (zh) * 2015-06-02 2018-08-24 无锡天脉聚源传媒科技有限公司 一种社交化搜索结果展示的方法及装置
CN104933108A (zh) * 2015-06-02 2015-09-23 无锡天脉聚源传媒科技有限公司 一种社交化搜索结果展示的方法及装置
CN104933109A (zh) * 2015-06-02 2015-09-23 无锡天脉聚源传媒科技有限公司 一种搜索结果互动展示的方法及装置
CN104915408B (zh) * 2015-06-02 2018-05-08 无锡天脉聚源传媒科技有限公司 一种社交化搜索结果展示的方法及装置
CN104915408A (zh) * 2015-06-02 2015-09-16 无锡天脉聚源传媒科技有限公司 一种社交化搜索结果展示的方法及装置
CN107918615A (zh) * 2016-10-09 2018-04-17 北京优朋普乐科技有限公司 以树状下拉列表框呈现检索结果的检索方法和装置
WO2018098751A1 (en) * 2016-11-30 2018-06-07 Microsoft Technology Licensing, Llc Providing recommended contents
CN108701133A (zh) * 2016-11-30 2018-10-23 微软技术许可有限责任公司 提供推荐内容
US11494450B2 (en) 2016-11-30 2022-11-08 Microsoft Technology Licensing, Llc Providing recommended contents
CN108182472A (zh) * 2018-01-30 2018-06-19 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111967931A (zh) * 2020-07-29 2020-11-20 上海悦易网络信息技术有限公司 一种用于列表数据元素混排的方法与设备
CN111967931B (zh) * 2020-07-29 2024-01-12 上海万物新生环保科技集团有限公司 一种用于列表数据元素混排的方法与设备
CN112818206A (zh) * 2021-02-25 2021-05-18 平安消费金融有限公司 一种数据分类方法、装置、终端及存储介质
CN116226494A (zh) * 2023-04-21 2023-06-06 一铭寰宇科技(北京)有限公司 一种用于信息搜索的爬虫系统及方法
CN116226494B (zh) * 2023-04-21 2023-09-12 一铭寰宇科技(北京)有限公司 一种用于信息搜索的爬虫系统及方法

Similar Documents

Publication Publication Date Title
CN101359332A (zh) 具有语义分类功能的可视化搜索界面的设计方法
US8135669B2 (en) Information access with usage-driven metadata feedback
Rehm Towards automatic Web genre identification: a corpus-based approach in the domain of academia by example of the Academic's Personal Homepage
US6256648B1 (en) System and method for selecting and displaying hyperlinked information resources
US7912847B2 (en) Comparative web search system and method
JP5283208B2 (ja) 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法
CN101488145B (zh) 文档搜索装置及文档搜索方法
JP2010066870A (ja) 情報推薦装置および情報推薦方法
JP2000339350A (ja) マルチモード情報アクセス
KR20040029895A (ko) 검색 시스템
Alzafari Mapping the literature structure of ‘quality in higher education’using co-word analysis
JP5313295B2 (ja) 文書探索サービス提供方法及びシステム
Terveen et al. Finding and visualizing inter-site clan graphs
Lee–Smeltzer Finding the needle: controlled vocabularies, resource discovery, and Dublin Core
KR20110050823A (ko) 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법
Kolli et al. A Novel Nlp and Machine Learning Based Text Extraction Approach from Online News Feed
JP2014102625A (ja) 情報検索システム、プログラム、および方法
KR20050074058A (ko) 인터넷상에서 기사를 자동분류하여 타 웹사이트에자동송출하는 시스템 및 그 제어방법
Gupta Evaluation of next generation online public access catalogue (OPAC) features in library management system
CN113407678A (zh) 知识图谱构建方法、装置和设备
Venkatsubramanyan et al. Techniques for organizing and presenting search results: A survey
JP2000231569A (ja) インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
Hoeber et al. Exploring web search results using coordinated views
KR100834536B1 (ko) 온톨로지 기반의 정보 표시 방법
Vallance-Jones Making journalism better by understanding data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090204