CN104281648A - 基于维度标签的搜索结果多维度导航方法 - Google Patents

基于维度标签的搜索结果多维度导航方法 Download PDF

Info

Publication number
CN104281648A
CN104281648A CN201410447174.2A CN201410447174A CN104281648A CN 104281648 A CN104281648 A CN 104281648A CN 201410447174 A CN201410447174 A CN 201410447174A CN 104281648 A CN104281648 A CN 104281648A
Authority
CN
China
Prior art keywords
dimension
document
collection
node
document summary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410447174.2A
Other languages
English (en)
Other versions
CN104281648B (zh
Inventor
陈岭
钱坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410447174.2A priority Critical patent/CN104281648B/zh
Publication of CN104281648A publication Critical patent/CN104281648A/zh
Application granted granted Critical
Publication of CN104281648B publication Critical patent/CN104281648B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于维度标签的搜索结果多维度导航方法,利用文档的维度信息生成维度层次树。本发明要求文档带有多个不同维度标签(如概念、时间、地点、人物),且各维度应具有层次结构;以“过滤”或“浏览”模式通过维度层次树与用户交互;并通过维度层次树与文档列表向用户呈现交互结果中文档在各维度上的分布与概要。本发明可在维度上按层展开结果集、查看分布信息和文档概要,帮助、并加快用户从海量结果中获取所需知识的速度,在知识发现、结果分析呈现以及数据挖掘领域有着广阔的前景。

Description

基于维度标签的搜索结果多维度导航方法
技术领域
本发明涉及数据挖掘领域,尤其涉及基于维度标签的搜索结果多维度导航方法。
背景技术
搜索引擎一般采用基于相关度排序的方式来呈现搜索结果。随着数据量的剧增,其弊端日益突出:如,搜索结果排序不太准确;用户需花费较多时间来获取想要的信息;某些关于搜索结果的统计信息无法获取。例如,使用现有搜索引擎,用户难以获取计算机领域论文分布最集中的子领域,同时获取该子领域内的论文在时间、地点和作者三方面上的具体分布情况,而该需求在实际应用中十分重要。
现有搜索引擎在准确度上进行了大量改进,利用优先级和相关性对搜索结果进行排序,使用户感兴趣的搜索结果优先呈现。例如,公开号为101305364的专利文献公开了用于呈现搜索结果的系统和方法。可以基于一个或多个标准混合搜索结果和/或区分搜索结果的优先级。可以基于用户档案数据、优选广告商/商户排序或其组合来混合搜索结果或区分搜索结果的优先级。搜索结果可以与广播和/或流式内容同时在显示设备上呈现给观看者。搜索结果可以被“推”到客户端一方设备,并与相关的广播内容一起呈现。或者,搜索结果可以是基于一个或多个用户提供的搜索标准的。
在展示方式上也进行了拓展。例如,公开号为103092958A的专利文献公开了一种搜索结果展示方法和装置,所述方法包括:获取用户的搜索请求;根据所述搜索请求在存储有多种视频来源的数据库中进行查询,以得到初步搜索结果;根据所述初步搜索结果,计算出各视频来源对应的搜索结果列表,分别对各搜索结果列表进行统计,生成多个包含视频来源名称及所述视频来源名称对应的搜索结果总数的搜索分类展示按钮;在视频结果展示界面展示所述多个搜索分类展示按钮及所有视频来源的搜索结果列表,或者展示所述多个搜索分类展示按钮及第一视频来源对应的搜索结果列表。该专利文献实现了对直播、回放、VOD、互联网视频和UGC等不同内容来源视频搜索结果的统一展现,可生成并显示更方便于用户使用的数据。
搜索引擎一般假设文档除文本信息外是没有其他属性的,而随着数据资源质量的提升和文本处理技术的发展,可以从文档中抽取属性,即为文档添加标签。标签按其语义,可归属于不同的维度(如概念、时间、地点、人物等),维度一般具有层次结构(如“国家-省-地区”为地点维度的层次结构)。文档本身带有多个不同的维度标签为设计新的搜索结果呈现方法提供了空间。当前,对新搜索结果呈现方法的研究已有所发展,但效果不是很理想。采取聚类或基于特征向量聚类的方法,需要大量的计算,且在特征向量维度较大时,聚类效果会变差;采取相关度或带有优先权的相关度排序的方法,仍属于单维度呈现方法,无法提供多维度的呈现功能;采取折叠方式分层展示的方法,以不同直径的同心圆展示当前数据节点及其下层孩子节点,视觉上比较直观,但无法查看同一层次上数据的分布情况,缺乏宏观性。此外,上述方法均只提供一种查看模式,与用户的交互能力偏弱。
发明内容
本发明要解决的问题是提供一种交互性强、可智能导航的结果集呈现方法,搜索得到的数据集是带有多种维度标签的文档集。
一种基于维度标签的搜索结果多维度导航方法,包括如下步骤:
步骤1,读取所有文档的维度信息,初始化文档概要集,并将当前结果集以及临时结果集设置为所有文档;
步骤2,根据文档概要集以及当前结果集构建维度层次树及分页形式的文档列表,并显示维度层次树、文档列表中的指定页面以及分页信息;
步骤3,等待用户指令,并在接收到用户指令后,判断来自用户的操作指令的类型并进行相应操作:若为过滤或浏览,进入步骤4;若为查询,则根据查询中的条件,由搜索引擎进行搜索并返回带有维度标签的搜索结果集,并用带有维度标签的搜索结果集替换当前结果集,返回步骤2;若为翻页,则得到用户输入的页码号K,进入步骤6;
步骤4,利用操作指令生成操作请求,再根据操作请求更新临时结果集,并对维度层次树进行相应的处理,接着根据操作类型进入对应的后续步骤:若为过滤,则依据临时结果集更新维度层次树上各个节点的节点统计量,利用临时结果集替换当前结果集,并进入步骤5;若为浏览,则直接进入步骤5;
步骤5,根据临时结果集中有效文档的个数更新文档列表的分页信息,将页码号K设为预设的指定页面,并进入步骤6;
步骤6,将临时结果集中的有效文档按分页信息划分,获取对应第K页的文档概要,并将每个文档概要构建成一条列表项,将N个列表项用于更新文档列表中显示窗口的内容,返回步骤3,其中N为预设值。
本发明要求文档具有维度信息,通过读取文档的维度信息来生成维度层次树。文档列表以分页形式显示临时结果集中有效文档,其包含显示窗口和分页信息。文档列表将其数据源(临时结果集中有效文档组成的集合)按顺序分组,每组N个文档概要,每组又称作“一页”。每次显示窗口中的内容为文档列表的数据源中第K页的N个文档概要所构建的N个列表项。
查询的操作条件为若干关键词。
在步骤5中,更新文档列表的分页信息方法为,先统计有效文档的总数,依据每页文档个数,确定总页数。
其中,步骤1中所有文档为预存的文档,其中每个文档的维度信息包括维度ID以及对应的维度值,且每个文档可根据内容提取出文档概要,从而形成文档概要集。
步骤2中,文档列表中的指定页面为文档列表的首页。
由于文档通常数量较大,如果一次性构建全部列表页面耗时较长,因此在初次显示时仅在显示窗口中显示由首页文档概要构建成的列表项,其他页面根据用户所选择的页面再进行构建,并在显示窗口中显示出来。
在步骤1中得到的文档概要集表示为Dall={d1,d2,…,dm},其中在文档概要集Dall中的ID为i的文档概要di表示为在文档概要di中维度ID为j的维度值集合w为的元素个数。
在文档概要集中,每个文档概要具有多个维度值,这些维度值从文档概要中提取得到。
在步骤2中,创建维度层次树的步骤如下:
步骤2-1,创建维度层次树的树根节点,其中,树根节点的节点统计量为零,孩子节点为空,树根节点对应的实体为根实体;
步骤2-2,判断当前结果集中是否存在未访问的文档概要:是,则根据当前结果集从文档概要集中取出一个未访问的文档概要,进入步骤2-3;否则维度层次树创建结束;
步骤2-3,判断文档概要中是否存在未访问的维度值集合:是,则取出一个未访问的维度值集合,进入步骤2-4;否则,返回步骤2-2;
步骤2-4,判断维度值集合中是否存在未访问的维度值:是,取出一个未访问的维度值,进入步骤2-5;否则,返回步骤2-3;
步骤2-5,对于当前维度值集合中的维度值,判断维度层次树中是否存在从树根到该维度值所在节点的路径:是,进入步骤2-7;否则,进入步骤2-6;
步骤2-6,在维度层次树中创建路径中所有缺失的节点,对于每个新节点,节点统计量为零,对应的孩子节点集为空,维度值设为该节点对应的维度值,进入步骤2-7;
步骤2-7,将路径上所有节点的节点统计量加1,对于路径中未指定孩子节点的节点,将其直接后继节点设为其孩子节点,其中路径上最后一个节点的孩子节点为空,接着返回步骤2-4。
根实体是以所有维度层次树的树根所代表的实体为孩子实体的一个虚构实体。该实体是一个抽象实体,不具有实际含义。
当前结果集中每个文档添加两个属性,一个是文档ID,另外一个是用以标记当前文档是否有效的dirty。
通过以上方法建立的维度层次树,使得各个文档概要按不同的维度值出现在维度层次树的不同节点上。
操作指令为过滤,则步骤4,具体步骤如下:
步骤4-1,生成操作请求,所述操作请求包括若干条件,且每个条件包括一个维度ID以及对应的维度值;
步骤4-2,将维度层次树上所有节点的节点统计量置零,利用当前结果集生成的副本来替换临时结果集;
步骤4-3,判断临时结果集是否存在未访问的文档:是,根据临时结果集从文档概要集中取出一个未访问的文档所对应的文档概要,进入步骤4-4;否则,用临时结果集替换当前结果集,进入步骤5;
步骤4-4,判断操作请求中是否存在未访问的条件:是,进入步骤4-5;否则,进入步骤4-7;
步骤4-5,取出一个未访问的条件,判断其中的维度值是否为当前文档对应维度的维度值集合的子集,其中当前文档对应维度为该条件所包含的维度ID对应的维度:是,返回步骤4-4;否则,进入步骤4-6;
步骤4-6,将临时结果集中该文档标记为失效,并返回步骤4-3;
步骤4-7,找到从维度层次树的树根节点到当前文档概要中每个维度值所在节点的路径,并将这些路径上所有节点的节点统计量加1,并返回步骤4-3。
在用户进行操作之后,通过操作请求中的条件,将维度层次树上不符合条件的文档标记为失效,从而得到符合条件的文档概要集合。在过滤操作中,在生成临时结果集之前将维度层次树上的节点统计量清零,此处的维度层次树,根据临时结果集重新得到节点统计量。在过滤操作中,用所生成的临时结果集来替换当前结果集,所得的当前结果集与生成的临时结果集中的内容相同,因此根据替换后的当前结果集更新的维度层次树随着所生成的临时结果集的改变而改变。
操作指令为浏览,则步骤4具体步骤如下:
步骤4-1,生成操作请求,所述操作请求包括若干条件,且每个条件包括一个维度ID以及对应的维度值;
步骤4-2,利用当前结果集生成的副本来替换临时结果集;
步骤4-3,判断临时结果集是否存在未访问的文档:是,根据临时结果集从文档概要集中取出一个未访问的文档所对应的文档概要,进入步骤4-4;否则,进入步骤5;
步骤4-4,判断操作请求中是否存在未访问的条件:是,进入步骤4-5;否则,进入步骤4-6;
步骤4-5,取出一个未访问的条件,判断其中的维度值是否为当前文档对应维度的维度值集合的子集,其中当前文档对应维度为该条件所包含的维度ID对应的维度:是,返回步骤4-4;否则,进入步骤4-6;
步骤4-6,将临时结果集中该文档标记为失效,保留当前的维度层次树,并返回步骤4-3。
本发明方法通过维度层次树向用户呈现当前结果集中文档在各个维度上的分布情况,通过文档列表向用户呈现文档概要。浏览和过滤对维度层次树的处理不同,其中浏览过程中对维度层次树进行保留,能够节省开销。
在步骤6中,将每个文档概要构建成一条列表项的方法为,对于每个文档概要,将每个维度值集合置于一行,从而得到具有多行维度值的列表项。
本发明方法通过“过滤”和“浏览”帮助用户查看结果集,起到了导航的作用;而文档的多维度化使得用户可以在维度上按层展开结果集,查看分布信息和文档概要,加速了用户获取所需信息的速度。
本发明的优点包括:
获取信息迅速,亦适应需求复杂、模糊的情况。文档标签是由专家制定的知识体系,凝练而准确,用户通过维度层次树上实体的所属文档概要,可以快速确定所需信息的准确描述,从而获取所需内容。
本发明的多维度导航方法是一种交互能力强的导航。用户通过过滤和浏览两种模式来查看结果集,摆脱了搜索引擎所提供的固定检索结果顺序的局面,增强了交互性。
帮助挖掘隐藏于深处的信息,有助于发现知识。该方法可从不同维度依维度内的层次结构呈现结果集,使得那些深埋于线性评级列表深处的搜索结果不易被忽略,具有知识发现功能。
附图说明
图1为本发明方法基于深度搜索结果的多维度导航方法流程图;
图2为本发明一个实施例构建维度层次树的方法流程图;
图3为本发明当前实施例的过滤方法流程图;
图4为本发明当前实施例的浏览方法流程图。
具体实施方式
现结合实施例和附图对本发明进行详细的解释。
如图1所示,本发明提出了基于搜索结果的多维度导航方法,该方法包括如下步骤:
步骤1,读取所有文档的维度信息,初始化文档概要集,并将当前结果集以及临时结果集设置为所有文档。
首先,初始化所有文档的概要集Dall,Dall={d1,d2,…,dm},表示所有文档概要的集合(文档概要集),其中文档ID为i的文档概要文档ID为i的文档概要di中维度ID为j的维度的维度值(即实体值)集合表示为,集合中每个元素为该维度的维度值,w为维度值个数,维度由文档概要决定;Rcurr={ID1,ID2,…,IDk}表示当前结果集,IDi为当前结果集中第i个文档的ID。
在初始化所有文档的概要集从而得到当前结果集之后,进入步骤2。
步骤2,根据文档概要集以及当前结果集构建维度层次树及分页形式的文档列表,并显示维度层次树、文档列表中的指定页面以及分页信息。
文档列表采取分页形式显示文档概要,每个分页包含N个文档概要。
步骤2主要负责根据得到的当前结果集,创建相应的维度层次树,同时完成文档分布的统计,其流程图如图2所示,具体步骤包括:
步骤2-1,创建维度层次树T的树根节点,设定初始的节点统计量fdoc域为零,children域为空,entity域为根实体。
维度层次树的结点结构表示为:Node={fdoc,children,entity},其中,fdoc为当前节点的节点统计量,当前节点的节点统计量为隶属于当前节点的文档个数与当前节点所有孩子节点的节点统计量的总和,entity为当前节点所代表的实体(即维度,包括维度ID和维度值),children代表当前节点的孩子节点集。若维度值集合包含节点的实体值entity,那么称文档概要dt隶属于节点这里表示维度ID为j的维度树的第i个节点。
步骤2-2,判断当前结果集Rcurr中是否存在未访问的文档概要di:是,则根据当前结果集Rcurr从文档概要集Dall中取出一个未访问的文档概要di,进入步骤2-3;否则维度层次树创建结束;
步骤2-3,判断文档概要di中是否存在未访问的维度值集合是,则取出一个未访问的维度值集合进入步骤2-4;否则,返回步骤2-2;
步骤2-4,判断维度值集合中是否存在未访问的维度值是,取出一个未访问的维度值进入步骤2-5,其中t为大于零且小于或等于w的整数;否则,返回步骤2-3;
步骤2-5,对于当前维度值集合中的维度值判断维度层次树T中是否有从树根到所在节点的路径P:有,进入步骤2-7;否则,进入步骤2-6;
步骤2-6,在维度层次树T中创建路径P中所有缺失的节点(即创建树根到所在节点的路径P),新节点的节点统计量fdoc为零,孩子节点children域为空,实体entity域为相应的维度值,路径P中最后一个节点的实体entity域为进入步骤2-7;
步骤2-7,将路径P上所有节点的节点统计量fdoc域加1,对于路径P中各个未设孩子节点的节点,将其直接后继节点设为孩子节点,路径P上最后一个节点的孩子节点children域为空,接着返回步骤2-4。
步骤3,判断来自用户的操作指令的类型并进行相应操作:若为过滤或浏览,进入步骤4;若为查询,则根据查询中的条件,由搜索引擎进行搜索并返回带有维度标签的搜索结果集,并用带有维度标签的搜索结果集作为当前结果集,返回步骤2;若为翻页,则得到用户输入的页码号K,进入步骤6。
在过滤或浏览的情况下,根据操作指令的类型,对维度层次树的处理方式不相同,并得到对应的临时结果集。
步骤4,利用操作指令生成操作请求,再根据操作请求更新临时结果集,并对维度层次树进行相应的处理,接着根据操作类型进入对应的后续步骤:若为过滤,则依据临时结果集更新维度层次树上各个节点的节点统计量,用临时结果集替换当前结果集,并进入步骤5;若为浏览,则直接进入步骤5。
其中,过滤操作支持多维度的多关键词过滤。在过滤模式下,步骤4至步骤6操作过程如图3所示。
其中过滤模式下,操作请求为过滤请求。步骤4具体如下:
步骤4-1,从操作指令中收集搜索词以及维度约束(若未指定维度约束,则为默认维度),并生成过滤请求FR=((dim1,k1),(dim2,k2),…,(dimm,km))。其中任意一个元素(dimi,ki)表示一个条件。此处条件为过滤条件,每个过滤条件都是一个维度约束,dimi表示在第i个过滤条件中该维度约束的维度ID,ki表示对应的维度值。
步骤4-2,利用当前结果集Rcurr生成的副本来替换临时结果集Rtemp
步骤4-3,判断当前结果集是否存在未访问的文档:是,根据临时结果集Rtemp从文档概要集Dall中取出一个未访问的文档所对应的文档概要,进入步骤4-4;否则,用临时结果集替换当前结果集,进入步骤5。
步骤4-4,判断操作请求中是否存在未访问的条件(dimt,kt):是,进入步骤4-5;否则,进入步骤4-7。
步骤4-5,取出一个未访问的条件(dimt,kt),判断该条件中的维度值kt是否是当前文档对应维度的维度值集合的子集,其中当前文档对应维度为该条件所包含的维度ID对应的维度:是,返回步骤4-4;否则,进入步骤4-6。
步骤4-6,将临时结果集中该文档标记为失效,并返回步骤4-3。
步骤4-7,找到维度层次树T中从树根节点到维度di的每个维度值所在的路径,将这些路径上的所有节点的节点统计量fdoc域加1,返回步骤4-3。
浏览操作支持单维度的单关键词浏览,浏览操作的模式下,步骤4至步骤6流程图如图4所示,
步骤4-1,先根据浏览指令收集搜索词和维度约束(若未指定,则维度约束为默认的维度),并生成对应的操作请求,操作请求包括若干条件。此处条件为浏览条件,每个浏览条件都是一个维度约束,构成方式为(dimi,ki)。dimi为操作请求中第i个维度约束的维度ID,ki为对应的维度值。
步骤4-2,利用当前结果集Rcurr生成的副本来替换临时结果集Rtemp
步骤4-3,判断临时结果集Rtemp是否存在未访问的文档:是,根据临时结果集Rtemp从文档概要集Dall中取出一个未访问的文档所对应的文档概要,进入步骤4-4;否则,进入步骤5;
步骤4-4,判断操作请求中是否存在未访问的条件:是,进入步骤4-5;否则,进入步骤4-6;
步骤4-5,取出一个未访问的条件(dimt,kt),判断该条件中的维度值kt是否为当前文档对应维度的维度值集合的子集,其中当前文档对应维度为该条件所包含的维度ID对应的维度:是,返回步骤4-4;否则,进入步骤4-6;
步骤4-6,将临时结果集中该文档标记为失效,保留当前的维度层次树,并返回步骤4-3。
其中,步骤4-3至4-6与过滤操作中对应部分类似,图4中已省略。
步骤5,根据临时结果集Rtemp中有效文档的文档ID个数更新文档列表的分页信息,将页码号K设为1,并进入步骤6。
步骤6,将临时结果集Rtemp中的有效文档按分页信息划分,获取对应第K页的文档概要,并将每个文档概要构建成一条列表项,将N个列表项用于更新文档列表中显示窗口的内容,返回步骤3,其中N为预设值。
步骤6的具体步骤如下:
步骤6-1,将临时结果集Rtemp中的有效文档按分页信息划分,并获取对应第K页的文档概要;
步骤6-2,将每个文档概要di制成一个列表项,其中对于每个文档概要di,将每个维度值集合置于一行,以适当的分隔符分隔,从而得到具有多行值的列表项。
步骤6-3,更新文档列表的显示窗口中的内容,显示所获得的N个列表项,返回步骤3。
本发明方法通过“过滤”和“浏览”帮助用户查看搜索结果集,起到了导航的作用;而文档的多维度化使的用户可以在维度上按层展开结果集,查看分布信息和文档概要,加速了用户获取所需信息的速度。

Claims (7)

1.一种基于维度标签的搜索结果多维度导航方法,其特征在于,包括如下步骤:
步骤1,读取所有文档的维度信息,初始化文档概要集,并将当前结果集以及临时结果集设置为所有文档;
步骤2,根据文档概要集以及当前结果集构建维度层次树及分页形式的文档列表,并显示维度层次树、文档列表中的指定页面以及分页信息;
步骤3,等待用户指令,并在接收到用户指令后,判断来自用户的操作指令的类型并进行相应操作:若为过滤或浏览,进入步骤4;若为查询,则根据查询中的条件,由搜索引擎进行搜索并返回带有维度标签的搜索结果集,并用带有维度标签的搜索结果集替换当前结果集,返回步骤2;若为翻页,则得到用户输入的页码号K,进入步骤6;
步骤4,利用操作指令生成操作请求,再根据操作请求更新临时结果集,并对维度层次树进行相应的处理,接着根据操作类型进入对应的后续步骤:若为过滤,则依据临时结果集更新维度层次树上各个节点的节点统计量,利用临时结果集替换当前结果集,并进入步骤5;若为浏览,则直接进入步骤5;
步骤5,根据临时结果集中有效文档的个数更新文档列表的分页信息,将页码号K设为预设的指定页面,并进入步骤6;
步骤6,将临时结果集中的有效文档按分页信息划分,获取对应第K页的文档概要,并将每个文档概要构建成一条列表项,将N个列表项用于更新文档列表中显示窗口的内容,返回步骤3,其中N为预设值。
2.如权利要求1所述基于维度标签的搜索结果多维度导航方法,其特征在于,步骤2中,文档列表中的指定页面为文档列表的首页。
3.如权利要求1所述基于维度标签的搜索结果多维度导航方法,其特征在于,在步骤1中得到的文档概要集表示为Dall={d1,d2,…,dm},其中在文档概要集Dall中的ID为i的文档概要di表示为在文档概要di中维度ID为j的维度值集合表示为,w为的大小。
4.如权利要求1所述基于维度标签的搜索结果多维度导航方法,其特征在于,在步骤2中,创建维度层次树的步骤如下:
步骤2-1,创建维度层次树的树根节点,其中,树根节点的节点统计量为零,孩子节点为空,树根节点对应的实体为根实体;
步骤2-2,判断当前结果集中是否存在未访问的文档概要:是,则根据当前结果集从文档概要集中取出一个未访问的文档概要,进入步骤2-3;否则维度层次树创建结束;
步骤2-3,判断文档概要中是否存在未访问的维度值集合:是,则取出一个未访问的维度值集合,进入步骤2-4;否则,返回步骤2-2;
步骤2-4,判断维度值集合中是否存在未访问的维度值:是,取出一个未访问的维度值,进入步骤2-5;否则,返回步骤2-3;
步骤2-5,对于当前维度值集合中的维度值,判断维度层次树中是否存在从树根到该维度值所在节点的路径:是,进入步骤2-7;否则,进入步骤2-6;
步骤2-6,在维度层次树中创建路径中所有缺失的节点,对于每个新节点,节点统计量为零,对应的孩子节点集为空,维度值设为该节点对应的维度值,进入步骤2-7;
步骤2-7,将路径上所有节点的节点统计量加1,对于路径中未指定孩子节点的节点,将其直接后继节点设为其孩子节点,其中路径上最后一个节点的孩子节点为空,接着返回步骤2-4。
5.如权利要求4所述基于维度标签的搜索结果多维度导航方法,其特征在于,操作指令为过滤,则步骤4具体步骤如下:
步骤4-1,生成操作请求,所述操作请求包括若干条件,且每个条件包括一个维度ID以及对应的维度值;
步骤4-2,将维度层次树上所有节点的节点统计量置零,利用当前结果集生成的副本来替换临时结果集;
步骤4-3,判断临时结果集是否存在未访问的文档:是,根据临时结果集从文档概要集中取出一个未访问的文档所对应的文档概要,进入步骤4-4;否则,用临时结果集替换当前结果集,进入步骤5;
步骤4-4,判断操作请求中是否存在未访问的条件:是,进入步骤4-5;否则,进入步骤4-7;
步骤4-5,取出一个未访问的条件,判断其中的维度值是否为当前文档对应维度的维度值集合的子集,其中当前文档对应维度为该条件所包含的维度ID对应的维度:是,返回步骤4-4;否则,进入步骤4-6;
步骤4-6,将临时结果集中该文档标记为失效,并返回步骤4-3;
步骤4-7,找到从维度层次树的树根节点到当前文档概要中每个维度值所在节点的路径,并将这些路径上所有节点的节点统计量加1,并返回步骤4-3。
6.如权利要求4所述基于维度标签的搜索结果多维度导航方法,其特征在于,操作指令为浏览,则步骤4具体步骤如下:
步骤4-1,生成操作请求,所述操作请求包括若干条件,且每个条件包括一个维度ID以及对应的维度值;
步骤4-2,利用当前结果集生成的副本来替换临时结果集;
步骤4-3,判断临时结果集是否存在未访问的文档:是,根据临时结果集从文档概要集中取出一个未访问的文档所对应的文档概要,进入步骤4-4;否则,进入步骤5;
步骤4-4,判断操作请求中是否存在未访问的条件:是,进入步骤4-5;否则,进入步骤4-6;
步骤4-5,取出一个未访问的条件,判断其中的维度值是否为当前文档对应维度的维度值集合的子集,其中当前文档对应维度为该条件所包含的维度ID对应的维度:是,返回步骤4-4;否则,进入步骤4-6;
步骤4-6,将临时结果集中该文档标记为失效,保留当前的维度层次树,并返回步骤4-3。
7.如权利要求1所述基于维度标签的搜索结果多维度导航方法,其特征在于,在步骤6中,将每个文档概要构建成一条列表项的方法为,对于每个文档概要,将每个维度值集合置于一行,从而得到具有多行维度值的列表项。
CN201410447174.2A 2014-05-12 2014-09-04 基于维度标签的搜索结果多维度导航方法 Expired - Fee Related CN104281648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410447174.2A CN104281648B (zh) 2014-05-12 2014-09-04 基于维度标签的搜索结果多维度导航方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201410198185 2014-05-12
CN2014101981851 2014-05-12
CN201410198185.1 2014-05-12
CN201410447174.2A CN104281648B (zh) 2014-05-12 2014-09-04 基于维度标签的搜索结果多维度导航方法

Publications (2)

Publication Number Publication Date
CN104281648A true CN104281648A (zh) 2015-01-14
CN104281648B CN104281648B (zh) 2017-05-10

Family

ID=52256521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410447174.2A Expired - Fee Related CN104281648B (zh) 2014-05-12 2014-09-04 基于维度标签的搜索结果多维度导航方法

Country Status (1)

Country Link
CN (1) CN104281648B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653513A (zh) * 2015-12-30 2016-06-08 北京农信互联科技有限公司 一种基于猪场管理的表单录入方法及系统
CN106227801A (zh) * 2016-07-21 2016-12-14 深圳市辣妈帮科技有限公司 主题树生成方法和装置
WO2018121153A1 (zh) * 2016-12-29 2018-07-05 北京国双科技有限公司 一种裁判文书的检索方法及装置
CN108710652A (zh) * 2018-05-09 2018-10-26 长城计算机软件与系统有限公司 一种基于统计的数据分析方法和系统、存储介质
CN109885729A (zh) * 2019-02-20 2019-06-14 北京奇艺世纪科技有限公司 一种显示数据的方法、装置及系统
CN113392130A (zh) * 2020-03-13 2021-09-14 阿里巴巴集团控股有限公司 数据处理方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080086457A1 (en) * 2006-08-29 2008-04-10 Ben Fei Method and apparatus for preprocessing a plurality of documents for search and for presenting search result
CN101799825A (zh) * 2010-03-05 2010-08-11 南开大学 基于扩展邻接矩阵的xml文档结构及语义相似性计算方法
CN102779185A (zh) * 2012-06-29 2012-11-14 浙江大学 一种高可用分布式全文索引方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080086457A1 (en) * 2006-08-29 2008-04-10 Ben Fei Method and apparatus for preprocessing a plurality of documents for search and for presenting search result
CN101799825A (zh) * 2010-03-05 2010-08-11 南开大学 基于扩展邻接矩阵的xml文档结构及语义相似性计算方法
CN102779185A (zh) * 2012-06-29 2012-11-14 浙江大学 一种高可用分布式全文索引方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIANKUN ZHAO 等: "XML structural delta mining: Issues and challenges", 《DATA & KNOWLEDGE ENGINEERING》 *
涂鼎 等: "基于多路层次聚类的商品评论数据概念分类构建", 《计算机研究与发展》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653513A (zh) * 2015-12-30 2016-06-08 北京农信互联科技有限公司 一种基于猪场管理的表单录入方法及系统
CN106227801A (zh) * 2016-07-21 2016-12-14 深圳市辣妈帮科技有限公司 主题树生成方法和装置
WO2018121153A1 (zh) * 2016-12-29 2018-07-05 北京国双科技有限公司 一种裁判文书的检索方法及装置
US11288326B2 (en) 2016-12-29 2022-03-29 Beijing Gridsum Technology Co., Ltd. Retrieval method and device for judgment documents
CN108710652A (zh) * 2018-05-09 2018-10-26 长城计算机软件与系统有限公司 一种基于统计的数据分析方法和系统、存储介质
CN109885729A (zh) * 2019-02-20 2019-06-14 北京奇艺世纪科技有限公司 一种显示数据的方法、装置及系统
CN109885729B (zh) * 2019-02-20 2021-07-20 北京奇艺世纪科技有限公司 一种显示数据的方法、装置及系统
CN113392130A (zh) * 2020-03-13 2021-09-14 阿里巴巴集团控股有限公司 数据处理方法、装置及设备

Also Published As

Publication number Publication date
CN104281648B (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
US11868903B2 (en) Method, system, and computer program for user-driven dynamic generation of semantic networks and media synthesis
CN103955529B (zh) 一种互联网信息搜索聚合呈现方法
CN104239340B (zh) 搜索结果筛选方法与装置
Di Giacomo et al. Graph visualization techniques for web clustering engines
CN104281648B (zh) 基于维度标签的搜索结果多维度导航方法
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
Pol et al. A survey on web content mining and extraction of structured and semistructured data
Ji et al. Tag tree template for Web information and schema extraction
Song et al. Hierarchical tag visualization and application for tag recommendations
CN103514289A (zh) 一种兴趣本体库构建方法及装置
CN107066585B (zh) 一种概率主题计算与匹配的舆情监测方法及系统
WO2015088659A1 (en) Methods and apparatuses for content preparation and/or selection
Hoque et al. Combining conceptual query expansion and visual search results exploration for web image retrieval
Spitz et al. Topexnet: entity-centric network topic exploration in news streams
CN113268683B (zh) 一种基于多维度的学术文献推荐方法
Tvarozek Supporting search result browsing and exploration via cluster-based views and zoom-based navigation
CN116484126A (zh) 网页中的列表提取和可视化
Zaeem et al. An Intelligent Article Knowledge Graph Formation Framework Using BM25 Probabilistic Retrieval Model
Tripathy et al. VEDD-a visual wrapper for extraction of data using DOM tree
Thamviset et al. Structured web information extraction using repetitive subject pattern
Walther et al. Federated product search with information enrichment using heterogeneous sources
Hernández et al. An architecture for efficient web crawling
Rástočný et al. Web search results exploration via cluster-based views and zoom-based navigation
Bozzon et al. Chapter 13: Liquid Queries and Liquid Results in Search Computing
Komamizu et al. A scheme of automated object and facet extraction for faceted search over XML data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170510

Termination date: 20200904