CN101114287A - 为数据生成浏览路径的方法和装置及浏览数据的方法 - Google Patents

为数据生成浏览路径的方法和装置及浏览数据的方法 Download PDF

Info

Publication number
CN101114287A
CN101114287A CNA2006101078935A CN200610107893A CN101114287A CN 101114287 A CN101114287 A CN 101114287A CN A2006101078935 A CNA2006101078935 A CN A2006101078935A CN 200610107893 A CN200610107893 A CN 200610107893A CN 101114287 A CN101114287 A CN 101114287A
Authority
CN
China
Prior art keywords
browsing
data
path
browsing path
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101078935A
Other languages
English (en)
Other versions
CN101114287B (zh
Inventor
J-S·布鲁伦纳
马立
张雷
潘越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN2006101078935A priority Critical patent/CN101114287B/zh
Priority to US11/751,181 priority patent/US7693822B2/en
Publication of CN101114287A publication Critical patent/CN101114287A/zh
Application granted granted Critical
Publication of CN101114287B publication Critical patent/CN101114287B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了为数据生成浏览路径的方法、浏览数据的方法和为数据生成浏览路径的装置,以及计算机程序产品。根据本发明的一个方面,提供了一种为数据生成浏览路径的方法,包括以下步骤:根据描述上述数据的结构的数据模型,生成多个候选的浏览路径;对于上述多个候选的浏览路径的每一个,根据上述数据中与该浏览路径对应的部分数据,计算该浏览路径的重要性;根据上述计算的重要性,选择上述多个候选的浏览路径的至少一个。

Description

为数据生成浏览路径的方法和装置及浏览数据的方法
技术领域
本发明涉及信息处理技术,具体地说,涉及为数据生成浏览路径和浏览数据的技术。
背景技术
近来,多面检索(faceted search)或多面浏览(faceted browsing)成为一种流行的方法,用于浏览表示商业对象(例如产品、文档、公司等)的半结构化或结构化数据集。这种方法在于以称为多面(faceted)的正交分类法(orthogonal category taxonomy)组织商业对象,例如,在EeroHyv_nen等人的文章“Publishing Museum Collections on the SemanticWeb-The MuseumFinland Portal”,WWW conference 2004,以及Lee,K.-P.,K.Swearingen,K.Li & M.Hearst的文章“Faceted metadata forimage search and browsing”,Proceedings of CHI 2003中所公开,在此通过参考引入其整个内容。在所公开的技术中,用户可以通过在给定的多面内选择并结合不同的分类容易地进行查询,并可以逐步精确其查询,直到达到满意的结果。
图1示出了现有技术的多面浏览的一个实例。在图1中,用户输入查询“ibm”,得到的多面类别包括多个浏览路径,例如,种类、价格范围、品牌、商店、销售商等级等,这些浏览路径及其排列顺序都是预先定义的。与每个浏览路径对应的分类包括若干个,例如价格范围包括$800以下、$800-$1400、$1400-$2000、$2000-$4000、$4000以上,或者用户可以自己输入价格范围。
通常,多面检索需要预先(手动)选择有限数目的浏览路径。这种方法只能在有限的范围内满足要求,它不能动态地应用到新的或不断更新的商业对象。实际上,商业对象通常动态产生并由外部用户(合作者)更新,并包括大量属性或关系,其可以产生数百个或更多的可能的浏览路径。
因此,预先定义浏览路径及与其对应的分类来浏览数据变得烦琐并且不能反映当前的对象的变化。另一方面,自动地列出所有可能的浏览路径会使用户混淆,无法从大量的浏览路径中发现自己所需要的一个或几个,所以也不能进行顺利的浏览。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了为数据生成浏览路径的方法、浏览数据的方法、为数据生成浏览路径的装置、和计算机程序产品,从而可以对结构化或半结构化数据实现自动的优化浏览路径的选择。根据本发明的一个方面,提供了一种为数据生成浏览路径的方法,包括以下步骤:根据描述上述数据的结构的数据模型,生成多个候选的浏览路径;对于上述多个候选的浏览路径的每一个,根据上述数据中与该浏览路径对应的部分数据,计算该浏览路径的重要性;根据上述计算的重要性,选择上述多个候选的浏览路径的至少一个。
根据本发明的另一个方面,提供了一种浏览数据的方法,包括以下步骤:根据上述为数据生成浏览路径的方法生成至少一个浏览路径;以及沿上述至少一个浏览路径浏览上述数据。
根据本发明的另一个方面,提供了一种为数据生成浏览路径的装置,包括:候选路径生成单元,根据描述上述数据的结构的数据模型,生成多个候选的浏览路径;重要性计算单元,对于上述多个候选的浏览路径的每一个,根据上述数据中与该浏览路径对应的部分数据,计算该浏览路径的重要性;以及路径选择单元,根据上述计算的重要性,选择上述多个候选的浏览路径的至少一个。
根据本发明的另一个方面,提供了一种计算机程序产品,用于使计算机执行上述万法。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据现有技术的为数据生成浏览路径的一个实例;
图2是根据本发明的一个实施例的为数据生成浏览路径的方法的流程图;
图3是根据本发明的实施例的数据模型的实例;
图4是根据本发明的实施例的候选浏览路径的树型结构的实例;
图5是根据本发明的实施例的一个分类的熵值的曲线图;
图6是根据本发明的实施例的一条路径的熵值的曲线图;
图7是根据本发明的实施例的选定浏览路径的实例;
图8是根据本发明的另一个实施例的为数据生成浏览路径的方法的流程图;
图9是根据本发明的另一个实施例的浏览数据的方法的流程图;以及
图10是根据本发明的另一个实施例的为数据生成浏览路径的装置的方框图。
具体实施方式
下面就结合附图对本发明的各个实施例进行详细的说明。
图2是根据本发明的一个实施例的为数据生成浏览路径的方法的流程图。如图2所示,首先,在步骤201,根据描述数据的结构的数据模型,生成多个候选的浏览路径。
在本实施例中,数据模型是指描述数据的结构的模型,可以包括对象、对象的属性或者对象之间的关系,其可以是一种概念模型(conceptualmodel),例如,统一建模语言(UML)模型、可扩展标记语言(XML)模型、实体/关系(E/R)模型、共享概念(Ontology)模型或其组合。数据模型中的对象是对数据模型中的实体的抽象定义。例如,面向对象的对象或者共享概念的对象可以用类来表示。随着新的视图表现结构逐步丰富(例如对象、关系、约束等),业务对象也越来越趋于复杂。
浏览路径是指对于当前数据集的一个特定试图,与多面的概念类似。例如,浏览路径可以是由某个对象的属性、关系或者可能的类型及其组合定义的复杂的路径。
图3示出了作为数据模型的一种的UML模型的一个实例。如图3所示,对象包括产品、商店和信用卡。产品的属性包括产品名称和产品发布年份,产品还包括层级结构的子类:计算机和软件。产品和商店之间的关系为销售,以及商店和信用卡之间的关系为可接受的信用卡。
对于上述数据模型,可以用于生成候选的浏览路径的内容包括但不限于:
(1)  如果对象是层级结构(hierarchy)的一部分,该层级结构是候选的浏览路径,例如产品层级结构、商店层级结构等。
(2)  对象的属性,例如产品的名称、发布年份等。
(3)  基于对象之间的关系,例如销售(商店)-名称、销售(商店)-可接受的信用卡(信用卡)-类型等。
在步骤201,通过遍历上述数据模型中的每一个对象,根据该对象的属性以及与其它对象的关系,生成候选的浏览路径,并根据该对象的层级结构,生成候选的浏览路径,如图4所示。
具体地,例如,可以采取以下方式:首先根据数据模型构造一张图,图中的节点为数据模型中的类(或概念)和属性。从类到类上的属性形成有向边,两个类之间的关系形成两条有向边。然后,从一个点出发,使用现有的图遍历算法(例如,参见Thomas H.Cormen,Charles E.Leiserson,Ronald L.Rivest,和Clifford Stein著的“Introduction to Algorithms,Second Edition”,发表于The MIT Press,2001)得到从该点到所有其它点的所有路径的一个子集,将该子集中的路径作为候选的浏览路径。可以有多种方法来筛选这个子集,比如限制路径长度或者限制一个节点在路径中重复的次数(该方法在处理复杂和庞大的数据结构的模型时非常有效,因为在复杂的数据结构中,比较容易出现死循环的现象,即某一个类通过某一个有向边指向了另一个类,而另一个类又通过其它的有向边指回该类,而限制一个节点在路径中重复的次数,将很容易的避免这种死循环的发生)等等。应当理解,本发明不局限于某种特定的筛选方法,甚至本发明并不限于一定要对子集进行筛选,因为在简单的数据模型的结构中,浏览路径的可选择范围本身就非常有限,因此也就不必附加更多的限制,而是找出全部候选浏览路径进行后续的重要性比较。
具体地,例如为产品生成的候选的浏览路径如表1所示。
表1
    对于产品的候选的浏览路径:
    产品层级结构名称发布年份销售(商店)-名称销售(商店)-层级结构销售(商店)-可接受的信用卡(信用卡)-类型
    例如,对于关系“销售”,具有三个子路径。
接着,在步骤202,根据实际数据,获得与每个候选的浏览路径对应的分类及其数据分布。具体地,对于上述候选的浏览路径的每一个,根据该浏览路径检索上述数据,并根据获得的检索结果,获得与该浏览路径对应的至少一个可能的分类及其数据分布,其中分类的数据分布例如在本实施例中表现为在检索结果中的命中次数(hits)。在此,实际数据是由前面所述数据模型描述的数据集,例如可以是原始数据文件、XML文件、数据库内容或者共享概念实例等。对于上述候选的浏览路径,与其对应的可能的分类包括但不限于:
(1)  如果候选的浏览路径是层级结构,与其对应的可能的分类可以是层级结构的子类。例如,如果浏览路径是产品层级结构,与其对应的分类是产品层级结构的子类:计算机和软件。
(2)  如果候选的浏览路径是对象的属性,与其对应的可能的分类可以是:
(i)如果属性是枚举类型,则与其对应的可能的分类可以是属性的枚举值。例如,如果浏览路径是信用卡的类型,则与其对应的分类是Visa、Mastercard等。
(ii)如果属性是数值,则与其对应的可能的分类可以包括一组取值范围,其是根据检索结果的多个实际值进行聚类(clustering)获得的。例如,如果浏览路径是产品的价格,则与其对应的分类是例如价格小于¥15、价格在¥15和¥30之间、价格大于¥30等。
本发明对于聚类的方式并没有特别的限制,只要能实现将检索结果中离散的多个数值聚类到一组取值范围中即可。具体的聚类方法,例如在Pavei Berkhin的文章“Survey Of Clustering Data Mining Techniques”,2002 Accrue Software以及Padhraic Smyth的文章“Data mining tasks andmethods:Clustering:numerical clustering”,Handbook of data mining andknowledge discovery,第386页至第388页,2002 Oxford University Press,Inc.(ISBN:0-19-511831-6)中所述,在此通过参考引入其整个内容。
(iii)如果属性的取值是离散数值,与其对应的分类可以是属性的实际值。例如如果属性是产品的发布年份,则与其对应的分类是发布年份的实际值,例如2002、2003、2004等。
接着,在步骤203,根据上述实际数据中与该浏览路径对应的部分数据,计算每个候选的浏览路径的重要性。具体地,本实施例根据与该浏览路径对应的各个分类的数据分布和该浏览路径的深度,计算该浏览路径的重要性,但是本发明并不限于这一种方式。在此,一个浏览路径的重要性表示该浏览路径所携带的信息量的大小,如果重要性高则表示该浏览路径携带的信息量大,因此是浏览数据的优选的候选路径。
具体地,在本实施例中,利用熵值来评价数据分布。首先,根据与该浏览路径对应的各个分类的数据分布,即根据各个分类在检索结果中的命中次数,计算每个分类在检索结果中的命中概率,例如,计算第i个分类的概率pi
然后,根据计算出的第i个分类的概率pi,利用公式(1)计算第i个分类的熵值:
-pi·1og(pi)    (1)
计算出的第i个分类的熵值的曲线如图5所示,其中,如果pi=0,第i个分类在检索结果中的命中概率为0,即该分类不存在,则该分类的熵值为零。如果pi=1,第i个分类在检索结果中的命中概率为1,即只有一个分类,则该分类的熵值也为零。
然后,利用公式(2)计算该浏览路径的平均熵值:
Σ i ∈ N - p i · log ( p i ) N - - - ( 2 )
其中,N是与该浏览路径对应的分类的数量。计算出的该浏览路径的平均熵值如图6所示,其中,如果与该浏览路径对应的分类只有一个,则该浏览路径的平均熵值为0,说明该浏览路径没有意义。在图6中,在3个分类处,该浏览路径的平均熵值最大,说明与一条浏览路径对应的分类为三个最合适。
然后,根据计算出的该浏览路径的平均熵值,利用公式(3)计算该浏览路径的重要性:
R = Σ i ∈ N - p i · log ( p i ) N · λ d - - - ( 3 )
其中,R表示浏览路径的重要性,d是浏览路径的深度,λ是0-1之间的一个系数(衰减系数),例如0.8。所述衰减可以根据路径的深度来控制其重要程度。一般而言,用户对于过长的路径比较难于理解,因此,路径深度越大,重要性越低,而深度越小,重要性越高。相应的,λ的设定是根据情况需要而设定的。λ值越大,衰减越慢,路径的深度对于重要程度的影响也就越小,路径可以比较长;λ值越小,衰减越快,路径的深度对于重要程度的影响也越大,路径就不能太长。本领域普通技术人员可以理解,可以根据用户的需求、待检索数据模型的结构的复杂程度设置λ值。比如,处理复杂的数据模型的结构时可以设置较高的λ值,处理简单的数据模型的结构时可以设置较低的λ值。
另外,根据本发明的另一个实施例,每个候选的浏览路径的重要性也可以根据与该浏览路径对应的分类的最大概率pmax和最小概率Pmin计算,即最大概率pmax和最小概率pmin的差越小该浏览路径的重要性越高,例如可以利用公式(4)计算:
R = 1 p max - p min - - - ( 4 )
其中,R表示该浏览路径的重要性,pmax为与该浏览路径对应的分类的概率的最大值,pmin为与该浏览路径对应的分类的概率的最小值。在该实施例中,最大概率pmax和最小概率pmin之间的差别越小,该浏览路径的重要性R越高。在一个极其例外的情况中,pmax和pmin的差可能为零,因此,作为修正可以将公式(4)修正为下面的公式(4,):
R = 1 ( p max - p min ) + α - - - ( 4 , )
其中α表示对分母的修正,α通常情况下可以是一个非常小的值,比如0.0001等,以防止计算得到的R为无限大。
此外,在另一个可选实施例中,每个候选的浏览路径的重要性可以根据与该浏览路径对应的分类的数量和该浏览路径的深度计算,即分类的数量越接近希望的值并且深度越小则该浏览路径的重要性越高,例如利用公式(5)计算:
R = 1 ( | N - k | + 1 ) d - - - ( 5 )
其中,R表示该浏览路径的重要性,N是与该浏览路径对应的分类的数量,d是该浏览路径的深度,k是希望的分类的数量。在该实施例中,与该浏览路径对应的分类的数量N与希望的分类的数量k越接近,该浏览路径的重要性R越高,以及该浏览路径的深度d越浅,该浏览路径的重要性R越高。
本领域的普通技术人员理解,本发明并不限于上述三种计算方法,而是可以根据需要采用能够表达所述浏览路径的重要性的其它方案。
最后,在步骤204,根据在步骤203计算出的重要性,对多个候选的浏览路径进行排序,从而选择至少一个浏览路径作为最终生成的浏览路径。
具体地,如图7所示,示出了针对产品生成的浏览路径。在图7中,示出了四个浏览路径及与其对应的分类,以及每个分类的数据分布。
在图7中,第一条浏览路径“产品层级结构”包括三个分类“计算机-桌上型电脑”、“计算机-笔记本”和“软件”,它们的命中次数分别为123、123和120,从而计算出它们的命中概率分别为0.3361、0.3361和0.3279,利用公式(1)计算出它们的熵值分别为0.1592、0.1592和0.1588,利用公式(2)计算出第一条浏览路径的平均熵值为0.159。第一条路径的深度d是1,λ取0.8,从而利用公式(3)计算出第一条浏览路径的重要性R=0.159*0.81=0.1272。
第二条浏览路径“产品的发布年份”包括三个分类“2002”、“2003”和“2004”,它们的命中次数分别为200、230和253,从而计算出它们的命中概率分别为0.2928、0.3367和0.3704,利用公式(1)计算出它们的熵值分别为0.1562、0.1592和0.1598,利用公式(2)计算出第二条浏览路径的平均熵值为0.1584。第二条路径的深度d是1,λ取0.8,从而利用公式(3)计算出第二条浏览路径的重要性R=0.1584*0.81=0.1267。
第三条浏览路径“销售(商店)-层级结构”包括三个分类“网络店”、“实体店-超市”和“实体店-商场”,它们的命中次数分别为400、160和123,从而计算出它们的命中概率分别为0.5857、0.2343和0.1801,利用公式(1)计算出它们的熵值分别为0.1361、0.1477和0.1341,利用公式(2)计算出第三条浏览路径的平均熵值为0.1393。第三条路径的深度d是2,λ取0.8,从而利用公式(3)计算出第三条浏览路径的重要性R=0.1393*0.82=0.0891。
第四条浏览路径“销售(商店)-接受的信用卡(信用卡)”包括二个分类“Visa”和“Mastercard”,它们的命中次数分别为450和200,从而计算出它们的命中概率分别为0.6923和0.3077,利用公式(1)计算出它们的熵值分别为0.1106和0.1575,利用公式(2)计算出第四条浏览路径的平均熵值为0.134。第四条路径的深度d是3,λ取0.8,从而利用公式(3)计算出第四条浏览路径的重要性R=0.134*0.83=0.0686。
从而可以根据计算出的重要性的高低选择浏览路径并向用户显示选择的浏览路径。应当说明的是虽然在本发明的实施例中最终显示了四条重要性较高的浏览路径,但是本发明并不限于此,完全可以根据用户或者系统的设定,显示重要性较高的任意多条或一条路径,比如选择重要性较高的前5条路径进行选择。
通过以上的说明可知,由于本实施例的为数据生成浏览路径的方法能够根据数据模型、实际数据分布选择浏览路径,不需要手动选择浏览路径,从而能够为用户找到优选的浏览路径,并只将优选的浏览路径,即重要性最高的浏览路径显示给用户。
在同一发明构思下,图8是根据本发明的另一个实施例的为数据生成浏览路径的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图8所示,首先,在步骤801,根据描述数据的结构的数据模型,生成多个候选的浏览路径。
数据模型可以包括对象、对象的属性或者对象之间的关系,其可以是上述概念模型,例如,UML模型、XML模型、E/R模型、Ontology模型或其组合。
图3示出了作为数据模型的一种的UML模型的一个实例。如图3所示,对象包括产品、商店和信用卡。产品的属性包括产品名称和产品发布年份,产品还包括层级结构的子类:计算机和软件。产品和商店之间的关系为销售,以及商店和信用卡之间的关系为可接受的信用卡。
对于上述数据模型,可以用于生成候选的浏览路径的内容包括但不限于:
(1)  如果对象是层级结构的一部分,该层级结构是候选的浏览路径,例如产品层级结构、商店层级结构等。
(2)  对象的属性,例如产品的名称、发布年份等。
(3)  基于对象之间的关系,例如销售(商店)-名称、销售(商店)-可接受的信用卡(信用卡)-类型等。
在步骤801,通过遍历上述数据模型中的每一个对象,根据该对象的属性以及与其它对象的关系,生成候选的浏览路径,并根据该对象的层级结构,生成候选的浏览路径,如图4所示。
具体地,例如为产品生成的候选的浏览路径如上述表1所示。
接着,在步骤802,输入用户的查询。该查询例如可以是用户希望检索的一个或多个关键词或其他形式的查询,本发明对此没有特别的限制。
接着,在步骤803,根据输入的用户的查询,检索上述数据,获得子集数据。本发明对于如何根据用户查询来检索数据从而获得子集数据并没有特别的限制,可以使用现有的和未来的能够实现上述目的的所有方式。
接着,在步骤804,根据检索获得的子集数据,获得与每个候选的浏览路径对应的分类及其数据分布。具体地,对于上述候选的浏览路径的每一个,根据该浏览路径检索上述子集数据,并根据获得的检索结果,获得与该浏览路径对应的至少一个可能的分类及其数据分布,其中分类的数据分布例如在本实施例中表现为在检索结果中的命中次数。对于上述候选的浏览路径,与其对应的可能的分类包括但不限于:
(1)  如果候选的浏览路径是层级结构,与其对应的可能的分类可以是层级结构的子类。例如,如果浏览路径是产品层级结构,与其对应的分类是产品层级结构的子类:计算机和软件。
(2)  如果候选的浏览路径是对象的属性,与其对应的可能的分类可以是:
(i)如果属性是枚举类型,则与其对应的可能的分类可以是属性的枚举值。例如,如果浏览路径是信用卡的类型,则与其对应的分类是Visa、Mastercard等。
(ii)如果属性是数值,则与其对应的可能的分类包括一组取值范围,其是根据检索结果的多个实际值进行聚类(clustering)获得的,聚类的方法与上述参考图2的实施例相同。例如,如果浏览路径是产品的价格,则与其对应的分类是例如价格小于¥15、价格在¥15和¥30之间、价格大于¥30等。
(iii)如果属性的取值是离散数值,则与其对应的分类可以是属性的实际值。例如如果属性是产品的发布年份,则与其对应的分类是发布年份的实际值,例如2002、2003、2004等。
接着,在步骤805,根据上述数据中与该浏览路径对应的部分数据,计算每个候选的浏览路径的重要性。具体地,本实施例根据与该浏览路径对应的各个分类的数据分布和该浏览路径的深度计算该浏览路径的重要性。具体的计算重要性的方法与上述参考图2的实施例的方法相同,在此不在赘述。
最后,在步骤806,根据在步骤805计算出的重要性,对多个候选的浏览路径进行排序,从而选择至少一个浏览路径作为最终生成的浏览路径。
通过以上的说明可知,由于本实施例的为数据生成浏览路径的方法能够根据数据模型、实际数据分布选择浏览路径,不需要手动选择浏览路径,从而能够为用户找到优选的浏览路径,并只将优选的浏览路径,即重要性最高的浏览路径显示给用户。
此外,本实施例的为数据生成浏览路径的方法能够根据用户的查询,检索出子集数据,并根据子集数据计算浏览路径的重要性,从而能够更加精确地为用户生成优选的浏览路径。
作为本实施例的一个变形,在生成浏览路径之后,用户可以进一步输入查询,并根据该查询,进一步检索出子集数据,从而获得更加精确的浏览路径。而且,上述方法步骤可以重复进行,直到用户获得满意的浏览路径。
通过该变形实施例的为数据生成浏览路径的方法,可以为用户生成更加精确的浏览路径。
另外,上述图8所示的实施例也可以与前面图2所描述的实施例结合实施,在用户没有输入查询时,首先采用图2所示的实施例针对全部数据为用户提供浏览路径,进而,在用户输入查询后,采用图8所示的实施例及其变形例,不断缩小子集数据的范围,为用户提供更具有针对性的浏览路径。
在同一发明构思下,图9是根据本发明的另一个实施例的浏览数据的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图9所示,首先,在步骤901,利用前面各个实施例描述的为数据生成浏览路径的方法,生成至少一个浏览路径,例如图7所示的浏览路径。
接着,在步骤902,用户沿所选的浏览路径,浏览上述数据。
通过本实施例的浏览数据的方法,能够根据数据模型、实际数据分布选择浏览路径,不需要手动选择浏览路径,并只将优选的浏览路径,即重要性最高的浏览路径显示给用户,从而提高了浏览数据的效率。
此外,本实施例的浏览数据的方法能够根据用户的查询,检索出子集数据,并根据子集数据计算浏览路径的重要性,从而能够更加精确地为用户生成优选的浏览路径,进一步提高了浏览数据的效率。
在同一发明构思下,图10是根据本发明的另一个实施例的为数据生成浏览路径的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
在图10中,为数据生成浏览路径的装置1000包括:候选路径生成单元(candidate path generating unit)1001,根据描述上述数据的结构的数据模型,生成多个候选的浏览路径;分类获得单元(category obtaining unit)1002,根据上述数据,获得与一个指定的浏览路径对应的至少一个可能的分类及其数据分布;重要性计算单元(importance calculating unit)1003,用于利用分类获得单元1002获得与每一个浏览路径对应的至少一个可能的分类及其数据分布,并计算该浏览路径的重要性;以及路径选择单元(path selecting unit)1004,根据上述计算的重要性,选择上述多个候选的浏览路径的至少一个。
可选地,为数据生成浏览路径的装置1000还包括检索单元(searchingunit),根据用户的查询从上述数据中检索出子集数据,其中上述分类获得单元1002根据上述子集数据获得与上述浏览路径对应的至少一个可能的分类及其数据分布。
在本实施例的为数据生成浏览路径的装置1000中使用的数据模型可以包括对象、对象的属性或者对象之间的关系,其可以是一种概念模型,例如,UML模型、XML模型、E/R模型、Ontology模型或其组合。
图3示出了作为数据模型的一种的UML模型的一个实例。如图3所示,对象包括产品、商店和信用卡。产品的属性包括产品名称和产品发布年份,产品还包括层级结构的子类:计算机和软件。产品和商店之间的关系为销售,以及商店和信用卡之间的关系为可接受的信用卡。
对于上述数据模型,可以用于生成候选的浏览路径的内容包括但不限于:
(1)如果对象是层级结构的一部分,该层级结构可以是候选的浏览路径,例如产品层级结构、商店层级结构等。
(2)  对象的属性,例如产品的名称、发布年份等。
(3)  基于对象之间的关系,例如销售(商店)-名称、销售(商店)-可接受的信用卡(信用卡)-类型等。
上述为数据生成浏览路径的装置1000的候选路径生成单元1001通过遍历上述数据模型中的每一个对象,根据该对象的属性以及与其它对象的关系,生成候选的浏览路径,并根据该对象的层级结构,生成候选的浏览路径,如图4所示。
具体地,例如为产品生成的候选的浏览路径如上述表1所示。
可选地,上述分类获得单元1002包括路径检索单元(path searchingunit),按照上述浏览路径检索上述数据;其中,上述分类获得单元1002根据上述检索的结果获得至少一个可能的分类。
具体地,对于上述多个候选浏览路径的每一个,与其对应的可能的分类包括但不限于:
(1)  如果候选的浏览路径是层级结构,与其对应的可能的分类可以是层级结构的子类。例如,如果浏览路径是产品层级结构,
与其对应的分类是产品层级结构的子类:计算机和软件。
(2)  如果候选的浏览路径是对象的属性,与其对应的可能的分类可以是:
(i)如果属性是枚举类型,则与其对应的可能的分类可以是属性的枚举值。例如,如果浏览路径是信用卡的类型,则与其对应的分类是Visa、Mastercard等。
(ii)如果属性是数值,则与其对应的可能的分类可以包括一组取值范围,其是根据检索结果的多个实际值进行聚类(clustering)获得的,聚类的方法与上述参考图2的实施例相同。例如,如果浏览路径是产品的价格,则与其对应的分类是例如价格小于¥15、价格在¥15和¥30之间、价格大于¥30等。
(iii)如果属性的取值是离散数值,则与其对应的分类可以是属性的实际值。例如如果属性是产品的发布年份,则与其对应的分类是发布年份的实际值,例如2002、2003、2004等。
可选地,上述重要性计算单元1003根据与上述浏览路径对应的各个分类的数据分布和上述浏览路径的深度计算上述浏览路径的重要性。
具体地,上述重要性计算单元1003首先根据与该浏览路径对应的各个分类的数据分布,即根据各个分类在检索结果中的命中次数,计算每个分类在检索结果中的命中概率,例如,计算第i个分类的概率pi
然后,根据计算出的第i个分类的概率pi,利用上述公式(1)计算第i个分类的熵值。计算出的第i个分类的熵值的曲线如图5所示,其中,如果pi=0,第i个分类在检索结果中的命中概率为0,即该分类不存在,则该分类的熵值为零。如果pi=1,第i个分类在检索结果中的命中概率为1,即只有一个分类,则该分类的熵值也为零。
然后,利用上述公式(2)计算该浏览路径的平均熵值。计算出的该浏览路径的平均熵值如图6所示,其中,如果与该浏览路径对应的分类只有一个,则该浏览路径的平均熵值为0,说明该浏览路径没有意义。在图6中,在3个分类处,该浏览路径的平均熵值最大,说明与一条浏览路径对应的分类为三个最合适。
最后,根据计算出的该浏览路径的平均熵值,利用上述公式(3)计算该浏览路径的重要性。
此外,上述重要性计算单元1003可以根据与上述浏览路径对应的分类的最大概率和最小概率计算上述浏览路径的重要性,即最大概率pmax和最小概率pmin的差越小该浏览路径的重要性越高,例如可以利用上述公式(4)计算上述浏览路径的重要性。
此外,上述重要性计算单元1003可以根据与上述浏览路径对应的分类的数量和上述浏览路径的深度计算上述浏览路径的重要性,即分类的数量越接近希望的值并且深度越小则该浏览路径的重要性越高,例如利用上述公式(5)计算上述浏览路径的重要性。
上述路径选择单元1004可以根据重要性计算单元1003计算出的重要性选择一个或多个浏览路径作为最终生成的浏览路径。
通过以上的说明可知,由于本实施例的为数据生成浏览路径的装置1000能够根据数据模型自动生成候选浏览路径并根据实际数据分布选择候选浏览路径,不需要手动选择浏览路径,并只将优选的浏览路径,即重要性最高的浏览路径作为最终生成的浏览路径,从而能够为用户找到优选的浏览路径。
此外,本实施例的为数据生成浏览路径的装置1000能够根据用户的查询,检索出子集数据,并根据子集数据计算浏览路径的重要性,从而能够更加精确地为用户生成优选的浏览路径。
本实施例的为数据生成浏览路径的装置1000及其构成单元可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体器件、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合实现。
本发明还提供了一种计算机程序产品,当该程序产品被加载到计算机中时,能够使该计算机执行上述为数据生成浏览路径的方法、浏览数据的方法。
以上虽然通过一些示例性的实施例详细地描述了本发明的为数据生成浏览路径的方法、浏览数据的方法、为数据生成浏览路径的装置和计算机程序产品,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

Claims (30)

1.一种为数据生成浏览路径的方法,包括以下步骤:
根据描述上述数据的结构的数据模型,生成多个候选的浏览路径;
对于上述多个候选的浏览路径的每一个,根据上述数据中与该浏览路径对应的部分数据,计算该浏览路径的重要性;
根据上述计算的重要性,选择上述多个候选的浏览路径的至少一个。
2.根据权利要求1所述的为数据生成浏览路径的方法,其中,上述计算该浏览路径的重要性的步骤包括:
根据上述数据,获得与该浏览路径对应的至少一个可能的分类及其数据分布;
根据与该浏览路径对应的上述至少一个可能的分类及其数据分布,计算上述浏览路径的重要性。
3.根据权利要求2所述的为数据生成浏览路径的方法,还包括根据用户的查询从上述数据中检索出子集数据,其中上述获得与上述浏览路径对应的至少一个可能的分类的步骤包括:根据上述子集数据获得与上述浏览路径对应的至少一个可能的分类及其数据分布。
4.根据权利要求1-3中任何一项所述的为数据生成浏览路径的方法,其中,上述数据模型是一种概念模型。
5.根据权利要求4所述的为数据生成浏览路径的方法,其中,上述概念模型包括统一建模语言模型、可扩展标记语言模型、实体/关系模型、和共享概念模型中的一种或其组合。
6.根据权利要求1-5中任何一项所述的为数据生成浏览路径的方法,其中,上述数据模型包括多个对象、每个对象的属性以及对象之间的关系,上述生成多个候选的浏览路径的步骤包括:遍历上述数据模型中的每一个对象,根据该对象的属性以及与其它对象的关系,生成候选的浏览路径。
7.根据权利要求6所述的为数据生成浏览路径的方法,其中,上述数据模型进一步包括对象的层级结构,上述生成多个候选的浏览路径的步骤进一步包括:根据上述对象的层级结构,生成候选的浏览路径。
8.根据权利要求1-7中任何一项所述的为数据生成浏览路径的方法,其中,根据上述数据获得与上述浏览路径对应的至少一个可能的分类的步骤包括:
按照上述浏览路径检索上述数据;
根据上述检索的结果,获得上述至少一个可能的分类。
9.根据权利要求8所述的为数据生成浏览路径的方法,其中,上述至少一个可能的分类包括上述检索结果中的对应的属性的枚举值。
10.根据权利要求8所述的为数据生成浏览路径的方法,其中,上述至少一个可能的分类包括一组取值范围,其是根据上述检索结果的多个实际值进行聚类获得的。
11.根据权利要求8所述的为数据生成浏览路径的方法,其中,上述至少一个可能的分类包括上述检索结果中的对应的对象层级结构的子类。
12.根据权利要求8所述的为数据生成浏览路径的方法,其中,上述至少一个可能的分类包括上述检索结果中的对应的属性的实际值。
13.根据权利要求2-12中任何一项所述的为数据生成浏览路径的方法,其中,上述计算上述浏览路径的重要性的步骤包括:根据与上述浏览路径对应的各个分类的数据分布和上述浏览路径的深度计算上述浏览路径的重要性。
14.根据权利要求13所述的为数据生成浏览路径的方法,其中,上述计算上述浏览路径的重要性的步骤通过以下公式进行:
R = Σ i ∈ N - p i · log ( p i ) N · λ d ,
其中,R表示上述浏览路径的重要性,i表示第i个分类,pi是第i个分类在上述数据中出现的概率,N是与上述浏览路径对应的分类的数量,
Figure A2006101078930003C2
是上述浏览路径的熵值,d是上述浏览路径的深度,λ是0-1之间的一个常数。
15.一种浏览数据的方法,包括以下步骤:
根据上述权利要求1-14中任何一项所述的为数据生成浏览路径的方法生成至少一个浏览路径;以及
沿上述至少一个浏览路径浏览上述数据。
16.一种为数据生成浏览路径的装置,包括:
候选路径生成单元,根据描述上述数据的结构的数据模型,生成多个候选的浏览路径;
重要性计算单元,对于上述多个候选的浏览路径的每一个,根据上述数据中与该浏览路径对应的部分数据,计算该浏览路径的重要性;以及
路径选择单元,根据上述计算的重要性,选择上述多个候选的浏览路径的至少一个。
17.根据权利要求16所述的为数据生成浏览路径的装置,还包括:
分类获得单元,用于根据上述数据,获得与指定的浏览路径对应的至少一个可能的分类及其数据分布;
其中,上述重要性计算单元,利用上述分类获得单元获得与每一个浏览路径对应的至少一个可能的分类及其数据分布,并计算该浏览路径的重要性。
18.根据权利要求16所述的为数据生成浏览路径的装置,还包括检索单元,根据用户的查询从上述数据中检索出子集数据,其中上述分类获得单元根据上述子集数据获得与上述浏览路径对应的至少一个可能的分类及其数据分布。
19.根据权利要求16-18中任何一项所述的为数据生成浏览路径的装置,其中,上述数据模型是一种概念模型。
20.根据权利要求19所述的为数据生成浏览路径的装置,其中,上述概念模型包括统一建模语言模型、可扩展标记语言模型、实体/关系模型、和共享概念模型中的一种或其组合。
21.根据权利要求16-20中任何一项所述的为数据生成浏览路径的装置,其中,上述数据模型包括多个对象、每个对象的属性以及对象之间的关系,上述候选路径生成单元遍历上述数据模型中的每一个对象,根据该对象的属性以及与其它对象的关系,生成候选的浏览路径。
22.根据权利要求21所述的为数据生成浏览路径的装置,其中,上述数据模型进一步包括对象的层级结构,上述候选路径生成单元根据上述对象的层级结构,生成候选的浏览路径。
23.根据权利要求17-22中任何一项所述的为数据生成浏览路径的装置,其中,上述分类获得单元包括:
路径检索单元,按照上述浏览路径检索上述数据;
其中,上述分类获得单元根据上述检索的结果获得上述至少一个可能的分类。
24.根据权利要求23所述的为数据生成浏览路径的装置,其中,上述至少一个可能的分类包括上述检索结果中的对应的属性的枚举值。
25.根据权利要求23所述的为数据生成浏览路径的装置,其中,上述至少一个可能的分类包括一组取值范围,其是根据上述检索结果的多个实际值进行聚类获得的。
26.根据权利要求23所述的为数据生成浏览路径的装置,其中,上述至少一个可能的分类包括上述检索结果中的对应的对象层级结构的子类。
27.根据权利要求23所述的为数据生成浏览路径的装置,其中,上述至少一个可能的分类包括上述检索结果中的对应的属性的实际值。
28.根据权利要求17-27中任何一项所述的为数据生成浏览路径的装置,其中,上述重要性计算单元根据与上述浏览路径对应的各个分类的数据分布和上述浏览路径的深度计算上述浏览路径的重要性。
29.根据权利要求27所述的为数据生成浏览路径的装置,其中,上述重要性计算单元通过以下公式计算上述浏览路径的重要性:
R = Σ i ∈ N - p i · log ( p i ) N · λ d ,
其中,R表示上述浏览路径的重要性,i表示第i个分类,pi是第i个分类在上述数据中出现的概率,N是与上述浏览路径对应的分类的数量,
Figure A2006101078930006C1
是上述浏览路径的熵值,d是上述浏览路径的深度,λ是0-1之间的一个常数。
30.一种计算机程序产品,用于使计算机执行根据上述权利要求1-15中任何一项所述的方法。
CN2006101078935A 2006-07-27 2006-07-27 为数据生成浏览路径的方法和装置及浏览数据的方法 Expired - Fee Related CN101114287B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2006101078935A CN101114287B (zh) 2006-07-27 2006-07-27 为数据生成浏览路径的方法和装置及浏览数据的方法
US11/751,181 US7693822B2 (en) 2006-07-27 2007-05-21 Apparatus of generating browsing paths for data and method for browsing data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101078935A CN101114287B (zh) 2006-07-27 2006-07-27 为数据生成浏览路径的方法和装置及浏览数据的方法

Publications (2)

Publication Number Publication Date
CN101114287A true CN101114287A (zh) 2008-01-30
CN101114287B CN101114287B (zh) 2011-06-15

Family

ID=38987606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101078935A Expired - Fee Related CN101114287B (zh) 2006-07-27 2006-07-27 为数据生成浏览路径的方法和装置及浏览数据的方法

Country Status (2)

Country Link
US (1) US7693822B2 (zh)
CN (1) CN101114287B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427700A (zh) * 2017-09-30 2018-08-21 平安科技(深圳)有限公司 电子装置、用户分群的方法及计算机可读存储介质
CN108804431A (zh) * 2017-04-26 2018-11-13 广东原昇信息科技有限公司 一种基于大数据的关键词效果分析方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8862980B2 (en) * 2007-06-29 2014-10-14 Business Objects Software Limited Guided graphical navigation through multidimensional databases
US7392250B1 (en) * 2007-10-22 2008-06-24 International Business Machines Corporation Discovering interestingness in faceted search
US20110179390A1 (en) * 2010-01-18 2011-07-21 Robert Paul Morris Methods, systems, and computer program products for traversing nodes in path on a display device
US9152702B2 (en) * 2010-04-09 2015-10-06 Yahoo! Inc. System and method for selecting search results facets
US9336314B2 (en) * 2010-12-29 2016-05-10 Microsoft Technology Licensing, Llc Dynamic facet ordering for faceted search
US8983996B2 (en) * 2011-10-31 2015-03-17 Yahoo! Inc. Assisted searching
US9858313B2 (en) 2011-12-22 2018-01-02 Excalibur Ip, Llc Method and system for generating query-related suggestions
US9672288B2 (en) 2013-12-30 2017-06-06 Yahoo! Inc. Query suggestions
CN105205107A (zh) * 2015-08-27 2015-12-30 湖南人文科技学院 一种物联网数据相似度处理方法
CN107784035B (zh) * 2016-08-31 2019-11-26 阿里巴巴集团控股有限公司 漏斗模型的节点的评估系统、方法和装置
US20180113583A1 (en) * 2016-10-20 2018-04-26 Samsung Electronics Co., Ltd. Device and method for providing at least one functionality to a user with respect to at least one of a plurality of webpages

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3849318B2 (ja) 1998-09-10 2006-11-22 富士ゼロックス株式会社 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6519586B2 (en) * 1999-08-06 2003-02-11 Compaq Computer Corporation Method and apparatus for automatic construction of faceted terminological feedback for document retrieval
US7146362B2 (en) * 2002-08-28 2006-12-05 Bpallen Technologies Llc Method and apparatus for using faceted metadata to navigate through information resources
US7471827B2 (en) 2003-10-16 2008-12-30 Microsoft Corporation Automatic browsing path generation to present image areas with high attention value as a function of space and time
JP2005208793A (ja) 2004-01-21 2005-08-04 Fuji Xerox Co Ltd 情報処理装置
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US8856105B2 (en) * 2006-04-28 2014-10-07 Hewlett-Packard Development Company, L.P. Dynamic data navigation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804431A (zh) * 2017-04-26 2018-11-13 广东原昇信息科技有限公司 一种基于大数据的关键词效果分析方法
CN108427700A (zh) * 2017-09-30 2018-08-21 平安科技(深圳)有限公司 电子装置、用户分群的方法及计算机可读存储介质
CN108427700B (zh) * 2017-09-30 2021-08-24 平安科技(深圳)有限公司 电子装置、用户分群的方法及计算机可读存储介质

Also Published As

Publication number Publication date
US20080027932A1 (en) 2008-01-31
CN101114287B (zh) 2011-06-15
US7693822B2 (en) 2010-04-06

Similar Documents

Publication Publication Date Title
CN101114287A (zh) 为数据生成浏览路径的方法和装置及浏览数据的方法
US20140114977A1 (en) System and method for document analysis, processing and information extraction
US7743059B2 (en) Cluster-based management of collections of items
US8996540B2 (en) User to user recommender
US7966225B2 (en) Method, system, and medium for cluster-based categorization and presentation of item recommendations
US8560545B2 (en) Item recommendation system which considers user ratings of item clusters
US8019766B2 (en) Processes for calculating item distances and performing item clustering
US7363279B2 (en) Method and system for calculating importance of a block within a display page
US8015190B1 (en) Similarity-based searching
US20120278321A1 (en) Visualization of concepts within a collection of information
US20140280241A1 (en) Methods and Systems to Organize Media Items According to Similarity
US20040039657A1 (en) Automatic recommendation of products using latent semantic indexing of content
US20050038533A1 (en) System and method for simplifying and manipulating k-partite graphs
US20060020588A1 (en) Constructing and maintaining a personalized category tree, displaying documents by category and personalized categorization system
US20200265491A1 (en) Dynamic determination of data facets
Djenouri et al. SS-FIM: single scan for frequent itemsets mining in transactional databases
EP2645274A1 (en) Data processing apparatus and methods for reducing of lattice diagrams
US20030093432A1 (en) Method of, apparatus for, and computer program for mapping contents having meta-information
US9996535B1 (en) Efficient hierarchical user interface
JPH11282875A (ja) 情報フィルタリング装置
Eda et al. The effectiveness of latent semantic analysis for building up a bottom-up taxonomy from folksonomy tags
Rallabandi et al. Image retrieval system using R-tree self-organizing map
Heflin et al. Exploring datasets via cell-centric indexing
Yilmaz et al. A heuristic for mining association rules in polynomial time
Piernik et al. Partial tree-edit distance: a solution to the default class problem in pattern-based tree classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110615

Termination date: 20200727