CN101286175B

CN101286175B - 一种基于标签的文件呈现方法及其系统

Info

Publication number: CN101286175B
Application number: CN2008101061581A
Authority: CN
Inventors: 朱广飞; 王衡; 汪国平; 程惠阁
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2008-05-09
Filing date: 2008-05-09
Publication date: 2011-05-04
Anticipated expiration: 2028-05-09
Also published as: CN101286175A

Abstract

本发明公开了一种基于标签的文件呈现方法及其系统，属于计算机网络领域。本发明的方法为：首先提取输入的标签集合中的单词，然后判断单词中是否存在多义词并提示用户对多义词的具体含义进行限定，然后将近义词单词划分为若干个近义词集合，最后将标签中单词属于同一近义词集合的文件呈现为同一图元；本发明的系统包括单词判定模块、多义词判定模块、近义词判定模块和图元生成模块。与现有技术相比，本发明克服了标签的同义性和多义性带来的问题，使得用户想要的文件能够快速准确的呈现出来，同时满足了用户的个性化需求。

Description

一种基于标签的文件呈现方法及其系统

技术领域

本发明涉及计算机桌面系统或者网站中，一种文件呈现方法及其系统，特别涉及一种基于标签的文件呈现方法及其系统，属于计算机网络领域。

背景技术

近年来，数字化进程(Cyberization)[1]突飞猛进，具体体现在处理器、存储器、音/视频编码、摄像和显示设备等方面技术的持续高速发展。这些领域的技术进步使得计算机用户可以创造、获得和管理具有越来越大数据量的信息。以数码照片为例，随着数码相机和具有拍照功能的手机的日益普及，家庭数码照片的数量增长迅速。

我们注意到，为照片标注标签是多数软件工具和照片共享网站都提供的功能。现有的软件工具如ACDSee[2]，Microsoft Windows Photo Gallery[3]，Adobe Photoshop Album[4]，Google Picasa[5]，有代表性的照片共享网站Flickr.com[6]都提供为照片添加标签和根据标签检索照片的功能。与此同时，随着照片共享网站的兴起和标注标签用户界面的改进，越来越多的照片都有标签。在照片共享网站兴起之前，虽然很多软件工具也提供为照片标注标签的功能，但用户的积极性并不高[7]，Ames等[8]的调查表明，与他人共享照片，成为用户愿意为照片标注标签的重要原因。同时，近年有大量的研究工作集中在帮助用户进行标签的标注。标注标签的用户界面不断得到改进。标签作为Web2.0的主要特点之一，将会越来越为用户所接受。

目前Flickr.com等照片共享网站上已经从世界各地的用户那里收集了大量的标签，面对数量越来越多的标签，如何有效的组织利用它们使文件能够快速准确的呈现给用户，是本发明所要解决的问题。上面提到的软件和网站虽然都提供添加标签以及一些相关功能，但所采用的标签组织和呈现的方式不尽相同。ACDSee、Microsoft Windows PhotoGallery和Adobe PhotoShop Album都采用了树形的方式组织和呈现标签，系统预定义了一些分类，在这些分类下面还可以添加子类，所有这些类别的名称实际上也就是标签。树形方式的好处是其与文件结构较为相似，所以容易为用户所接受；缺点主要包括以下三点：1、不能直观表达标签本身的信息，如该标签包含多少照片，用户是否经常点击等；2、分类由系统预设，不够灵活；3、由于标签可能由不同用户添加，不能满足不同用户的个性化需求。与上述软件不同，照片共享网站Flickr.com采用了标签云(Tag Cloud)的标签呈现方式，其同样不能满足不同用户的个性化需求，而且标签之间的关系没有得到体现。 Google Picasa则没有提供标签的呈现视图。

事实上，由于用户添加标签的随意性，以下三个问题成为基于标签的文件呈现中的突出问题：1、标签的同义性问题。许多标签可能含有相近的语义，或者仅仅是单复数的差别。比如“苹果”和“两个苹果”，又如“女孩”和“女生”。这些标签在上述软件的管理方法中被认为是不同的标签，时间长了以后，可能会引起标签数量过多，带来管理不便。2、标签的多义性问题。一个标签可能含有多种语义。比如，“苹果”可能表示一种水果，或者是一家公司，上述软件的管理方法中显然忽略了这种情况，这使得当用户使用“苹果”标签进行检索时，得到预期之外的结果。3、用户的个性化问题。不同用户对相同照片标注的标签，会因为用户背景知识、性格、甚至标注时环境的不同体现出差别，而且不同的用户对不同的呈现方式有偏好。

而上面提到的软件和网站仅仅是将标签作为文件名的另外一种形式，并没能解决好这三个问题。

发明内容

本发明的目的是针对上文中提到的三个问题，提出一种基于标签的文件呈现方法及其系统。本发明既可以被集成进照片共享网站，用于网站中标签的处理和呈现；也可以应用到单独的照片管理软件中。

为达成上述目的，本发明通过引入一个多义词字典，计算标签间语义的相似度，将标签合并或归类，以解决同义性问题。通过引入一个多义词字典，将标签在此字典中的查找结果以含义提示的方式返回给用户，已解决多义性问题。生成标签图元的大小、位置、颜色、形状由其对应照片(或文件)数量、文件点击频率、生成时的用户上下文等参数决定。

同时本发明中不仅图元的大小、位置、颜色、形状等可以由用户进行修改，而且图元间的关系可以由用户定义。用户可以通过连线将其认为相关的图元联系在一起，并且可以指定关系的名称。标签视图可以被新建、修改、保存。用户可以在同一个照片集合上新建多个不同的视图，并且可以根据需要打开某一特定视图。

本发明的技术方案为：

一种基于标签的文件呈现方法，其步骤为：

1)利用单词判定模块对输入的标签集合进行单词提取；

2)利用多义词判定模块判断出上述单词中的多义词单词并提示用户设定该多义词单词的具体含义；其中，所述多义词判定模块内包含一多义词字典，所述多义词判定模块的工作方法为：

a)采用WordNet多义词字典判断出每一个所述单词是否为多义词；

b)对于多义词单词提示用户选定其中的某一项含义；

c)将所选定的含义作为该单词所属标签的附加内容添加到文件的标签中；

3)利用近义词判定模块将单词划分为若干近义词集合；其中，所述近义词判定模块的判定方法为：

a)计算全部所述单词之间的相似度；

b)判断所述相似度值是否大于设定阈值；

c)将单词间相似度不小于设定阈值的单词划分到同一近义词集合；

4)利用图元生成模块将标签中单词属于同一近义词集合的文件呈现为同一图元。

所述单词包括但不限于下列单词的一种或几种：英文单词、中文单词。

所述标签为短语时，提取单词的方法为将短语分割为单词，且每个单词都保持原来标签的所有属性；所述标签中的单词为英文单词时，采用Porter的填充算法消除单词的单复数、时态。

所述标签为图结构呈现标签。

所述图元的属性包括：大小、位置、颜色和形状。

所述方法中，设定标签所映射文件的数量参数num、文件点击频率参数frq，所述图元大小size根据公式size＝num+frq计算；根据用户交互历史记录确定所述图元的颜色、形状。

一种基于标签的文件呈现系统，其包括

单词判定模块，用于对输入的标签集合进行单词提取，得到标签中的单词；

多义词判定模块，用于采用WordNet多义词字典判断出每一个所述单词是否为多义词；对于多义词单词提示用户选定其中的某一项含义；将所选定的含义作为该单词所属标签的附加内容添加到文件的标签中；其中，所述多义词判定模块内包含一多义词字典；

近义词判定模块，用于计算全部所述单词之间的相似度；判断所述相似度值是否大于设定阈值；并将单词间相似度不小于设定阈值的单词划分到同一近义词集合；

图元生成模块，用于将标签中单词属于同一近义词集合的文件呈现为同一图元。

本发明的积极效果为：

通过对文件标签的处理和呈现，使得文件能够快速准确的呈现给用户。本发明与现有技术相比，克服了标签的同义性、多义性带来的问题，同时可以满足用户的个性化需求。

附图说明

图1示出了本发明的系统框图；

图2示出了标签处理的流程图；

图3示出了单词判模块的流程图；

图4示出了多义词判定模块的流程图；

图5示出了近义词判定模块的流程图；

图6示出了图元生成模块的流程图；

图7示出了本发明的标签视图，即文件呈现视图；

图8示出了本发明的系统界面(当用户点击左侧标签视图中的图元时，右侧相应的呈现出该图元所映射的照片文件)。

具体实施方式

下面将一一讨论在发明内容中给出的各个方法的具体实施方式。下文中的技术主要针对中文和英文进行讨论，对其他语言，也可以按照类似方法处理。

本发明的系统主要包括的模块为：单词判定模块，用于对输入的标签集合进行单词提取，得到标签中的单词；多义词判定模块，用于判断单词中的多义词单词并提示用户设定多义词单词的具体含义；近义词判定模块，用于将标签中单词划分为若干个近义词集合；图元生成模块，标签中单词属于同一近义词集合的文件呈现为同一图元。本发明的系统框图如图1所示。

系统的功能主要包括标签处理和呈现。其中标签处理功能由单词判定模块、多义词判定模块和近义词判定模块共同完成，其处理流程如图2所示。呈现功能由图元生成模块完成。

下面介绍各模块的内部流程。

单词判定模块包括两个子模块(如图3)：短语处理子模块和单词处理子模块。短语处理子模块负责将短语分割为单词。对中文，现有的汉语分词技术可以完成对汉语单词判定；对英文，短语中的空格已经天然的将单词划分出来。单词处理子模块负责消除单词的单复数、时态等形式上的冗余。中文中不存在这些形式上的冗余；对英文，可以采用Porter[10]的填充算法(stemming algorithm)来解决。需要说明的是，对于短语形式的标签，在单词判定之后可能分出多个单词，每个单词都保持原来标签的所有属性。

多义词判定模块包括单词查找子模块以及若干多义词字典(如图4)。对于英文单词，多义词字典可以使用WordNet[9]。WordNet是美国普林斯顿大学的认知科学实验室(Cognitive Science Laboratory)开发的一种基于当前的人类词汇(Lexical)记忆的心理语言学(Psycholinguistic)理论的词汇参考系统。它根据语义将词汇分成一个个的近义词组(synset)，并根据语义关系将近义词组连接起来，整个数据结构可以看成一个无向图。在WordNet中，可以找到部分单词的常用含义。对于中文，可以采用或仿照WordNet的技术，开发一个中文的多义词字典。

在多义词字典建立起来之后，用户输入单词，单词查找子模块在多义词字典中查找该单词。如果字典中这个单词的常用含义多于一项，则输出给用户若干词义选项，让用户选定其中的某一项含义，并将此项作为标签的附加内容补充到标签中(例如在标签后添加一对括号，在括号中说明其含义)。如对单词“苹果”，多义词字典给出两个含义选项：(1)公司；(2)水果。用户选择含义选项“水果”后，标签的内容变成“苹果(水果)”。该标签和“苹果(公司)”是含义不同的标签，在接下来的近义词判定中，将它们之间的相似度直接设为阈值以下(详细步骤参考下文中对近义词模块的描述)。需要说明的是，过多的多义词含义提示，可能会给用户增加过重的负担。解决的办法是在多义词字典中设定一些规则，例如，可以设定一个更小的多义词集合，只对多义词集合中的单词提供选项提示；同时，可以根据用户和文件系统之间的交互历史，挖掘出用户常用的词汇集，使WordNet的无向图结构能够自动的根据词汇集自动进行调整，从而减少查询单词时花费的时间空间代价。

近义词判定模块负责对多义词判定的结果进行近义词判定，包括两个子模块：相似度计算子模块和近义词分类子模块(如图5)。相似度计算子模块负责计算单词间的相似度。对于英文，Zhao[11]给出了一个算法，来计算两个单词之间的相似度，该算法同样利用了WordNet。在构建了WordNet结构的中文多义词字典之后，该算法也同样可以应用于中文。Zhao的算法可概括描述如下：对于WordNet中含有的单词，利用Satanjeev Banerjee的算法[12]得到相似度；对于WordNet中没有的单词，利用Levenshtein的算法[13]计算两个单词之间的编辑距离(Edit-Distance)。上文中提到，WordNet的整个数据结构可以看成是一个无向图，Satanjeev Banerjee的算法实际上是计算了无向图中任意两节点间最短路径的长度。将此长度作为单词间相似度的度量。设单词为x、y，单词间的相似度为 sim(x，y)，最短路径长度为dis(x，y)，编辑距离为Lev(x，y)，maxlength(x，y)返回的是两单词中字母较多的一个所包含的字母个数，则Zhao的算法可用公式表示如下：

近义词分类子模块通过调用相似度计算子模块计算单词间的相似度，根据相似度判定单词是否应该划分至同一近义词集合，然后输出若干近义词集合。判定两个单词是否属于同一近义词集合的算法如下：设定一个经验阈值α，当两个单词x、y间的相似度sim(x，y)≥α时，就判定x和y属于同一近义词集合；当sim(x，y)＜α时，则判定x和y不属于同一近义词集合。对将单词按照近义词分类算法如下：如果某个单词不属于任何已存在的近义词集合，则单独为其新建一个近义词集合；反之，如果它属于某个已存在的近义词集合，则将该单词归入该集合。通过对所有单词两两判定并分类，就得到若干近义词集合，作为本模块的输出。需要注意的是，在多义词判定阶段被用户设定了不同含义的标签，其相似度已经被置于阈值之下，无须再进行判定。

图元生成模块包括图元属性计算子模块(如图6)。为了更好的适应用户的个性化需求，本发明采用一种图结构呈现标签。完成近义词判定之后，单词被划分至近义词集合，这时需要图元生成模块将属于同一集合的近义词合并成一个图元并在标签视图上呈现。该图元上显示的文字，可以是近义词集合当中任意的一个近义词。当用户的鼠标掠过该图元，展示集合中的所有近义词。

标签视图中的图元，其大小(size)、位置(pos)、颜色(color)和形状(shape)等属性由图元属性计算子模块得到。该子模块的输入参数包括：图元中的各近义词的源标签(即近义词所对应的输入标签集中的标签)映射的照片(或文件)数量num、这些照片(或文件)被用户点击的频率frq、生成时的用户上下文context等。以P表示一个图元，则上述算法的公式可记为：P(size，pos，color，shape)＝f(num，frq，context)。其中f(·)为具体计算时用到的函数，其选用的原则是尽可能反映出用户的使用偏好。下面给出一个f(·)的示例，此时f(·)由一系列函数组成：

图元大小：size＝num+frq；

上式表示的含义为：如果是第一个图元，则其位置为起始位置InitialPos，否则为上一个图元生成时的位置LastPos与一个偏移量offset之和。

图元颜色：

图元形状：

上式表示的含义为：如果上一次用户对标签图元颜色或形状进行过修改，则仍然采用用户修改后得到的颜色或形状；如果此前用户从未对标签图元的颜色或形状进行过修改，则以当前的系统时间SysTime(精确到一天)为参数进行随机选择。注意到，标签图元的位置、颜色、形状的确定，需要利用到用户交互历史记录，也就是context参数。

图结构呈现标签的好处是用户可以方便的定义图元之间的关系。本发明采用的标签视图中，不仅图元的大小、位置、颜色、形状等属性可以由用户进行修改，图元间的关系也可以由用户定义。用户可以通过连线的方式将其认为相关的图元联系在一起，并且可以指定关系的名称。同时，标签视图可以被新建、修改、保存。用户可以在同一个照片集合上新建多个不同的视图，并且可以根据需要打开某一特定视图。具有上述功能的视图可以采用或仿照现有的面向对象绘图技术实现。图7示出了一个标签视图的例子，图中的图元具有不同的颜色、形状、大小。

在上文中我们给出了文件标签处理和视图生成的流程，给出了详尽的具体实施方案，且均可通过软件编程的方式实现，软件编程对于本领域普通技术人员而言无需创造性劳动便可实现。

参考文献

[1]G.Bell，The Cyber All Project：A Personal Store for Everything，MicrosoftResearch Technical Report MSR-2000-75，July 2000.

[2]ACDSee.http://www.acdsee.com

[3]Microsoft Windows Photo Gallery.

http://www.microsoft.com/windows/products/windowsvista/seeit/sharephotos/default.mspx

[4]Adobe Photoshop Album.http://www.adobe.com/products/photoshopalbum

[5]Google Picasa.http://picasa.google.com

[6]Flickr.com.http://www.flickr.com

[7]K.Rodden and K.R.Wood，How Do People Manage Their Digital Photographs，CHI’2003.

[8]M.Ames and M.Naaman，Why We Tag：Motivations for Annotation in Mobile andOnline Media，CHI’2007.

[9]WordNet.http://wordnet.princeton.edu/

[10]W.Kraaij and R.Pohlmann，Porter’s Stemming Algorithm for Dutch，1994.

[11]S.Zhao，N.Du，A.Nauerz，X.Zhang，Q.Yuan and R.Fu，Improved Recommendationbased on Collaborative Tagging Behaviors，IUI’2008.

[12]S.Banerjee and T.Pedersen，An Adapted Lesk Algori thm for Word SenseDisambiguation Using WordNet.CICLing’02，pages 136-145，London，UK，2002.Springer-Verlag.

[13]V.I.Levenshtein，Binary Codes Capable of Correcting Deletions，Insertions，and Reversal s.Technical Report 8，1966.

Claims

1.一种基于标签的文件呈现方法，其步骤为：

1)利用单词判定模块对输入的标签集合进行单词提取；

b)对于多义词单词提示用户选定其中的某一项含义；

a)计算全部所述单词之间的相似度；

b)判断所述相似度值是否大于设定阈值；

2.如权利要求1所述的方法，其特征在于所述单词包括英文单词、或中文单词。

3.如权利要求1所述的方法，其特征在于所述标签为短语时，提取单词的方法为将短语分割为单词，且每个单词都保持原来标签的所有属性；所述标签中的单词为英文单词时，采用Porter的填充算法消除单词的单复数、时态。

4.如权利要求1所述的方法，其特征在于所述标签为图结构呈现标签。

5.如权利要求1所述的方法，其特征在于所述图元的属性包括：大小、位置、颜色和形状。

6.如权利要求7所述的方法，其特征在于设定标签所映射文件的数量参数num、文件点击频率参数frq，所述图元大小size根据公式size＝num+frq计算；根据用户交互历史记录确定所述图元的颜色、形状。

7.一种基于标签的文件呈现系统，其包括