CN102880687A - 基于标签技术的个人交互数据检索方法及其系统 - Google Patents

基于标签技术的个人交互数据检索方法及其系统 Download PDF

Info

Publication number
CN102880687A
CN102880687A CN2012103430322A CN201210343032A CN102880687A CN 102880687 A CN102880687 A CN 102880687A CN 2012103430322 A CN2012103430322 A CN 2012103430322A CN 201210343032 A CN201210343032 A CN 201210343032A CN 102880687 A CN102880687 A CN 102880687A
Authority
CN
China
Prior art keywords
label
resource
user
module
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103430322A
Other languages
English (en)
Other versions
CN102880687B (zh
Inventor
李成
滕建斌
王衡
汪国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201210343032.2A priority Critical patent/CN102880687B/zh
Publication of CN102880687A publication Critical patent/CN102880687A/zh
Application granted granted Critical
Publication of CN102880687B publication Critical patent/CN102880687B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于标签技术的个人交互数据检索方法及其系统。该方法将交互数据与标签之间的二元关系存储在数据库中,通过设计标签的总权重和标签与标签之间的权重计算方法,构建基于带权树形结构的用户兴趣模型,从而有效的描述用户对标签的偏好特征;在用户给资源添加标签时,根据用户的兴趣模型智能的为用户输出相应的标签;同时,利用用户对资源的交互操作特征和标签的共现情况等因素来构建资源之间的关联关系,实现为用户推荐并输出资源,提高用户的浏览和检索效率。本发明可以满足用户对个人交互数据管理个性化和智能化的需求,有效的减少用户的交互负担。

Description

基于标签技术的个人交互数据检索方法及其系统
技术领域
本发明属于信息检索与人机交互技术领域,具体涉及一种基于标签技术的个人交互数据检索方法及其系统。
背景技术
步入数字时代以来,各种电子设备层出不穷,人们在日常生活中需要与各种不同的设备打交道,由此产生了数量庞大、类型丰富的个人交互数据,例如接听的电话,收到的短信、去过的地方(GPS数据),拍过的照片,浏览过的网页、编辑过的文档、收到过的邮件等等。用户每天需要合理的管理和维护这些数据,来保证日常生活和工作的顺利进行。然而,随着用户交互数据的不断增加,用户在各设备上有效的管理这些数据就变得异常困难,每天需要耗费大量的时间来对数据进行分类和查找等(Susanne Jul and George W.Furnas.Navigation inelectronic worlds:Workshop report.ACM SIGCHI Bulletin,29(2):44-49,1997)。采用有效的数据管理技术来管理和查询这些海量的交互数据已成为人们急需解决的问题。
传统的数据管理技术——数据库管理系统主要服务于企业用户,它作为现代计算机信息系统和计算机应用系统的基础和核心被广泛的应用于各行各业。然而,随着个人电脑和互联网的普及,个人影响力的提升使得在过去以企业为主导的模式逐渐地向以个人为主导的模式演变,新的数据管理技术将由服务于企业的管理过渡到个人的管理需求上来(孟小峰.从数据库到数据空间从服务于企业到服务于大众.WAMDM Technical Report 2006.6)。
正是在这种情况下,PIM(personal information management,简称PIM)应运而生,它研究如何采集、存储、和检索与我们日常生活息息相关的数据,以及如何有效的对这些数据进行备份和管理等。人们尝试使用了各种技术和方法来构建PIM工具,例如,通过将web领域的技术应用到PIM系统,使得用户可以像搜索网页一样在个人终端上搜索自己想要的数据。很多关于帮助用户检索文件的研究都集中在如何建立个人信息管理(PIM)系统上,按照文件的属性将他们组织起来,这些属性包括系统属性,例如文件名、路径、内容等,还有用户定义的属性,反映的是用户对该文件的关注情况。在这些系统中,用户可以通过这些属性在搜索引擎中查找他们需要的文件。虽然这些搜索引擎能够有效的帮助用户定位文件,但是研究表明,大多数用户仍然喜欢通过浏览文件夹来查找,即使在他们知道文件的具体属性的情况下(Jones,W.,Phuwanartnurak,A.J.,Gill,R.and Bruce,H.Don't Take My Folders Away!Organizing Personal Information to Get Things Done.In CHI'05 extended abstracts on Humanfactors in computing systems,ACM Press(2005),1505-1508;Teevan,J.,Alvarado,C.,Ackerman,M.S.and Karger,D.R.The Perfect Search Engine Is Not Enough:A Study of OrienteeringBehavior in Directed Search.In the ACM Conference on Human Factors in Computing Systems(CHI'04),(Vienna,Austria,2004)。究其原因,主要是系统提供的检索和浏览功能不够强大,需要过多的人工参与。新技术和新方法的应用在某些方面解决了用户的困难,但是,随着数据的不断增加以及应用范围的不断扩大,传统的个人数据管理工具已然不能满足用户的需求,研究高效、智能且易于操作的个人数据管理和检索工具已经迫在眉睫。
在个人桌面系统领域,计算机的普及以及硬件技术的发展,使得个人计算机用户正在急剧增加。个人桌面计算机中可能存储着数以万计的数据资源,包括大量的文档、Email、图片、视频等等。这些资源不论是内容、类型、大小还是功能都不相同。计算机用户喜欢采用层次文件夹结构组织管理这些资源,然而,随着数据资源的持续增加,层次文件夹结构会变得异常庞大和复杂(Boardman,R.and Sasse,M.A.“Stuff goes into the computer and doesn’t comeout”:A cross tool study of personal information management.In Proceedings of the SIGCHIConference on Human Factors in Computing Systems(CHI'04).583–590.)。同时,文档的属性类型也变得更为多样,文档在层次文件夹中的归属也变得难以确定。想要在数量巨大的资源和复杂的文件夹层次结构中定位用户所需的资源就变得较为困难。而以Windows资源管理器以及桌面搜索引擎为代表的个人数据检索工具目前仍然只能提供非常有限的功能,如关键字搜索、基于目录结构的数据组织和管理等。
标签技术的发展为人们解决这一问题带来了希望,用户使用的标签不仅含有丰富的语义信息,而且是了解用户兴趣偏好的绝佳途径。用户给资源添加的标签本身就是用户对资源内容的一种简单聚类,包含了丰富的用户偏好信息。通过研究基于标签的数据管理方式,在数据层和应用层之间添加了富含用户偏好特征的标签语义层,从而建立它们之间更加紧密的关联关系,当用户浏览和检索数据时,能够更加简捷、高效。
仅仅实现基于标签的数据管理,还不足以满足用户的实际需求,用户在操作数据时,更加希望系统能够懂得其交互意图,尽量减少操作负担,在较短的时间完成最多的工作,实现数据的智能、高效管理。智能化是计算机未来发展的必然,智能化体现在计算机上就是要能使计算机能看、能听、能学习。数据智能管理的目的是要理解用户的交互意图,在正确的时间、正确的地方,以正确的形式以及足够的完整性和质量推荐准确的资源给用户。目前国内鲜有基于标签技术的智能化个人数据管理方法。本发明正是在这种情况下,通过将web领域的标签技术应用到数据管理上来,研究基于标签技术的个人交互数据智能检索方法及其系统,满足用户对信息完整性、交互自然性、检索高效性和系统智能性的需求。
发明内容
本发明的目的是针对上述问题,提出一种基于标签技术的个人交互数据检索方法及其系统,克服传统的层次文件夹结构管理数据的弊端以及传统的PIM系统操作复杂、应用简单的缺点,利用标签技术实现用户对个人交互数据自动、智能、高效的组织和检索。
为达到上述目的,本发明采用如下技术方案:
一种基于标签技术的个人交互数据检索方法,其步骤包括:
1)采集用户的个人交互数据,并监听资源的访问时间段;
2)从采集的个人交互数据中根据资源名称和交互动作信息提取资源的关键词,利用所述关键词对资源自动添加标签;
3)计算各标签的权重和标签之间的关联度,然后以标签为顶点、以存在关联关系的标签对为边、以所述关联度为边的权重值构建基于标签关联关系的连通图,进而构建带权树型结构的用户兴趣模型;
4)根据所述用户兴趣模型和资源已有标签建立候选的标签列表,在用户编辑资源的标签时根据所述标签列表向用户输出标签;
5)通过所述资源的访问时间段计算资源的同时访问比率,基于标签相似比率以及所述同时访问比率计算资源间的关联程度,根据所述资源间的关联程度向用户输出资源。
进一步地,所述个人交互数据包括:电话信息、短信信息、邮件信息、GPS定位数据、照片、网页浏览信息、文档编辑信息。
进一步地,利用手机端和PC端的交互数据采集器进行数据采集,手机端采集到的数据利用数据线或无线网络传输到PC端,采集的各种交互数据保存在PC端的文件系统中。
进一步地,所述标签之间的关联度通过标签之间的泛化度来衡量,其计算公式为
gen ( t i , t j ) = projRt i ∩ projRt j min ( | projRt i | , | projRt j | ) ,
其中,gen(ti,tj)为任意标签对(ti,tj)之间的关联度,ti和tj为任意的标签,projRti和projRtj表示其所标注的资源集。
进一步地,利用贪心算法构建所述用户兴趣模型。
进一步地,当用户对资源的标签进行编辑使得资源与标签之间的标注关系发生变化时,由用户选择手动更新或自动更新所述用户兴趣模型。
一种基于标签技术的个人交互数据检索系统,其包括:数据库,分别与该数据库连接的交互行为监听模块、标签编辑模块、用户兴趣模型计算模块和资源输出模块,以及与标签编辑模块和用户兴趣模型计算模块连接的标签提示模块;所述交互行为监听模块连接所述标签编辑模块;
所述交互行为监听模块负责采集用户的个人交互数据,监听资源的访问时间段,提取资源的关键词并添加自动标签,并将资源的访问时间段和自动标签以二维表的形式存入所述数据库;
所述标签编辑模块供用户对采集的数据资源进行标签的编辑操作,并将资源和标签的二元关系存储在所述数据库中;
所述用户兴趣模型计算模块负责从所述数据库中获取资源和标签的二元关系,并根据标签的权重和标签之间的关联值构建用户兴趣模型;
所述标签提示模块负责根据所述用户兴趣模型和资源已有标签建立候选的标签列表,并在用户标注资源时根据所述标签列表向用户输出标签;
所述资源输出模块负责从所述数据库中获取资源和标签的二元关系以及资源的访问时间段,并基于标签相似比率和资源的同时访问比率计算资源间的关联程度,进而根据该关联程度向用户输出资源。
进一步地,所述交互行为监听模块包括手机端交互数据采集器和PC端交互数据采集器,手机端采集到的数据利用数据线或无线网络传输到PC端,采集的各种交互数据保存在PC端的文件系统中。
本发明以个人计算机用户为研究对象,以多设备交互数据的标签为核心数据,将交互数据与标签之间的二元关系存储在数据库中,通过设计标签的总权重和标签与标签之间的权重计算方法,构建基于带权树形结构的用户兴趣模型,从而有效的描述用户对标签的偏好特征。在用户给资源添加标签时,根据用户的兴趣模型智能的为用户推荐并输出相应的标签。同时,本发明还利用了用户对资源的交互操作特征和标签的共现情况等因素来构建资源之间的关联关系,根据当前的资源属性对候选标签序列进行排序,实现的为用户推荐/输出Top N个资源,从而节省查找资源的时间开销,提高用户的浏览效率。
本发明将标签技术融入到个人信息管理及检索中来,通过分析用户对信息的历史操作记录和其标注情况,建立数据、标签和用户三者之间更加紧密的关联关系,从而实现个人交互数据智能、高效的管理。尽量的减少用户的数据管理成本和提高数据的管理效率是本发明的设计宗旨,通过建立基于标签的用户兴趣模型和数据管理模式,使得系统能够在正确的时间以正确的方法自动给用户呈现需要的内容,从而满足用户对个人交互数据管理个性化和智能化的需求,有效的减少用户的交互负担。
附图说明
图1为实施例中基于标签技术的个人交互数据检索系统的结构框图。
图2为图1中交互行为监听模块的工作流程示意图。
图3为图1中标签编辑模块的工作流程示意图。
图4为图1中用户兴趣模型计算模块的工作流程示意图。
图5为图1中标签提示模块的工作流程示意图。
图6为图1中资源输出模块的工作流程示意图。
图7为具体应用实例的个人交互数据检索界面示意图。
具体实施方式
下面通过具体实施例并配合附图,对本发明做详细的说明。
图1为本实施例的基于标签技术的个人交互数据检索系统的结构框图。如该图所示,交互行为监听模块负责采集用户的交互数据,并将交互数据保存到文件系统中,同时把资源的访问时间段和自动标签以二维表的形式存入数据库。用户实际操作的是标签编辑模块,在此用户对资源用标签进行标注,并把标注结果存入数据库,用户兴趣模型计算模块读取数据计算用户兴趣模型,然后标签提示模块利用该模型进行标签推荐(标签输出),回馈给标签编辑模块,以此形成一个循环,在用户使用该系统的过程中不断更新用户兴趣模型和数据库。另外,资源输出模块读取数据库中的数据,进行资源输出相关的计算过程。上述的资源是指采集到的交互数据中的短信、邮件等信息,这些短信、邮件的内容本身是资源,但它们的时间信息等不是资源,仅属于交互数据的范畴。
图2示出了交互行为监听模块的工作流程图。如该图所示,交互行为监听模块由手机端交互数据采集器和PC端交互数据采集器构成,两者在不同平台上采集用户的交互数据,并根据交互数据得到资源的访问时间段,同时利用资源名称和交互动作信息自动提取(添加)标签。
图3示出了标签编辑模块的工作流程图。如该图所示,用户选定资源并对其标签进行编辑,期间,用户界面上会显示来自标签提示模块的输出结果(推荐的标签结果),方便用户添加标签,对标签的编辑结束之后需相应地更新数据库中的表项。
图4示出了用户兴趣模型计算模块的工作流程图。如该图所示,该模型依次计算标签权重、标签之间的关联度(泛化度),构建连通图和带权树型结构,具体的计算方法将在后文进行说明。
图5示出了标签提示模块的工作流程图。如该图所示,首先判断资源是否已有标签,然后利用已有标签在用户兴趣模型中的位置将邻近标签加入候选列表,并对列表中的标签评分排序,推荐并输出N个得分最高的标签。
图6示出了资源输出模块流程图。如该图所示,提取出相关资源列表并对每个资源的关联度进行计算,推荐并输出N个关联度最高的资源。
本实施例的基于标签技术的个人交互数据检索方法的步骤具体说明如下:
1)采集用户的个人交互数据,并监听资源的访问时间段,对资源自动添加标签。
由手机端交互数据采集器和PC端交互数据采集器在不同平台上采集用户的交互数据,从各个设备采集得到的交互数据中根据资源名称和交互动作信息分析获得每个资源的关键词,利用这些关键词对资源添加标签,如图2所示。该方法的目标是减少用户对每个资源的标签添加操作。在用户资源量巨大的条件下,进行标签添加的工作量是巨大的,以至于用户对资源的添加操作失去兴趣。同时该方法也是后续的资源交互添加的前提,该自动添加效果将大大影响资源交互添加的效率。
2)计算标签权重、标签之间的关联度(泛化度),构建带权树型结构的用户兴趣模型,如图4所示。其具体步骤为:
2-1)根据标签的出现频率,计算标签的权重大小。用n维向量{(t1,w1),(t2,w2),…,(tn,wn)}来表示所有标签的权重值,其中,ti表示第i个标签,wi表示对应的标签权重值(0<i<1)。
2-2)利用了标签之间的泛化度大小来衡量标签之间的关联度。其中泛化度的值采用公式
gen ( t i , t j ) = projRt i ∩ projRt j min ( | projRt i | , | projRt j | ) - - - ( 1 )
来计算,其中,ti和tj为任意的标签,projRti和projRtj表示其所标注的资源集,从而得到任意标签对(ti,tj)之间的关联度gen(ti,tj)。
2-3)根据标签的总权重和标签之间的关联值,以标签为顶点,以存在关联关系的标签对为边,以关联值为边的权重值,构建基于标签关联关系的连通图G。
2-4)根据连通图及其权重值列表,利用贪心算法构建基于带权树形结构的用户兴趣模型。其算法流程为:
a)初始状态时,树Tree中仅仅含有一个虚构的节点“ROOT”代表树的根节点。然后根据标签总权重对所有标签进行排序,得到标签的总权重序列L。
b)采用贪心算法迭代的插入L中的标签元素,在插入第j个标签元素时,首先计算所有在树Tree中已经存在的标签与此标签之间的关联度(例如,可以用泛化度函数gen(ti,tj)来衡量他们之间的关联度),选取关联度最大的节点ti,连接节点ti和tj,并将tj作为ti的子节点插入树中,如果已经存在的所有节点与此节点的关联度小于某个阈值θgen,就直接连接根节点和此节点,将此节点作为根节点的子节点插入树中,插入成功后从列表L中删除此节点。
c)按照2的步骤循环插入列表L中所有的标签节点,直至L为空。
用户的兴趣模型是动态变化的,依赖于阈值θgen的设置和用户的模型更新等,系统能够可以根据用户对模型的需求自动生成相应模型。
2-5)通过统计新增标签及对应的标注情况,将原始数据和新增数据进行聚合,重新计算权重值和关联度,更新从根节点到叶节点的所有节点的信息。当用户对资源的标签进行了增删等操作,资源与标签之间的标注关系发生变化时,系统可以提示用户选择手动更新或自动更新用户兴趣模型。
3)根据用户兴趣模型进行标签的智能提示,如图5所示。
该过程分为两个步骤:一是构建一个候选的标签列表(假设列表的长度为l),二是给候选列表中的l个标签进行排序,选取前N个标签推荐(输出)给用户。具体说明如下:
第一步:候选标签的产生需要首先判断该资源是否存在已有的标签,分为以下三种情况:
a)当资源存在一个已有的标签时:首先从基于用户兴趣模型的带权标签树中找到该标签的位置,然后将此标签节点的父节点及所有子节点作为候选标签添加到列表中,最后利用广度优先算法填满剩余的标签列表空间,直接达到l个标签。
b)当该资源已经存在多个标签时:分别找出每个标签在基于用户兴趣模型的带权标签树中的位置,再将这些标签的父节点和所有子节点组合起来都加入候选列表,重复1的过程,直至填满候选列表。
c)当资源不存在标签时:选择推荐频率最高的前K个标签作为假想的标签去找出其在树中的位置,然后将这K个标签的父节点和所有子节点组合起来构成候选列表,同样,候选列表未填满时采用深度优先算法填满列表。
第二步:得到标签候选列表后,通过标签之间的关联度来对所有候选标签进行评分,从而选出推荐的标签:
假定资源已经存在的标签为{t1,t2,...,tk},依次计算候选列表l中各个标签与这k个标签的泛化度,值越大得分就越高,然后根据得分的高低对候选列表l进行降序排列,选取其中的topN个标签推荐并输出给用户。
标签推荐是减少用户标注数据负担的一种有效途径。在没有标签推荐的系统中,用户必须手工的为每项数据输入相应的标签,这个负担增加了用户标注数据所需的时间。根据用户标注数据的历史记录来给用户推荐相应的标签则可以有效的解决这个问题。用户对自动添加的标签的准确性需要进行相应的校正。在此步骤中,用户可以手动对标签进行增删等编辑操作,也可以添加与所有资源都没有关联关系的标签,以备今后资源增加后自动生成此类标签。
4)基于标签共现属性和访问时间,向用户进行资源的智能推荐和输出,如图6所示。
资源之间的关系,是通过标签之间的关系得到反映与体现,因此标签之间的关联度和关联性,直接影响资源的智能推荐。标签之间的泛化度不能完全反映标签之间的交互关系,因此还需要把资源之间的时间重叠度添加进来。向用户进行资源的智能推荐的具体流程为:
4-1)假设用户选择的资源为r,首先提取出r所包含的所有的标签,用列表{t1,t2,...,tm}表示。依次计算projRt1,projRt2,......,projRtm,得到m项资源的集合。
4-2)计算projRt1∪projRt2∪…∪projRtm,得到一项资源列表RL={r1,r2,...,rc};
4-3)计算列表RL中每个资源ri(1≤i≤c)与当前资源r的关联程度:关联程度I=α*标签相似比率+(1-α)*同时访问比率。其中,α为平衡因子,用于权衡标签相似度和时间相似度的重要性,对不同的用户而言最优值不尽相同,建议默认的初始值设为0.5。
标签相似比率表示用户标注资源ri和r时使用的相同标签个数除以资源ri和r包含的标签总个数。资源ri所含的标签的集合用Tri表示,资源r所含的标签的集合用Tr表示,两者的标签相似比率Rtag定义为
R tag = | T ri ∩ T r | | T ri ∪ T r | - - - ( 2 ) .
同时访问比率表示同时访问资源ri和r的共同时长除以访问ri和r的总访问时长。同样地,资源ri和r的同时访问比率Rtime
Rtime=IT(ri,r)/UT(ri,r)               (3),
其中,IT(ri,r)表示两者同时处于打开状态的所有时间段的长度之和,UT(ri,r)表示两者至少有一个处于打开状态的所有时间段的长度之和。
4-4)按关联程度I值大小由高到底对资源进行排列,得到一个资源列表RL';
4-5)将列表RL'中的topN个资源推荐并输出给用户。
下面提供一个具体应用实例,如图8所示,其实施过程描述如下:
1)数据采集:利用手机端和PC端的交互数据采集器进行数据采集,手机端采集到的数据利用数据线或无线网络传输到PC端。
2)数据存储:通过采集得到的各种交互数据保存在PC端的文件系统中,文件(资源)的路径、资源与标签的二元关系、资源的访问时间段这三类数据以二维表的形式存储在数据库中。
3)标签管理:对于没有添加任何标签的资源,用户可以在Windows资源管理器中右键选择“标签编辑”,打开编辑器对资源进行标签的增删等操作(如图7(a)所示),在为资源添加标签时,标签提示模块的推荐结果会显示在窗口中,供用户直接选择,提高了用户的操作效率。对于已经存在标签的资源,既可以采用上述方式,也可以在标签管理器界面(如图7(b)所示)进行标签的增删,界面左侧展示的就是带权树型结构的用户兴趣模型(边的权重在树中没有显示),同时用户在点选资源时,资源输出模块的推荐结果实时地显示在窗口右下角。图7中的界面是分别利用WinForm和WPF两种基于C#的架构实现的(两者虽然架构不同,但并不存在兼容性问题)。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (10)

1.一种基于标签技术的个人交互数据检索方法,其步骤包括:
1)采集用户的个人交互数据,并监听资源的访问时间段;
2)从采集的个人交互数据中根据资源名称和交互动作信息提取资源的关键词,利用所述关键词对资源自动添加标签;
3)计算各标签的权重和标签之间的关联度,然后以标签为顶点、以存在关联关系的标签对为边、以所述关联度为边的权重值构建基于标签关联关系的连通图,进而构建带权树型结构的用户兴趣模型;
4)根据所述用户兴趣模型和资源已有标签建立候选的标签列表,在用户编辑资源的标签时根据所述标签列表向用户输出标签;
5)通过所述资源的访问时间段计算资源的同时访问比率,基于标签相似比率以及所述同时访问比率计算资源间的关联程度,根据所述资源间的关联程度向用户输出资源。
2.如权利要求1所述的方法,其特征在于:利用贪心算法构建所述用户兴趣模型。
3.如权利要求1所述的方法,其特征在于:所述标签之间的关联度通过标签之间的泛化度来衡量,其计算公式为
gen ( t i , t j ) = projRt i ∩ projRt j min ( | projRt i | , | projRt j | ) ,
其中,gen(ti,tj)为任意标签对(ti,tj)之间的关联度,ti和tj为任意的标签,projRti和projRtj表示其所标注的资源集。
4.如权利要求1所述的方法,其特征在于,所述标签相似比率通过下式计算:
R tag = | T ri ∩ T r | | T ri ∪ T r | ,
其中,Rtag表示标签相似比率,Tri表示资源ri所含标签的集合,Tr表示资源r所含标签的集合。
5.如权利要求1所述的方法,其特征在于,所述同时访问比率通过下式计算:
Rtime=IT(ri,r)/UT(ri,r),
其中,Rtime表示标签相似比率,IT(ri,r)表示资源ri和r同时处于打开状态的所有时间段的长度之和,UT(ri,r)表示资源ri和r至少有一个处于打开状态的所有时间段的长度之和。
6.如权利要求1至5任一项所述的方法,其特征在于,所述个人交互数据包括:电话信息、短信信息、邮件信息、GPS定位数据、照片、网页浏览信息、文档编辑信息。
7.如权利要求1至5任一项所述的方法,其特征在于:利用手机端和PC端的交互数据采集器进行数据采集;手机端采集到的数据利用数据线或无线网络传输到PC端,采集的各种交互数据保存在PC端的文件系统中。
8.如权利要求1至5任一项所述的方法,其特征在于:当用户对资源的标签进行编辑使得资源与标签之间的标注关系发生变化时,由用户选择手动更新或自动更新所述用户兴趣模型。
9.一种基于标签技术的个人交互数据检索系统,其特征在于,包括:数据库,分别与该数据库连接的交互行为监听模块、标签编辑模块、用户模型计算模块和资源输出模块,以及与标签编辑模块和用户模型计算模块连接的标签提示模块;所述交互行为监听模块还连接所述标签编辑模块;
所述交互行为监听模块负责采集用户的个人交互数据,监听资源的访问时间段,提取资源的关键词并添加自动标签,以及将资源的访问时间段和自动标签以二维表的形式存入所述数据库;
所述标签编辑模块供用户对采集的数据资源进行标签的编辑操作,并将资源和标签的二元关系存储在所述数据库中;
所述用户模型计算模块负责从所述数据库中获取资源和标签的二元关系,并根据标签的权重和标签之间的关联值并生成用户兴趣模型;
所述标签提示模块负责根据所述用户兴趣模型和资源已有标签建立候选的标签列表,并在用户标注资源时根据所述标签列表向用户输出标签;
所述资源输出模块负责从数据库中获取资源和标签的二元关系表以及资源的访问时间段,并基于标签相似比率以及资源间的同时访问比率计算资源间的关联程度,进而根据所述资源间的关联程度向用户输出资源。
10.如权利要求9所述的系统,其特征在于:所述交互行为监听模块包括手机端交互数据采集器和PC端交互数据采集器;手机端采集到的数据利用数据线或无线网络传输到PC端,采集的各种交互数据保存在PC端的文件系统中。
CN201210343032.2A 2012-09-14 2012-09-14 基于标签技术的个人交互数据检索方法及其系统 Expired - Fee Related CN102880687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210343032.2A CN102880687B (zh) 2012-09-14 2012-09-14 基于标签技术的个人交互数据检索方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210343032.2A CN102880687B (zh) 2012-09-14 2012-09-14 基于标签技术的个人交互数据检索方法及其系统

Publications (2)

Publication Number Publication Date
CN102880687A true CN102880687A (zh) 2013-01-16
CN102880687B CN102880687B (zh) 2015-07-29

Family

ID=47482013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210343032.2A Expired - Fee Related CN102880687B (zh) 2012-09-14 2012-09-14 基于标签技术的个人交互数据检索方法及其系统

Country Status (1)

Country Link
CN (1) CN102880687B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036051A (zh) * 2014-07-04 2014-09-10 南开大学 一种基于标签传播的数据库模式摘要生成方法
CN104135529A (zh) * 2014-08-05 2014-11-05 北京视像元素技术有限公司 基于全时空标签网的信息发现、分享系统
WO2015051480A1 (en) * 2013-10-09 2015-04-16 Google Inc. Automatic definition of entity collections
CN104572951A (zh) * 2014-12-29 2015-04-29 微梦创科网络科技(中国)有限公司 一种能力标签的确定方法及装置
CN104572733A (zh) * 2013-10-22 2015-04-29 腾讯科技(深圳)有限公司 用户兴趣标签分类的方法及装置
CN104714449A (zh) * 2015-03-09 2015-06-17 湖南工学院 获取用于人机交互任务的操作数据的方法和装置
CN105474196A (zh) * 2013-06-10 2016-04-06 李镛在 用于管理集成数据对象的系统及其方法
CN105653691A (zh) * 2015-12-29 2016-06-08 珠海城建节能科技有限公司 信息资源管理方法及管理装置
CN105787015A (zh) * 2016-02-23 2016-07-20 浪潮软件集团有限公司 一种基于标签查询数据资源的方法
CN106339491A (zh) * 2016-08-30 2017-01-18 西安小光子网络科技有限公司 光标签的检索应答系统及方法
CN106446203A (zh) * 2016-09-29 2017-02-22 北京赢点科技有限公司 一种基于算法回填的用户标签稠密化方法及装置
CN107291930A (zh) * 2017-06-29 2017-10-24 环球智达科技(北京)有限公司 权重数的计算方法
CN109325171A (zh) * 2018-08-08 2019-02-12 微梦创科网络科技(中国)有限公司 基于领域知识的用户兴趣分析方法及系统
CN109710852A (zh) * 2018-12-27 2019-05-03 丹翰智能科技(上海)有限公司 一种用于确定财经信息的标签信息的方法与设备
RU2688250C1 (ru) * 2018-08-14 2019-05-21 Илья Александрович Шарков Способ отображения содержимого персональной базы данных на экране эвм
CN110309294A (zh) * 2018-03-01 2019-10-08 优酷网络技术(北京)有限公司 内容集合的标签确定方法及装置
CN111708952A (zh) * 2020-06-18 2020-09-25 小红书科技有限公司 一种标签推荐方法及系统
CN112464108A (zh) * 2020-12-03 2021-03-09 重庆理工大学 一种众包知识共享社区的资源推荐方法
CN112818230A (zh) * 2021-01-29 2021-05-18 北京百度网讯科技有限公司 内容推荐方法、装置、电子设备和存储介质
CN113378056A (zh) * 2021-06-28 2021-09-10 特赞(上海)信息科技有限公司 获取创意案例的数据处理方法和装置
CN115510297A (zh) * 2022-09-26 2022-12-23 深圳致星科技有限公司 隐私计算、隐私数据和联邦学习的数据管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286174A (zh) * 2008-05-09 2008-10-15 北京大学 一种文件标签的智能提示方法
CN101571826A (zh) * 2009-06-09 2009-11-04 北京大学 基于用户操作记录的信息源关联方法
CN101694657A (zh) * 2009-09-18 2010-04-14 浙江大学 面向Web2.0标签图片共享空间的图片检索聚类方法
EP2387213A2 (en) * 2010-05-10 2011-11-16 Samsung Electronics Co., Ltd. Personal information management context links
EP2493231A2 (en) * 2011-02-28 2012-08-29 Research In Motion Limited Methods and apparatus to support personal information management

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286174A (zh) * 2008-05-09 2008-10-15 北京大学 一种文件标签的智能提示方法
CN101571826A (zh) * 2009-06-09 2009-11-04 北京大学 基于用户操作记录的信息源关联方法
CN101694657A (zh) * 2009-09-18 2010-04-14 浙江大学 面向Web2.0标签图片共享空间的图片检索聚类方法
EP2387213A2 (en) * 2010-05-10 2011-11-16 Samsung Electronics Co., Ltd. Personal information management context links
EP2493231A2 (en) * 2011-02-28 2012-08-29 Research In Motion Limited Methods and apparatus to support personal information management

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUHAN CAI,ETC.: "Personal Information Management with Semex", 《SIGMOD 2005 PROCEEDINGS OF THE 2005 ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA》 *
韩爽,王衡: "基于时间访问轨迹的文件的智能推荐", 《软件学报》 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10853330B2 (en) 2013-06-10 2020-12-01 Yong Jae Lee Unified data object management system and the method
CN105474196B (zh) * 2013-06-10 2018-11-13 李镛在 用于管理集成数据对象的系统及普适标签对象系统
US11741057B2 (en) 2013-06-10 2023-08-29 Yong Jae Lee Unified data object management system and the method
CN105474196A (zh) * 2013-06-10 2016-04-06 李镛在 用于管理集成数据对象的系统及其方法
US9454599B2 (en) 2013-10-09 2016-09-27 Google Inc. Automatic definition of entity collections
WO2015051480A1 (en) * 2013-10-09 2015-04-16 Google Inc. Automatic definition of entity collections
CN104572733A (zh) * 2013-10-22 2015-04-29 腾讯科技(深圳)有限公司 用户兴趣标签分类的方法及装置
CN104036051A (zh) * 2014-07-04 2014-09-10 南开大学 一种基于标签传播的数据库模式摘要生成方法
CN104036051B (zh) * 2014-07-04 2017-04-05 南开大学 一种基于标签传播的数据库模式摘要生成方法
CN104135529B (zh) * 2014-08-05 2017-10-13 北京视像元素技术有限公司 基于全时空标签网的信息发现、分享系统
CN104135529A (zh) * 2014-08-05 2014-11-05 北京视像元素技术有限公司 基于全时空标签网的信息发现、分享系统
CN104572951A (zh) * 2014-12-29 2015-04-29 微梦创科网络科技(中国)有限公司 一种能力标签的确定方法及装置
CN104572951B (zh) * 2014-12-29 2018-07-17 微梦创科网络科技(中国)有限公司 一种能力标签的确定方法及装置
CN104714449B (zh) * 2015-03-09 2018-02-27 湖南工学院 获取用于人机交互任务的操作数据的方法和装置
CN104714449A (zh) * 2015-03-09 2015-06-17 湖南工学院 获取用于人机交互任务的操作数据的方法和装置
CN105653691A (zh) * 2015-12-29 2016-06-08 珠海城建节能科技有限公司 信息资源管理方法及管理装置
CN105653691B (zh) * 2015-12-29 2019-05-10 广东城智科技有限公司 信息资源管理方法及管理装置
CN105787015A (zh) * 2016-02-23 2016-07-20 浪潮软件集团有限公司 一种基于标签查询数据资源的方法
CN106339491A (zh) * 2016-08-30 2017-01-18 西安小光子网络科技有限公司 光标签的检索应答系统及方法
CN106339491B (zh) * 2016-08-30 2019-06-18 西安小光子网络科技有限公司 光标签的检索应答系统及方法
CN106446203A (zh) * 2016-09-29 2017-02-22 北京赢点科技有限公司 一种基于算法回填的用户标签稠密化方法及装置
CN107291930A (zh) * 2017-06-29 2017-10-24 环球智达科技(北京)有限公司 权重数的计算方法
CN110309294A (zh) * 2018-03-01 2019-10-08 优酷网络技术(北京)有限公司 内容集合的标签确定方法及装置
CN109325171A (zh) * 2018-08-08 2019-02-12 微梦创科网络科技(中国)有限公司 基于领域知识的用户兴趣分析方法及系统
US11669542B2 (en) 2018-08-14 2023-06-06 Ilya Alexandrovich SHARKOV Method for displaying personal database contents on computer screen
RU2688250C1 (ru) * 2018-08-14 2019-05-21 Илья Александрович Шарков Способ отображения содержимого персональной базы данных на экране эвм
WO2020036510A1 (ru) * 2018-08-14 2020-02-20 Илья Александрович ШАРКОВ Способ отображения содержимого персональной базы данных на экране эвм
CN109710852A (zh) * 2018-12-27 2019-05-03 丹翰智能科技(上海)有限公司 一种用于确定财经信息的标签信息的方法与设备
CN111708952A (zh) * 2020-06-18 2020-09-25 小红书科技有限公司 一种标签推荐方法及系统
CN111708952B (zh) * 2020-06-18 2023-10-20 小红书科技有限公司 一种标签推荐方法及系统
CN112464108A (zh) * 2020-12-03 2021-03-09 重庆理工大学 一种众包知识共享社区的资源推荐方法
CN112464108B (zh) * 2020-12-03 2024-04-02 重庆理工大学 一种众包知识共享社区的资源推荐方法
CN112818230B (zh) * 2021-01-29 2023-10-20 北京百度网讯科技有限公司 内容推荐方法、装置、电子设备和存储介质
CN112818230A (zh) * 2021-01-29 2021-05-18 北京百度网讯科技有限公司 内容推荐方法、装置、电子设备和存储介质
CN113378056A (zh) * 2021-06-28 2021-09-10 特赞(上海)信息科技有限公司 获取创意案例的数据处理方法和装置
CN113378056B (zh) * 2021-06-28 2023-09-26 特赞(上海)信息科技有限公司 获取创意案例的数据处理方法和装置
CN115510297B (zh) * 2022-09-26 2023-05-16 深圳致星科技有限公司 隐私计算、隐私数据和联邦学习的数据管理方法
CN115510297A (zh) * 2022-09-26 2022-12-23 深圳致星科技有限公司 隐私计算、隐私数据和联邦学习的数据管理方法

Also Published As

Publication number Publication date
CN102880687B (zh) 2015-07-29

Similar Documents

Publication Publication Date Title
CN102880687B (zh) 基于标签技术的个人交互数据检索方法及其系统
CN109446344B (zh) 一种基于大数据的智能分析报告自动生成系统
WO2019200752A1 (zh) 基于语义理解的兴趣点查询方法、装置和计算机设备
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN103049440B (zh) 一种相关文章的推荐处理方法和处理系统
CN101404015B (zh) 自动生成词条层次
CN111008265B (zh) 企业信息搜索方法及装置
US8135669B2 (en) Information access with usage-driven metadata feedback
CN101876981B (zh) 一种构建知识库的方法及装置
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
US20090307213A1 (en) Suffix Tree Similarity Measure for Document Clustering
CN101968819B (zh) 面向广域网的音视频智能编目信息获取方法
CN102314443B (zh) 搜索引擎的修正方法和系统
CN102279851A (zh) 一种智能导航方法、装置和系统
CN105468605A (zh) 一种实体信息图谱生成方法及装置
CN103678564A (zh) 一种基于数据挖掘的互联网产品调研系统
CN103064945A (zh) 基于本体的情境搜索方法
CN105550216A (zh) 学术研究信息的搜索方法、挖掘方法及装置
CN103020212A (zh) 一种基于用户查询日志实时发现热点视频的方法和装置
CN110232126A (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN113239111A (zh) 一种基于知识图谱的网络舆情可视化分析方法及系统
CN104142952B (zh) 报表展示方法和装置
CN101840438B (zh) 面向源文献元关键词的检索系统
CN101620611B (zh) 概念性标题产生方法
CN116414961A (zh) 基于军事领域知识图谱的问答方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150729

Termination date: 20190914

CF01 Termination of patent right due to non-payment of annual fee