CN104199838B - 一种基于标签消歧的用户模型建构方法 - Google Patents

一种基于标签消歧的用户模型建构方法 Download PDF

Info

Publication number
CN104199838B
CN104199838B CN201410380265.9A CN201410380265A CN104199838B CN 104199838 B CN104199838 B CN 104199838B CN 201410380265 A CN201410380265 A CN 201410380265A CN 104199838 B CN104199838 B CN 104199838B
Authority
CN
China
Prior art keywords
label
resource
model
user
user model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410380265.9A
Other languages
English (en)
Other versions
CN104199838A (zh
Inventor
魏建良
琚春华
肖亮
刘东升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201410380265.9A priority Critical patent/CN104199838B/zh
Publication of CN104199838A publication Critical patent/CN104199838A/zh
Application granted granted Critical
Publication of CN104199838B publication Critical patent/CN104199838B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于标签消歧的用户模型建构方法,包括步骤:从标签网站获取网站用户标注数据,建立标注资源信息数据库;构建用户模型与资源模型;对用户模型进行多义标签的识别;确定多义标签的义项及邻居标签集;生成消歧后的用户模型;将用户模型嵌入标签网站后台,根据用户模型与资源模型的余弦相似度进行资源推送。本发明考虑到标签的多义性,及其对准确信息推荐形成的阻碍,实现用户模型中多义标签的消歧,使得用户模型的语义更为明确,克服了由于标签歧义而产生误导性信息推荐,从而为众多标注网站更好的个性化信息推荐服务提供支撑。

Description

一种基于标签消歧的用户模型建构方法
技术领域
本发明涉及社会化标注技术,具体涉及一种基于标签消歧的用户模型建构方法。
背景技术
随着电子商务以及Delicious、YouTube、Flickr、Movielens等社交网站的兴起,用户信息空前丰富,但如何为用户更为有效的个性化推荐服务也日益成为一个挑战。社会化标注为个性化研究中用户模型的构建提供了新的思路,研究者们提出了多种推荐算法,在提升了推荐效率的同时也丰富了个性化服务领域的研究。但社会化标注也存在若干不完善之处,标签所用的词汇存在的多义性便是其中典型问题之一。在缺失语境的情况下,人们往往无法对多义标签的确切含义进行正确的理解,使得在推荐过程中往往得到不相关的结果。
在现有的关键词或标签消歧的研究中,较多针对的是对Google、百度等搜索引擎或者某一网站内检索的扩展,因此往往只需对非常少量的检索词进行分析,由于检索组合一般具有语义关联,通过检索词提供的语境就基本能判断多义词的具体含义,或者是通过用户的参与来消歧,最后将获得的消歧信息吸纳到检索中便能有效的克服多义词所产生的问题。但在Delicious、YouTube等标注网站的个性化服务中,无论是用户模型和资源模型,一方面,模型中都涉及到数量较多的标签,因此也就可能会存在多个多义标签,而如果为每一个标签都补充额外信息到模型中,极有可能淹没模型中原有的信息,并产生新的无法预料的语境;另一方面,用户模型中标签间的语义信息较弱,无法通过相互间的关联产生明确的语义,造成了多义词消歧的困难。这么模型的不足,使得标签网站在推荐过程中,由于无法对apple、SF等标签的正确含义的识别,而将毫不相关但却词形一致的资源推荐给用户,无法对标签网站的个性化推荐起到准确的引导作用。
发明内容
本发明所要解决的技术问题是提供一种基于标签消歧的用户模型建构方法,能够为现有的推荐系统提供具有多义和语境判断功能的用户模型,提高推荐系统的准确性和推荐效率。
本发明为了解决上述技术问题采用的技术方案为:
一种基于标签消歧的用户模型建构方法,包括以下步骤:
1)从标签网站提供的API端口爬取网站用户标注数据,对用户添加过标签的资源信息(URLs)进行统计,建立标注资源信息数据库;
其中,标签网站是指允许普通用户为资源添加标签的网站。
2)根据标注资源信息数据库中的用户、资源、标签信息,构建用户模型与资源模型;
3)对步骤2)中生成的用户模型进行多义标签rp的识别;
4)确定步骤3)中多义标签rp的义项及邻居标签集;
5)基于步骤4)生成消歧后的用户模型;
6)将步骤5)生成的用户模型嵌入标签网站后台,根据用户模型与资源模型的余弦相似度进行资源推送。
在采用上述技术方案的同时,本发明还可以采用或者组合采用以下进一步的技术方案:
所述步骤2)具体包括以下步骤:
2.1):选取任一个标签网站中的用户,从标注资源信息数据库中获取其标注的所有资源信息,建立相应的资源集合R;
2.2):根据资源集合R中每一资源r的标签出现频率,应用TF-IDF算法计算r中各标签的权值wx,其对应的标签记为tx
TF-IDF的权值计算方法,根据目标标签频率与反向频率来确定其权值。
2.3):加总资源集合R中所有资源r的tx及wx,提取权值最大的m个标签记为ty,对应的权值为wy
2.4):构建用户模型u=u(ty,wy),其中,ty表示用户模型中第y个标签,wy为对应的权值;
2.5):对该用户的每一资源r,构建资源模型r=r(tx,wx),其中,表示资源模型中的第x个标签,wx为对应的权值。
所述步骤3)具体包括以下步骤:
3.1):对于标签网站中被收藏次数大于阈值z的资源R与被标注次数大于阈值z的标签T,构建资源-标签矩阵M(R,T);
3.2):基于M(R,T),形成标签的共现矩阵C(ti,tj),进而形成标签共现网络N(ti,tj);
其中,标签共现网络是指以标签为点,两两标签有共现关系的为边的网络。共现关系可以基于用户,也可以基于资源,即同一用户是否使用了这两个标签,标签是否被标注在同一资源中。
3.3):应用派系过滤算法的社团发现算法对N(ti,tj)进行聚类,将类与类重叠处的标签tp定义为多义标签,得到其集合Set(tp),及每个tp相应的邻居标签集Nei(tp)。
邻居标签集是指多义标签所属的各个不同类别中具有直接共现关系的标签的集合,邻居标签集也包括了这些标签的权重,其值为与目标多义标签的共现次数。邻居标签集的数量与类别数相对应,邻居标签集的作用是在后面的步骤中为了进行标签消岐而补充到用户模型中。
所述步骤4)具体包括以下步骤:
4.1):统计用户模型u(ty,wy)与资源模型r(tx,wx)中的重合标签Same(t),核对Same(t)与Set(tp)是否存在重合的多义标签Same(tp);若有,继续;若无,转到步骤6);
4.2):对Same(tp)的每一多义标签tp,计算每一对应的资源类别中与其他标签的共现次数,在每一类别中取m个共现次数最高的标签作为邻居标签集,以共现次数为权值,将其转为向量模型的形式,得到d个邻居标签集的向量模型
4.3):计算u(ty,wy)和d个的余弦相似度,得到相似度最高的邻居标签集向量模型,记为
4.4):查验tp在用户模型u(ty,wy)中的权值,记为wp
4.5):查找Same(tp)中下一个多义标签tp+1,若有,则转到4.2;若无,则继续。
所述步骤5)具体包括以下步骤:
5.1):依据步骤4.4),加总
5.2):将依据向量运算添加到用户模型u(ty,wy)中,得到消歧后的用户模型u=u(ty+p,wy+p)。
所述步骤6)具体包括以下步骤:
6.1):将用户模型嵌入标签网站后台,根据步骤2.5)生成待推荐资源的资源模型;
6.2):计算用户模型与资源模型间的余弦相似度,推送相似度最高的k个资源给用户。
本发明的有益效果主要表现在:本发明通过建立基于资源的标签共现网络,对标注网站中的标签进行聚类分析,进而确定标签的多义性并建立多义标签集,在此基础上,结合用户模型确定相应的扩展标签集,并将其吸收到用户模型中,提出一种消除用户模型中标签歧义的建模方法,使得用户模型的语义更为明确,从而为标注网站更为有效的信息推荐提供支持。与现有技术相比,本发明考虑到标签的多义性,及其对准确信息推荐形成的阻碍,通过对标签共现矩阵所映射的共现网络进行聚类分析,将不同子网络重合节点定义为多义标签,并利用多义标签的邻居标签集,结合相似度计算确定多义标签义项,最后将对应邻居标签集吸收到用户模型,实现用户模型中多义标签的消歧,使得用户模型的语义更为明确,克服了由于标签歧义而产生误导性信息推荐,从而为众多标注网站更好的个性化信息推荐服务提供支撑。
附图说明
图1是本发明方法的具体实现流程图。
图2是多义标签识别与邻居标签构建示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1、图2,一种基于标签消歧的用户模型建构方法,包括以下步骤:
1)从标签网站提供的API端口爬取网站用户标注数据,对用户添加过标签的资源信息(URLs)进行统计,建立标注资源信息数据库;
2)根据标注资源信息数据库中的用户、资源、标签信息,构建用户模型与资源模型;
2.1):选取任一个标签网站中的用户,从标注资源信息数据库中获取其标注的所有资源信息,建立相应的资源集合R;
2.2):根据资源集合R中每一资源r的标签出现频率,应用TF-IDF算法计算r中各标签的权值wx,取权值最大的m个标签记为tx
TF-IDF的权值计算方法,根据目标标签频率与反向频率来确定其权值。
2.3):加总R中所有r的tx及wx,提取权值最大的m个标签记为ty,对应的权值为wy
2.4):基于向量空间模型构建用户模型u=u(ty,wy),其中,ty表示用户模型中第y个标签,wy为对应的权值;
2.5):对该用户的每一资源r,基于向量空间模型构建资源模型r=r(tx,wx),其中,表示资源模型中的第x个标签,wx为对应的权值。
3)多义标签rp的识别,包括以下过程;
3.1):对于标签网站中被收藏次数大于阈值z的资源R,与被标注次数大于阈值z的标签T,构建资源-标签矩阵M(R,T);
本表为示例表。用“1”表示矩阵中位于行的标签在列对应的资源中进行了标注,“0”则表示没有标注,数字累加计算。如Tag1与R1对于的单元值“8”表示标签Tag1在资源R1中一共被标注了8次,阈值z可以是某一人为设定值。
3.2):基于M(R,T),形成标签的共现矩阵C(ti,tj),将矩阵单元值大于阈值b的加以映射,形成标签共现网络N(ti,tj);
其中,标签共现网络是指以标签为点,两两标签有共现关系的为边的网络。共现关系可以基于用户,也可以基于资源,即同一用户是否使用了这两个标签,标签是否被标注在同一资源中。
其中,本矩阵为演示,其中的数字为虚构,表示对应的两个标签在所有资源R中共现次数的总和。
3.3):应用派系过滤算法的社团发现算法对N(ti,tj)进行聚类,将类与类重叠处的标签tp定义为多义标签,得到其集合Set(tp),及每个tp相应的邻居标签集Nei(tp)。
邻居标签集是指多义标签所属的各个不同类别中具有直接共现关系的标签的集合,邻居标签集也包括了这些标签的权重,其值为与目标多义标签的共现次数。邻居标签集的数量与类别数相对应。
4)确定多义标签rp的义项及邻居标签集
4.1):统计用户模型u(ty,wy)与资源模型r(tx,wx)中的重合标签Same(t),核对Same(t)与Set(tp)是否存在重合的多义标签Same(tp);若有,继续;若无,转到步骤6);
4.2):对Same(tp)的每一多义标签tp,计算每一所属类别中与其他标签的共现次数,在每一类别中取m个共现次数最高的标签作为邻居标签集,以共现次数为权值,将其转为向量模型的形式,得到d个
其中,d为多义标签tp所属的类别数,此处的类别为根据标签的共现网络依据派系过滤算法所划分的类别。
4.3):计算u(ty,wy)和d个的余弦相似度,得到相似度最高的,记为
4.4):查验tp在用户模型u(ty,wy)中的权值,记为wp
4.5):查找Same(tp)中下一个多义标签tp+1,若有,则转到4.2;若无,则继续。
5)生成用户模型
5.1):依据步骤4.4),加总即将Same(tp)中所有多义标签所对应义项的进行加总;
5.2):将依据向量运算添加到用户模型u(ty,wy)中,得到消歧后的用户模型u=u(ty+p,wy+p)。
6)将用户模型嵌入标签网站后台,根据用户模型与资源模型的余弦相似度进行资源推送
6.1):将用户模型嵌入标签网站后台,根据步骤2.5)生成待推荐资源的资源模型;
6.2):计算用户模型与资源模型间的余弦相似度,推送余弦相似度最高的k个资源给用户。

Claims (4)

1.一种基于标签消歧的用户模型建构方法,其特征在于:包括以下步骤:
1)从标签网站提供的API端口爬取网站用户标注数据,对用户添加过标签的资源信息(URLs)进行统计,建立标注资源信息数据库;
2)根据标注资源信息数据库中的用户、资源、标签信息,构建用户模型与资源模型;
3)对步骤2)中生成的用户模型进行多义标签rp的识别;
4)确定步骤3)中多义标签rp的义项及邻居标签集;
5)基于步骤4)生成消歧后的用户模型;
6)将步骤5)生成的用户模型嵌入标签网站后台,根据用户模型与资源模型的余弦相似度进行资源推送;
所述步骤2)具体包括以下步骤:
2.1):选取任一个标签网站中的用户,从标签资源信息数据库中获取其标注的所有资源信息,建立相应的资源集合R;
2.2):根据资源集合R中每一资源r的标签出现频率,应用TF-IDF算法计算r中各标签的权值wx,其对应的标签记为tx
2.3):汇总资源集合R中所有r的tx及wx,提取权值最大的m个标签记为ty,对应的权值为wy
2.4):构建用户模型u=u(ty,wy),其中,ty表示用户模型中第y个标签,wy为对应的权值;
2.5):对该用户的每一资源r,构建资源模型r=r(tx,wx),其中,x表示资源模型中的第x个标签,wx为对应的权值。
2.如权利要求1所述的一种基于标签消歧的用户模型建构方法,其特征在于:所述步骤4)具体包括以下步骤:
4.1):统计用户模型u(ty,wy)与资源模型r(tx,wx)中的重合标签Same(t),核对Same(t)与Set(tp)是否存在重合的多义标签Same(tp);若有,继续;若无,转到步骤6);
4.2):对Same(tp)的每一多义标签tp,计算每一对应的资源类别中与其他标签的共现次数,在每一类别中取m个共现次数最高的标签作为邻居标签集以共现次数为权值,将其转为向量模型的形式,得到d个邻居标签集的向量模型
4.3):计算u(ty,wy)和d个的余弦相似度,得到相似度最高的邻居标签集向量模型记为
4.4):查验tp在用户模型u(ty,wy)中的权值,记为wp
4.5):查找Same(tp)中下一个多义标签tp+1,若有,则转到4.2;若无,则继续。
3.如权利要求2所述的一种基于标签消歧的用户模型建构方法,其特征在于:所述步骤5)具体包括以下步骤:
5.1):依据步骤4.4),加总
5.2):将依据向量运算添加到用户模型u(ty,wy)中,得到消歧后的用户模型u=u(ty+p,wy+p)。
4.如权利要求1所述的一种基于标签消歧的用户模型建构方法,其特征在于:所述步骤6)具体包括以下步骤:
6.1):将用户模型嵌入标签网站后台,根据步骤2.5)生成待推荐资源的资源模型;
6.2):计算用户模型与资源模型间的余弦相似度,推送相似度最高的k个资源给用户。
CN201410380265.9A 2014-08-04 2014-08-04 一种基于标签消歧的用户模型建构方法 Expired - Fee Related CN104199838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410380265.9A CN104199838B (zh) 2014-08-04 2014-08-04 一种基于标签消歧的用户模型建构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410380265.9A CN104199838B (zh) 2014-08-04 2014-08-04 一种基于标签消歧的用户模型建构方法

Publications (2)

Publication Number Publication Date
CN104199838A CN104199838A (zh) 2014-12-10
CN104199838B true CN104199838B (zh) 2017-09-29

Family

ID=52085131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410380265.9A Expired - Fee Related CN104199838B (zh) 2014-08-04 2014-08-04 一种基于标签消歧的用户模型建构方法

Country Status (1)

Country Link
CN (1) CN104199838B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021424B (zh) * 2016-05-13 2019-05-28 南京邮电大学 一种文献作者重名检测方法
CN107103057B (zh) 2017-04-13 2018-09-18 腾讯科技(深圳)有限公司 一种资源推送方法及装置
CN109376309B (zh) * 2018-12-28 2022-05-17 北京百度网讯科技有限公司 基于语义标签的文档推荐方法和装置
CN112464108B (zh) * 2020-12-03 2024-04-02 重庆理工大学 一种众包知识共享社区的资源推荐方法
CN113407717B (zh) * 2021-05-28 2022-12-20 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质
CN113779987A (zh) * 2021-08-23 2021-12-10 科大国创云网科技有限公司 一种基于自注意力增强语义的事件共指消岐方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262653A (zh) * 2011-06-09 2011-11-30 华中科技大学 一种基于用户动机倾向性的标签推荐方法及系统
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像系统和方法
CN103678431A (zh) * 2013-03-26 2014-03-26 南京邮电大学 一种基于标准标签和项目评分的推荐方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
WO2014092209A1 (ko) * 2012-12-10 2014-06-19 한국과학기술원 시맨틱 클라우드에 기반한 시맨틱 어노테이션 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262653A (zh) * 2011-06-09 2011-11-30 华中科技大学 一种基于用户动机倾向性的标签推荐方法及系统
WO2014092209A1 (ko) * 2012-12-10 2014-06-19 한국과학기술원 시맨틱 클라우드에 기반한 시맨틱 어노테이션 방법 및 장치
CN103678431A (zh) * 2013-03-26 2014-03-26 南京邮电大学 一种基于标准标签和项目评分的推荐方法
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像系统和方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于社会标签系统的推荐技术研究》;葛艳艳;《中国优秀硕士学位论文全文数据库-信息科技辑》;20120715;全文 *
《社会性标签系统的个性化资源推荐》;万元元;《中国优秀硕士学位论文全文数据库-信息科技辑》;20120815;全文 *

Also Published As

Publication number Publication date
CN104199838A (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
CN104035917B (zh) 一种基于语义空间映射的知识图谱管理方法和系统
CN104834686B (zh) 一种基于混合语义矩阵的视频推荐方法
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
CN103593792B (zh) 一种基于中文知识图谱的个性化推荐方法与系统
CN105488196B (zh) 一种基于互联语料的热门话题自动挖掘系统
CN103678281B (zh) 对文本进行自动标注的方法和装置
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN104268271B (zh) 一种兴趣和网络结构双内聚的社交网络社区发现方法
CN103678431B (zh) 一种基于标准标签和项目评分的推荐方法
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN105138670B (zh) 音频文件标签生成方法和系统
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN105117398B (zh) 一种基于众包的软件开发问题自动应答方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN103778200B (zh) 一种报文信息源抽取方法及其系统
CN109960763A (zh) 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN103577549A (zh) 一种基于微博标签的人群画像系统和方法
CN108763321A (zh) 一种基于大规模相关实体网络的相关实体推荐方法
JP2011198364A (ja) 媒体文書へのラベル添加方法及び該方法を用いるシステム
CN104598648B (zh) 一种微博用户交互式性别识别方法及装置
WO2019192120A1 (zh) 轨迹查询方法、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170929

Termination date: 20180804