CN105718573A - 一种针对用户兴趣的关注关系提取及标注方法 - Google Patents

一种针对用户兴趣的关注关系提取及标注方法 Download PDF

Info

Publication number
CN105718573A
CN105718573A CN201610040066.2A CN201610040066A CN105718573A CN 105718573 A CN105718573 A CN 105718573A CN 201610040066 A CN201610040066 A CN 201610040066A CN 105718573 A CN105718573 A CN 105718573A
Authority
CN
China
Prior art keywords
key
key word
article
user
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610040066.2A
Other languages
English (en)
Other versions
CN105718573B (zh
Inventor
刘梦娟
王巍
郭威
马小栓
罗绪成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Jietong Transportation Technology Co ltd
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201610040066.2A priority Critical patent/CN105718573B/zh
Publication of CN105718573A publication Critical patent/CN105718573A/zh
Application granted granted Critical
Publication of CN105718573B publication Critical patent/CN105718573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种针对用户兴趣的关注关系提取及标注方法,目的是为存在关注功能的网络平台提取出能够反映用户共同兴趣的关注关系,并对该条关注关系所代表的兴趣特征进行关键词标注。方法包括:首先建立全网络平台的关注关系图;其次计算任意关注者和被关注者之间的相关性系数;然后依据相关性系数提取出能够反映用户共同兴趣的关注关系;最后对提取的关注关系进行关键词标注。

Description

一种针对用户兴趣的关注关系提取及标注方法
技术领域
本发明属于互联网技术领域,特别涉及一种针对用户兴趣的关注关系提取及标注方法。
背景技术
随着越来越多的网络平台提供关注功能,网站用户之间形成一种关注网络。例如,视频分享网站的用户可以关注自己感兴趣的用户;电子商务网站的用户可以关注自己感兴趣的达人买家;微博平台的用户可以关注自己的好友,或者感兴趣的其他用户。通过关注关系,关注用户可以获得被关注者收看或者上传的视频信息,购买的商品记录,以及发表的微博内容等。这种关注关系被认为是关注者和被关注者可能具有共同兴趣的一种隐含表达。因此许多网站的推荐系统,开始利用用户之间的关注关系来提高推荐性能。然而,通过分析实际网络平台的用户行为记录,发现并非所有存在关注关系的用户之间都具有共同兴趣,这是因为网络平台中用户间建立关注关系的原因非常多,有可能是现实中的好友,有可能是有共同兴趣的陌生人,有可能只是随意添加的关注关系,有可能关注者曾经对被关注者感兴趣,但是随着时间推移,关注者或者被关注者的兴趣发生了变化,导致关注者对被关注者的行为不再感兴趣。因此,如何从全部关注关系中提取出能反映用户真实兴趣的关注关系是利用关注关系进行推荐的关键。
另一方面,网络平台上用户的兴趣通常具有多样性,例如一个视频分享站点的用户,可能喜欢收看爱情片、悬疑片、古装片等多种类型的视频,其关注者可能只在爱情片方面与其具有共同兴趣,因此如果将被关注者观看的所有类型的视频信息都推荐给关注者,那么推荐的绝大多数视频可能都是关注者不感兴趣的。因此,有必要对关注关系所代表的兴趣类型通过关键词的方式进行标注。综上,本发明提出一种针对用户兴趣的关注关系提取及标注方法,用以表示关注者对被关注者的真实兴趣及兴趣类型。本发明提出的技术可广泛应用于各种网络平台的推荐系统中。
发明内容
本发明的目的是为了在网络平台的所有关注关系中,提取出能够反映用户真实兴趣的关注关系,并对关注关系所代表的兴趣用关键词及权重进行标注。为实现上述发明目的,本发明提供一种针对用户兴趣的关注关系的提取和标注方法,其特征在于,包括以下步骤:
步骤1、根据用户的关注关系,构建初始关注图G(U,E),图中的节点是存在关注关系的网络平台用户,假设用户x关注了用户y,则建立一条从用户节点y指向用户节点x的边,边的方向表明用户x对用户y的行为内容感兴趣,而不能表明用户y对用户x的行为感兴趣,因此初始关注图是一个包含网络平台全部关注关系的有向无权图;
步骤2、通过分析用户历史行为数据,计算初始关注图中关注用户与被关注用户的兴趣相似性,相似性度量可使用但不限于皮尔逊相关系数或者余弦相似度等方法,皮尔逊相关系数是一个统计学指标,可用于度量两个用户之间的相关性,计算公式如公式(1)所示:
sim P ( x , y ) = Σ i ∈ I T E M ( x i - x ‾ ) * ( y i - y ‾ ) Σ i ∈ I T E M ( x i - x ‾ ) 2 * Σ i ∈ I T E M ( y i - y ‾ ) 2 sim P ( x , y ) ∈ [ - 1 , 1 ] - - - ( 1 )
其中,ITEM={I1,I2,I3,...,In}表示网络平台上所有n个物品的集合,xi表示用户x对物品Ii的感兴趣程度,可以使用但不限于如下指标来计算:如果使用评分行为来计算,xi就是用户x对物品Ii的评分值,如果未评分则xi=0;如果使用对物品的操作行为来计算,xi就表示用户x是否对物品Ii执行操作行为,执行xi=1,否则xi=0;表示用户x,y对所有物品的评分或者操作行为的平均值,计算公式如公式(2)所示:
x ‾ = 1 n Σ i = 1 n x i y ‾ = 1 n Σ i = 1 n y i - - - ( 2 )
步骤3、根据关注者与被关注者的兴趣相似性度量指标,例如皮尔逊系数,提取关注关系,方法如下:首先由网络平台预设衡量用户兴趣相似性的最低阈值,将用户间的兴趣相似性度量指标(例如皮尔逊系数)大于阈值的关注关系作为有效的关注关系进行提取,边的权重为w(x,y)=sim(x,y);
步骤4、在提取关注关系的基础上,对每条关注关系所表示的兴趣特征进行关键词标注,具体步骤如下:
4.1对网络平台上的每个物品进行特征标注,包括但不限于如下方法:首先判断物品是否存在由用户(或者平台)主动标注的关键词,例如视频所属的类别信息,微博文章所属的类别信息等,如果存在主动标注的关键词,则将这些关键词加入到物品特征关键词列表中;其次,从物品相关的文本信息中提取代表物品特征的关键词及每个关键词的词频,并将其加入到物品特征关键词列表中;最后从物品特征关键词列表中选择K个关键词表征该物品的特征。选择方法包括但不限于,包括所有的主动标注关键词(假设为M个),以及词频最高的(K–M)个从物品相关文本信息中提取的关键词,按重要性由高到低排列如下:
KeyList={Key1,Key2,Key3,…,KeyM,KeyM+1,…,KeyP,…,KeyQ,…,KeyK}
重要性排列规则如下:
(1)对于主动标注的关键词,按照物品被主动标注的顺序依次排列;对于从物品相关文本信息中提取的关键词,按照关键词在文本信息中的词频由高到低依次排列;每个关键词的权重计算如公式(3)所示:
w ( Key k ) = K - k + 1 K k = ( 1 , 2 , ... , K ) - - - ( 3 )
其中Keyk为第k个关键词,K为该物品提取关键词的总数;
(2)如果从物品相关文本信息中提取的关键词中存在词频相同的关键词,则所有词频相同的关键词随机排序,权重按照公式(4)计算:
w ( Key P ~ Q ) = 1 Q - P + 1 Σ k = P Q K - k + 1 K - - - ( 4 )
这里假设从KeyP到KeyQ的(P–Q+1)个关键词具有相同词频,则每个词频相同的关键词具有相同的权重;
(3)如果物品特征关键词列表KeyList中的关键词个数不足K个,则按照实际的关键词个数标记物品;
4.2通过关注者和被关注者共同操作过的物品的特征关键词,对提取的关注关系进行标注,包括但不限于如下标注方法:假设关注者x和被关注者y共同操作过的物品为M个ITEM(x∩y)={I1,I2,I3,...,IM},其中每个物品Ii的特征关键词列表为KeyListi;将M个物品的特征关键词求并集,得到(y→x)关注关系所对应的特征关键词列表KeyList(y→x);计算KeyList(y→x)中每个关键词对应的权重,按照公式(5)计算:
w L ( key k ) = Σ m = 1 M w ( key k ( m ) ) k = ( 1 , 2 , ... , | K e y L i s t ( y → x ) | ) - - - ( 5 )
其中,|KeyList(y→x)|表示关注关系(y→x)所对应的特征关键词列表中关键词的个数,wL(keyk)表示关注关系的特征关键词列表中第k个关键词的权重,w(keyk(m))表示关键词keyk在第m个物品的特征关键词列表中的权重,如果关键词keyk不在物品m的特征关键词列表中,则w(keyk(m))=0;最后,将KeyList(y→x)中的关键词按权重由高到低排序,选择其中权重最大的N个关键词对关注关系(y→x)进行标注;
4.3将得到的N个标注关键词的权重进行归一化,使得各关键词的权重之和为1。针对关注关系(y→x),N个关键词的权重归一化计算,如公式(6)所示:
w L ′ ( Key k ) = w L ( Key k ) / Σ j = 1 N w L ( Key j ) k = ( 1 , 2 , ... , N ) - - - ( 6 )
重复步骤4.2、4.3,可以得到每条有效关注关系的标注关键词。
通过本发明提取出的有效关注关系能够标识出具有真正共同兴趣的关注者与被关注者,并且通过对关注关系进行特征关键词标注,使网络平台能够确切知道关注者是对被关注者的哪些行为内容感兴趣,因此在利用关注关系进行相关推荐时,可以有针对性的推荐关注者感兴趣的类型的物品。实验证明,本发明提取出的有效关注关系及特征关键词标注能够明显改善推荐系统的性能。
附图说明
图1是本发明提供的一种关注关系提取及标注方法流程图
图2是本发明提供的一种关注关系标注方法流程图
图3是本发明实施例提供的用户初始关注关系图
图4是本发明实施例提供的有效关注关系图
图5是本发明实施例提供的15部视频的详细信息
图6是本发明实施例提供的关键词标注后的有效关注关系图
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明提供的一种针对用户兴趣的关注关系提取及标注方法流程图,步骤包括:
步骤1、根据用户的关注关系,构建初始关注图G(U,E),图中的节点是存在关注关系的网络平台用户,假设用户x关注了用户y,则建立一条从用户节点y指向用户节点x的边,边的方向表明用户x对用户y的行为内容感兴趣,而不能表明用户y对用户x的行为感兴趣,因此初始关注图是一个包含网络平台全部关注关系的有向无权图;
步骤2、通过分析用户历史行为数据,计算初始关注图中关注用户与被关注用户的兴趣相似性,相似性度量可使用但不限于:皮尔逊相关系数或者余弦相识度等方法;皮尔逊相关系数和余弦相似度都是统计学指标,可用于度量两个用户之间的相关性,如果采用皮尔逊相关系数,计算公式如公式(1)所示;如果采用余弦相识度作为度量指标,计算公式如公式(7)所示:
sim c ( x , y ) = Σ i ∈ I T E M x i * y i Σ i ∈ I T E M x i 2 * Σ i ∈ I T E M y i 2 - - - ( 7 )
步骤3、根据关注者与被关注者的兴趣相似性度量指标,例如皮尔逊系数,提取关注关系,方法如下:首先由网络平台预设衡量用户兴趣相似性的最低阈值,将用户间的兴趣相似性度量指标大于阈值的关注关系作为有效的关注关系进行提取,边的权重为w(x,y)=sim(x,y);
步骤4、在提取关注关系的基础上,对每条关注关系所表示的兴趣特征进行关键词标注,图2是本发明提供的一种关注关系标注方法流程图,具体步骤如下:
4.1对网络平台上的每个物品进行特征标注,包括但不限于如下方法:首先判断物品是否存在由用户(或者平台)主动标注的关键词,例如视频所属的类别信息,微博文章所属的类别信息等,如果存在主动标注的关键词,则将这些关键词加入到物品特征关键词列表中;其次,从物品相关的文本信息中提取代表物品特征的关键词及每个关键词的词频,并将其加入到物品特征关键词列表中;最后从物品特征关键词列表中选择K个关键词表征该物品的特征。选择方法包括但不限于,包括所有的主动标注关键词(假设为M个),以及词频最高的(K–M)个从物品相关文本信息中提取的关键词,按重要性由高到低排列如下:
KeyList={Key1,Key2,Key3,…,KeyM,KeyM+1,…,KeyP,…,KeyQ,…,KeyK}
重要性排列规则如下:
(1)对于主动标注的关键词,按照物品被主动标注的顺序依次排列;对于从物品相关文本信息中提取的关键词,按照关键词在文本信息中的词频由高到低依次排列;每个关键词的权重计算如公式(3)所示;
(2)如果从物品相关文本信息中提取的关键词中存在词频相同的关键词,则所有词频相同的关键词随机排序,权重按照公式(4)计算;
(3)如果物品特征关键词列表KeyList中的关键词个数不足K个,则按照实际的关键词个数标记物品;
4.2通过关注者和被关注者共同操作过的物品的特征关键词,对提取的关注关系进行标注,包括但不限于如下标注方法:假设关注者x和被关注者y共同操作过的物品为M个ITEM(x∩y)={I1,I2,I3,...,IM},其中每个物品Ii的特征关键词列表为KeyListi;将M个物品的特征关键词求并集,得到(y→x)关注关系所对应的特征关键词列表KeyList(y→x);计算KeyList(y→x)中每个关键词对应的权重,按照公式(5)计算;最后,将KeyList(y→x)中的关键词按权重由高到低排序,选择其中权重最大的N个关键词对关注关系(y→x)进行标注;
4.3将得到的N个标注关键词的权重进行归一化,使得各关键词的权重之和为1。针对关注关系(y→x),N个关键词的权重归一化计算,如公式(6)所示;
重复步骤4.2、4.3,可以得到每条有效关注关系的标注关键词。
实施例
下面结合附图对本发明的一个具体实施例进行描述。本实施例以一个包含用户关注关系的视频分享站点(优酷、YouTube等网站都提供这样的用户关注功能)为例,目标是提取出表示共同收看兴趣的用户关注关系,并对该关注关系所隐含的兴趣内容进行关键词标注。
假设视频分享站点中记录了5个用户U=(A,B,C,D,E)的收看行为以及他们相互之间的关注关系。5个用户共观看了15部视频,记录为ITEM={1,2,3,4,5,6,7,8,9,10,11,12,13,14,15},收看行为记录如下:A观看了视频{1,2,3,4,5,6};B观看了视频{7,8,9,10};C观看了视频{11,12,13,14,15};D观看了视频{1,2,7,8,11,12};E观看了视频{3,4,6,7,8,12};用户之间的关注记录如下:A关注了B、C、D、E;B关注了A、C、D、E;C用户关注了A、B、D、E;D用户关注了A、B、C、E;E用户关注了A、B、C、D。有效关注关系提取及关键词标注步骤如下:
步骤1、根据用户的关注关系,构建初始关注图G(U,E),五个用户都分别关注了彼此,因此初始关注关系图如图3所示;
步骤2、通过分析用户历史行为数据,计算初始关注图中关注用户与被关注用户的行为相似性,相似度可以采用皮尔逊相关系数或者余弦相识度进行计算,如果采用皮尔逊相关系数,则根据公式(1)计算,本实施例中以A用户和E用户的相似度计算为例进行说明:
首先,计算A、E用户对15部视频的收看记录可分别记为:
Ai∈ITEM=(1,1,1,1,1,1,0,0,0,0,0,0,0,0,0)
Ei∈ITEM=(0,0,1,1,0,1,1,1,0,0,0,1,0,0,0)
这里A用户收看过对应位的电影就记录为1,没有收看过对应位的电影就记录为0;
其次,根据公式(2)计算A、E用户收看行为的平均值,计算如下:
A ‾ = 1 15 Σ i = 1 15 A i = 6 15 = 0.4 , 同理, E ‾ = 1 15 Σ i = 1 15 E i = 6 15 = 0.4
第三,根据公式(1)计算A、E用户的皮尔逊相关系数,计算如下:
sim P ( A , E ) = Σ i ∈ I T E M ( A i - A ‾ ) * ( E i - E ‾ ) Σ i ∈ I T E M ( A i - A ‾ ) 2 * Σ i ∈ I T E M ( E i - E ‾ ) 2 = 0.6 3.6 * 3.6 ≈ 0.17
用同样的方式可以算出其他任意两个用户的皮尔逊相关系数:
sim P ( x , y ) = A B C D E A 1 - 0.49 - 0.58 - 0.11 0.17 B - 0.49 1 - 0.43 0.12 0.12 C - 0.58 - 0.43 1 - 3.20 - 0.29 D - 0.11 0.12 - 3.20 1 0.17 E 0.17 0.12 - 0.29 0.17 1
步骤3、根据关注者与被关注者的兴趣相似性度量指标,例如皮尔逊系数,提取关注关系,方法如下:首先由网络平台预设衡量用户兴趣相似性的最低阈值,将用户间的兴趣相似性度量指标大于阈值的关注关系作为有效的关注关系进行提取,边的权重为w(x,y)=sim(x,y);在本实施例中假设相关性的最低阈值为0,则相关性度量指标大于0的所有关注关系保留,因此,在本实施例中有效的关注关系为:A→E、B→E、B→D、D→E、E→A、E→B、D→B、E→D,提取后的有效关注关系图,如图4所示,有效关注关系的权值w(x,y)=sim*(x,y),如下:
sim * ( x , y ) = A B C D E A 0.17 B 0.12 0.12 C D 0.12 0.17 E 0.17 0.12 0.17
步骤4:在提取关注关系的基础上,对每条关注关系所表示的兴趣特征进行关键词标注,具体步骤如下:
4.1对视频分享网站上的每个视频进行特征标注,方法如下:首先判断视频是否存在由用户(或者网站)主动标注的关键词,例如视频所属的类别信息,如果存在主动标注的关键词,则将这些关键词加入到视频特征关键词列表中;其次,从视频相关的文本信息中提取代表视频特征的关键词及每个关键词的词频,并将其加入到视频特征关键词列表中;最后从视频的特征关键词列表中选择K个关键词表征该视频的特征。
在本实施例中,假设K=5,M=2,15部视频的主动标注关键词及相关文本信息记录如图5所示。这里以第一部电影《冰雪奇缘》为例,展开描述,其主动标注关键词及相关文本信息如下:
因此,对于《冰雪奇缘》由网站主动标注的关键词是“电影、奇幻”,则首先将这2个关键词加入视频的特征关键词列表中;其次,从视频相关的文本描述中提取出代表该视频的特征关键词,按照词频大小选择词频最高的3个关键词作为特征关键词加入视频的特征关键词列表中,因此得到《冰雪奇缘》的特征关键词列表为:{电影、奇幻、配音(词频4)、艾莎(词频4)、安娜(词频3)};采用相同的方法可得到所有15部电影的特征关键词列表,如下表所示:
需要说明的是视频的相关文本信息可以包含视频名称、视频类型、简介、主演、导演等多项内容,在本实施例中只使用了视频简介,从文本信息中提取关键词的方法并不包含在本发明内容中,可以采用成熟的工具来完成,例如结巴分词工具包,可以自动地对文本进行分词、去停用词等操作,最后得到关键词及对应的词频;如果关键词列表中不存在词频相同的关键词,则按照公式(3)来计算每个关键词的权重,方法如下:
w ( Key k ) = K - k + 1 K k = ( 1 , 2 , ... , K )
因此,每部视频的关键词权重计算为:
w ( key 1 ) = 5 - 1 + 1 5 = 1 , w(key2)=0.8,w(key3)=0.6,w(key4)=0.4,w(key5)=0.2
如果关键词列表中存在词频相同的词,则对于词频相同的词的权重,按照公式(4)计算,例如《冰雪奇缘》中,配音和艾莎的词频都为4,因此这两个词的权重为:
w ( Key 3 , 4 ) = 1 4 - 3 + 1 Σ k = 3 4 K - k + 1 K = 1 2 Σ k = 3 4 5 - k + 1 5 = 0.5
最后,采用相同方法可以得到每部视频的特征关键词及权重,如下表所示:
1 电影:1.0 奇幻:0.8 配音:0.5 艾莎:0.5 安娜:0.2
2 电影:1.0 奇幻:0.8 帕克:0.6 蜘蛛侠:0.4 小偷:0.2
3 电影:1.0 动画:0.8 爸爸:0.5 儿子:0.5 尼莫:0.2
4 电影:1.0 动画:0.8 父亲:0.5 猫和老鼠:0.5 一心:0.2
5 电影:1.0 冒险:0.8 爱丽丝:0.6 世界:0.4 地下:0.2
6 电影:1.0 冒险:0.8 木兰:0.6 冒顿:0.3 文泰:0.3
7 动漫:1.0 社会:0.8 三毛:0.6 展现:0.3 本片:0.3
8 动漫:1.0 社会:0.8 Springfield:0.6 美国:0.3 丽莎:0.3
9 动漫:1.0 校园:0.8 青学:0.6 大阪:0.3 天宝:0.3
10 动漫:1.0 运动:0.8 故事:0.6 足球:0.4 他们:0.2
11 电视剧:1.0 都市:0.8 小姐:0.6 皮三:0.4 北京:0.2
12 电视剧:1.0 时装:0.8 他们:0.6 生活:0.4 青年:0.2
13 电视剧:1.0 警匪:0.8 方明:0.6 方杰:0.4 陈静:0.2
14 电视剧:1.0 警匪:0.8 俞颖:0.6 黄局:0.4 利用:0.2
15 电视剧:1.0 悬疑:0.8 悬疑:0.5 学兵:0.5 范冰冰:0.2
4.2通过关注者和被关注者共同收看过的的视频特征关键词,对提取的关注关系进行标注,方法如下:在本实施例中有8条有效关注关系,分别为A→E、B→E、B→D、D→E、E→A、E→B、D→B、E→D,这里以关注关系A→E为例展开描述,由于E关注了用户A,因此首先计算A和E共同观看过的视频,记录为:{3,4,6};其次,将第3部视频、第4部视频、第6部视频的关键词求交集,得到关注关系A→E的特征关键词列表如下:{电影,动画,爸爸,儿子,尼莫,父亲,猫和老鼠,一心,冒险,木兰,冒顿,文泰};然后按照公式(5)计算每个关键词的权重,例如关键词“电影”的权重计算为:
w L ( key 1 ) = Σ m = 1 M w ( key 1 ( m ) ) = 1.0 + 1.0 + 1.0 = 3.0
采用相同的方法可以得到关注关系A→E的每个特征关键词的权重;最后,将KeyList(A→E)中的关键词按权重由高到低排序,选择其中权重最大的N个关键词对关注关系进行标注,本实施例中假设N=10,则最终得到的关键词及权重为:{电影:3.0,动画:1.6,冒险:0.8,木兰:0.6,儿子:0.5,爸爸:0.5,父亲:0.5,猫和老鼠:0.5,冒顿:0.3,文泰:0.3};最终得到的所有有效关注关系的特征关键词及权重如下表所示:
4.3将得到的N个标注关键词的权重进行归一化,使得各关键词的权重之和为1。针对关注关系(y→x),关键词的权重归一化计算,使用公式(6),结果为:
因此,最终的包含兴趣关键词标注的有效关注关系图如图6所示。需要说明的是,在从相关文本信息中提取关键词时,可以构造一个更有针对性的停用词库,将词频高但无意义的词删去,例如本实施例中的“他们”、“本片”、“展现”等词。本发明内容不包含停用词库的构建方法。
视频分享网站可以利用提取出的有效关注关系及该关系所标注的兴趣关键词,进行推荐。一种简单的方法是直接利用关注关系及标注关键词,将被关注者看过,且视频相关信息中包含有关注者感兴趣的关键词的视频推荐给关注者。例如利用关注关系A→E,可以将A看过,但是E没有看过的视频《冰雪奇缘》和《蜘蛛侠3》推荐给E;一种更为复杂的方法是,将其和已有的基于邻域的推荐算法或者基于图的社会化推荐算法结合,进行推荐。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种针对用户兴趣的关注关系提取及标注方法,其特征在于,包括以下步骤:
步骤1、根据用户的关注关系,构建初始关注图G(U,E),图中的节点是存在关注关系的网络平台用户,假设用户x关注了用户y,则建立一条从用户节点y指向用户节点x的边,边的方向表明用户x对用户y的行为内容感兴趣,而不能表明用户y对用户x的行为感兴趣,因此初始关注图是一个包含网络平台全部关注关系的有向无权图;
步骤2、通过分析用户历史行为数据,计算初始关注图中关注用户与被关注用户的兴趣相似性;
步骤3、根据关注者与被关注者的兴趣相似性度量指标,提取关注关系,方法如下:首先由网络平台预设衡量用户兴趣相似性的最低阈值,将用户间的兴趣相似性度量指标大于阈值的关注关系作为有效的关注关系进行提取,边的权重为两个用户的兴趣相似度;
步骤4、在提取关注关系的基础上,对每条关注关系所表示的兴趣特征进行关键词标注:首先对网络平台上的每个物品进行特征标注;然后,通过关注者和被关注者共同操作过的物品的特征关键词,对提取的关注关系进行标注;最后,将得到的标注关键词的权重进行归一化处理。
2.根据权利要求1所述的关注关系特征关键词标注方法,其特征在于,所述的标注方法为:
4.1对网络平台上的每个物品进行特征标注,包括但不限于如下方法:首先判断物品是否存在由用户(或者平台)主动标注的关键词,例如视频所属的类别信息,微博文章所属的类别信息等,如果存在主动标注的关键词,则将这些关键词加入到物品特征关键词列表中;其次,从物品相关的文本信息中提取代表物品特征的关键词及每个关键词的词频,并将其加入到物品特征关键词列表中;最后从物品特征关键词列表中选择K个关键词表征该物品的特征。选择方法包括但不限于,包括所有的主动标注关键词(假设为M个),以及词频最高的(K–M)个从物品相关文本信息中提取的关键词,按重要性由高到低排列如下:
KeyList={Key1,Key2,Key3,...,KeyM,KeyM+1,...,KeyP,...,KeyQ,...,KeyK}
重要性排列规则如下:
(1)对于主动标注的关键词,按照物品被主动标注的顺序依次排列;对于从物品相关文本信息中提取的关键词,按照关键词在文本信息中的词频由高到低依次排列;每个关键词的权重计算如下所示:
w ( Key k ) = K - k + 1 K , k = ( 1 , 2 , ... , K )
其中Keyk为第k个关键词,K为该物品提取关键词的总数;
(2)如果从物品相关文本信息中提取的关键词中存在词频相同的关键词,则所有词频相同的关键词随机排序,权重按照如下公式计算:
w ( Key P ~ Q ) = 1 Q - P + 1 Σ k = P Q K - k + 1 K
这里假设从KeyP到KeyQ的(P–Q+1)关键词具有相同词频,则每个词频相同的关键词具有相同的权重;
(3)如果物品特征关键词列表KeyList中的关键词个数不足K个,则按照实际的关键词个数标记物品;
4.2通过关注者和被关注者共同操作过的物品的特征关键词,对提取的关注关系进行标注,包括但不限于如下标注方法:假设关注者x和被关注者y共同操作过的物品为M个ITEM(x∩y)={I1,I2,I3,...,IM},其中每个物品Ii的特征关键词列表为KeyListi;将M个物品的特征关键词求并集,得到(y→x)关注关系所对应的特征关键词列表KeyList(y→x);计算KeyList(y→x)中每个关键词对应的权重,按照如下公式计算:
w L ( key k ) = Σ m = 1 M w ( key k ( m ) ) , k = ( 1 , 2 , ... , | K e y L i s t ( y → x ) | )
其中,|KeyList(y→x)|表示关注关系(y→x)所对应的特征关键词列表中关键词的个数,wL(keyk)表示关注关系的特征关键词列表中第k个关键词的权重,w(keyk(m))表示关键词keyk在第m个物品的特征关键词列表中的权重;最后,将KeyList(y→x)中的关键词按权重由高到低排序,选择其中权重最大的N个关键词对关注关系(y→x)进行标注;
4.3将得到的N个标注关键词的权重进行归一化,使得各关键词的权重之和为1。针对关注关系(y→x),N个关键词的权重归一化计算,如下所示:
w L ′ ( Key k ) = w L ( Key k ) / Σ j = 1 N w L ( Key j ) , k = ( 1 , 2 , ... , N )
重复步骤4.2、4.3,可以得到每条有效关注关系的标注关键词。
CN201610040066.2A 2016-01-20 2016-01-20 一种针对用户兴趣的关注关系提取及标注方法 Active CN105718573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610040066.2A CN105718573B (zh) 2016-01-20 2016-01-20 一种针对用户兴趣的关注关系提取及标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610040066.2A CN105718573B (zh) 2016-01-20 2016-01-20 一种针对用户兴趣的关注关系提取及标注方法

Publications (2)

Publication Number Publication Date
CN105718573A true CN105718573A (zh) 2016-06-29
CN105718573B CN105718573B (zh) 2018-12-25

Family

ID=56153780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610040066.2A Active CN105718573B (zh) 2016-01-20 2016-01-20 一种针对用户兴趣的关注关系提取及标注方法

Country Status (1)

Country Link
CN (1) CN105718573B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451255A (zh) * 2017-07-31 2017-12-08 陕西识代运筹信息科技股份有限公司 一种基于关注关系的用户兴趣处理方法和装置
CN107729520A (zh) * 2017-10-27 2018-02-23 北京锐安科技有限公司 文件分类方法、装置、计算机设备及计算机可读介质
CN109034960A (zh) * 2018-07-12 2018-12-18 电子科技大学 一种基于用户节点嵌入的多属性推断的方法
CN113656576A (zh) * 2021-08-27 2021-11-16 咪咕数字传媒有限公司 一种文章概述生成方法、装置、计算设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389418B1 (en) * 1999-10-01 2002-05-14 Sandia Corporation Patent data mining method and apparatus
CN103793481A (zh) * 2014-01-16 2014-05-14 中国科学院软件研究所 基于用户兴趣挖掘的微博词云生成方法及访问支持系统
CN104376083A (zh) * 2014-11-18 2015-02-25 电子科技大学 一种基于关注关系和多用户行为的图推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389418B1 (en) * 1999-10-01 2002-05-14 Sandia Corporation Patent data mining method and apparatus
CN103793481A (zh) * 2014-01-16 2014-05-14 中国科学院软件研究所 基于用户兴趣挖掘的微博词云生成方法及访问支持系统
CN104376083A (zh) * 2014-11-18 2015-02-25 电子科技大学 一种基于关注关系和多用户行为的图推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
雷兵 等: "基于微博关注推荐服务的用户兴趣模型研究", 《情报科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451255A (zh) * 2017-07-31 2017-12-08 陕西识代运筹信息科技股份有限公司 一种基于关注关系的用户兴趣处理方法和装置
CN107451255B (zh) * 2017-07-31 2020-05-19 陕西识代运筹信息科技股份有限公司 一种基于关注关系的用户兴趣处理方法和装置
CN107729520A (zh) * 2017-10-27 2018-02-23 北京锐安科技有限公司 文件分类方法、装置、计算机设备及计算机可读介质
CN109034960A (zh) * 2018-07-12 2018-12-18 电子科技大学 一种基于用户节点嵌入的多属性推断的方法
CN113656576A (zh) * 2021-08-27 2021-11-16 咪咕数字传媒有限公司 一种文章概述生成方法、装置、计算设备和存储介质
CN113656576B (zh) * 2021-08-27 2024-05-24 咪咕数字传媒有限公司 一种文章概述生成方法、装置、计算设备和存储介质

Also Published As

Publication number Publication date
CN105718573B (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN104935963B (zh) 一种基于时序数据挖掘的视频推荐方法
US20200410515A1 (en) Method, system and computer readable medium for creating a profile of a user based on user behavior
US9727927B2 (en) Prediction of user response to invitations in a social networking system based on keywords in the user's profile
CN104809154B (zh) 用于资讯推荐的方法及装置
McKenzie et al. Weighted multi-attribute matching of user-generated points of interest
CN112313697A (zh) 用于生成描述角度增强的可解释的基于描述的推荐的系统和方法
CN110532479A (zh) 一种信息推荐方法、装置及设备
Zeng et al. Can dissimilar users contribute to accuracy and diversity of personalized recommendation?
US20130073979A1 (en) Tool for creating structured objects and actions on a social networking system
CN105488233A (zh) 阅读信息推荐方法和系统
US20130073632A1 (en) Structured objects and actions on a social networking system
EP2113849A2 (en) Information processing apparatus and presenting method of related items
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN105718573A (zh) 一种针对用户兴趣的关注关系提取及标注方法
Wu et al. Smp challenge: An overview of social media prediction challenge 2019
KR101725510B1 (ko) 사용자 성향을 고려한 소셜 이벤트 추천 방법 및 장치
US9436766B1 (en) Clustering of documents for providing content
KR100792700B1 (ko) 신경망을 가지는 협업 필터링 시스템을 이용하여 클릭패턴에 기초한 웹 광고 추천 방법 및 그 시스템
CN105426550A (zh) 一种基于用户质量模型的协同过滤标签推荐方法及系统
CN103605808A (zh) 基于搜索的ugc推荐的方法及系统
CN102135999A (zh) 用户可信度和项目最近邻相结合的互联网推荐方法
Pham et al. Sentiment analysis and user similarity for social recommender system: An experimental study
CN103955480B (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN103337028A (zh) 一种推荐方法、装置
CN104281641A (zh) 丰富多媒体内容的方法和对应设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200609

Address after: 610000, No. 2006, West Avenue, hi tech West District, Sichuan, Chengdu

Patentee after: Sichuan Jietong Transportation Technology Co.,Ltd.

Address before: 610054, No. 2006, West Avenue, Chengdu hi tech Zone (West District, Sichuan)

Patentee before: UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY

TR01 Transfer of patent right