CN111737588A - 用户画像知识相似度计算方法 - Google Patents

用户画像知识相似度计算方法 Download PDF

Info

Publication number
CN111737588A
CN111737588A CN202010856930.2A CN202010856930A CN111737588A CN 111737588 A CN111737588 A CN 111737588A CN 202010856930 A CN202010856930 A CN 202010856930A CN 111737588 A CN111737588 A CN 111737588A
Authority
CN
China
Prior art keywords
label
matrix
user
knowledge
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010856930.2A
Other languages
English (en)
Other versions
CN111737588B (zh
Inventor
曹保龙
彭天颖
王磊
卢浩然
周苏霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Guorui Xinwei Software Co ltd
Original Assignee
Nanjing Guorui Xinwei Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Guorui Xinwei Software Co ltd filed Critical Nanjing Guorui Xinwei Software Co ltd
Priority to CN202010856930.2A priority Critical patent/CN111737588B/zh
Publication of CN111737588A publication Critical patent/CN111737588A/zh
Application granted granted Critical
Publication of CN111737588B publication Critical patent/CN111737588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了用户画像知识相似度计算方法,属于智能分析技术领域,首先,规定用户的重要行为及个人基础属性选取个数及以及具体行为操作和属性内容。其次,对每项用户行为及用户属性的进行参数赋权,决定用户行为和用户属性在整体知识相似度计算中的比重值。抽取用户的行为记录和属性,统计用户行为访问过知识关联的标签,并对标签一一赋权。最后,汇集用户知识标签的总体权重值,根据权重高低排序,得出用户知识画像。本发明基于用户行为操作及个人基础属性的参数权重计算知识相似度,通过用户的具体行为操作绘制用户画像,并相应地返回适配的相似知识。该方法的知识推荐准确度高,推荐比例可以动态调整,操作便捷。

Description

用户画像知识相似度计算方法
技术领域
本发明涉及一种用户画像知识相似度计算方法,属于智能分析技术领域。
背景技术
当今是一个海量数据的时代,用户在各网站都能接收到大量信息。这其中有很大一部分都是无效、重复、或者用户不感兴趣的垃圾流量。用户在查询知识时需要花费大量的时间、精力来遍历搜索结果,或在茫茫知识库中打捞。为了向用户精准投放符合用户行为习惯及个人特征的相似知识,需要一种能够动态调整权重比例,并按照单篇知识的标签进行统计,得出用户知识画像和个人知识标签,进行动态知识相似推荐。
发明内容
为了解决上述技术问题,本发明提供一种用户画像知识相似度计算方法,其具体技术方案如下:
用户画像知识相似度计算方法,其特征在于:包括以下步骤
步骤一:统计影响用户画像的标准行为及基础属性,所述标准行为包括查看、点赞、分享、收藏、下载、评论和提问,所述基础属性包括部门、岗位、角色和专业;
步骤二:给标准行为及基础属性分配权重,设定每个参数的权重
Figure 883261DEST_PATH_IMAGE001
,并记为
Figure 593728DEST_PATH_IMAGE002
,具体为:
所述标准行为选取下载、提问、收藏、分享、评论5种行为操作,所述基础属性选取部门和岗位,合计7个参数;
每个参数的权重
Figure 603272DEST_PATH_IMAGE003
可表示为
Figure 450006DEST_PATH_IMAGE004
标签矩阵具体可表示为:
Figure 519593DEST_PATH_IMAGE005
Figure 451777DEST_PATH_IMAGE006
Figure 265012DEST_PATH_IMAGE007
Figure 231831DEST_PATH_IMAGE008
Figure 699416DEST_PATH_IMAGE009
Figure 118896DEST_PATH_IMAGE010
Figure 470243DEST_PATH_IMAGE011
加权矩阵具体为:
Figure 291568DEST_PATH_IMAGE012
Figure 234117DEST_PATH_IMAGE013
Figure 140893DEST_PATH_IMAGE014
Figure 827089DEST_PATH_IMAGE015
Figure 34079DEST_PATH_IMAGE016
Figure 288474DEST_PATH_IMAGE017
Figure 213705DEST_PATH_IMAGE018
步骤三:抽取标准行为记录及基础属性标签,记录用户行为日志表,记录用户标准行为所关联的行为标签,记录用户基础属性关联的属性标签,行为标签和属性标签合并称为知识标签;
步骤四:根据知识标签,整理成标签矩阵,标准行为依次用大写字母表示,得到标签矩阵
Figure 670969DEST_PATH_IMAGE005
Figure 998045DEST_PATH_IMAGE006
Figure 423341DEST_PATH_IMAGE007
Figure 570289DEST_PATH_IMAGE008
Figure 598288DEST_PATH_IMAGE019
,其中n表示标准行为的对象个数,m表示设定的选取关联标签的个数;
标签矩阵
Figure 717554DEST_PATH_IMAGE005
的具体获得过程为:
用户的标准行为A的对象有
Figure 172806DEST_PATH_IMAGE020
个,每个对象有
Figure 807049DEST_PATH_IMAGE021
个标签,得到一个知识相关联的标签矩阵:
Figure 373160DEST_PATH_IMAGE022
,将其记为矩阵
Figure 48730DEST_PATH_IMAGE005
(
Figure 674883DEST_PATH_IMAGE023
),其中,
Figure 796423DEST_PATH_IMAGE024
为标准行为A的第
Figure 900645DEST_PATH_IMAGE025
个对象的第
Figure 56820DEST_PATH_IMAGE026
个标签;
取每个对象最多关联5个标签,即
Figure 791558DEST_PATH_IMAGE027
,当对象
Figure 400394DEST_PATH_IMAGE025
的标签数小于5时,则超过对象
Figure 449252DEST_PATH_IMAGE025
标签数的
Figure 459933DEST_PATH_IMAGE024
为空值;
步骤五:对标签矩阵内的每个标签赋权,得到加权矩阵
Figure 660845DEST_PATH_IMAGE012
Figure 756977DEST_PATH_IMAGE013
Figure 468581DEST_PATH_IMAGE014
Figure 740294DEST_PATH_IMAGE015
Figure 879151DEST_PATH_IMAGE019
Figure 931421DEST_PATH_IMAGE028
其中每一项标签都可以表现为
Figure 446716DEST_PATH_IMAGE029
步骤六:汇集知识标签,分析并合并所有加权矩阵,统一标签计量维度,得到用户画像并推荐相似知识,具体过程为:
步骤a:记录标签
Figure 369672DEST_PATH_IMAGE030
为对象
Figure 679431DEST_PATH_IMAGE031
,记录标签
Figure 129916DEST_PATH_IMAGE032
为对象
Figure 183323DEST_PATH_IMAGE033
Figure 23103DEST_PATH_IMAGE019
,记录标签
Figure 238183DEST_PATH_IMAGE034
为对象
Figure 733887DEST_PATH_IMAGE035
,当遇到重复标签时,仅增加对象权重,不新增标签对象,
统计矩阵
Figure 325405DEST_PATH_IMAGE005
内的标签权重,矩阵
Figure 222954DEST_PATH_IMAGE005
内最多有
Figure 874515DEST_PATH_IMAGE036
个标签,其中对象
Figure 293733DEST_PATH_IMAGE031
出现
Figure 157784DEST_PATH_IMAGE037
次,对象
Figure 440998DEST_PATH_IMAGE033
出现
Figure 732302DEST_PATH_IMAGE038
次,……,对象
Figure 468176DEST_PATH_IMAGE035
出现
Figure 932656DEST_PATH_IMAGE039
次,推算出对象
Figure 70376DEST_PATH_IMAGE031
的权重为
Figure 532581DEST_PATH_IMAGE040
,整个矩阵
Figure 254288DEST_PATH_IMAGE005
内所有标签的权重之和为
Figure 725720DEST_PATH_IMAGE041
,保证权重的总和始终是对该操作预设的权重值,标准行为A对应的标签数组
Figure 717947DEST_PATH_IMAGE042
对应权重
Figure 85474DEST_PATH_IMAGE043
,这是一个1
Figure 795941DEST_PATH_IMAGE044
的矩阵,其和为
Figure 805486DEST_PATH_IMAGE045
步骤b:计算所有标准行为下,所有标签的权重,得到7个1
Figure 652219DEST_PATH_IMAGE044
的矩阵,将其组合成一个7
Figure 721806DEST_PATH_IMAGE044
的权重矩阵
Figure 152525DEST_PATH_IMAGE046
步骤c:对照标签矩阵,整理重复标签,若
Figure 762498DEST_PATH_IMAGE024
代表的标签与
Figure 463738DEST_PATH_IMAGE047
Figure 704226DEST_PATH_IMAGE048
相同,被记为对象
Figure 123706DEST_PATH_IMAGE049
,那么该标签的总权重就为
Figure 209474DEST_PATH_IMAGE050
,原
Figure 30800DEST_PATH_IMAGE051
化为0,
Figure 442189DEST_PATH_IMAGE052
也化为0,空标签不记录;
步骤d:对权重矩阵
Figure 348965DEST_PATH_IMAGE046
进行矩阵化简,得到一个最简行阶梯型矩阵:
Figure 300741DEST_PATH_IMAGE053
,并排列大小,整理对应的标签;
步骤e:按照
Figure 305186DEST_PATH_IMAGE054
的大小,从高到低,梳理对应标签,组成向量组:
Figure 887477DEST_PATH_IMAGE055
得到一系列按照权重高低排列的标签数组,标签数组就是用户行为及基础信息综合权重得到的用户画像标签。
本发明的有益效果是:
本发明通过对用户的行为操作及个人属性进行分析,记录操作相关知识的标签,并动态赋权,得到实时更新的用户知识画像。通过用户画像知识相似度的计算方法,量化用户对知识的关注度,明确用户的知识标签占比,为精准投放符合用户行为习惯及个人特征的相似知识提供了方法论。
附图说明
图1是本发明的流程图。
具体实施方式
如图1所示,本发明的用户画像知识相似度计算方法,包括以下步骤:
步骤一:统计影响用户画像的标准行为及基础属性,标准行为包括查看、点赞、分享、收藏、下载、评论、提问,所述基础属性包括部门、岗位、角色、专业;本发明选取了用户的下载、提问、收藏、分享、评论5种标准行为(行为操作)及部门、岗位两种用户基础属性,合计7个参数。
步骤二:给标准行为及基础属性分配权重,设定每个参数的权重
Figure 281550DEST_PATH_IMAGE001
,并记为
Figure 974699DEST_PATH_IMAGE003
,本发明共有7项计算值,取
Figure 505037DEST_PATH_IMAGE056
步骤三:抽取标准行为记录及基础属性标签,记录用户行为日志表,记录用户标准行为所关联的行为标签,记录用户基础属性关联的属性标签,行为标签和属性标签合并称为知识标签;
步骤四:根据知识标签,整理成标签矩阵,标准行为依次用大写字母表示,得到标签矩阵
Figure 992651DEST_PATH_IMAGE005
Figure 405177DEST_PATH_IMAGE006
Figure 370859DEST_PATH_IMAGE007
Figure 552442DEST_PATH_IMAGE008
Figure 7694DEST_PATH_IMAGE019
,其中n表示标准行为的对象个数,m表示设定的选取关联标签的个数。
以用户的标准行为(行为操作)A为例(下载操作),用户行为操作A的对象有
Figure 78156DEST_PATH_IMAGE020
个(下载
Figure 644267DEST_PATH_IMAGE020
篇知识),每篇知识有
Figure 821301DEST_PATH_IMAGE021
个标签,那么可以得到一个知识相关联的标签矩阵:
Figure 447455DEST_PATH_IMAGE022
,将其记为矩阵
Figure 506677DEST_PATH_IMAGE005
(
Figure 876479DEST_PATH_IMAGE057
)(每项知识最多关联5个标签)。其中,
Figure 468872DEST_PATH_IMAGE024
为操作A的第
Figure 265927DEST_PATH_IMAGE025
篇知识的第
Figure 812446DEST_PATH_IMAGE026
个标签。如果知识
Figure 720359DEST_PATH_IMAGE025
只有3个标签,则
Figure 668723DEST_PATH_IMAGE058
Figure 636679DEST_PATH_IMAGE059
都为空值。
步骤五:对矩阵内的每个标签赋权,得到加权矩阵
Figure 732811DEST_PATH_IMAGE012
Figure 382098DEST_PATH_IMAGE060
其中每一项标签都可以表现为
Figure 247286DEST_PATH_IMAGE029
对余下的4个操作及两种基础信息做同样的赋权工作,一共得到7个加权矩阵:
Figure 822362DEST_PATH_IMAGE012
Figure 405790DEST_PATH_IMAGE013
Figure 858768DEST_PATH_IMAGE014
Figure 578462DEST_PATH_IMAGE015
Figure 825904DEST_PATH_IMAGE016
Figure 896628DEST_PATH_IMAGE017
Figure 950035DEST_PATH_IMAGE018
步骤六:汇集知识标签,分析并合并所有加权矩阵,统一标签计量维度,得到用户画像并推荐相似知识:
步骤a:记录标签
Figure 727498DEST_PATH_IMAGE030
为对象
Figure 208158DEST_PATH_IMAGE031
,记录标签
Figure 208256DEST_PATH_IMAGE032
对象
Figure 799774DEST_PATH_IMAGE033
,以此类推。当遇到重复标签时,仅增加对象权重,不新增标签对象。首先统计矩阵
Figure 431744DEST_PATH_IMAGE005
内的标签权重。矩阵
Figure 348884DEST_PATH_IMAGE005
内最多有
Figure 66305DEST_PATH_IMAGE036
个标签,其中标签
Figure 461514DEST_PATH_IMAGE031
出现
Figure 275886DEST_PATH_IMAGE037
次,标签
Figure 36032DEST_PATH_IMAGE033
出现
Figure 303065DEST_PATH_IMAGE038
次……我们可以推算出,标签
Figure 938183DEST_PATH_IMAGE031
的权重为
Figure 607062DEST_PATH_IMAGE061
。整个矩阵
Figure 538109DEST_PATH_IMAGE005
内所有标签的权重之和为
Figure 292438DEST_PATH_IMAGE062
。保证权重的总和始终是对该操作预设的权重值。操作A对应的标签数组
Figure 967133DEST_PATH_IMAGE042
对应权重
Figure 490519DEST_PATH_IMAGE043
,这是一个1
Figure 858046DEST_PATH_IMAGE044
的矩阵,其和为
Figure 99671DEST_PATH_IMAGE045
步骤b:计算所有操作下,所有标签的权重,得到7个1
Figure 374795DEST_PATH_IMAGE044
的矩阵。将其组合成一个7
Figure 454484DEST_PATH_IMAGE044
的权重矩阵
Figure 789651DEST_PATH_IMAGE046
步骤c:对照标签矩阵,整理重复标签。例如:
Figure 456255DEST_PATH_IMAGE024
代表的标签与
Figure 535070DEST_PATH_IMAGE047
Figure 767468DEST_PATH_IMAGE048
相同,被记为对象
Figure 539115DEST_PATH_IMAGE049
,那么该标签的总权重就为
Figure 630699DEST_PATH_IMAGE050
。原
Figure 513204DEST_PATH_IMAGE051
化为0,
Figure 865688DEST_PATH_IMAGE052
也化为0。空标签不记录。
步骤d:对矩阵
Figure 244455DEST_PATH_IMAGE046
进行矩阵化简,得到一个最简行阶梯型矩阵:
Figure 682389DEST_PATH_IMAGE063
,并排列大小,整理对应的标签。
步骤e:按照
Figure 40689DEST_PATH_IMAGE054
的大小,从高到低,梳理对应标签,组成向量组:
Figure 513259DEST_PATH_IMAGE064
,
Figure 564391DEST_PATH_IMAGE065
,…(
Figure 489622DEST_PATH_IMAGE066
),得到一系列按照权重高低排列的标签数组。这组标签数组就是用户行为及基础信息综合权重得到的用户画像标签。
下面以用户张三为例:
用户张三在管理员设定的30天里。
下载了文档中含有标签
Figure 448351DEST_PATH_IMAGE067
5次,
Figure 509848DEST_PATH_IMAGE068
6次,
Figure 794199DEST_PATH_IMAGE069
2次,
Figure 840347DEST_PATH_IMAGE070
2次,
Figure 868345DEST_PATH_IMAGE071
1次,
Figure 987611DEST_PATH_IMAGE072
1次。下载的权重设为5,
那么下载相关标签中,
Figure 177284DEST_PATH_IMAGE067
的权重为:
Figure 811528DEST_PATH_IMAGE073
Figure 377638DEST_PATH_IMAGE068
的权重为
Figure 820252DEST_PATH_IMAGE074
Figure 180826DEST_PATH_IMAGE069
的权重为
Figure 800901DEST_PATH_IMAGE075
Figure 170703DEST_PATH_IMAGE070
的权重为
Figure 61298DEST_PATH_IMAGE075
Figure 999298DEST_PATH_IMAGE071
的权重为
Figure 608134DEST_PATH_IMAGE076
Figure 719310DEST_PATH_IMAGE072
的权重为
Figure 729991DEST_PATH_IMAGE076
提问中含有标签
Figure 432368DEST_PATH_IMAGE077
3次,提问的权重为4,
那么提问相关标签中,
Figure 528500DEST_PATH_IMAGE077
的权重为
Figure 879585DEST_PATH_IMAGE078
部门标签中,权重为10,
含有标签
Figure 744772DEST_PATH_IMAGE079
Figure 883630DEST_PATH_IMAGE080
,标签
Figure 201479DEST_PATH_IMAGE079
权重为5,
Figure 451194DEST_PATH_IMAGE080
权重为5
下载重点标签
Figure 374151DEST_PATH_IMAGE068
和提问的标签
Figure 683910DEST_PATH_IMAGE077
重复,计算为一个标签,总权重为
Figure 895579DEST_PATH_IMAGE081
,;部门标签中
Figure 948986DEST_PATH_IMAGE079
Figure 21722DEST_PATH_IMAGE071
重复,总权重为
Figure 502382DEST_PATH_IMAGE082
;部门标签中
Figure 794823DEST_PATH_IMAGE080
Figure 792866DEST_PATH_IMAGE072
重复,总权重为
Figure 487152DEST_PATH_IMAGE083
用户张三的个人标签,权重由高到低排列为:
Figure 873134DEST_PATH_IMAGE084
Figure 918451DEST_PATH_IMAGE085
Figure 251343DEST_PATH_IMAGE086
Figure 800136DEST_PATH_IMAGE087
Figure 533518DEST_PATH_IMAGE088
Figure 800551DEST_PATH_IMAGE089
Figure 999451DEST_PATH_IMAGE090
……。
根据得出的标签权重,系统进行赋权搜索,得出基于用户画像的知识相似推荐。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (1)

1.用户画像知识相似度计算方法,其特征在于:包括以下步骤
步骤一:统计影响用户画像的标准行为及基础属性,所述标准行为包括查看、点赞、分享、收藏、下载、评论和提问,所述基础属性包括部门、岗位、角色和专业;
步骤二:给标准行为及基础属性分配权重,设定每个参数的权重
Figure 261653DEST_PATH_IMAGE001
,并记为
Figure 487972DEST_PATH_IMAGE002
,具体为:
所述标准行为选取下载、提问、收藏、分享、评论5种行为操作,所述基础属性选取部门和岗位,合计7个参数;
每个参数的权重
Figure 445564DEST_PATH_IMAGE003
可表示为
Figure 651417DEST_PATH_IMAGE004
标签矩阵具体可表示为:
Figure 643644DEST_PATH_IMAGE005
Figure 542330DEST_PATH_IMAGE006
Figure 987218DEST_PATH_IMAGE007
Figure 996762DEST_PATH_IMAGE008
Figure 905812DEST_PATH_IMAGE009
Figure 709820DEST_PATH_IMAGE010
Figure 406119DEST_PATH_IMAGE011
加权矩阵具体为:
Figure 891458DEST_PATH_IMAGE012
Figure 592698DEST_PATH_IMAGE013
Figure 567607DEST_PATH_IMAGE014
Figure 252666DEST_PATH_IMAGE015
Figure 604013DEST_PATH_IMAGE016
Figure 923874DEST_PATH_IMAGE017
Figure 335263DEST_PATH_IMAGE018
步骤三:抽取标准行为记录及基础属性标签,记录用户行为日志表,记录用户标准行为所关联的行为标签,记录用户基础属性关联的属性标签,行为标签和属性标签合并称为知识标签;
步骤四:根据知识标签,整理成标签矩阵,标准行为依次用大写字母表示,得到标签矩阵
Figure 38777DEST_PATH_IMAGE005
Figure 928236DEST_PATH_IMAGE006
Figure 869647DEST_PATH_IMAGE007
Figure 186359DEST_PATH_IMAGE008
Figure 580431DEST_PATH_IMAGE019
,其中n表示标准行为的对象个数,m表示设定的选取关联标签的个数;
标签矩阵
Figure 273581DEST_PATH_IMAGE005
的具体获得过程为:
用户的标准行为A的对象有
Figure 803919DEST_PATH_IMAGE020
个,每个对象有
Figure 61506DEST_PATH_IMAGE021
个标签,得到一个知识相关联的标签矩阵:
Figure 942874DEST_PATH_IMAGE022
,将其记为矩阵
Figure 174135DEST_PATH_IMAGE005
(
Figure 824560DEST_PATH_IMAGE023
),其中,
Figure 545391DEST_PATH_IMAGE024
为标准行为A的第
Figure 914055DEST_PATH_IMAGE025
个对象的第
Figure 949008DEST_PATH_IMAGE026
个标签;
取每个对象最多关联5个标签,即
Figure 453938DEST_PATH_IMAGE027
,当对象
Figure 548933DEST_PATH_IMAGE025
的标签数小于5时,则超过对象
Figure 903429DEST_PATH_IMAGE025
标签数的
Figure 210913DEST_PATH_IMAGE024
为空值;
步骤五:对标签矩阵内的每个标签赋权,得到加权矩阵
Figure 835930DEST_PATH_IMAGE012
Figure 101826DEST_PATH_IMAGE013
Figure 179504DEST_PATH_IMAGE014
Figure 821837DEST_PATH_IMAGE015
Figure 98098DEST_PATH_IMAGE019
Figure 534896DEST_PATH_IMAGE028
其中每一项标签都可以表现为
Figure 99869DEST_PATH_IMAGE029
步骤六:汇集知识标签,分析并合并所有加权矩阵,统一标签计量维度,得到用户画像并推荐相似知识,具体过程为:
步骤a:记录标签
Figure 513271DEST_PATH_IMAGE030
为对象
Figure 112879DEST_PATH_IMAGE031
,记录标签
Figure 720578DEST_PATH_IMAGE032
为对象
Figure 507268DEST_PATH_IMAGE033
Figure 225826DEST_PATH_IMAGE019
,记录标签
Figure 679941DEST_PATH_IMAGE034
为对象
Figure 458541DEST_PATH_IMAGE035
,当遇到重复标签时,仅增加对象权重,不新增标签对象,
统计矩阵
Figure 998107DEST_PATH_IMAGE005
内的标签权重,矩阵
Figure 317093DEST_PATH_IMAGE005
内最多有
Figure 124249DEST_PATH_IMAGE036
个标签,其中对象
Figure 73751DEST_PATH_IMAGE031
出现
Figure 569454DEST_PATH_IMAGE037
次,对象
Figure 895393DEST_PATH_IMAGE033
出现
Figure 58521DEST_PATH_IMAGE038
次,……,对象
Figure 178924DEST_PATH_IMAGE035
出现
Figure 693082DEST_PATH_IMAGE039
次,推算出对象
Figure 557133DEST_PATH_IMAGE031
的权重为
Figure 371505DEST_PATH_IMAGE040
,整个矩阵
Figure 421064DEST_PATH_IMAGE005
内所有标签的权重之和为
Figure 156939DEST_PATH_IMAGE041
,保证权重的总和始终是对该操作预设的权重值,标准行为A对应的标签数组
Figure 559102DEST_PATH_IMAGE042
对应权重
Figure 696822DEST_PATH_IMAGE043
,这是一个1
Figure 159027DEST_PATH_IMAGE044
的矩阵,其和为
Figure 116619DEST_PATH_IMAGE045
步骤b:计算所有标准行为下,所有标签的权重,得到7个1
Figure 588052DEST_PATH_IMAGE044
的矩阵,将其组合成一个7
Figure 580278DEST_PATH_IMAGE044
的权重矩阵
Figure 711920DEST_PATH_IMAGE046
步骤c:对照标签矩阵,整理重复标签,若
Figure 219125DEST_PATH_IMAGE024
代表的标签与
Figure 228669DEST_PATH_IMAGE047
Figure 75402DEST_PATH_IMAGE048
相同,被记为对象
Figure 144990DEST_PATH_IMAGE049
,那么该标签的总权重就为
Figure 77174DEST_PATH_IMAGE050
,原
Figure 624830DEST_PATH_IMAGE051
化为0,
Figure 591649DEST_PATH_IMAGE052
也化为0,空标签不记录;
步骤d:对权重矩阵
Figure 566558DEST_PATH_IMAGE046
进行矩阵化简,得到一个最简行阶梯型矩阵:
Figure 750152DEST_PATH_IMAGE053
,并排列大小,整理对应的标签;
步骤e:按照
Figure 101499DEST_PATH_IMAGE054
的大小,从高到低,梳理对应标签,组成向量组:
Figure 922825DEST_PATH_IMAGE055
得到一系列按照权重高低排列的标签数组,标签数组就是用户行为及基础信息综合权重得到的用户画像标签。
CN202010856930.2A 2020-08-24 2020-08-24 用户画像知识相似度计算方法 Active CN111737588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010856930.2A CN111737588B (zh) 2020-08-24 2020-08-24 用户画像知识相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010856930.2A CN111737588B (zh) 2020-08-24 2020-08-24 用户画像知识相似度计算方法

Publications (2)

Publication Number Publication Date
CN111737588A true CN111737588A (zh) 2020-10-02
CN111737588B CN111737588B (zh) 2021-01-08

Family

ID=72658767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010856930.2A Active CN111737588B (zh) 2020-08-24 2020-08-24 用户画像知识相似度计算方法

Country Status (1)

Country Link
CN (1) CN111737588B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867016A (zh) * 2012-07-18 2013-01-09 北京开心人信息技术有限公司 一种基于标签的社交网络用户兴趣挖掘方法与装置
CN107590675A (zh) * 2017-07-25 2018-01-16 广州智选网络科技有限公司 一种基于大数据的用户购物行为识别方法、储存设备及移动终端
CN108256119A (zh) * 2018-02-14 2018-07-06 北京方正阿帕比技术有限公司 一种资源推荐模型的构建方法及基于该模型的资源推荐方法
CN111538751A (zh) * 2020-03-23 2020-08-14 重庆特斯联智慧科技股份有限公司 物联网数据的标签化用户画像生成系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867016A (zh) * 2012-07-18 2013-01-09 北京开心人信息技术有限公司 一种基于标签的社交网络用户兴趣挖掘方法与装置
CN107590675A (zh) * 2017-07-25 2018-01-16 广州智选网络科技有限公司 一种基于大数据的用户购物行为识别方法、储存设备及移动终端
CN108256119A (zh) * 2018-02-14 2018-07-06 北京方正阿帕比技术有限公司 一种资源推荐模型的构建方法及基于该模型的资源推荐方法
CN111538751A (zh) * 2020-03-23 2020-08-14 重庆特斯联智慧科技股份有限公司 物联网数据的标签化用户画像生成系统及方法

Also Published As

Publication number Publication date
CN111737588B (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
Kershaw Jr et al. Forest mensuration
Gardener Statistics for ecologists using R and Excel: data collection, exploration, analysis and presentation
Cook et al. Applied regression including computing and graphics
US10191968B2 (en) Automated data analysis
Goldberg et al. On phylogenetic tests of irreversible evolution
US10503756B2 (en) Cluster processing and ranking methods including methods applicable to clusters developed through density based merging
WO2000010103A1 (fr) Procede et dispositif de recuperation, de stockage et de triage de donnees formatees en tableaux
CN110222331B (zh) 谎言识别方法及装置、存储介质、计算机设备
CN110929203A (zh) 异常用户的识别方法、装置、设备及存储介质
CN111581486B (zh) 一种信息分配方法及装置
Kang Efficient SAS programs for computing path coefficients and index weights for selection indices
CN112347352A (zh) 一种课程推荐方法、装置及存储介质
Fennell et al. Predicting and explaining behavioral data with structured feature space decomposition
Jain et al. AgriBot: agriculture-specific question answer system
CN115345530A (zh) 商场地址推荐方法、装置、设备及计算机可读存储介质
CN115101160A (zh) 药品销售数据挖掘和检索方法及装置
Møller et al. Mechanistic spatio-temporal point process models for marked point processes, with a view to forest stand data
CN116703328B (zh) 一种项目评审方法及系统
CN111737588B (zh) 用户画像知识相似度计算方法
CN111767474A (zh) 一种基于用户操作行为构建用户画像的方法及设备
Upton et al. Introducing statistics
Sinha Uses of multivariate methods in the study of stored-grain ecosystems
CN115375484A (zh) 基于矩阵分解的保险产品提取方法和装置、设备及介质
Feoli et al. Validation of phytosociological classifications based on a fuzzy set approach
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant