CN111737588B - 用户画像知识相似度计算方法 - Google Patents

用户画像知识相似度计算方法 Download PDF

Info

Publication number
CN111737588B
CN111737588B CN202010856930.2A CN202010856930A CN111737588B CN 111737588 B CN111737588 B CN 111737588B CN 202010856930 A CN202010856930 A CN 202010856930A CN 111737588 B CN111737588 B CN 111737588B
Authority
CN
China
Prior art keywords
label
knowledge
user
matrix
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010856930.2A
Other languages
English (en)
Other versions
CN111737588A (zh
Inventor
曹保龙
彭天颖
王磊
卢浩然
周苏霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Guorui Xinwei Software Co ltd
Original Assignee
Nanjing Guorui Xinwei Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Guorui Xinwei Software Co ltd filed Critical Nanjing Guorui Xinwei Software Co ltd
Priority to CN202010856930.2A priority Critical patent/CN111737588B/zh
Publication of CN111737588A publication Critical patent/CN111737588A/zh
Application granted granted Critical
Publication of CN111737588B publication Critical patent/CN111737588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了用户画像知识相似度计算方法,属于智能分析技术领域,首先,规定用户的重要行为及个人基础属性选取个数及以及具体行为操作和属性内容。其次,对每项用户行为及用户属性的进行参数赋权,决定用户行为和用户属性在整体知识相似度计算中的比重值。抽取用户的行为记录和属性,统计用户行为访问过知识关联的标签,并对标签一一赋权。最后,汇集用户知识标签的总体权重值,根据权重高低排序,得出用户知识画像。本发明基于用户行为操作及个人基础属性的参数权重计算知识相似度,通过用户的具体行为操作绘制用户画像,并相应地返回适配的相似知识。该方法的知识推荐准确度高,推荐比例可以动态调整,操作便捷。

Description

用户画像知识相似度计算方法
技术领域
本发明涉及一种用户画像知识相似度计算方法,属于智能分析技术领域。
背景技术
当今是一个海量数据的时代,用户在各网站都能接收到大量信息。这其中有很大一部分都是无效、重复、或者用户不感兴趣的垃圾流量。用户在查询知识时需要花费大量的时间、精力来遍历搜索结果,或在茫茫知识库中打捞。为了向用户精准投放符合用户行为习惯及个人特征的相似知识,需要一种能够动态调整权重比例,并按照单篇知识的标签进行统计,得出用户知识画像和个人知识标签,进行动态知识相似推荐。
发明内容
为了解决上述技术问题,本发明提供一种用户画像知识相似度计算方法,其具体技术方案如下:
用户画像知识相似度计算方法,其特征在于:包括以下步骤
步骤一:统计影响用户画像的标准行为及基础属性,所述标准行为包括查看、点赞、分享、收藏、下载、评论和提问,所述基础属性包括部门、岗位、角色和专业;
步骤二:给标准行为及基础属性分配权重,设定每个参数的权重
Figure 607473DEST_PATH_IMAGE001
,并记为
Figure 542063DEST_PATH_IMAGE002
,具体为:
所述标准行为选取下载、提问、收藏、分享、评论5种行为操作,所述基础属性选取部门和岗位,合计7个参数;
每个参数的权重
Figure 911864DEST_PATH_IMAGE003
可表示为
Figure 130356DEST_PATH_IMAGE004
标签矩阵具体可表示为:
Figure 927410DEST_PATH_IMAGE005
Figure 349296DEST_PATH_IMAGE006
Figure 257209DEST_PATH_IMAGE007
Figure 330207DEST_PATH_IMAGE008
Figure 298163DEST_PATH_IMAGE009
Figure 204415DEST_PATH_IMAGE010
Figure 916019DEST_PATH_IMAGE011
加权矩阵具体为:
Figure 843523DEST_PATH_IMAGE012
Figure 982381DEST_PATH_IMAGE013
Figure 378858DEST_PATH_IMAGE014
Figure 894153DEST_PATH_IMAGE015
Figure 676164DEST_PATH_IMAGE016
Figure 985923DEST_PATH_IMAGE017
Figure 869696DEST_PATH_IMAGE018
步骤三:抽取标准行为记录及基础属性标签,记录用户行为日志表,记录用户标准行为所关联的行为标签,记录用户基础属性关联的属性标签,行为标签和属性标签合并称为知识标签;
步骤四:根据知识标签,整理成标签矩阵,标准行为依次用大写字母表示,得到标签矩阵
Figure 923103DEST_PATH_IMAGE005
Figure 825200DEST_PATH_IMAGE006
Figure 118909DEST_PATH_IMAGE007
Figure 676930DEST_PATH_IMAGE008
Figure 330765DEST_PATH_IMAGE019
,其中n表示标准行为的对象个数,m表示设定的选取关联标签的个数;
标签矩阵
Figure 25051DEST_PATH_IMAGE005
的具体获得过程为:
用户的标准行为A的对象有
Figure 758171DEST_PATH_IMAGE020
个,每个对象有
Figure 537908DEST_PATH_IMAGE021
个标签,得到一个知识相关联的标签矩阵:
Figure 995434DEST_PATH_IMAGE022
,将其记为矩阵
Figure 809806DEST_PATH_IMAGE005
(
Figure 445318DEST_PATH_IMAGE023
),其中,
Figure 712351DEST_PATH_IMAGE024
为标准行为A的第
Figure 973568DEST_PATH_IMAGE025
个对象的第
Figure 642447DEST_PATH_IMAGE026
个标签;
取每个对象最多关联5个标签,即
Figure 448860DEST_PATH_IMAGE027
,当对象
Figure 203190DEST_PATH_IMAGE025
的标签数小于5时,则超过对象
Figure 2518DEST_PATH_IMAGE025
标签数的
Figure 525904DEST_PATH_IMAGE024
为空值;
步骤五:对标签矩阵内的每个标签赋权,得到加权矩阵
Figure 768797DEST_PATH_IMAGE012
Figure 10423DEST_PATH_IMAGE013
Figure 347863DEST_PATH_IMAGE014
Figure 991334DEST_PATH_IMAGE015
Figure 326501DEST_PATH_IMAGE019
Figure 865542DEST_PATH_IMAGE028
其中每一项标签都可以表现为
Figure 944356DEST_PATH_IMAGE029
步骤六:汇集知识标签,分析并合并所有加权矩阵,统一标签计量维度,得到用户画像并推荐相似知识,具体过程为:
步骤a:记录标签
Figure 504651DEST_PATH_IMAGE030
为对象
Figure 276297DEST_PATH_IMAGE031
,记录标签
Figure 39985DEST_PATH_IMAGE032
为对象
Figure 922491DEST_PATH_IMAGE033
Figure 337291DEST_PATH_IMAGE019
,记录标签
Figure 279840DEST_PATH_IMAGE034
为对象
Figure 530824DEST_PATH_IMAGE035
,当遇到重复标签时,仅增加对象权重,不新增标签对象,
统计矩阵
Figure 951441DEST_PATH_IMAGE005
内的标签权重,矩阵
Figure 486327DEST_PATH_IMAGE005
内最多有
Figure 599777DEST_PATH_IMAGE036
个标签,其中对象
Figure 338057DEST_PATH_IMAGE031
出现
Figure 562365DEST_PATH_IMAGE037
次,对象
Figure 686178DEST_PATH_IMAGE033
出现
Figure 970529DEST_PATH_IMAGE038
次,……,对象
Figure 187316DEST_PATH_IMAGE035
出现
Figure 215315DEST_PATH_IMAGE039
次,推算出对象
Figure 459215DEST_PATH_IMAGE031
的权重为
Figure 648888DEST_PATH_IMAGE040
,整个矩阵
Figure 361760DEST_PATH_IMAGE005
内所有标签的权重之和为
Figure 927870DEST_PATH_IMAGE041
,保证权重的总和始终是对该操作预设的权重值,标准行为A对应的标签数组
Figure 291856DEST_PATH_IMAGE042
对应权重
Figure 652430DEST_PATH_IMAGE043
,这是一个1
Figure 852598DEST_PATH_IMAGE044
的矩阵,其和为
Figure 222399DEST_PATH_IMAGE045
步骤b:计算所有标准行为下,所有标签的权重,得到7个1
Figure 175312DEST_PATH_IMAGE044
的矩阵,将其组合成一个7
Figure 972367DEST_PATH_IMAGE044
的权重矩阵
Figure 394252DEST_PATH_IMAGE046
步骤c:对照标签矩阵,整理重复标签,若
Figure 567744DEST_PATH_IMAGE024
代表的标签与
Figure 640742DEST_PATH_IMAGE047
Figure 608698DEST_PATH_IMAGE048
相同,被记为对象
Figure 514950DEST_PATH_IMAGE049
,那么该标签的总权重就为
Figure 226554DEST_PATH_IMAGE050
,原
Figure 154059DEST_PATH_IMAGE051
化为0,
Figure 292916DEST_PATH_IMAGE052
也化为0,空标签不记录;
步骤d:对权重矩阵
Figure 689394DEST_PATH_IMAGE046
进行矩阵化简,得到一个最简行阶梯型矩阵:
Figure 939109DEST_PATH_IMAGE053
,并排列大小,整理对应的标签;
步骤e:按照
Figure 986700DEST_PATH_IMAGE054
的大小,从高到低,梳理对应标签,组成向量组:
Figure 296458DEST_PATH_IMAGE055
得到一系列按照权重高低排列的标签数组,标签数组就是用户行为及基础信息综合权重得到的用户画像标签。
本发明的有益效果是:
本发明通过对用户的行为操作及个人属性进行分析,记录操作相关知识的标签,并动态赋权,得到实时更新的用户知识画像。通过用户画像知识相似度的计算方法,量化用户对知识的关注度,明确用户的知识标签占比,为精准投放符合用户行为习惯及个人特征的相似知识提供了方法论。
附图说明
图1是本发明的流程图。
具体实施方式
如图1所示,本发明的用户画像知识相似度计算方法,包括以下步骤:
步骤一:统计影响用户画像的标准行为及基础属性,标准行为包括查看、点赞、分享、收藏、下载、评论、提问,所述基础属性包括部门、岗位、角色、专业;本发明选取了用户的下载、提问、收藏、分享、评论5种标准行为(行为操作)及部门、岗位两种用户基础属性,合计7个参数。
步骤二:给标准行为及基础属性分配权重,设定每个参数的权重
Figure 180232DEST_PATH_IMAGE001
,并记为
Figure 233639DEST_PATH_IMAGE003
,本发明共有7项计算值,取
Figure 135735DEST_PATH_IMAGE056
步骤三:抽取标准行为记录及基础属性标签,记录用户行为日志表,记录用户标准行为所关联的行为标签,记录用户基础属性关联的属性标签,行为标签和属性标签合并称为知识标签;
步骤四:根据知识标签,整理成标签矩阵,标准行为依次用大写字母表示,得到标签矩阵
Figure 616395DEST_PATH_IMAGE005
Figure 721886DEST_PATH_IMAGE006
Figure 578983DEST_PATH_IMAGE007
Figure 335587DEST_PATH_IMAGE008
Figure 987148DEST_PATH_IMAGE019
,其中n表示标准行为的对象个数,m表示设定的选取关联标签的个数。
以用户的标准行为(行为操作)A为例(下载操作),用户行为操作A的对象有
Figure 848443DEST_PATH_IMAGE020
个(下载
Figure 243653DEST_PATH_IMAGE020
篇知识),每篇知识有
Figure 854762DEST_PATH_IMAGE021
个标签,那么可以得到一个知识相关联的标签矩阵:
Figure 942804DEST_PATH_IMAGE022
,将其记为矩阵
Figure 22887DEST_PATH_IMAGE005
(
Figure 221787DEST_PATH_IMAGE057
)(每项知识最多关联5个标签)。其中,
Figure 61305DEST_PATH_IMAGE024
为操作A的第
Figure 320248DEST_PATH_IMAGE025
篇知识的第
Figure 887626DEST_PATH_IMAGE026
个标签。如果知识
Figure 686955DEST_PATH_IMAGE025
只有3个标签,则
Figure 210340DEST_PATH_IMAGE058
Figure 280383DEST_PATH_IMAGE059
都为空值。
步骤五:对矩阵内的每个标签赋权,得到加权矩阵
Figure 256429DEST_PATH_IMAGE012
Figure 859448DEST_PATH_IMAGE060
其中每一项标签都可以表现为
Figure 502919DEST_PATH_IMAGE029
对余下的4个操作及两种基础信息做同样的赋权工作,一共得到7个加权矩阵:
Figure 651135DEST_PATH_IMAGE012
Figure 380057DEST_PATH_IMAGE013
Figure 521188DEST_PATH_IMAGE014
Figure 19165DEST_PATH_IMAGE015
Figure 338282DEST_PATH_IMAGE016
Figure 554500DEST_PATH_IMAGE017
Figure 499322DEST_PATH_IMAGE018
步骤六:汇集知识标签,分析并合并所有加权矩阵,统一标签计量维度,得到用户画像并推荐相似知识:
步骤a:记录标签
Figure 851806DEST_PATH_IMAGE030
为对象
Figure 607404DEST_PATH_IMAGE031
,记录标签
Figure 45338DEST_PATH_IMAGE032
对象
Figure 528272DEST_PATH_IMAGE033
,以此类推。当遇到重复标签时,仅增加对象权重,不新增标签对象。首先统计矩阵
Figure 842DEST_PATH_IMAGE005
内的标签权重。矩阵
Figure 658832DEST_PATH_IMAGE005
内最多有
Figure 584063DEST_PATH_IMAGE036
个标签,其中标签
Figure 870687DEST_PATH_IMAGE031
出现
Figure 197764DEST_PATH_IMAGE037
次,标签
Figure 295164DEST_PATH_IMAGE033
出现
Figure 707691DEST_PATH_IMAGE038
次……我们可以推算出,标签
Figure 532427DEST_PATH_IMAGE031
的权重为
Figure 714010DEST_PATH_IMAGE061
。整个矩阵
Figure 982311DEST_PATH_IMAGE005
内所有标签的权重之和为:
Figure 882134DEST_PATH_IMAGE062
。保证权重的总和始终是对该操作预设的权重值。操作A对应的标签数组
Figure 510561DEST_PATH_IMAGE042
对应权重
Figure 546651DEST_PATH_IMAGE043
,这是一个1
Figure 985853DEST_PATH_IMAGE044
的矩阵,其和为
Figure 372972DEST_PATH_IMAGE045
步骤b:计算所有操作下,所有标签的权重,得到7个1
Figure 539511DEST_PATH_IMAGE044
的矩阵。将其组合成一个7
Figure 695686DEST_PATH_IMAGE044
的权重矩阵
Figure 492741DEST_PATH_IMAGE046
步骤c:对照标签矩阵,整理重复标签。例如:
Figure 917556DEST_PATH_IMAGE024
代表的标签与
Figure 91048DEST_PATH_IMAGE047
Figure 164046DEST_PATH_IMAGE048
相同,被记为对象
Figure 132002DEST_PATH_IMAGE049
,那么该标签的总权重就为
Figure 41184DEST_PATH_IMAGE050
。原
Figure 487209DEST_PATH_IMAGE051
化为0,
Figure 680293DEST_PATH_IMAGE052
也化为0。空标签不记录。
步骤d:对矩阵
Figure 819150DEST_PATH_IMAGE046
进行矩阵化简,得到一个最简行阶梯型矩阵:
Figure 215627DEST_PATH_IMAGE063
,并排列大小,整理对应的标签。
步骤e:按照
Figure 465343DEST_PATH_IMAGE054
的大小,从高到低,梳理对应标签,组成向量组:
Figure 512933DEST_PATH_IMAGE064
,
Figure 822692DEST_PATH_IMAGE065
,…(
Figure 706466DEST_PATH_IMAGE066
),得到一系列按照权重高低排列的标签数组。
这组标签数组就是用户行为及基础信息综合权重得到的用户画像标签。
下面以用户张三为例:
用户张三在管理员设定的30天里。
下载了文档中含有标签
Figure 759872DEST_PATH_IMAGE067
5次,
Figure 661969DEST_PATH_IMAGE068
6次,
Figure 142629DEST_PATH_IMAGE069
2次,
Figure 245190DEST_PATH_IMAGE070
2次,
Figure 102287DEST_PATH_IMAGE071
1次,
Figure 858891DEST_PATH_IMAGE072
1次。下载的权重设为5,
那么下载相关标签中,
Figure 510452DEST_PATH_IMAGE067
的权重为:
Figure 368818DEST_PATH_IMAGE073
Figure 764027DEST_PATH_IMAGE068
的权重为
Figure 375137DEST_PATH_IMAGE074
Figure 463179DEST_PATH_IMAGE069
的权重为
Figure 543261DEST_PATH_IMAGE075
Figure 476582DEST_PATH_IMAGE070
的权重为
Figure 207778DEST_PATH_IMAGE075
Figure 466721DEST_PATH_IMAGE071
的权重为
Figure 955471DEST_PATH_IMAGE076
Figure 771111DEST_PATH_IMAGE072
的权重为
Figure 294496DEST_PATH_IMAGE076
提问中含有标签
Figure 521078DEST_PATH_IMAGE077
3次,提问的权重为4,
那么提问相关标签中,
Figure 762704DEST_PATH_IMAGE077
的权重为
Figure 107667DEST_PATH_IMAGE078
部门标签中,权重为10,
含有标签
Figure 485559DEST_PATH_IMAGE079
Figure 148621DEST_PATH_IMAGE080
,标签
Figure 611964DEST_PATH_IMAGE079
权重为5,
Figure 769407DEST_PATH_IMAGE080
权重为5,
下载重点标签
Figure 267384DEST_PATH_IMAGE068
和提问的标签
Figure 835769DEST_PATH_IMAGE077
重复,计算为一个标签,总权重为
Figure 51986DEST_PATH_IMAGE081
;部门标签中
Figure 747541DEST_PATH_IMAGE079
Figure 100025DEST_PATH_IMAGE071
重复,总权重为
Figure 839311DEST_PATH_IMAGE082
;部门标签中
Figure 277245DEST_PATH_IMAGE080
Figure 776491DEST_PATH_IMAGE072
重复,总权重为
Figure 983481DEST_PATH_IMAGE083
用户张三的个人标签,权重由高到低排列为:
Figure 159248DEST_PATH_IMAGE084
Figure 84478DEST_PATH_IMAGE085
Figure 118906DEST_PATH_IMAGE086
Figure 445982DEST_PATH_IMAGE087
Figure 792650DEST_PATH_IMAGE088
Figure 939597DEST_PATH_IMAGE089
Figure 780646DEST_PATH_IMAGE090
,……
根据得出的标签权重,系统进行赋权搜索,得出基于用户画像的知识相似推荐。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (1)

1.用户画像知识相似度计算方法,其特征在于:包括以下步骤:
步骤一:统计影响用户画像的标准行为及基础属性;
步骤二:给标准行为及基础属性分配权重,标准行为选取下载、提问、收藏、分享、评论5种行为操作,所述基础属性选取部门和岗位,合计7个参数,设定每个参数的权重,依次记为
Figure 460262DEST_PATH_IMAGE001
步骤三:抽取标准行为记录及基础属性标签,记录用户行为日志表,记录用户标准行为所关联的行为标签,记录用户基础属性关联的属性标签,行为标签和属性标签合并称为知识标签;
步骤四:根据知识标签,整理成标签矩阵,知识标签依次用大写字母表示,得到知识标签矩阵
Figure 970878DEST_PATH_IMAGE002
Figure 547353DEST_PATH_IMAGE003
Figure 4879DEST_PATH_IMAGE004
Figure 288093DEST_PATH_IMAGE005
Figure 704031DEST_PATH_IMAGE006
Figure 439906DEST_PATH_IMAGE007
Figure 232281DEST_PATH_IMAGE008
;其中n表示标准行为和基础属性对应的知识个数,m表示每个知识设定的选取关联标签的个数;
其中,标签矩阵
Figure 229056DEST_PATH_IMAGE002
的具体获得过程为:
用户的标准行为A的知识有
Figure 691261DEST_PATH_IMAGE009
个,
Figure 39066DEST_PATH_IMAGE010
,每个知识有
Figure 979340DEST_PATH_IMAGE011
个标签,得到一个知识相关联的标签矩阵:
Figure 96201DEST_PATH_IMAGE012
,将其记为标签矩阵
Figure 853941DEST_PATH_IMAGE002
,其中,
Figure 298829DEST_PATH_IMAGE013
为标准行为A的第
Figure 167428DEST_PATH_IMAGE014
个知识的第
Figure 279741DEST_PATH_IMAGE015
个标签;
取每个知识最多关联5个标签,即
Figure 208382DEST_PATH_IMAGE016
,当标准行为A的第
Figure 406145DEST_PATH_IMAGE014
个知识的标签个数小于5时,则超过实际标签数的
Figure 78435DEST_PATH_IMAGE017
为空值;
步骤五:对标签矩阵内的每个标签赋权,得到加权矩阵
Figure 310833DEST_PATH_IMAGE018
Figure 675956DEST_PATH_IMAGE019
Figure 95436DEST_PATH_IMAGE020
Figure 571416DEST_PATH_IMAGE021
Figure 392742DEST_PATH_IMAGE022
Figure 928765DEST_PATH_IMAGE023
Figure 835542DEST_PATH_IMAGE024
其中,
Figure 849634DEST_PATH_IMAGE025
其中每一项标签都表现为
Figure 791045DEST_PATH_IMAGE026
,1
Figure 497970DEST_PATH_IMAGE027
i
Figure 157621DEST_PATH_IMAGE027
n,1
Figure 850771DEST_PATH_IMAGE027
j
Figure 505743DEST_PATH_IMAGE027
m;
步骤六:汇集知识标签,分析并合并所有加权矩阵,统一标签计量维度,得到用户画像并推荐相似知识,具体过程为:
步骤a:记录标签
Figure 258936DEST_PATH_IMAGE028
Figure 264938DEST_PATH_IMAGE029
,记录标签
Figure 761778DEST_PATH_IMAGE030
Figure 536836DEST_PATH_IMAGE031
Figure 460930DEST_PATH_IMAGE032
,记录标签
Figure 688649DEST_PATH_IMAGE033
Figure 723601DEST_PATH_IMAGE034
Figure 618745DEST_PATH_IMAGE032
,记录标签
Figure 448160DEST_PATH_IMAGE035
Figure 428755DEST_PATH_IMAGE036
,当遇到重复标签时,仅增加知识权重,不新增标签个数,
统计标签矩阵
Figure 267398DEST_PATH_IMAGE037
内的标签权重,标签矩阵
Figure 17048DEST_PATH_IMAGE037
内最多有
Figure 282944DEST_PATH_IMAGE038
个标签,其中标签
Figure 485255DEST_PATH_IMAGE039
出现
Figure 127589DEST_PATH_IMAGE040
次,标签
Figure 567683DEST_PATH_IMAGE041
出现
Figure 4481DEST_PATH_IMAGE042
次,……,标签
Figure 694088DEST_PATH_IMAGE043
出现
Figure 140113DEST_PATH_IMAGE044
次,推算出,标签
Figure 474142DEST_PATH_IMAGE045
的权重为
Figure 206475DEST_PATH_IMAGE046
Figure 258745DEST_PATH_IMAGE047
,整个标签矩阵
Figure 101936DEST_PATH_IMAGE037
内所有标签的权重之和为
Figure 556051DEST_PATH_IMAGE048
Figure 724864DEST_PATH_IMAGE049
,保证权重的总和始终是对该操作预设的权重值,标准行为A对应的标签数组
Figure 264430DEST_PATH_IMAGE050
中的各个标签对应的权重为
Figure 911312DEST_PATH_IMAGE051
,这是一个1
Figure 219933DEST_PATH_IMAGE052
的一维矩阵记为
Figure 294069DEST_PATH_IMAGE053
,其权重和为
Figure 55351DEST_PATH_IMAGE054
步骤b:计算所有知识标签的权重,得到7个1
Figure 505924DEST_PATH_IMAGE055
的矩阵,将其组合成一个7
Figure 934632DEST_PATH_IMAGE056
的权重矩阵
Figure 55034DEST_PATH_IMAGE057
步骤c:对照标签矩阵,整理重复标签,若
Figure 428247DEST_PATH_IMAGE058
代表的标签与
Figure 557877DEST_PATH_IMAGE059
代表的标签和
Figure 700145DEST_PATH_IMAGE060
代表的标签相同,那么标签
Figure 257028DEST_PATH_IMAGE058
的最终权重为标签
Figure 117537DEST_PATH_IMAGE058
的权重与
Figure 785279DEST_PATH_IMAGE059
的权重和
Figure 782054DEST_PATH_IMAGE060
的权重的总和,
Figure 775417DEST_PATH_IMAGE059
化为0,
Figure 123222DEST_PATH_IMAGE060
化为0;
步骤d:对矩阵
Figure 329076DEST_PATH_IMAGE061
进行矩阵化简,得到一个最简行阶梯型矩阵:
Figure 445936DEST_PATH_IMAGE062
,并排列大小,整理对应的标签;
步骤e:按照标签权重的大小,从高到低,梳理对应标签,组成权重与标签向量组
Figure 344622DEST_PATH_IMAGE063
Figure 914144DEST_PATH_IMAGE064
,……,其中,
Figure 189267DEST_PATH_IMAGE065
Figure 301580DEST_PATH_IMAGE066
得到一系列按照权重高低排列的标签数组,标签数组就是用户行为及基础信息综合权重得到的用户画像标签。
CN202010856930.2A 2020-08-24 2020-08-24 用户画像知识相似度计算方法 Active CN111737588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010856930.2A CN111737588B (zh) 2020-08-24 2020-08-24 用户画像知识相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010856930.2A CN111737588B (zh) 2020-08-24 2020-08-24 用户画像知识相似度计算方法

Publications (2)

Publication Number Publication Date
CN111737588A CN111737588A (zh) 2020-10-02
CN111737588B true CN111737588B (zh) 2021-01-08

Family

ID=72658767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010856930.2A Active CN111737588B (zh) 2020-08-24 2020-08-24 用户画像知识相似度计算方法

Country Status (1)

Country Link
CN (1) CN111737588B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867016A (zh) * 2012-07-18 2013-01-09 北京开心人信息技术有限公司 一种基于标签的社交网络用户兴趣挖掘方法与装置
CN107590675B (zh) * 2017-07-25 2021-01-08 广州智选网络科技有限公司 一种基于大数据的用户购物行为识别方法、储存设备及移动终端
CN108256119B (zh) * 2018-02-14 2021-12-28 北京方正阿帕比技术有限公司 一种资源推荐模型的构建方法及基于该模型的资源推荐方法
CN111538751B (zh) * 2020-03-23 2021-05-04 重庆特斯联智慧科技股份有限公司 物联网数据的标签化用户画像生成系统及方法

Also Published As

Publication number Publication date
CN111737588A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
US10191968B2 (en) Automated data analysis
Schumacker et al. Understanding statistics using R
CN109408665A (zh) 一种信息推荐方法及装置、存储介质
CN110008399A (zh) 一种推荐模型的训练方法及装置、一种推荐方法及装置
US10503756B2 (en) Cluster processing and ranking methods including methods applicable to clusters developed through density based merging
CN109299344A (zh) 排序模型的生成方法、搜索结果的排序方法、装置及设备
Jain et al. AgriBot: agriculture-specific question answer system
CN111581486B (zh) 一种信息分配方法及装置
CN112347352A (zh) 一种课程推荐方法、装置及存储介质
Caruana et al. Mining citizen science data to predict orevalence of wild bird species
CN116703328A (zh) 一种项目评审方法及系统
CN115101160A (zh) 药品销售数据挖掘和检索方法及装置
Rastogi Fundamentals Of Biostatistics 2Nd Ed
CN110263207A (zh) 图像搜索方法、装置、设备及计算机可读存储介质
Møller et al. Mechanistic spatio-temporal point process models for marked point processes, with a view to forest stand data
CN111737588B (zh) 用户画像知识相似度计算方法
Xie et al. A combination of boosting and bagging for kdd cup 2009-fast scoring on a large database
Upton et al. Introducing statistics
CN113962335B (zh) 一种可灵活配置的数据全过程处理方法
CN110096708A (zh) 一种定标集确定方法及装置
CN110851661B (zh) 用户id映射关系的确定方法及装置、电子设备
Feoli et al. Validation of phytosociological classifications based on a fuzzy set approach
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
Charest et al. Using balanced iterative reducing and clustering hierarchies to compute approximate rank statistics on massive datasets
US20050033723A1 (en) Method, system, and computer program product for sorting data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant