CN111177538B - 一种基于无监督权值计算的用户兴趣标签构建方法 - Google Patents

一种基于无监督权值计算的用户兴趣标签构建方法 Download PDF

Info

Publication number
CN111177538B
CN111177538B CN201911283767.9A CN201911283767A CN111177538B CN 111177538 B CN111177538 B CN 111177538B CN 201911283767 A CN201911283767 A CN 201911283767A CN 111177538 B CN111177538 B CN 111177538B
Authority
CN
China
Prior art keywords
user
behavior
data
weight
browsing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911283767.9A
Other languages
English (en)
Other versions
CN111177538A (zh
Inventor
张克克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU SHUNWANG TECHNOLOGY CO LTD
Original Assignee
HANGZHOU SHUNWANG TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU SHUNWANG TECHNOLOGY CO LTD filed Critical HANGZHOU SHUNWANG TECHNOLOGY CO LTD
Priority to CN201911283767.9A priority Critical patent/CN111177538B/zh
Publication of CN111177538A publication Critical patent/CN111177538A/zh
Application granted granted Critical
Publication of CN111177538B publication Critical patent/CN111177538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于无监督权值计算的用户兴趣标签构建方法,从用户的行为向量数据中抽样选取部分样本,将用户行为次数作为自变量,将样本内通过排序算法得到的用户行为向量的排名结果作为因变量,代入Logistic回归模型中,最后拟合得到用户行为的最优权重,将计算用户标签权值这种无监督学习转化为监督学习,一方面降低了大数据计算对于资源的要求,另一方面减少了在行为权重计算过程中人为的参与。因此,本发明构建的用户兴趣标签体系可以广泛应用到广告推荐、视频推荐、推荐用户喜爱的商品等领域。

Description

一种基于无监督权值计算的用户兴趣标签构建方法
技术领域
本发明属于用户行为的数据分析技术领域,尤其涉及一种基于无监督权值计算的用户兴趣标签构建方法。
背景技术
随着大数据技术以及互联网技术的发展,企业的业务逐渐从对事物进行分析转向对用户的分析。在大数据信息平台下,用户需求趋向个性化,因此要充分解读用户,构建用户画像是一项关键性的技术;通过对用户画像进行分析,可以为企业提供经营分析、精准营销、个性化推荐等应用,最大化地挖掘潜在的商业价值。
用户画像是根据用户社会属性、上网行为和消费行为等信息抽象出的一个标签化的用户模型。构建用户画像的核心是给用户贴标签,而标签是通过对用户各项信息的分析得来的高度精炼的特征标识。用户标签分成“静态标签”和“动态标签”两类,静态标签通常包括用户的人群属性,如性别、年龄、地域、职业、收入、婚姻状况等;动态标签通常指从用户变化信息而形成的某些特征,如行为属性和购买属性等提取出的标签。
在构建用户画像的过程中首先需要知道用户对相关内容是否感兴趣,即用户的兴趣标签,其次还要考虑用户对不同兴趣标签喜爱的程度即标签的权值。用户标签权值的构建流程是先对用户在某一标签的多种行为量化后,再将用户行为分类到具体标签上,对于同一标签下不同行为的行为次数通过加权求和的方式汇总到该标签上,加权求和的结果表示该标签的权值;如果不同行为加权的权重值设定不准确,将会造成用户的标签权重有所偏差,企业根据用户画像进行精准营销、用户分析等运营活动取得的效果大打折扣,因此计算最优行为权重是十分必要的。
现有的用户画像构建方法中,一些人为判断用户行为重要程度来设置行为权值的方法缺乏科学依据;如对于大多数电商类平台而言,构建用户画像的过程中,将购买、收藏、浏览行为的权重简单的设定为3、2、1,这种人为设置权重的方法,没有充分地考虑到用户的行为数据特征,容易导致最终构建的标签权值与真实情况相差较大。
理论上可以将用户的不同行为次数构建成向量形式,对全部用户的行为向量进行排序,计算出每种行为的权重值,即通过对用户行为数据的清洗、分词处理以及文本分类,获得用户的兴趣标签及行为向量数据,最后通过排序算法计算得到不同用户行为数据的排名。但现实中,由于用户数据规模庞大,排序算法复杂度高,需要耗费大量的计算资源,存在的难度在于用户体量较大,如果通过对全部的用户行为数据进行排序的方法计算用户标签权值,工作量大,考虑到大数据的计算资源,这种方法在实际中较难实现。
发明内容
鉴于上述,本发明提供了一种基于无监督权值计算的用户兴趣标签构建方法,从用户的行为向量数据中抽样选取部分样本,将用户行为次数作为自变量,将样本内通过排序算法得到的用户行为向量的排名结果作为因变量,代入Logistic回归模型中,最后拟合得到用户行为的最优权重,将计算用户标签权值这种无监督学习转化为监督学习,一方面降低了大数据计算对于资源的要求,另一方面减少了在行为权重计算过程中人为的参与。
一种基于无监督权值计算的用户兴趣标签构建方法,包括如下步骤:
(1)对于任一兴趣标签,收集一定数量用户在过去一定时长范围内与该标签相关应用的启动行为数据、搜索行为数据、浏览行为数据;
(2)通过分词处理以及tf-idf(term frequency-inverse document frequency,逆文本频率指数)算法将搜索及浏览行为文本类的非结构化数据转换成结构化数据;
(3)利用时间衰减因子、成本因子和热度因子对以上三种行为数据进行预处理,得到启动行为、搜索行为、浏览行为分别对应的行为次数x1~x3
(4)确定每个用户的行为向量X=(x1,x2,x3,fx),对所有用户的行为向量从大到小进行排序,fx为三种行为次数的频数和;
(5)计算每个参与排序的用户行为向量的概率值p=f/n,f为小于等于本用户行为向量的总向量数,n为参与排序的所有用户行为向量数量;
(6)利用参与排序的所有用户行为向量及其概率值作为输入,对Logistic回归模型进行训练,得到用于计算用户兴趣标签权值的Logistic分布函数,利用该分布函数即可完成用户标签权值的计算和用户兴趣标签的构建。
进一步地,所述启动行为数据是指用户在使用与用户兴趣相关的应用时的启动次数数据,搜索行为数据是指用户搜索与兴趣标签相关的内容数据,浏览行为数据是指用户浏览与兴趣标签相关的页面内容数据。
进一步地,所述步骤(2)的具体实现过程为:首先对于搜索行为数据或浏览行为数据中的每一组内容通过分词处理切分成一个个单词,保留名词、动词以及形容词这三种词性的文本,然后按相关性规则重新组合成新的词序列,进而将分词后的结果按照用户、文本、出现次数输入到tf-idf算法程序中,计算出每个单词的tf-idf值,根据分词前的行为类型获得结构化的搜索行为数据和浏览行为数据。
进一步地,对于任一单词w,通过以下公式计算单词w的tf-idf值;
Figure GDA0004133037500000031
Figure GDA0004133037500000032
tf-idf值=TF*IDF
进一步地,为了提升数据的质量,将分散、凌乱、标准不统一的数据整合到一起,为之后的分析算法提供分析数据,在完成步骤(2)后对启动、搜索、浏览这三种行为的结构化数据进行数据抽取、转换、装载后以统一格式加载进数据库中。
进一步地,所述步骤(3)中对于启动行为数据,则对其进行去除成本因子处理(涉及到时间的数据)、降热度处理以及时间衰减处理(启动次数);对于搜索行为数据或浏览行为数据,则对其进行降热度处理和时间衰减处理。
进一步地,所述步骤(4)中对所有用户行为向量进行排序的标准为:对于任意两个用户,若两者的行为向量分别为R=(r1,r2,r3,fr)和S=(s1,s2,s3,fs),若r1=s1且r2=s2且r3=s3,则判定R=S;若a1>0且a1+a2>0且a1+a2+a3>0,则判定R>S;若a1<0且a1+a2<0且a1+a2+a3<0,则判定R<S;其中ai=si-ri,i=1、2或3,fr和fs分别为行为向量R和S中的频数和,对于其余不满足以上三种判断条件的用户行为向量,则不参与排序。
进一步地,所述步骤(6)中的Logistic回归模型表达式如下:
Figure GDA0004133037500000041
其中:weight(X)中为用户的兴趣标签权值,θ0为常数值,θ1、θ2、θ3分别对应启动、搜索、浏览三种行为的权重系数;训练过程中将用户行为向量中的x1~x3输入至模型中,使用户行为向量的概率值p作为weight(X),从而通过拟合确定θ0、θ1、θ2和θ3的具体数值。
本发明将三种行为(启动应用、搜索、浏览)数据进行清洗、分词处理以及文本分类后映射到具体的兴趣标签,各兴趣标签下的行为次数经过时间衰减、去除成本因子和热度处理之后,记为用户在该种行为下的行为向量;该方法使用户行为真实反映用户兴趣标签,确保分析得到的用户特性更准确。
本发明中基于用户行为权重的优化计算方法在一定程度让数据能够真实反映用户的真实兴趣特征,可以达到提高精准推荐和个性化推荐的效果;据本发明在实际场景中的应用数据显示:在精准广告实际投放中,硬广类转化效果翻倍,图表类点击量提升15%,注册效果提升20%~50%。因此,本发明构建的用户兴趣标签体系可以广泛应用到广告推荐、视频推荐、推荐用户喜爱的商品等领域。
附图说明
图1为用户标签权重密度函数示意图。
图2为用户标签权重累积分布函数示意图。
图3为Logistic分布函数示意图。
图4为本发明基于无监督权值计算的用户兴趣标签构建方法的流程框图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图4所示,本发明基于无监督权值计算的用户兴趣标签构建方法,包括如下步骤:
(1)行为数据获取。
主要获取应用启动行为数据、搜索行为数据、浏览行为数据,应用启动行为数据主要是指用户在使用与用户标签相关的应用时的启动次数等数据;搜索行为数据主要是指与用户标签相关的搜索行为,包括搜索内容数据;浏览行为数据指的是与用户标签相关的浏览行为,包括浏览页面内容数据。其中用户搜索和浏览的内容往往是非结构化的数据,无法直接对其进行分析计算,并且汉字词汇本身构成的一定特殊性,无法像英文一样根据空格进行分割单词,所以需要对搜索和浏览行为内容进行分词处理,保留名词、动词以及形容词三种词性的文本,并对其计算tf-idf值,获取与用户标签相关的搜索与浏览行为数据。分词系统先将搜索或浏览内容切分成一个个单独的词,然后按一定的相关性规则重新组合组成新的词序列,根据行为语料库获得搜索或浏览的字词序列;而tf-idf是评估一个词条在一个文件集或一个文件在一个语料库中重要程度的一种衡量指标,其值越大,表示该值的重要性越高,其中:
Figure GDA0004133037500000051
Figure GDA0004133037500000052
TF-IDF=TF*IDF
通过构建文本分类系统,将分词后的结果映射到具体的兴趣标签,对于启动行为,由于应用本身就有标签属性,例如英雄联盟属于游戏-网络游戏-MOBA类型,故只需建立一张具体应用名称与兴趣标签的映射维度表,通过维度表就可以将应用映射到具体的兴趣标签。用户搜索和浏览数据是将分词后的结果按照用户、文本、出现次数输入到计算tf-idf的程序中,计算出每个单词的tf-idf值,根据分词前的行为类型获得结构化的搜索和浏览的行为数据。
为了提升数据的质量,将分散、凌乱、标准不统一的数据整合到一起,为之后的分析算法提供分析数据,对三种行为的数据进行数据抽取、转换、装载后统一格式加载进数据仓库中。
(2)数据预处理。
从用户行为数据仓库中加载数据,对各行为数据根据实际情况进行成本因子处理、时间衰减处理以及降热度处理。该步骤中,成本因子是衡量用户在应用上花费的时间成本,成本因子越高,表明用户对应用的喜欢程度越高。
Figure GDA0004133037500000061
如果用户的行为不涉及到时间,则该值设为1。
信息随着时间的传播会发生信息量逐渐减少的情况,为了保证信息的准确性和实时性,需要对在用户行为的权重上加上时间衰减的信息,可以根据实际场景选择合适的时间衰减函数进行时间衰减处理,时间衰减因子反应了对用户行为权重热度随时间逐渐冷却的过程,常用的时间衰减函数有:
指数衰减函数Info=e-η(T-t)
幂函数衰减函数Info=0.99(T-t)
Figure GDA0004133037500000062
其中:η表示衰减指数,与信息的重要性有关,T表示当前时间,t表示信息发出的时间,T-t表示距离当前的时间,α表示常数,用来控制信息衰减的快慢。这些函数的计算复杂度、结果的可重复利用情况各不相同,需要结合具体的应用场景选择最合适的时间衰减函数以获得最好的时间衰减处理效果,在本实施方式中我们采用幂函数衰减函数作为时间衰减计算方式。
在本发明研究初期选择使用应用的平均启动次数作为应用的热度因子,发现这种计算方式会使得某款应用的用户较少的情况下,应用的热度也会被下降,考虑到这种因素,通过验证降热度的方式,发现热门游戏与冷门游戏的热度应该相差100倍左右;经过讨论,决定采取线性方式进行降热度,线性降热度公式为:
Figure GDA0004133037500000071
其中,PCx表示应用的启动次数,max(PCj)表示所有应用的最大启动次数,用户的搜索行为和浏览行为的降热度处理方式与应用的启动次数一样。
(3)行为权重计算。
各兴趣标签下不同行为经过时间衰减、去除成本因子和热度因子处理后得到的不同兴趣标签下的行为次数(X1,X2,X3),且对三种行为进行频数统计,记为F,使得到三种行为的行为次数(X1,X2,X3)以及频数和F,作为输入数据X=(X1,X2,X3,F),其行数为n(即用户总数),X1,X2,X3分别代表应用启动、搜索、浏览三种行为经处理后的行为次数。
根据运营经验和先验知识可以知道,各种行为对用户标签的影响程度不同,启动行为>搜索行为>浏览行为。我们希望得到的用户标签权值可以代表用户对标签内容的喜爱程度,其数值越大,代表用户喜爱程度越大;为了让不同标签的用户权值在数值上更具可比性,我们可将用户标签权值的取值范围定为[0,1]。
综上所述,已知所涉及到的三种用户行为所代表的用户对某事物喜爱程度的先后顺序分别是应用启动>搜索>浏览以及经数据处理之后的每种用户行为次数和行为的频数和F,用户权重的取值范围为[0,1]。用户行为次数的分布形态是中间变化快,两边变化慢,如图1用户标签权重密度函数所示,根据图1的用户行为次数的分布形态,可以得到用户标签权重分布函数如图2所示,根据用户标签权重密度函数的形态特征可知大部分的用户行为权重集中在虚线框区域内。
理论上,我们可以对所有用户行为向量X=(X1,X2,X3,F)进行两两排序的方式得到用户行为的排名,直接计算出用户标签权值,由于用户基数大,假设有1亿用户的行为向量,就需要进行1亿×1亿次量级的计算,现有的大数据资源无法满足;图2的用户标签权重累积分布函数与图3的Logistic分布函数相近,因此本发明决定采用Logistic回归作为用户标签权值的计算公式:
Figure GDA0004133037500000072
其中:weight(x)代表用户标签权值,x表示标签计算值,θ0表示常数值,θ1,θ2,θ3表示启动应用、用户搜索、浏览三种行为的行为权重。
对输入向量(X1,X2,X3,F)进行排序,排序方法为:假设排序的两个向量为R=(r1,r2,r3,f)和S=(s1,s2,s3,f),由于f是频数,故对f不做比较;若两个向量中每一个元素都相等则判定R=S;否则,令ai=si-ri,若a1>0且a1+a2>0且a1+a2+a3>0,则R>S;若a1<0且a1+a2<0且a1+a2+a3<0,则R<S,其余情况的无法比较。
对于输入的数据(X1,X2,X3,F),按照上述比较大小的规则统计出小于等于该向量的总向量数f,根据统计的f计算概率
Figure GDA0004133037500000081
由p的数值得到因变量y,即用户标签权值。
由于用户体量庞大,考虑到现有的计算资源,无法对全量的用户行为数据做如上的排序。为了节省大数据资源,本发明抽样选取部分样本,通过如上所述方法得到自变量X和Y,代入模型公式(1)中,计算出权重θ0,θ1,θ2,θ3,最终完成用户标签权值的计算和用户兴趣标签的构建。
本发明根据用户行为次数中间变化快,两边变化慢的形态特征,在图3的用户标签权值累积分布函数中得到大部分的用户标签权值集中在中间上升最快的区域;由于实际中难以完成对全量用户行为向量的两两排序计算,本发明利用Logistic分布函数与用户标签权值累积分布函数相似的特点,如图2和图3所示,采用Logistic回归作为用户标签权值的计算公式,这种方法大大降低了数据计算的资源要求,减少资源耗费。
本发明通过抽样方式选取部分样本,将每个用户行为向量(X1,X2,X3,F)进行排序计算得到用户标签权值,更能合理地反映用户对该兴趣标签的喜爱程度;将计算得到自变量与因变量代入公式(1),通过Logistic回归模型拟合结果得到用户行为的最优权重,实现用户兴趣标签的构建及用户标签的权值计算。因此,本发明方法很好地避免了因人为设定权重存在的误差,使得计算结果能更真实反映用户的兴趣特征。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (7)

1.一种基于无监督权值计算的用户兴趣标签构建方法,包括如下步骤:
(1)对于任一兴趣标签,收集一定数量用户在过去一定时长范围内与该标签相关应用的启动行为数据、搜索行为数据、浏览行为数据;
(2)通过分词处理以及tf-idf算法将搜索及浏览行为文本类的非结构化数据转换成结构化数据;
(3)利用时间衰减因子、成本因子和热度因子对以上三种行为数据进行预处理,得到启动行为、搜索行为、浏览行为分别对应的行为次数x1~x3
(4)确定每个用户的行为向量X=(x1,x2,x3,fx),对所有用户的行为向量从大到小进行排序,fx为三种行为次数的频数和;
(5)计算每个参与排序的用户行为向量的概率值p=f/n,f为小于等于本用户行为向量的总向量数,n为参与排序的所有用户行为向量数量;
(6)利用参与排序的所有用户行为向量及其概率值作为输入,对Logistic回归模型进行训练,得到用于计算用户兴趣标签权值的Logistic分布函数,利用该分布函数即可完成用户标签权值的计算和用户兴趣标签的构建;所述Logistic回归模型的表达式如下:
Figure FDA0004133037490000011
其中:weight(X)中为用户的兴趣标签权值,θ0为常数值,θ1、θ2、θ3分别对应启动、搜索、浏览三种行为的权重系数;训练过程中将用户行为向量中的x1~x3输入至模型中,使用户行为向量的概率值p作为weight(X),从而通过拟合确定θ0、θ1、θ2和θ3的具体数值。
2.根据权利要求1所述的用户兴趣标签构建方法,其特征在于:所述启动行为数据是指用户在使用与用户兴趣相关的应用时的启动次数数据,搜索行为数据是指用户搜索与兴趣标签相关的内容数据,浏览行为数据是指用户浏览与兴趣标签相关的页面内容数据。
3.根据权利要求1所述的用户兴趣标签构建方法,其特征在于:所述步骤(2)的具体实现过程为:首先对于搜索行为数据或浏览行为数据中的每一组内容通过分词处理切分成一个个单词,保留名词、动词以及形容词这三种词性的文本,然后按相关性规则重新组合成新的词序列,进而将分词后的结果按照用户、文本、出现次数输入到tf-idf算法程序中,计算出每个单词的tf-idf值,根据分词前的行为类型获得结构化的搜索行为数据和浏览行为数据。
4.根据权利要求3所述的用户兴趣标签构建方法,其特征在于:对于任一单词w,通过以下公式计算单词w的tf-idf值;
Figure FDA0004133037490000021
Figure FDA0004133037490000022
tf-idf值=TF*IDF。
5.根据权利要求1所述的用户兴趣标签构建方法,其特征在于:为了提升数据的质量,将分散、凌乱、标准不统一的数据整合到一起,为之后的分析算法提供分析数据,在完成步骤(2)后对启动、搜索、浏览这三种行为的结构化数据进行数据抽取、转换、装载后以统一格式加载进数据库中。
6.根据权利要求1所述的用户兴趣标签构建方法,其特征在于:所述步骤(3)中对于启动行为数据,则对其进行去除成本因子处理、降热度处理以及时间衰减处理;对于搜索行为数据或浏览行为数据,则对其进行降热度处理和时间衰减处理。
7.根据权利要求1所述的用户兴趣标签构建方法,其特征在于:所述步骤(4)中对所有用户行为向量进行排序的标准为:对于任意两个用户,若两者的行为向量分别为R=(r1,r2,r3,fr)和S=(s1,s2,s3,fs),若r1=s1且r2=s2且r3=s3,则判定R=S;若a1>0且a1+a2>0且a1+a2+a3>0,则判定R>S;若a1<0且a1+a2<0且a1+a2+a3<0,则判定R<S;其中ai=si-ri,i=1、2或3,fr和fs分别为行为向量R和S中的频数和,对于其余不满足以上三种判断条件的用户行为向量,则不参与排序。
CN201911283767.9A 2019-12-13 2019-12-13 一种基于无监督权值计算的用户兴趣标签构建方法 Active CN111177538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911283767.9A CN111177538B (zh) 2019-12-13 2019-12-13 一种基于无监督权值计算的用户兴趣标签构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911283767.9A CN111177538B (zh) 2019-12-13 2019-12-13 一种基于无监督权值计算的用户兴趣标签构建方法

Publications (2)

Publication Number Publication Date
CN111177538A CN111177538A (zh) 2020-05-19
CN111177538B true CN111177538B (zh) 2023-05-05

Family

ID=70648823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911283767.9A Active CN111177538B (zh) 2019-12-13 2019-12-13 一种基于无监督权值计算的用户兴趣标签构建方法

Country Status (1)

Country Link
CN (1) CN111177538B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767429B (zh) * 2020-06-29 2023-06-02 北京奇艺世纪科技有限公司 一种视频推荐方法、装置及电子设备
CN113435919A (zh) * 2020-11-24 2021-09-24 陈敏 结合大数据和广告推送的数据处理方法及大数据平台
CN113420181A (zh) * 2021-06-23 2021-09-21 未鲲(上海)科技服务有限公司 视频推荐方法、装置、计算机设备和存储介质
CN114119058B (zh) * 2021-08-10 2023-09-26 国家电网有限公司 用户画像模型的构建方法、设备及存储介质
CN113419998B (zh) * 2021-08-25 2022-02-25 成都统信软件技术有限公司 一种文件夹处理方法、计算设备及可读存储介质
CN113761899A (zh) * 2021-09-07 2021-12-07 卫宁健康科技集团股份有限公司 一种医疗文本生成方法、装置、设备及存储介质
CN113806688A (zh) * 2021-09-30 2021-12-17 中孚安全技术有限公司 一种基于指数衰减的标签影响度计算方法及系统
CN116483881B (zh) * 2023-04-26 2024-05-03 北京远舢智能科技有限公司 基于拉丁超立方的数据抽样方法、装置、电子设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608171A (zh) * 2015-12-22 2016-05-25 青岛海贝易通信息技术有限公司 用户画像构建方法
CN106022865A (zh) * 2016-05-10 2016-10-12 江苏大学 一种基于评分和用户行为的商品推荐方法
CN107292648A (zh) * 2016-04-01 2017-10-24 株式会社理光 一种用户行为分析方法及装置
CN108550068A (zh) * 2018-04-16 2018-09-18 南京大学 一种基于用户行为分析的个性化商品推荐方法及系统
CN108595630A (zh) * 2018-04-24 2018-09-28 中译语通科技股份有限公司 一种用户行为数据分析模型及其构建方法
CN108804577A (zh) * 2018-05-24 2018-11-13 联通在线信息科技有限公司 一种资讯标签兴趣度的预估方法
CN109359137A (zh) * 2018-10-16 2019-02-19 大连理工大学 基于特征筛选与半监督学习的用户成长性画像构建方法
CN109359180A (zh) * 2018-09-20 2019-02-19 腾讯科技(深圳)有限公司 用户画像生成方法、装置、电子设备及计算机可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060259475A1 (en) * 2005-05-10 2006-11-16 Dehlinger Peter J Database system and method for retrieving records from a record library

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608171A (zh) * 2015-12-22 2016-05-25 青岛海贝易通信息技术有限公司 用户画像构建方法
CN107292648A (zh) * 2016-04-01 2017-10-24 株式会社理光 一种用户行为分析方法及装置
CN106022865A (zh) * 2016-05-10 2016-10-12 江苏大学 一种基于评分和用户行为的商品推荐方法
CN108550068A (zh) * 2018-04-16 2018-09-18 南京大学 一种基于用户行为分析的个性化商品推荐方法及系统
CN108595630A (zh) * 2018-04-24 2018-09-28 中译语通科技股份有限公司 一种用户行为数据分析模型及其构建方法
CN108804577A (zh) * 2018-05-24 2018-11-13 联通在线信息科技有限公司 一种资讯标签兴趣度的预估方法
CN109359180A (zh) * 2018-09-20 2019-02-19 腾讯科技(深圳)有限公司 用户画像生成方法、装置、电子设备及计算机可读介质
CN109359137A (zh) * 2018-10-16 2019-02-19 大连理工大学 基于特征筛选与半监督学习的用户成长性画像构建方法

Also Published As

Publication number Publication date
CN111177538A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111177538B (zh) 一种基于无监督权值计算的用户兴趣标签构建方法
CN108363804B (zh) 基于用户聚类的局部模型加权融合Top-N电影推荐方法
CN111553754B (zh) 行为预测系统的更新方法及装置
Zhang et al. An improved hybrid collaborative filtering algorithm based on tags and time factor
CN110942337A (zh) 一种基于互联网大数据的精准旅游营销方法
CN112434151A (zh) 一种专利推荐方法、装置、计算机设备及存储介质
CN111061962A (zh) 一种基于用户评分分析的推荐方法
TW201905736A (zh) 資訊推送方法及系統
CN111177559B (zh) 文旅服务推荐方法、装置、电子设备及存储介质
US20220172260A1 (en) Method, apparatus, storage medium, and device for generating user profile
CN111400613A (zh) 物品推荐方法、装置、介质及计算机设备
KR102322668B1 (ko) 콘텐츠 크리에이터의 창작활동 활성화를 위한 다중 플랫폼 서비스 제공 시스템
CN111310046A (zh) 对象推荐方法及装置
JP2022035314A (ja) 情報処理装置及びプログラム
CN113961823B (zh) 新闻推荐方法、系统、存储介质及设备
CN116955833B (zh) 一种用户行为分析系统及方法
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
Zhang et al. Measuring Similarity between Brands using Followers' Post in Social Media
US20180239790A1 (en) Provision device, provision method and non-transitory computer readable storage medium
JP7454630B2 (ja) ラベル推奨モデルのトレーニング方法及び装置、ラベル取得方法及び装置
CN116842478A (zh) 一种基于推特内容的用户属性预测方法
CN111242239A (zh) 一种训练样本选取方法、装置、以及计算机存储介质
WO2023159766A1 (zh) 餐饮数据分析方法、装置、电子设备及存储介质
CN109242690A (zh) 理财产品推荐方法、装置、计算机设备及可读存储介质
CN113724044A (zh) 基于用户画像的商品推荐、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant