CN112380452A - 婴幼儿内容推荐中的用户兴趣收集方法、装置 - Google Patents

婴幼儿内容推荐中的用户兴趣收集方法、装置 Download PDF

Info

Publication number
CN112380452A
CN112380452A CN202110046182.6A CN202110046182A CN112380452A CN 112380452 A CN112380452 A CN 112380452A CN 202110046182 A CN202110046182 A CN 202110046182A CN 112380452 A CN112380452 A CN 112380452A
Authority
CN
China
Prior art keywords
interest
user
tags
knowledge
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110046182.6A
Other languages
English (en)
Inventor
赵永强
姜巍
廖望梅
王光勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cuiyutao Children Health Management Center Co ltd
Original Assignee
Beijing Cuiyutao Children Health Management Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cuiyutao Children Health Management Center Co ltd filed Critical Beijing Cuiyutao Children Health Management Center Co ltd
Priority to CN202110046182.6A priority Critical patent/CN112380452A/zh
Publication of CN112380452A publication Critical patent/CN112380452A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供的一种婴幼儿内容推荐中的用户兴趣收集方法、装置;充分利用了婴幼儿内容有预见性的特点,解决了冷启动的问题;同时其结合婴幼儿的可预见的兴趣标签和用户短期点击形成的兴趣标签,并且考虑了用户内容兴趣衰减周期,较好的解决了婴幼儿内容推荐中用户兴趣收集的问题,确保本实施例能够众多母婴知识中快速获取以及收集用户真正需要的终极兴趣。通过上述分析方法,可实现对婴幼儿内容实现精准高效信息收集,进而对婴幼儿知识推荐具有重要意义。

Description

婴幼儿内容推荐中的用户兴趣收集方法、装置
技术领域
本发明涉及母婴知识信息分析技术领域,具体地涉及一种婴幼儿内容推荐中的用户兴趣收集方法、装置。
背景技术
随着互联网的发展,针对用户来说会出现信息过载,用户在选择自己喜欢的信息的时候会出现选择困难的情况。
同时部分以母婴服务为主科技公司也大量面向用户推广使用应用APP,这样以母婴信息的推荐系统也越多的出现在市场上;纵观互联网科技企业所推出的推荐系统就是基于用户的行为形成集体智慧来降低选择的困难性,在互联网中得到了广泛的推广,并且产生了巨大的价值。
在推荐系统中,推荐系统的用户兴趣是一个比较难的工作,另外在用户冷启动的时候,在用户兴趣不明确的情况下,传统的按照热点来推荐经常会出现质量很差的推荐,从而导致整体效果比较差。
常规的现有技术方案涉及用户兴趣分析方法,检索如下:举例说明,现有技术中存在一种兴趣标签推荐方法(现有技术中1:CN103729360A一种兴趣标签推荐方法);现有技术中1所涉及方法包括:统计存在的兴趣标签的特征向量;根据存在的兴趣标签的特征向量,计算存在的兴趣标签与推荐的兴趣标签的相似度;根据存在的兴趣标签与推荐的兴趣标签的相似度进行兴趣标签的推荐。上述现有技术1涉及兴趣标签推荐方法,能够根据某个兴趣标签,计算该兴趣标签与其他标签的相似度,进行兴趣标签推荐,提高了推荐的相关性,减少了对用户的干扰,使推荐更加准确。
经过研究人员分析发现,专家学者们均认为对于冷启动下精准分析得到用户想要了解的信息并非容易,采用上述传统方法得到的信息往往会出现较大偏差,获取信息精度不高,而且处理的数据量非常大,处理运算量将会严重影响推荐效率;同时尤其是针对婴幼儿内容的信息场景下得到用户在短期以及未来时间周期内的真正感兴趣的信息是较难解决的技术问题。
发明内容
有鉴于此,本发明提供一种婴幼儿内容推荐中的用户兴趣收集方法、装置,用以解决上述技术问题。
一方面,本发明实施例提供了一种婴幼儿内容推荐中的用户兴趣收集方法,包括如下操作步骤:
根据各个月龄分段对不同知识的固有兴趣分析,得到各个月龄分段对应的推荐的知识,识别所述推荐的知识对应的兴趣标签并汇总,并且对汇总后的所有月龄分段的所有的兴趣标签进行权重计算并从数值大到小顺序进行排序得到第一兴趣标签权重顺序列表;从所述第一兴趣标签权重顺序列表中选择权重由高到低顺序的前TopA的标签权重作为当前月龄分段的预先兴趣并汇总,得到当前月龄分段的预先兴趣集合C1;
获取当前用户的点击内容,识别当前用户通过点击内容对应的兴趣标签并汇总;获取预设兴趣时间周期,根据预设兴趣衰减方法对所有的通过点击内容形成兴趣标签进行衰减后的兴趣标签的权重计算,得到点击内容所对应的衰减后兴趣标签权重值;将所述衰减后兴趣标签权重值与所述点击内容所对应的兴趣标签的TF-IDF的值乘积得到乘积后的兴趣标签权重数值;将所述乘积后的兴趣标签权重数值从数值大到小进行排序得到第二兴趣标签权重顺序列表;从所述第二兴趣标签权重顺序列表中选择权重由高到低顺序的前TopB的标签权重作为当前用户的后验兴趣并汇总,得到当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2;
将所述预先兴趣集合C1和当前用户的所述后验兴趣集合C2进行合并,得到合并后兴趣集合。
另一方面,本发明还提供了一种婴幼儿内容推荐中的用户兴趣收集装置,所述装置包括预先兴趣集合计算处理模块、后验兴趣集合计算处理模块和合并集合计算处理模块,其中:
预先兴趣集合计算处理模块,用于根据各个月龄分段对不同知识的固有兴趣分析,得到各个月龄分段对应的推荐的知识,识别所述推荐的知识对应的兴趣标签并汇总,并且对汇总后的所有月龄分段的所有的兴趣标签进行权重计算并从数值大到小顺序进行排序得到第一兴趣标签权重顺序列表;从所述第一兴趣标签权重顺序列表中选择权重由高到低顺序的前TopA的标签权重作为当前月龄分段的预先兴趣并汇总,得到当前月龄分段的预先兴趣集合C1;
后验兴趣集合计算处理模块,用于获取当前用户的点击内容,识别当前用户通过点击内容对应的兴趣标签并汇总;获取预设兴趣时间周期,根据预设兴趣衰减方法对所有的通过点击内容形成兴趣标签进行衰减后的兴趣标签的权重计算,得到点击内容所对应的衰减后兴趣标签权重值;将所述衰减后兴趣标签权重值与所述点击内容所对应的兴趣标签的TF-IDF的值乘积得到乘积后的兴趣标签权重数值;将所述乘积后的兴趣标签权重数值从数值大到小进行排序得到第二兴趣标签权重顺序列表;从所述第二兴趣标签权重顺序列表中选择权重由高到低顺序的前TopB的标签权重作为当前用户的后验兴趣并汇总,得到当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2;
合并集合计算处理模块,用于将所述预先兴趣集合C1和当前用户的所述后验兴趣集合C2进行合并,得到合并后兴趣集合。
相应地,本发明还提供了一种计算机存储介质,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机存储介质所在设备执行上述婴幼儿内容推荐中的用户兴趣收集方法。
与现有技术相比本发明实施例至少存在如下方面的技术优势:
在本发明实施例提供的技术方案中,本发明实施例提供了婴幼儿内容推荐中的用户兴趣收集分析,其首先可以根据月龄分段不同预先得到一个当前月龄分段的预先兴趣集合C1;同时利用权重分析策略实施第一次兴趣标签的权重分析,得到一个具有较高参考价值的预先兴趣集合C1;然后结合当前用户的点击内容,识别当前用户通过点击内容对应的兴趣标签;同时设计了兴趣衰减思想方法,计算得到具有更高参考价值的衰减后的兴趣标签的权重(未来预期估算),得到点击内容所对应的衰减后兴趣标签权重值(第二次兴趣标签权重分析);然后将衰减后兴趣标签权重值与点击内容所对应的兴趣标签的TF-IDF的值乘积得到乘积后的兴趣标签权重数值,然后再经过一系列处理最终得到后验兴趣集合C2(即以此实现用户点击内容对应的兴趣标签动态分析,最后创造性得到一个新的技术概念(未来预设兴趣时间周期的对应的后验兴趣集合C2);综合两种设计思想整合计算,最后通过不断迭代动态估算,获取到最优兴趣推荐结果。
本发明提供一种婴幼儿内容推荐中的用户兴趣收集方法、装置,用以解决婴幼儿推荐中的冷启动和用户兴趣定位不准确的问题;其中本申请实施例所实施的研究人员,研究分析大量的婴幼儿生成知识发现,有关婴幼儿的生长的知识,因为其生长中有很多必然出现共性现象,所以其知识有一定的预先性(婴幼儿相关推荐知识的可预见性);对此,本申请实施例充分利用了婴幼儿内容有预见性的特点,解决了冷启动的问题;并且在冷启动完成之后,新的用户兴趣的计算,考虑了用户当前主动点击形成的兴趣标签,同时本发明实施例应用的技术方案,结合婴幼儿的可预见的兴趣标签和用户短期点击形成的兴趣标签,并且考虑了用户内容兴趣衰减周期,较好的解决了婴幼儿内容推荐中用户兴趣收集的问题,这样分析方式相辅相成结合了婴幼儿可预见性的兴趣,弥补了用户兴趣狭窄的问题,确保本实施例能够从众多母婴知识中快速获取以及收集用户真正需要的终极兴趣。
附图说明
图1是本发明实施例一所提供的婴幼儿内容推荐中的用户兴趣收集方法的整体操作流程图;
图2是本发明实施例一所提供的婴幼儿内容推荐中的用户兴趣收集方法中的一具体操作流程图;
图3是本发明实施例一所提供的婴幼儿内容推荐中的用户兴趣收集方法中的另一具体操作流程图;
图4是本发明实施例一所提供的婴幼儿内容推荐中的用户兴趣收集方法中的再一具体流程图;
图5是本发明实施例一所提供的婴幼儿内容推荐中的用户兴趣收集方法中的还一具体流程图;
图6是本发明实施例二所提供的婴幼儿内容推荐中的用户兴趣收集装置的结构原理示意图。
标号:婴幼儿内容推荐中的用户兴趣收集装置10;预先兴趣集合计算处理模块11;后验兴趣集合计算处理模块12;合并集合计算处理模块13。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
本发明实施例一提供了婴幼儿内容推荐中的用户兴趣收集方法,本申请是研究特定母婴应用场景下的特定知识的兴趣推荐技术问题。参见图1,图1为本发明实施例一提供的一种婴幼儿内容推荐中的用户兴趣收集方法的流程图,该方法包括:
步骤S100:根据各个月龄分段对不同知识的固有兴趣分析,得到各个月龄分段对应的推荐的知识,识别所述推荐的知识对应的兴趣标签并汇总,并且对汇总后的所有月龄分段的所有的兴趣标签进行权重计算并从数值大到小顺序进行排序得到第一兴趣标签权重顺序列表;从所述第一兴趣标签权重顺序列表中选择权重由高到低顺序的前TopA的标签权重作为当前月龄分段的预先兴趣并汇总,得到当前月龄分段的预先兴趣集合C1;
步骤S200:获取当前用户的点击内容,识别当前用户通过点击内容对应的兴趣标签并汇总(本实施例中获取的用户通过点击内容形成的兴趣标签中提到的点击内容,一般是指点击知识);获取预设兴趣时间周期,根据预设兴趣衰减方法(预设兴趣衰减方法详见后续详细步骤S220)对所有的通过点击内容形成兴趣标签进行衰减后的兴趣标签的权重计算,得到点击内容所对应的衰减后兴趣标签权重值(衰减后兴趣标签权重值用于描述未来的预设兴趣时间周期内的当前用户的点击内容的兴趣标签);将所述衰减后兴趣标签权重值与所述点击内容所对应的兴趣标签的TF-IDF的值乘积得到乘积后的兴趣标签权重数值;将所述乘积后的兴趣标签权重数值从数值大到小进行排序得到第二兴趣标签权重顺序列表;从所述第二兴趣标签权重顺序列表中选择权重由高到低顺序的前TopB的标签权重作为当前用户的后验兴趣并汇总,得到当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2;
步骤S300:将所述预先兴趣集合C1和当前用户的所述后验兴趣集合C2进行合并,得到合并后兴趣集合。
需要特殊说明的是,本申请实施例所实施的研究人员,针对育儿知识有个整体的兴趣标签体系,有各个月龄段的对应的育儿的知识。基于标签体系、月龄段分段和相关月龄段的知识,采取统计学或机器学习方法可以形成各个月龄段的最典型的月龄段的标签,就是不区分具体的宝宝,在对应的月龄阶段大概率都会遇到的问题,本申请实施例简称为预先兴趣集合C1。预先兴趣集合C1是根据历史经验和统计总结出来的大概率会发生的兴趣,和用户通过点击的后验兴趣集合C2不同,上述后验兴趣集合C2是通过用户点击形成的兴趣,并不会形成新的知识。如果只采用后验兴趣集合C2作为用户兴趣进行推荐,很容易形成信息茧房的问题,因为根据自己点击很难产生新的高质量的兴趣信息推荐。
下面对本申请实施例中的具体应用以及具体信息处理方式进行详细说明:
本发明实施提供了一种婴幼儿内容推荐中的用户兴趣收集方法(实际上相当于基于月龄分段的预先兴趣集合C1和基于用户点击内容的后验兴趣集合C2结合的用户收集方法(注意上述后验兴趣集合C2是衰减分析后的数据));
关于月龄分段需要说明的是,首先针对宝宝的年龄按照生理变化和长期的观察总结出的月龄分段的标准,当前的月龄分段标准是(孕期和育儿期两大阶段,细分是5个月龄分段),详细规则见下表(月龄分段表):
Figure 331352DEST_PATH_IMAGE001
以各个月龄段的对应的育儿书籍的知识为样本。基于标签体系、月龄分段和相关月龄分段的知识,采取统计学或机器学习的方法可以形成各个月龄段的最典型的月龄分段的知识,就是不区分具体的宝宝,在对应的月龄阶段大概率都会遇到的问题,本申请实施例简称为当前分段的宝宝最感兴趣的知识。同时基于此知识得到兴趣标签,再去得到预先兴趣集合C1,所以说上述预先兴趣集合C1是根据历史经验和统计总结出来的大概率会发生的兴趣标签,其和用户通过点击知识形成的后验兴趣集合C2不同,后验兴趣集合C2是通过用户点击知识形成的兴趣标签集合,并不会形成新的知识。如果只采用后验兴趣集合C2的用户兴趣进行推荐,很容易形成信息茧房的问题,因为根据自己点击很难产生新的高质量的兴趣,因此说本发明实施例是不仅仅设计了预先兴趣集合C1,同时还综合了后验兴趣集合C2。
当前的分段标准见上述月龄分段表,主要分为:孕期:孕早(孕1天-孕12周0天)、孕中(孕12周1天-孕28周0天)、孕晚(孕28周1天-孕无穷大);育儿期: 0-2m、2-4m、4-6m、6-9m、9-12m、12-18m、18m以上(其中m为month,单位为月)。本实施例还特定设计了非常巧妙的月龄分段时间(尤其是孕期),同时将月龄分段与对应知识得到了有机结合;其中,上述月龄分段中孕期划分时间,根据运营统计数据,设计出时间较长的孕中,其中孕中持续时间长一点,孕早和孕晚相对来时间短。然而,育儿期的特点是低龄的宝宝的特点和问题持续时间比较短,符合发育的规律,越到后期,基于用户遇到的问题各不相同,同一个问题跨越的时间周期比较长(即越到后期,关注同一个知识的月龄时间都比较长;例如:育儿期,第一段中的“0-2m”跨越周期是2个月,第四段中“6-9m”跨越周期是3个月,第六段中“12-18m”跨越周期是6个月)。
如图2所示,在步骤S100中,所述根据各个月龄分段对不同知识的固有兴趣分析,得到各个月龄分段对应的推荐的知识(或简称对应的推荐知识),具体包括如下操作步骤:
步骤S110:服务器基于机器学习算法对各个月龄分段的知识进行识别,得到每个月龄分段所对应的推荐的知识。
需要说明的是,本发明实施例技术方案的研究人员发现,宝宝处于不同的年龄(或称月龄)时期,其关注的知识有所不同,但是处于同一个阶段(或称同一个月龄分段)宝宝父母关注的知识往往具有一定的共性(即特定共性特点);基于以上共性特点,可以分析得出每个月龄分段形成的预先兴趣集合C1(其中,基于各个月龄分段的预先兴趣集合C1的知识可通过机器学习方法整理而成)。具体技术方案如下:基于机器学习方法整理是建立在各个月龄分段对应的推荐知识,对应的知识上有对应的兴趣标签,由此可以获得一个初始状态的兴趣标签(此时,月龄分段对应的兴趣标签为了与后续的当前用户点击内容识别的兴趣标签区分,月龄分段对应的兴趣标签也可以定义为第一兴趣标签;当然点击内容识别的兴趣标签可以称为第二兴趣标签,但是实际上第一兴趣标签和第二兴趣标签均为兴趣标签没有本质的特殊性区别)。
本发明实施例利用机器学习算法对主题模型训练的语料库进行学习,得到当前月龄分段所对应的推荐的知识。本实施例所使用的上述机器学习算法包括但不限于:KNN分类算法,PCA算法,线性判别分析LDA算法,K-Means算法,DBSCAN算法,对此本发明实施例不再一一赘述。利用上述算法处理内容词语(word)和兴趣标签(tag)大量数据的识别分类,从而得到当前月龄分段所对应的推荐的知识。
如图2所示,在步骤S100中,对汇总后的所有月龄分段的所有的兴趣标签(即上述第一兴趣标签)进行权重计算并从数值大到小顺序进行排序得到第一兴趣标签权重顺序列表,具体包括如下操作步骤:
步骤S120:服务器设置月龄分段的兴趣标签权重计算方式,即公式1:
Figure 781925DEST_PATH_IMAGE002
其中,M为当前月龄段所有的知识,d(t)为当前月龄分段知识对应的兴趣标签t在知识d中出现的次数(因为在同一个月龄分段问题都比较相近,所以当前采用比较简单的总数的合计来计算标签权重)。注上述月龄分段所有的知识均是通过机器学习的方法从当前知识集合中获得,并经过编辑筛选确认得到的信息。
步骤S130:服务器利用所述月龄分段的兴趣标签权重计算公式对每个兴趣标签的权重计算,然后对计算得到的所述月龄分段的兴趣标签的权重数值从大到小进行排序,得到第一兴趣标签权重顺序列表。
在本发明实施例中,研究人员在识别获得兴趣标签后得到数据集依然较大,对此本实施例设计采用上述兴趣标签权重计算公式实施对兴趣标签的进一步提取;因为每个月龄分段对应的兴趣标签的数据量较大;对此发明实施例应用上述方式,求解每个兴趣标签对应的权重值。应用本发明的技术方案,可以进一步减少筛选人力成本,并提高筛选效率及筛选质量,这样求解的第一兴趣标签权重顺序列表(权重评分),然后在后续操作中选择TopA得到一个精益求精的查询结果;上述设计思想,可以进一步减少计算量,最终影响到兴趣推荐质量,提升了兴趣推荐精度。
需要特殊说明的是,在当前用户初次登录的时候(即登录初始化时),需要选择输入宝宝的月龄(宝宝的出生信息或孕妇的孕期信息),当前用户登录的时候本身并没有具体的点击内容行为,因此在这种情况下,此时当前用户最终推荐兴趣就为当前用户(当前用户可以理解为登录者的宝宝)的月龄分段的预上线的预先兴趣集合C1(此时后验兴趣集合C2可以理解为空)。当然在当前用户第二次登录或者后续登录过程中,就需要综合考虑预先兴趣集合C1加上后验兴趣集合C2了,因为在第一次登录后即可采集到当前用户的点击内容了。
如图3所示,在步骤S200中,所述获取当前用户的点击内容,识别当前用户通过点击内容对应的兴趣标签并汇总;获取预设兴趣时间周期,根据预设兴趣衰减方法对所有的通过点击内容形成兴趣标签进行衰减后的兴趣标签的权重计算,得到点击内容所对应的衰减后兴趣标签权重值;将所述衰减后兴趣标签权重值与所述点击内容所对应的兴趣标签的TF-IDF的值乘积得到乘积后的兴趣标签权重数值,具体包括如下操作步骤:
步骤S210:服务器获取收集当前用户的点击内容,识别当前用户通过点击内容对应的兴趣标签,同时获取当前用户的每天点击内容对应的标签数据,所述标签数据包括兴趣标签(兴趣标签ID)和点击量和点击所在天(即点击时间的一种形式)等其他信息;
步骤S220:服务器调取当前用户的预设兴趣时间周期,所述预设兴趣时间周期为15day(一般选择半个月或者一周,本申请具体方案优选选择半个月,即15天);在所述预设兴趣时间周期内采用兴趣标签衰减公式对所有的通过点击内容形成兴趣标签进行衰减后的兴趣标签的权重计算得到点击内容所对应的衰减后兴趣标签权重值;(即将上述预设兴趣时间周期作为计算窗口周期,采用上述兴趣标签衰减对所有的兴趣标签进行衰减后的兴趣标签的权重计算,同时研究发现用户的兴趣有衰减的现象,当前本申请实施例选择半衰期函数来针对兴趣进行衰减,对于超过15天的兴趣因为衰减的缘故基本上对当前可以几乎忽略);所述兴趣标签衰减公式为:
Figure 210633DEST_PATH_IMAGE003
;公式2;
其中,
Figure 331035DEST_PATH_IMAGE004
为衰减后兴趣标签权重值;mi为当前用户在一天点击知识形成兴趣标签t的记录,所述记录包括点击所在天和点击量(或称点击次数);R(t)是一个用户每天点击知识形成兴趣标签的集合;“currentday-mi(day)”表示当前计算时间点所在天距离点击知识形成兴趣标签t所在天的天数之差; currentday表示当前计算时间点所在天;mi(day)为点击知识形成兴趣标签t所在天;当前用户在一天点击知识形成兴趣标签t所反映的点击量用mi(sum)表示;α为衰减系数;举例说明,当前针对某个兴趣标签Tagx求解计算时,currentday表示当前计算时间点所在天(将其转化时间天数概念更好理解,假设当前求解计算时间为11月11日);举例说明:假设11月8日有兴趣标签Tagx点击,11月9日也有兴趣标签Tagx点击,11月10日无兴趣标签Tagx点击,那么现在有m(11月8日)和m(11月9日)二条记录,currentday- m(11月8日)为3, currentday- m(11月9日)为2,计算当前兴趣标签Tagx的权重为二条记录计算和的累加。
需要特殊说明的是,不同月龄分段对应的α为衰减系数不同,且所述月龄分段反映的宝宝月龄越大,其衰减系数也越大,即对应的用户更偏向长期兴趣,短期兴趣变少。
用户兴趣的衰减系数体现了用户兴趣变化的快慢,小月龄的婴儿生长变化快,对应影响用户的兴趣也变化快,在小于一周岁的婴儿上采取的的衰减系数为0.5,大月龄的婴儿遇到的问题相对具有稳定性,变化更加缓慢,本申请实施例选择的衰减系数为0.75。另外针对孕期来说,胎儿变化也慢,妈妈遇到的问题相对来说也具有一定的稳定性,本申请实施例选择的衰减系数也是0.75。
举例说明:当前兴趣计算窗口周期为15天,用户u1的婴儿小于一周岁,所采取的衰减系数为0.5,即后续计算公式中的“1/2”;当前针对兴趣标签TagA点击的次数为:当天点击数为5(即当天的点击量mi(sum),当前计算时间点所在天距离点击所在天的天数之差为0(即显然,当天点击数就是发生在今天,且今天为当前计算时间点所在天,两者之差为0)),昨天点击数为10(即昨天的点击量mi(sum),当前计算时间点所在天距离昨天点击所在天的天数之差为1),前天点击数为10(即前天的点击量mi(sum),当前计算时间点所在天距离前天点击所在天的天数之差为2),15天的其他天内无点击当前兴趣标签TagA行为;当前TagA的基本权重为1,那么当前TagA衰减后兴趣标签权重值为: (1/2)0*5+(1/2)1*10+(1/2)2*10=12.5。
步骤S230:计算所述预设兴趣时间周期内对应的点击内容所对应的兴趣标签的TF-IDF值;
步骤S240:将所述衰减后兴趣标签权重值与所述点击内容所对应的兴趣标签的TF-IDF的值乘积得到乘积后的兴趣标签权重数值;
Weight(t)=Score(t)*TF-IDF(t);公式3;在公式3中,其中
Figure 969827DEST_PATH_IMAGE005
为乘积后的兴趣标签权重数值;TF-IDF(t)为所述点击内容所对应的兴趣标签的TF-IDF的值,其中:
Figure 833878DEST_PATH_IMAGE006
;公式4;
在公式4中,其中TF(p,t)表示用户p点击知识形成兴趣标签t与用户p点击知识形成所有兴趣标签的比率;IDF(t)表示所有用户点击知识形成所有兴趣标签和所有兴趣标签t的占比(反应了标签代表用户的典型性),该TF(p,t)与IDF(t)以上二者的乘积反应了兴趣标签t代表用户p兴趣的情况;
Figure 976146DEST_PATH_IMAGE007
;公式5;
在公式5中,其中,w(p,t)为用户p点击知识形成兴趣标签t上的点击数;w(p,ti)为用户p点击知识形成兴趣标签ti上的点击数;而且,t属于兴趣标签中的一个特定兴趣标签,ti属于兴趣标签中的任意一个兴趣标签;虽然ti只是代表一个兴趣标签,但是
Figure 798609DEST_PATH_IMAGE008
表示为用户p点击知识形成的所有兴趣标签的点击数;
Figure 800063DEST_PATH_IMAGE009
;公式6;
在公式6中,其中w(pj,ti)为用户pj点击知识形成兴趣标签ti上的点击数;
Figure 592438DEST_PATH_IMAGE010
为所有用户点击知识形成的所有兴趣标签上的点击数;w(pj,t)为用户pj点击知识形成兴趣标签t上的点击数;
Figure 730159DEST_PATH_IMAGE011
为所有用户点击知识形成兴趣标签t的点击数。
下面对于公式5以及公式6的解释说明如下:
一、
Figure 582577DEST_PATH_IMAGE007
;公式5;上述公式5的技术含义在于:TF(p,t)=用户p点击知识形成兴趣标签t上的点击数/用户p点击知识形成的所有兴趣标签所反映的点击数。
二、
Figure 71327DEST_PATH_IMAGE009
;公式6;上述公式6的技术含义在于:IDF(t)=所有用户点击知识形成的所有兴趣标签上的点击数/所有用户点击知识形成兴趣标签t的点击数。
举例说明:
举例说明:假设系统有5篇知识(用户对于知识点击后可形成兴趣标签),对应所有的兴趣标签集合为{tagA,tagB,tagC,tagD},所有用户只有用户u1(简称用户1)和用户u2(简称用户2)。截止当前时间,通过点击知识形成兴趣标签:用户1身上打的兴趣标签tagA 5个,兴趣标签tagB 2个,兴趣标签tagC 1个,用户2身上打了的兴趣标签为:兴趣标签tagA 4个,兴趣标签tagB 2个,兴趣标签tagC 4个(上述“身上打的”可以理解为“点击知识形成的”);上述兴趣标签tagA 后续简称tagA ,兴趣标签tagB后续简称tagB,兴趣标签tagC后续简称tagC ,下面计算用户u1和用户u2各个兴趣标签的TF-IDF的值;用户u1所有的兴趣标签数量为8,用户u2所有的兴趣标签数量为10,总标签量为18;tagA所有兴趣标签数量为9,tagB所有兴趣标签为4,tagC所有兴趣标签为5;标签tagD对应的知识因为没有用户点击,没有和用户关联,并不参与整个TF-IDF的计算。下面以计算u1的tagA的TF-IDF计算过程来进行详细描述:
TF(u1,tagA)计算过程如下(即套用上述公式5):
w(p,t)=w(u1,tagA)=5,其中p为用户u1,t为兴趣标签tagA;
当前用户u1点击知识形成的所有兴趣标签={tagA,tagB,tagC},其中
Figure 277180DEST_PATH_IMAGE012
,
w(u1,tagA)=5, p=u1,t1=tagA
w(u1,tagB)=2, p=u1,t2=tagB
w(u1,tagC)=1, p=u1,t3=tagC
最终
Figure 394041DEST_PATH_IMAGE013
(即用户u1点击知识形成兴趣标签“tagA”上的点击数/用户u1点击知识形成的所有兴趣标签所反映的点击数);
IDF(tagA)计算过程如下(即套用上述公式6):
所有用户={u1,u2},以下所有用户(u1和u2)点击知识形成所有兴趣标签={tagA,tagB,tagC}
计算各个w(pj,ti)
w(u1,tagA)=5, p1=u1,t1=tagA
w(u1,tagB)=2, p1=u1,t2=tagB
w(u1,tagC)=1, p1=u1,t3=tagC
w(u2,tagA)=4, p2=u2,t1=tagA
w(u2,tagB)=2, p2=u2,t2=tagB
w(u2,tagC)=4, p2=u2,t3=tagC
计算w(pj,t),其中t为tagA
w(u1,tagA)=5, p1=u1,t=tagA
w(u2,tagA)=4, p2=u2,t=tagA
所以
Figure 558306DEST_PATH_IMAGE014
(即所有用户点击知识形成的所有兴趣标签上的点击数/所有用户点击知识形成兴趣标签“tagA”的点击数),其他详细的计算不在具体阐述,详见下表:
用户u1:
兴趣标签 TF IDF TF-IDF
tagA 5/8 18/9 1.25
tagB 2/8 18/4 1.125
tagC 1/8 18/5 0.45
用户u2:
兴趣标签 TF IDF TF-IDF
tagA 4/10 18/9 0.8
tagB 2/10 18/4 0.9
tagC 4/10 18/5 1.44
分析上述信息可以看到用户u1的兴趣标签tagC对应的TF-IDF的值更小,反应了用户u1的兴趣为兴趣标签tagA和兴趣标签tagB的可能性大;用户u2的tagC有更高的TF-IDF的值,表明用户u2的用户兴趣为tagC可能性更大;上述兴趣标签tagC在二个用户之间的区分度非常明显。另外,用户u1按照时间衰减计算出的tagA的权重为12.5,那么最终用户tagA的兴趣权重为:12.5*1.25= 15.625。关于其他兴趣标签衰减后的权重计算,均依照本实施例中的步骤S210-步骤S240操作实施,对此不再举例赘述。
在执行上述步骤S210-步骤S240时:服务器获取当前用户的点击内容,识别当前用户通过点击内容形成的兴趣标签(或称为第二兴趣标签),并进行第二兴趣标签汇总;获取预设兴趣时间周期,根据预设兴趣衰减方法对所有的通过点击内容形成兴趣标签进行衰减后的兴趣标签的权重计算,得到点击内容所对应的衰减后兴趣标签权重值。
在本实施例的具体技术方案中,用户点击相关内容,根据用户点击的内容进行进一步的分析处理,分二种情况处理:
一种情况,如果当前用户点击是知识,说明当前用户针对这个知识很感兴趣;如果当前的预先兴趣集合中已经包括了这个兴趣(或称兴趣标签),但是可以将用户的点击加强用户先验兴趣的权重,进而影响了最终的兴趣推荐;
二、如果当前用户点击内容包括了另外的兴趣,通过日志的收集完成了用户后验兴趣的收集。用户的点击形成日志发送到服务器,针对用户历史的点击内容识别出对应的兴趣标签,本实施例认为相当长一段时间周期内用户的后验兴趣往往会发生变化,而且越时间久远的用户行为形成的形成后验兴趣的几率越小;因此本实施例采用按照天的半衰期来进行累计计算,服务器根据点击内容最终计算的后验兴趣集合,再综合预先兴趣集合最终形成用户的兴趣。
在本实施例的具体技术方案中,在第一兴趣标签权重顺序列表中选择权重由高到低顺序的前TopA的标签权重作为当前月龄分段的预先兴趣并汇总,得到当前月龄分段的预先兴趣集合C1;其中,所述TopA具体为Top5,即选择第一兴趣标签权重顺序列表中权重高到低顺序中的前5的标签权重作为当前月龄分段的预先兴趣集合C1;在所述第二兴趣标签权重顺序列表中选择权重由高到低顺序的前TopB的标签权重作为当前用户的后验兴趣并汇总,得到当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2;其中,所述TopB具体为Top5;即选择第二兴趣标签权重顺序列表中权重高到低顺序中的前5的标签权重作为当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2。
上述实施例的技术方案,在规定的预设兴趣时间周期内,选择TopN作为用户的后验的兴趣(此时N=A+B),当前本申请实施例的N选择为10,即总体向用户推荐兴趣为10个兴趣标签;其中A、B均等于5;通过上述具体实施方案,其先验的用户兴趣和后验的用户兴趣各占一半,主要是为了兼容先验的兴趣和后验的兴趣(当然,上述实施例中两种权重列表中的优选数量也可以选择其他数量;比如A取值为7,B取值为3,N选择为10,对此不再赘述)。
需要说明特殊说明的是,研究发现当前用户的后验兴趣集合C2的也会随着时间发生衰减,选择合适的衰减公式也非常重要(就叫衰减公式);因此可以这样说,本申请实施例中预先兴趣并不是一成不变的,其可能随时宝宝的生长,其预先兴趣以及预先兴趣集合都会发生变化;同样,本申请实施例中的后验兴趣也是动态分析数据,其也考虑了当前用户的后验兴趣可能会随着时间的推移有所衰减,同时利用相应的预设兴趣衰减方法实施了未来某个时间周期内的当前用户的后验兴趣衰减评估和计算,这样以求获得对当前用户的兴趣参考时间信息因素有着更加科学以及精准的预估。这样一来,则可以保障婴幼儿的知识内容推荐高效性。
如图4所示,在对当前用户在所述预设兴趣时间周期内执行兴趣收集时,还包括对预先兴趣集合C1更新操作,具体包括如下操作步骤:
步骤S310:获取当前用户的当前月龄分段,根据当前用户存储的宝宝的出生信息或孕妇的孕期信息,推算判断当前用户的宝宝在未来的所述预设兴趣时间周期内是否发生当前月龄分段的变化;
步骤S320:如果发生变化,则认定当前用户在未来的所述预设兴趣时间周期内会存在当前用户的月龄分段跨区,然后计算并存储当前用户的月龄分段变化的时间节点,提前获取当前用户在下一个月龄分段的预先兴趣集合C11;
步骤S330:待当前用户的月龄分段到达存储的所述时间节点后,将直接调取所述下一个月龄分段的预先兴趣集合C11作为更新后的当前用户的预先兴趣集合C1。
需要特殊说明的是,实时判断宝宝在未来的所述预设兴趣时间周期当前月龄分段是否会发生变化,如果会发生变化,则说明当前月龄分段会发生跨区对此需要动态地对月龄分段对应的预先兴趣集合进行更新;用户宝宝年龄发生变化的时候,需要将当前用户的预先兴趣进行替换,实现了更精准的兴趣推荐。
服务器实时监测当前用户的月龄分段是否发生变化,如果出现了跨区段的情况,下一个区段的预先兴趣集合替换了当前的预先兴趣集合。假设,当前分段的预先兴趣集合C1,下一个月龄分段的预先兴趣集合C11,如果有更新替换,则需要合并C11和C2,形成完整的用户兴趣;用户在上一个阶段通过用户的点击内容识别的兴趣标签,可以转为用户的后验兴趣集合C2。预先兴趣解决了用户冷启动无法推荐的问题,也丰富了用户登录后点击知识后有可能形成兴趣狭窄的现象,一定程度上提高了推荐的质量。举例说明:按照本申请实施例的分段,新生儿0-2个月的兴趣点,有三个兴趣点:A1、A2、A3,到了2-4个月的兴趣点为:B1、B2、B3。当新生儿到了进入2个月的时候,对应的预先兴趣切换为: B1、B2、B3。
另外举例说明:用户在上一个月龄分段形成了预先兴趣集合Cn,仍然按照0-2个月的兴趣点来进行说明,当前的预先兴趣集合Cn可能包括三个预先的兴趣点:A1、A2、A3,但是用户只对其中的二个兴趣点A1和A2进行了用户点击行为,形成了兴趣,其余的兴趣点被丢弃,当前通过预先兴趣集合Cn进入后验兴趣集合C2的兴趣点只有二个兴趣点:即A1和A2,然而兴趣点A3则会被丢弃;如此一来,通过不断反复迭代可以随着时间推移,用户点击内容变化而不断产生更新后验兴趣集合C2。
如图5所示,在所述步骤S300之后还包括执行对合并后兴趣集合进行修正处理操作:
步骤S400:判断当前月龄分段的预先兴趣集合C1与当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2合并后的兴趣集合中是否存在重复的兴趣标签;
步骤S410:如果存在,则过滤删除掉重复的兴趣标签,并确定过滤删除的兴趣标签数量;另外,如果合并后兴趣集合不存在重复的兴趣标签则认定合并后的兴趣集合无需修正处理操作,对此不存在的情况不再赘述。
步骤S420:优先从所述预先兴趣集合C1调取同等数量的兴趣标签补充到合并后的兴趣集合进行修正;
步骤S430:同时继续判断所述预先兴趣集合C1中是否有足够同等数量的兴趣标签补充到合并后的兴趣集合中;如果所述预先兴趣集合C1中后补的兴趣标签数量小于过滤删除的兴趣标签数量,则当所述预先兴趣集合C1中所有的兴趣标签补充合并后的兴趣集合后,从后验兴趣集合C2调取兴趣标签补充到合并后的兴趣集合完成修正操作。
需要特殊说明的是,在本发明实施例的具体应用中,根据用预先兴趣集合C1和用户后验兴趣集合C2合并后的兴趣,合并的时候,需要考虑后验兴趣集合C2要选择多少个来表示用户真正的兴趣爱好,当前本申请实施例选择10个用户兴趣,预先兴趣集合C1和用户后验兴趣集合C2各位5个,实际的情况中会出现C1和C2的标签有重叠的部分,当前采取的策略是:二个兴趣重叠的时候,优先补充预先兴趣集合C1的兴趣;如果预先兴趣集合C1补充的也没有了,那么采用后验兴趣集合C2中的后验兴趣进行补充,考虑到这种情况,实际初期根据各个月龄段计算用户后验兴趣集合C2的时候,将所有的可能的后验兴趣都计算出来,为了进一步做候补充。
举例1:C1和C2都足够:用户u1根据宝宝形成C1的兴趣有:tagA,tagB,tagC,tagD,tagE,tagF,对应月龄段的后验兴趣集合C2有:tagC,tagH,tagI,tagJ,tagK,tagL,tagM, ,tagN,当前选择前5个用户兴趣的时候,C1有:tagA,tagB,tagC,tagD,tagE,C2有tagC,tagH,tagI,tagJ,tagK,那么当前重复了tagC,当前保持C2不变,C1的兴趣变为: tagA,tagB,tagD,tagE,tagF,最终形成的用户兴趣C为:tagA,tagB,tagC,tagD,tagE,tagF,tagH,tagI,tagJ,tagK。
举例2:C1不足,C2足够;假设用户u1根据宝宝形成C1的兴趣有:tagA,tagB,对应月龄段的后验兴趣集合C2同上例保持不变,那么C1候补有tagL,tagM,tagN,最终形成的用户兴趣C为:tagA,tagB, tagC,tagH,tagI,tagJ,tagK,tagL,tagM, tagN。
本实施例提供的婴幼儿内容推荐中的用户兴趣收集方法,一方面使用了月龄分段对应的预先兴趣集合C1,来适应的推荐相同类型兴趣;另一方面,在判断用户点击的兴趣内容后,收集用户点击形成的提供个性化兴趣推荐相同类型兴趣,最终在用户之间建立密切关系,让推荐用户感兴趣的终极兴趣。
传统技术的分析方法虽然种类方式繁多,但是兴趣收集分析方式很粗糙,尤其针对婴幼儿知识分析理论尚不完善;本发明实施例涉及的分析方法聚焦更深层次的数据相似性,同时结合月龄不同对于知识认识衰减程度不同,特定地采用了衰减分析方法实现了更适合婴幼儿分析收集的动态分析策略最终得到了具有较高参考价值的后验兴趣集合C2。
综上所述,本实施例提供的婴幼儿内容推荐中的用户兴趣收集方法,存在以下几个重要的分析判断和信息处理的过程;第一个是判断预先兴趣集合C1是否需要更新,以实现预先兴趣的动态分析;第二个是对后验兴趣集合C2的半衰期设计,保障未来预设时间段内的后验兴趣的动态分析;第三个是实现数据集合的权重处理,减少了数据处理量,增强了兴趣收集效率和精准度。
实施例二
图6是本发明实施例二所提供的婴幼儿内容推荐中的用户兴趣收集装置的结构原理示意图;上述实施例三提供了一种婴幼儿内容推荐中的用户兴趣收集装置,所述婴幼儿内容推荐中的用户兴趣收集装置10包括预先兴趣集合计算处理模块11、后验兴趣集合计算处理模块12和合并集合计算处理模块13,其中:
预先兴趣集合计算处理模块11,用于根据各个月龄分段对不同知识的固有兴趣分析,得到各个月龄分段对应推荐的知识,识别所述推荐的知识对应的兴趣标签并汇总,并且对汇总后的所有月龄分段的所有的兴趣标签进行权重计算并从数值大到小顺序进行排序得到第一兴趣标签权重顺序列表;从所述第一兴趣标签权重顺序列表中选择权重由高到低顺序的前TopA的标签权重作为当前月龄分段的预先兴趣并汇总,得到当前月龄分段的预先兴趣集合C1;
后验兴趣集合计算处理模块12,用于获取当前用户的点击内容,识别当前用户通过点击内容对应的兴趣标签并汇总;获取预设兴趣时间周期,根据预设兴趣衰减方法对所有的通过点击内容形成兴趣标签进行衰减后的兴趣标签的权重计算,得到点击内容所对应的衰减后兴趣标签权重值;将所述衰减后兴趣标签权重值与所述点击内容所对应的兴趣标签的TF-IDF的值乘积得到乘积后的兴趣标签权重数值;将所述乘积后的兴趣标签权重数值从数值大到小进行排序得到第二兴趣标签权重顺序列表;从所述第二兴趣标签权重顺序列表中选择权重由高到低顺序的前TopB的标签权重作为当前用户的后验兴趣并汇总,得到当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2;
合并集合计算处理模块13,用于将所述预先兴趣集合C1和当前用户的所述后验兴趣集合C2进行合并,得到合并后兴趣集合。
实施例三
相应地,本发明实施例三还提供了一种计算机存储介质,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机存储介质所在设备执行上述婴幼儿内容推荐中的用户兴趣收集方法。其中,在程序运行时控制存储介质所在设备执行上述婴幼儿内容推荐中的用户兴趣收集方法的实施例的各步骤,具体描述可参见上述婴幼儿内容推荐中的用户兴趣收集方法的实施例。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种婴幼儿内容推荐中的用户兴趣收集方法,其特征在于,包括如下操作步骤:
根据各个月龄分段对不同知识的固有兴趣分析,得到各个月龄分段对应的推荐的知识,识别所述推荐的知识对应的兴趣标签并汇总,并且对汇总后的所有月龄分段的所有的兴趣标签进行权重计算并从数值大到小顺序进行排序得到第一兴趣标签权重顺序列表;从所述第一兴趣标签权重顺序列表中选择权重由高到低顺序的前TopA的标签权重作为当前月龄分段的预先兴趣并汇总,得到当前月龄分段的预先兴趣集合C1;
获取当前用户的点击内容,识别当前用户通过点击内容对应的兴趣标签并汇总;获取预设兴趣时间周期,根据预设兴趣衰减方法对所有的通过点击内容形成兴趣标签进行衰减后的兴趣标签的权重计算,得到点击内容所对应的衰减后兴趣标签权重值;将所述衰减后兴趣标签权重值与所述点击内容所对应的兴趣标签的TF-IDF的值乘积得到乘积后的兴趣标签权重数值;将所述乘积后的兴趣标签权重数值从数值大到小进行排序得到第二兴趣标签权重顺序列表;从所述第二兴趣标签权重顺序列表中选择权重由高到低顺序的前TopB的标签权重作为当前用户的后验兴趣并汇总,得到当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2;
将所述预先兴趣集合C1和当前用户的所述后验兴趣集合C2进行合并,得到合并后兴趣集合。
2.根据权利要求1所述的婴幼儿内容推荐中的用户兴趣收集方法,其特征在于,对汇总后的所有月龄分段的所有的兴趣标签进行权重计算并从数值大到小顺序进行排序得到第一兴趣标签权重顺序列表,具体包括如下操作步骤:
服务器设置月龄分段的兴趣标签权重计算方式,即公式1:
Figure 574291DEST_PATH_IMAGE001
其中,M为当前月龄段所有的知识,d(t)为当前月龄分段知识对应的兴趣标签t在知识d中出现的次数;
服务器利用所述月龄分段的兴趣标签权重计算公式对每个兴趣标签的权重计算,然后对计算得到的所述月龄分段的兴趣标签的权重数值从大到小进行排序,得到第一兴趣标签权重顺序列表。
3.根据权利要求2所述的婴幼儿内容推荐中的用户兴趣收集方法,其特征在于,所述获取当前用户的点击内容,识别当前用户通过点击内容对应的兴趣标签并汇总;获取预设兴趣时间周期,根据预设兴趣衰减方法对所有的通过点击内容形成兴趣标签进行衰减后的兴趣标签的权重计算,得到点击内容所对应的衰减后兴趣标签权重值;将所述衰减后兴趣标签权重值与所述点击内容所对应的兴趣标签的TF-IDF的值乘积得到乘积后的兴趣标签权重数值,具体包括如下操作步骤:
服务器获取收集当前用户的点击内容,识别当前用户通过点击内容对应的兴趣标签,同时获取当前用户的每天点击内容对应的标签数据,所述标签数据包括点击量和点击所在天;
服务器调取当前用户的预设兴趣时间周期;在所述预设兴趣时间周期内采用兴趣标签衰减公式对所有的通过点击内容形成兴趣标签进行衰减后的兴趣标签的权重计算得到点击内容所对应的衰减后兴趣标签权重值;所述兴趣标签衰减公式为:
Figure 429115DEST_PATH_IMAGE002
;公式2;
其中,
Figure 416311DEST_PATH_IMAGE003
为衰减后兴趣标签权重值;mi为当前用户在一天点击知识形成兴趣标签t的记录;R(t)是一个用户每天点击知识形成兴趣标签的集合;“currentday-mi(day)”表示当前计算时间点所在天距离点击知识形成兴趣标签t所在天的天数之差; currentday表示当前计算时间点所在天;mi(day)为点击知识形成兴趣标签t所在天;当前用户在一天点击知识形成兴趣标签t所反映的点击量用mi(sum)表示;α为衰减系数;
计算所述预设兴趣时间周期内对应的点击内容所对应的兴趣标签的TF-IDF值;
将所述衰减后兴趣标签权重值与所述点击内容所对应的兴趣标签的TF-IDF的值乘积得到乘积后的兴趣标签权重数值;
Weight(t)=Score(t)*TF-IDF(t);公式3;在公式3中,其中
Figure 749203DEST_PATH_IMAGE004
为乘积后的兴趣标签权重数值;TF-IDF(t)为所述点击内容所对应的兴趣标签的TF-IDF的值,其中:
Figure 16105DEST_PATH_IMAGE005
;公式4;
在公式4中,其中TF(p,t)表示用户p点击知识形成兴趣标签t与在用户p点击知识形成的所有兴趣标签的比率;IDF(t)表示所有用户点击知识形成所有兴趣标签和所有兴趣标签t的占比;
Figure 510671DEST_PATH_IMAGE006
;公式5;
在公式5中,其中,w(p,t)为用户p点击知识形成兴趣标签t上的点击数;w(p,ti)为用户p点击知识形成兴趣标签ti上的点击数;
Figure 230235DEST_PATH_IMAGE007
表示为用户p点击知识形成的所有兴趣标签的点击数;
Figure 366818DEST_PATH_IMAGE008
;公式6;
在公式6中,其中w(pj,ti)为用户pj点击知识形成兴趣标签ti上的点击数;
Figure 222647DEST_PATH_IMAGE009
为所有用户点击知识形成的所有兴趣标签上的点击数;w(pj,t)为用户pj点击知识形成兴趣标签t上的点击数;
Figure 622536DEST_PATH_IMAGE010
为所有用户点击知识形成兴趣标签t的点击数。
4.根据权利要求3所述的婴幼儿内容推荐中的用户兴趣收集方法,其特征在于,在第一兴趣标签权重顺序列表中选择权重由高到低顺序的前TopA的标签权重作为当前月龄分段的预先兴趣并汇总,得到当前月龄分段的预先兴趣集合C1;其中,所述TopA具体为Top5,即选择第一兴趣标签权重顺序列表中权重高到低顺序中的前5的标签权重作为当前月龄分段的预先兴趣集合C1;
在所述第二兴趣标签权重顺序列表中选择权重由高到低顺序的前TopB的标签权重作为当前用户的后验兴趣并汇总,得到当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2;其中,所述TopB具体为Top5;即选择第二兴趣标签权重顺序列表中权重高到低顺序中的前5的标签权重作为当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2。
5.根据权利要求4所述的婴幼儿内容推荐中的用户兴趣收集方法,其特征在于,在对当前用户在所述预设兴趣时间周期内执行兴趣收集时,还包括对预先兴趣集合C1更新操作,具体包括如下操作步骤:
获取当前用户的当前月龄分段,根据当前用户存储的宝宝的出生信息或孕妇的孕期信息,推算判断当前用户的宝宝在未来的所述预设兴趣时间周期内是否发生当前月龄分段的变化;
如果发生变化,则认定当前用户在未来的所述预设兴趣时间周期内会存在当前用户的月龄分段跨区,然后计算并存储当前用户的月龄分段变化的时间节点,提前获取当前用户在下一个月龄分段的预先兴趣集合C11;
待当前用户的月龄分段到达存储的所述时间节点后,将直接调取所述下一个月龄分段的预先兴趣集合C11作为更新后的当前用户的预先兴趣集合C1。
6.根据权利要求5所述的婴幼儿内容推荐中的用户兴趣收集方法,其特征在于,所述预设兴趣时间周期为7-15day。
7.根据权利要求5所述的婴幼儿内容推荐中的用户兴趣收集方法,其特征在于,在将所述预先兴趣集合C1和当前用户的所述后验兴趣集合C2进行合并,得到合并后兴趣集合操作之后还包括执行对合并后兴趣集合进行修正处理操作:
判断当前月龄分段的预先兴趣集合C1与当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2合并后的兴趣集合中是否存在重复的兴趣标签;
如果存在,则过滤删除掉重复的兴趣标签,并确定过滤删除的兴趣标签数量;
优先从所述预先兴趣集合C1调取同等数量的兴趣标签补充到合并后的兴趣集合进行修正;
同时继续判断所述预先兴趣集合C1中是否有足够同等数量的兴趣标签补充到合并后的兴趣集合中;如果所述预先兴趣集合C1中后补的兴趣标签数量小于过滤删除的兴趣标签数量,则当所述预先兴趣集合C1中所有的兴趣标签补充合并后的兴趣集合后,从后验兴趣集合C2调取兴趣标签补充到合并后的兴趣集合完成修正操作。
8.根据权利要求3所述的婴幼儿内容推荐中的用户兴趣收集方法,其特征在于,不同月龄分段对应的α为衰减系数不同,且所述月龄分段反映的宝宝月龄越大,其衰减系数也越大。
9.一种婴幼儿内容推荐中的用户兴趣收集装置,其特征在于,所述装置包括预先兴趣集合计算处理模块、后验兴趣集合计算处理模块和合并集合计算处理模块,其中:
预先兴趣集合计算处理模块,用于根据各个月龄分段对不同知识的固有兴趣分析,得到各个月龄分段对应的推荐的知识,识别所述推荐的知识对应的兴趣标签并汇总,并且对汇总后的所有月龄分段的所有的兴趣标签进行权重计算并从数值大到小顺序进行排序得到第一兴趣标签权重顺序列表;从所述第一兴趣标签权重顺序列表中选择权重由高到低顺序的前TopA的标签权重作为当前月龄分段的预先兴趣并汇总,得到当前月龄分段的预先兴趣集合C1;
后验兴趣集合计算处理模块,用于获取当前用户的点击内容,识别当前用户通过点击内容对应的兴趣标签并汇总;获取预设兴趣时间周期,根据预设兴趣衰减方法对所有的通过点击内容形成兴趣标签进行衰减后的兴趣标签的权重计算,得到点击内容所对应的衰减后兴趣标签权重值;将所述衰减后兴趣标签权重值与所述点击内容所对应的兴趣标签的TF-IDF的值乘积得到乘积后的兴趣标签权重数值;将所述乘积后的兴趣标签权重数值从数值大到小进行排序得到第二兴趣标签权重顺序列表;从所述第二兴趣标签权重顺序列表中选择权重由高到低顺序的前TopB的标签权重作为当前用户的后验兴趣并汇总,得到当前用户的未来预设兴趣时间周期的对应的后验兴趣集合C2;
合并集合计算处理模块,用于将所述预先兴趣集合C1和当前用户的所述后验兴趣集合C2进行合并,得到合并后兴趣集合。
10.一种计算机存储介质,其特征在于,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机存储介质所在设备执行权利要求1至8中任意一项所述的婴幼儿内容推荐中的用户兴趣收集方法。
CN202110046182.6A 2021-01-14 2021-01-14 婴幼儿内容推荐中的用户兴趣收集方法、装置 Pending CN112380452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110046182.6A CN112380452A (zh) 2021-01-14 2021-01-14 婴幼儿内容推荐中的用户兴趣收集方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110046182.6A CN112380452A (zh) 2021-01-14 2021-01-14 婴幼儿内容推荐中的用户兴趣收集方法、装置

Publications (1)

Publication Number Publication Date
CN112380452A true CN112380452A (zh) 2021-02-19

Family

ID=74590065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110046182.6A Pending CN112380452A (zh) 2021-01-14 2021-01-14 婴幼儿内容推荐中的用户兴趣收集方法、装置

Country Status (1)

Country Link
CN (1) CN112380452A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682152A (zh) * 2016-12-23 2017-05-17 西安电子科技大学 一种个性化消息推荐方法
CN107608990A (zh) * 2016-07-12 2018-01-19 上海视畅信息科技有限公司 一种直播个性化推荐方法
CN107657034A (zh) * 2017-09-28 2018-02-02 武汉大学 一种社交信息增强的事件社交网络推荐算法
CN108256119A (zh) * 2018-02-14 2018-07-06 北京方正阿帕比技术有限公司 一种资源推荐模型的构建方法及基于该模型的资源推荐方法
CN109241203A (zh) * 2018-09-27 2019-01-18 天津理工大学 一种融合时间因素的用户偏好和距离加权的聚类方法
CN110688576A (zh) * 2019-09-25 2020-01-14 北京达佳互联信息技术有限公司 内容推荐方法、装置、电子设备及存储介质
US20200079172A1 (en) * 2018-09-12 2020-03-12 Lorenzo Tucker Apparatus for a pre-temperature alteration for an automotive
CN111966913A (zh) * 2020-10-21 2020-11-20 拼说说(深圳)网络科技有限公司 一种教育资源推荐处理方法、装置及计算机设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608990A (zh) * 2016-07-12 2018-01-19 上海视畅信息科技有限公司 一种直播个性化推荐方法
CN106682152A (zh) * 2016-12-23 2017-05-17 西安电子科技大学 一种个性化消息推荐方法
CN107657034A (zh) * 2017-09-28 2018-02-02 武汉大学 一种社交信息增强的事件社交网络推荐算法
CN108256119A (zh) * 2018-02-14 2018-07-06 北京方正阿帕比技术有限公司 一种资源推荐模型的构建方法及基于该模型的资源推荐方法
US20200079172A1 (en) * 2018-09-12 2020-03-12 Lorenzo Tucker Apparatus for a pre-temperature alteration for an automotive
CN109241203A (zh) * 2018-09-27 2019-01-18 天津理工大学 一种融合时间因素的用户偏好和距离加权的聚类方法
CN110688576A (zh) * 2019-09-25 2020-01-14 北京达佳互联信息技术有限公司 内容推荐方法、装置、电子设备及存储介质
CN111966913A (zh) * 2020-10-21 2020-11-20 拼说说(深圳)网络科技有限公司 一种教育资源推荐处理方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
US10565233B2 (en) Suffix tree similarity measure for document clustering
US9116985B2 (en) Computer-implemented systems and methods for taxonomy development
CN101404015B (zh) 自动生成词条层次
CN110532479A (zh) 一种信息推荐方法、装置及设备
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
US20100125540A1 (en) System And Method For Providing Robust Topic Identification In Social Indexes
US10366117B2 (en) Computer-implemented systems and methods for taxonomy development
CN113934941B (zh) 一种基于多维度信息的用户推荐系统及方法
CN111159341B (zh) 基于用户投资理财偏好的资讯推荐方法及装置
CN112434151A (zh) 一种专利推荐方法、装置、计算机设备及存储介质
CN112231593B (zh) 一种金融资讯智能推荐系统
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
Schmitt et al. What do computer scientists tweet? Analyzing the link-sharing practice on Twitter
CN116304128B (zh) 基于大数据的多媒体资讯推荐系统
US10860678B2 (en) Information extraction from data
Hider et al. Fiction genres in bookstores and libraries: a comparison of commercial and professional classifications
CN112380452A (zh) 婴幼儿内容推荐中的用户兴趣收集方法、装置
CN112766779B (zh) 信息处理方法、计算机设备及存储介质
CN111667023B (zh) 获取目标类别的文章的方法和装置
CN113076481A (zh) 一种基于成熟度技术的文献推荐系统及方法
CN110413899B (zh) 服务器存储新闻的存储资源优化方法及系统
Jatowt et al. Time-focused analysis of connectivity and popularity of historical persons in Wikipedia
Coviaux Optimization of the search engine ElasticSearch
CN112597293B (zh) 一种用于成果转移转化的数据筛选方法及数据筛选系统
Neumeyer Analyse einer dynamischen Sammlung von Zeitungsartikeln mit inhaltsbasierten Methoden

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210219

RJ01 Rejection of invention patent application after publication