CN109033281B - 一种知识资源库的智能推送系统 - Google Patents

一种知识资源库的智能推送系统 Download PDF

Info

Publication number
CN109033281B
CN109033281B CN201810758682.0A CN201810758682A CN109033281B CN 109033281 B CN109033281 B CN 109033281B CN 201810758682 A CN201810758682 A CN 201810758682A CN 109033281 B CN109033281 B CN 109033281B
Authority
CN
China
Prior art keywords
user
server
information
knowledge
user behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810758682.0A
Other languages
English (en)
Other versions
CN109033281A (zh
Inventor
李振凯
王焕金
杨祥来
曹建梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid of China Technology College
Original Assignee
State Grid Corp of China SGCC
State Grid of China Technology College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid of China Technology College filed Critical State Grid Corp of China SGCC
Priority to CN201810758682.0A priority Critical patent/CN109033281B/zh
Publication of CN109033281A publication Critical patent/CN109033281A/zh
Application granted granted Critical
Publication of CN109033281B publication Critical patent/CN109033281B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种知识资源库的智能推送系统,包括安装于系统侧的知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器,知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器依次通信连接。该系统通过跟踪、分析用户系统操作行为,结合用户注册基本信息,分析用户偏好,形成用户模型,预测用户关注内容,并将用户匹配度高的内容推送到用户端。使用了用户行为分析算法,精确的判断了用户兴趣点及其权重,实现了区分用户的个性化智能推送。并且该系统具有自成长性,根据用户操作行为的变动,自动更新用户兴趣权重值,保证推送资源的高度匹配性。

Description

一种知识资源库的智能推送系统
技术领域
本发明涉及培训教学领域,尤其涉及一种知识资源库的智能推送系统。
背景技术
目前,知识管理系统已在中国普及,但随着时间的增长,组织的发展,知识资源库愈发庞大,目前此类系统普遍使用的推送方法为不区分用户需求统一推送,维度单一,经常推送一些用户不关注的内容,造成用户对推送内容失去兴趣,推送功能效益低下。
在论文《基于工作流和知识点驱动的知识推送研究》(《计算机工程与应用》,GB/T7714-2015中,文章给出了一种通过工作流及点击触发的知识推送,通过系统预设触发点,推送给用户与该触发点相关内容,并以此作为用户兴趣点,推送类似的知识资源。该方法以单一的用户业务点作为用户需求点进行推送,过于主观,不能够精确把握用户兴趣。在论文《用户偏好管理及其在网站开发中的应用》(《中国知网》,TP311.13,2005中,提供了居于用户行为的用户行文分析方法,通过挖掘用户上网数据,计算出用户兴趣爱好,向用户提供感兴趣的资源,一定程度上提高了数据推送的精准度,但是人们的兴趣是随着时间而改变的,对于人们新的兴趣点,应为缺乏时间积累,用户行为数据少,系统判定权重必然过小,需要用户长时间点击后系统才能实现推送,效率过低。
因此,如何快速、准确的提供用户关注的知识资源,成为提高知识资源价值必需解决的问题。
发明内容
为解决上述技术问题,本发明提出了一种知识资源库的智能推送系统,以解决知识资源系统推送内容与用户匹配度低的问题。
本发明采用以下技术方案:
一种知识资源库的智能推送系统,包括通过网络通信连接的用户端和系统端,所述系统端包括依次通信连接的知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器,
所述知识资源库服务器,用于存储知识资源数据;
所述采集服务器,利用用户端和知识资源库服务器之间的网络通路,采集用户行为信息,所述用户行为信息包括用户注册时维护的个人基本信息以及用户使用过程中产生的日志文件信息;
所述数据库服务器,用于储存所述用户行为信息;
所述预处理服务器,用于对所述用户行为信息进行预处理形成规则有序的用户行为数据;
所述处理服务器,用于对用户行为数据进行计算分析,得到带有价值权重的用户兴趣点;
所述推送服务器,根据用户兴趣点的价值权重高低,与知识资源库服务器中的知识资源进行匹配,向用户端推送可聚类的信息。
所述对所述用户行为信息进行预处理形成用户行为数据的过程包括,通过截取所述用户行为信息的关键字段和识别独立用户,将所述用户行为信息转化为由若干关键字段组成的用户行为数据,所述用户行为数据按照时间的先后顺序排列。
每条所述用户行为数据包括以下关键字段:用户识别标识及个人基本信息集、访问模块及资源、网页时间戳。
所述处理服务器包括通过网络依次通信连接的读取模块、计算模块和分析模块,
所述读取模块,用于读取所述用户行为数据中的所述访问模块及资源信息和网页时间戳信息;
所述计算模块,利用中文分词和TF.IDF算法,根据所述访问模块及资源信息,计算出代表访问模块及资源信息主题的特征词及所述特征词的权重;通过向量空间模型计算多个访问模块及资源信息之间的相似度,根据所述相似度认定是否为同类资源;通过聚类将同类资源聚合到一起,形成多个不同类型的知识资源信息集合;
所述分析模块,用于对所述网页时间戳信息进行计算,通过计算所述知识资源信息集合中资源访问时间的期望和方差,得到知识资源的特征新鲜度和特征离散度,得到带有价值权重的用户兴趣点。
所述数据库处理器为实时数据库处理器和/或关系数据库处理器。
所述的用户端包括:计算机或手机。
本发明的有益效果如下:
本发明所提供的一种知识资源库的智能推送系统,通过跟踪、分析用户系统操作行为,结合用户注册基本信息,分析用户偏好,形成用户模型,预测用户关注内容,并将用户匹配度高的内容推送到用户端。使用了用户行为分析算法,精确的判断了用户兴趣点及其权重,实现了区分用户的个性化智能推送。并且该系统具有自成长性,根据用户操作行为的变动,自动更新用户兴趣权重值,保证推送资源的高度匹配性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明提供的一种知识资源库的智能推送系统的结构示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
正如背景技术所介绍的,现有技术中存在知识资源系统推送内容与用户匹配度低的不足,为了解决如上的技术问题,本申请提出了一种知识资源库的智能推送系统。
本申请的一种典型的实施方式中,如图1所示,为本发明提供的知识资源库的智能推送系统,包括安装于系统侧的知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器,知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器依次通信连接,处理服务器为实时数据库处理器和/或关系数据库处理器。
具体地,各个服务器的特点及功能如下:
所述知识资源库服务器,用于存储知识资源数据;
采集服务器,利用用户端和知识资源库服务器之间的网络通路,采集用户行为信息,用户行为信息包括用户注册时维护的个人基本信息以及用户使用过程中产生的日志文件信息。
数据库服务器,用以储存用户行为信息。
预处理服务器,可对用户行为信息进行预处理形成规则有序的用户行为数据,具体地,用户行为信息相对混乱无序,需要进行预处理形成有序数据便于后续分析。为处理海量用户行为信息,本发明采用基于Hadoop集群的HDFS+Hive模式大数据仓库,预处理服务器的工作主要包括两个部分,即关键字段截取和独立用户识别。经过预处理后用户行为数据由杂乱无章的用户行为信息数据转变成由几个规定关键字段组成的规范化数据即用户行为数据。所述用户行为数据包括很多条规范化后的用户行为日志组成的文档,并且按照时间的先后顺序排列,其中每条数据包括用户识别标识及个人基本信息集、访问模块及资源、网页时间戳等几个字段,以方便处理服务器在用户行为特征分析时,对这几个关键字段的利用。
处理服务器,可对上述用户行为数据进行计算分析,得到带有价值权重的用户兴趣点,具体地,处理服务器包括读取模块、计算模块和分析模块,所述读取模块、计算模块和分析模块依次通过网络通信连接。其中,读取模块,该模块的数据源是预处理服务器的输出结果,即用户行为数据,该模块用以读取用户行为数据中的访问模块及资源信息和时间戳信息。
计算模块,利用中文分词和TF.IDF算法,根据访问模块及资源信息,计算出代表访问资源信息主题的特征词及其权重。通过向量空间模型计算多个访问模块及资源信息之间的相似度,根据相似度认定是否为同类资源;通过聚类将同类资源聚合到一起,形成多个不同类型的知识资源信息集合。其中,TF.IDF算法是计算文档中词频的经典算法,它的目的是计算出文档中的词在文档中所占的权重。向量空间模型是计算两个文档相似度的方法,它将两个文档映射到同一个多维空间,将每一个文档作为一个向量,向量中的元素的词语在文档中的权重值组成,而这个权重值可通过TF.IDF方法得出由该文档汇中。最后计算两个向量的余弦值,余弦值越大,两个文档相似性越高。使用聚类的时候,首先计算出用户访问知识资源集合的质心,然后通过向量空间模型计算知识资源信息集合质心与知识资源间的相似度,如果相似度达到一定的值,则认为该知识资源信息集合属于用户访问知识资源信息集合。
分析模块,对时间戳进行计算,利用用户行为分析算法通过计算知识资源信息集合中资源访问时间的期望和方差,得到知识资源的特征新鲜度和特征离散度,得到带有价值权重的用户兴趣点。用户行为分析算法主要是对用户行为数据中的时间戳进行计算,通过计算用户访问知识资源信息集合中资源访问时间的期望与方差,可以得出知识资源的特征新鲜度和特征离散度,进而综合分析出用户的兴趣。
推送服务器,根据用户兴趣点的价值权重高低,与知识资源库服务器中的知识资源进行匹配,向用户端推送可聚类的信息。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (5)

1.一种知识资源库的智能推送系统,其特征在于,包括通过网络通信连接的用户端和系统端,所述系统端包括依次通信连接的知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器,
所述知识资源库服务器,用于存储知识资源数据;
所述采集服务器,利用用户端和知识资源库服务器之间的网络通路,采集用户行为信息,所述用户行为信息包括用户注册时维护的个人基本信息以及用户使用过程中产生的日志文件信息;
所述数据库服务器,用于储存所述用户行为信息;
所述预处理服务器,用于对所述用户行为信息进行预处理形成规则有序的用户行为数据;
所述处理服务器,用于对用户行为数据进行计算分析,得到带有价值权重的用户兴趣点;
所述处理服务器包括通过网络依次通信连接的读取模块、计算模块和分析模块,
所述读取模块,用于读取所述用户行为数据中的访问模块及资源信息和网页时间戳信息;
所述计算模块,利用中文分词和TF.IDF算法,根据所述访问模块及资源信息,计算出代表访问模块及资源信息主题的特征词及所述特征词的权重;通过向量空间模型计算多个访问模块及资源信息之间的相似度,根据所述相似度认定是否为同类资源;通过聚类将同类资源聚合到一起,形成多个不同类型的知识资源信息集合;使用聚类的时候,首先计算出用户访问知识资源集合的质心,然后通过向量空间模型计算知识资源信息集合质心与知识资源间的相似度,如果相似度达到一定的值,则认为该知识资源信息集合属于用户访问知识资源信息集合;
所述分析模块,用于对所述网页时间戳信息进行计算,利用用户行为分析算法计算所述知识资源信息集合中资源访问时间的期望和方差,得到知识资源的特征新鲜度和特征离散度,得到带有价值权重的用户兴趣点;
所述推送服务器,根据用户兴趣点的价值权重高低,与知识资源库服务器中的知识资源进行匹配,向用户端推送可聚类的信息。
2.如权利要求1所述的知识资源库的智能推送系统,其特征在于,所述对所述用户行为信息进行预处理形成用户行为数据的过程包括,通过截取所述用户行为信息的关键字段和识别独立用户,将所述用户行为信息转化为由若干关键字段组成的用户行为数据,所述用户行为数据按照时间的先后顺序排列。
3.如权利要求2所述的知识资源库的智能推送系统,其特征在于,每条所述用户行为数据包括以下关键字段:用户识别标识及个人基本信息集、访问模块及资源信息、网页时间戳。
4.如权利要求1-3任一项所述的知识资源库的智能推送系统,其特征在于,所述处理服务器为实时数据库处理器和/或关系数据库处理器。
5.如权利要求1所述的知识资源库的智能推送系统,其特征在于,所述的用户端包括:计算机或手机。
CN201810758682.0A 2018-07-11 2018-07-11 一种知识资源库的智能推送系统 Expired - Fee Related CN109033281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810758682.0A CN109033281B (zh) 2018-07-11 2018-07-11 一种知识资源库的智能推送系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810758682.0A CN109033281B (zh) 2018-07-11 2018-07-11 一种知识资源库的智能推送系统

Publications (2)

Publication Number Publication Date
CN109033281A CN109033281A (zh) 2018-12-18
CN109033281B true CN109033281B (zh) 2019-12-13

Family

ID=64642169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810758682.0A Expired - Fee Related CN109033281B (zh) 2018-07-11 2018-07-11 一种知识资源库的智能推送系统

Country Status (1)

Country Link
CN (1) CN109033281B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110166578A (zh) * 2019-07-04 2019-08-23 钟毅 基于大数据行为轨迹分析的分布式部署个性化推送办法
CN110555170B (zh) * 2019-09-12 2023-07-07 天元大数据信用管理有限公司 一种优化用户体验的系统及方法
CN111082988A (zh) * 2019-12-18 2020-04-28 南京联成科技发展股份有限公司 一种安全态势感知的智慧系统
CN111967904A (zh) * 2020-08-07 2020-11-20 泰康保险集团股份有限公司 用户数据处理方法及装置、计算机存储介质、电子设备
CN113297457B (zh) * 2021-05-24 2023-02-28 陕西合友网络科技有限公司 一种高精准性的信息资源智能推送系统及推送方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246214A1 (en) * 2009-12-15 2011-10-06 Yarvis Mark D Techniques to identify in-market purchasing interests
CN102685224B (zh) * 2012-04-28 2014-10-08 华为技术有限公司 用户行为分析方法及相关设备和系统
CN102831199B (zh) * 2012-08-07 2015-07-08 北京奇虎科技有限公司 建立兴趣模型的方法及装置
CN105183727A (zh) * 2014-05-29 2015-12-23 上海研深信息科技有限公司 一种图书推荐方法及其系统
CN104376058B (zh) * 2014-11-07 2018-04-27 华为技术有限公司 用户兴趣模型更新方法及相关装置
CN104462213A (zh) * 2014-12-05 2015-03-25 成都逸动无限网络科技有限公司 一种基于大数据的用户行为分析方法及系统
CN106372133A (zh) * 2016-08-19 2017-02-01 苏州七彩部落网络科技有限公司 一种基于大数据的用户行为分析处理方法及系统
CN107886949B (zh) * 2017-11-24 2021-04-30 科大讯飞股份有限公司 一种内容推荐方法及装置

Also Published As

Publication number Publication date
CN109033281A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109033281B (zh) 一种知识资源库的智能推送系统
CN100416560C (zh) 通过在线和离线组件聚类进化数据流的方法和设备
TW201805839A (zh) 資料處理方法、設備及系統
US20100274821A1 (en) Schema Matching Using Clicklogs
CN101814083A (zh) 网页自动分类方法和系统
CN109885773A (zh) 一种文章个性化推荐方法、系统、介质及设备
CN103838756A (zh) 一种确定推送信息的方法及装置
CN108664515B (zh) 一种搜索方法及装置,电子设备
CN107908616B (zh) 预测趋势词的方法和装置
CN109710767B (zh) 多语种大数据服务平台
CN104077407A (zh) 一种智能数据搜索系统及方法
CN103970891A (zh) 一种基于情境的用户兴趣信息查询方法
CN112818230B (zh) 内容推荐方法、装置、电子设备和存储介质
CN112104642A (zh) 一种异常账号确定方法和相关装置
CN106649498A (zh) 一种基于爬虫和文本聚类分析的网络舆情分析系统
CN102855245A (zh) 一种用于确定图片相似度的方法与设备
CN103745380A (zh) 一种广告投放方法和装置
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及系统
CN114663132A (zh) 一种基于实时用户画像的智能营销方法及装置
CN105159898B (zh) 一种搜索的方法和装置
CN110688549A (zh) 一种基于知识体系图谱构建的人工智能分类方法与系统
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
CN111708942B (zh) 多媒体资源推送方法、装置、服务器及存储介质
CN109213793A (zh) 一种流式数据处理方法和系统
CN111666308B (zh) 一种基于行为分析的大数据智能推荐查询方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191213

Termination date: 20210711

CF01 Termination of patent right due to non-payment of annual fee