CN109033281A - 一种知识资源库的智能推送系统 - Google Patents
一种知识资源库的智能推送系统 Download PDFInfo
- Publication number
- CN109033281A CN109033281A CN201810758682.0A CN201810758682A CN109033281A CN 109033281 A CN109033281 A CN 109033281A CN 201810758682 A CN201810758682 A CN 201810758682A CN 109033281 A CN109033281 A CN 109033281A
- Authority
- CN
- China
- Prior art keywords
- server
- user
- information
- user behavior
- knowledge resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000004891 communication Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000006116 polymerization reaction Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000006399 behavior Effects 0.000 abstract description 41
- 238000004364 calculation method Methods 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种知识资源库的智能推送系统,包括安装于系统侧的知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器,知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器依次通信连接。该系统通过跟踪、分析用户系统操作行为,结合用户注册基本信息,分析用户偏好,形成用户模型,预测用户关注内容,并将用户匹配度高的内容推送到用户端。使用了用户行为分析算法,精确的判断了用户兴趣点及其权重,实现了区分用户的个性化智能推送。并且该系统具有自成长性,根据用户操作行为的变动,自动更新用户兴趣权重值,保证推送资源的高度匹配性。
Description
技术领域
本发明涉及培训教学领域,尤其涉及一种知识资源库的智能推送系统。
背景技术
目前,知识管理系统已在中国普及,但随着时间的增长,组织的发展,知识资源库愈发庞大,目前此类系统普遍使用的推送方法为不区分用户需求统一推送,维度单一,经常推送一些用户不关注的内容,造成用户对推送内容失去兴趣,推送功能效益低下。
在论文《基于工作流和知识点驱动的知识推送研究》(《计算机工程与应用》,GB/T7714-2015中,文章给出了一种通过工作流及点击触发的知识推送,通过系统预设触发点,推送给用户与该触发点相关内容,并以此作为用户兴趣点,推送类似的知识资源。该方法以单一的用户业务点作为用户需求点进行推送,过于主观,不能够精确把握用户兴趣。在论文《用户偏好管理及其在网站开发中的应用》(《中国知网》,TP311.13,2005中,提供了居于用户行为的用户行文分析方法,通过挖掘用户上网数据,计算出用户兴趣爱好,向用户提供感兴趣的资源,一定程度上提高了数据推送的精准度,但是人们的兴趣是随着时间而改变的,对于人们新的兴趣点,应为缺乏时间积累,用户行为数据少,系统判定权重必然过小,需要用户长时间点击后系统才能实现推送,效率过低。
因此,如何快速、准确的提供用户关注的知识资源,成为提高知识资源价值必需解决的问题。
发明内容
为解决上述技术问题,本发明提出了一种知识资源库的智能推送系统,以解决知识资源系统推送内容与用户匹配度低的问题。
本发明采用以下技术方案:
一种知识资源库的智能推送系统,包括通过网络通信连接的用户端和系统端,所述系统端包括依次通信连接的知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器,
所述知识资源库服务器,用于存储知识资源数据;
所述采集服务器,利用用户端和知识资源库服务器之间的网络通路,采集用户行为信息,所述用户行为信息包括用户注册时维护的个人基本信息以及用户使用过程中产生的日志文件信息;
所述数据库服务器,用于储存所述用户行为信息;
所述预处理服务器,用于对所述用户行为信息进行预处理形成规则有序的用户行为数据;
所述处理服务器,用于对用户行为数据进行计算分析,得到带有价值权重的用户兴趣点;
所述推送服务器,根据用户兴趣点的价值权重高低,与知识资源库服务器中的知识资源进行匹配,向用户端推送可聚类的信息。
所述对所述用户行为信息进行预处理形成用户行为数据的过程包括,通过截取所述用户行为信息的关键字段和识别独立用户,将所述用户行为信息转化为由若干关键字段组成的用户行为数据,所述用户行为数据按照时间的先后顺序排列。
每条所述用户行为数据包括以下关键字段:用户识别标识及个人基本信息集、访问模块及资源、网页时间戳。
所述处理服务器包括通过网络依次通信连接的读取模块、计算模块和分析模块,
所述读取模块,用于读取所述用户行为数据中的所述访问模块及资源信息和网页时间戳信息;
所述计算模块,利用中文分词和TF.IDF算法,根据所述访问模块及资源信息,计算出代表访问模块及资源信息主题的特征词及所述特征词的权重;通过向量空间模型计算多个访问模块及资源信息之间的相似度,根据所述相似度认定是否为同类资源;通过聚类将同类资源聚合到一起,形成多个不同类型的知识资源信息集合;
所述分析模块,用于对所述网页时间戳信息进行计算,通过计算所述知识资源信息集合中资源访问时间的期望和方差,得到知识资源的特征新鲜度和特征离散度,得到带有价值权重的用户兴趣点。
所述数据库处理器为实时数据库处理器和/或关系数据库处理器。
所述的用户端包括:计算机或手机。
本发明的有益效果如下:
本发明所提供的一种知识资源库的智能推送系统,通过跟踪、分析用户系统操作行为,结合用户注册基本信息,分析用户偏好,形成用户模型,预测用户关注内容,并将用户匹配度高的内容推送到用户端。使用了用户行为分析算法,精确的判断了用户兴趣点及其权重,实现了区分用户的个性化智能推送。并且该系统具有自成长性,根据用户操作行为的变动,自动更新用户兴趣权重值,保证推送资源的高度匹配性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明提供的一种知识资源库的智能推送系统的结构示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
正如背景技术所介绍的,现有技术中存在知识资源系统推送内容与用户匹配度低的不足,为了解决如上的技术问题,本申请提出了一种知识资源库的智能推送系统。
本申请的一种典型的实施方式中,如图1所示,为本发明提供的知识资源库的智能推送系统,包括安装于系统侧的知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器,知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器依次通信连接,处理服务器为实时数据库处理器和/或关系数据库处理器。
具体地,各个服务器的特点及功能如下:
所述知识资源库服务器,用于存储知识资源数据;
采集服务器,利用用户端和知识资源库服务器之间的网络通路,采集用户行为信息,用户行为信息包括用户注册时维护的个人基本信息以及用户使用过程中产生的日志文件信息。
数据库服务器,用以储存用户行为信息。
预处理服务器,可对用户行为信息进行预处理形成规则有序的用户行为数据,具体地,用户行为信息相对混乱无序,需要进行预处理形成有序数据便于后续分析。为处理海量用户行为信息,本发明采用基于Hadoop集群的HDFS+Hive模式大数据仓库,预处理服务器的工作主要包括两个部分,即关键字段截取和独立用户识别。经过预处理后用户行为数据由杂乱无章的用户行为信息数据转变成由几个规定关键字段组成的规范化数据即用户行为数据。所述用户行为数据包括很多条规范化后的用户行为日志组成的文档,并且按照时间的先后顺序排列,其中每条数据包括用户识别标识及个人基本信息集、访问模块及资源、网页时间戳等几个字段,以方便处理服务器在用户行为特征分析时,对这几个关键字段的利用。
处理服务器,可对上述用户行为数据进行计算分析,得到带有价值权重的用户兴趣点,具体地,处理服务器包括读取模块、计算模块和分析模块,所述读取模块、计算模块和分析模块依次通过网络通信连接。其中,读取模块,该模块的数据源是预处理服务器的输出结果,即用户行为数据,该模块用以读取用户行为数据中的访问模块及资源信息和时间戳信息。
计算模块,利用中文分词和TF.IDF算法,根据访问模块及资源信息,计算出代表访问资源信息主题的特征词及其权重。通过向量空间模型计算多个访问模块及资源信息之间的相似度,根据相似度认定是否为同类资源;通过聚类将同类资源聚合到一起,形成多个不同类型的知识资源信息集合。其中,TF.IDF算法是计算文档中词频的经典算法,它的目的是计算出文档中的词在文档中所占的权重。向量空间模型是计算两个文档相似度的方法,它将两个文档映射到同一个多维空间,将每一个文档作为一个向量,向量中的元素的词语在文档中的权重值组成,而这个权重值可通过TF.IDF方法得出由该文档汇中。最后计算两个向量的余弦值,余弦值越大,两个文档相似性越高。使用聚类的时候,首先计算出用户访问知识资源集合的质心,然后通过向量空间模型计算知识资源信息集合质心与知识资源间的相似度,如果相似度达到一定的值,则认为该知识资源信息集合属于用户访问知识资源信息集合。
分析模块,对时间戳进行计算,利用用户行为分析算法通过计算知识资源信息集合中资源访问时间的期望和方差,得到知识资源的特征新鲜度和特征离散度,得到带有价值权重的用户兴趣点。用户行为分析算法主要是对用户行为数据中的时间戳进行计算,通过计算用户访问知识资源信息集合中资源访问时间的期望与方差,可以得出知识资源的特征新鲜度和特征离散度,进而综合分析出用户的兴趣。
推送服务器,根据用户兴趣点的价值权重高低,与知识资源库服务器中的知识资源进行匹配,向用户端推送可聚类的信息。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (6)
1.一种知识资源库的智能推送系统,其特征在于,包括通过网络通信连接的用户端和系统端,所述系统端包括依次通信连接的知识资源库服务器、采集服务器、数据库服务器、预处理服务器、处理服务器和推送服务器,
所述知识资源库服务器,用于存储知识资源数据;
所述采集服务器,利用用户端和知识资源库服务器之间的网络通路,采集用户行为信息,所述用户行为信息包括用户注册时维护的个人基本信息以及用户使用过程中产生的日志文件信息;
所述数据库服务器,用于储存所述用户行为信息;
所述预处理服务器,用于对所述用户行为信息进行预处理形成规则有序的用户行为数据;
所述处理服务器,用于对用户行为数据进行计算分析,得到带有价值权重的用户兴趣点;
所述推送服务器,根据用户兴趣点的价值权重高低,与知识资源库服务器中的知识资源进行匹配,向用户端推送可聚类的信息。
2.如权利要求1所述的知识资源库的智能推送系统,其特征在于,所述对所述用户行为信息进行预处理形成用户行为数据的过程包括,通过截取所述用户行为信息的关键字段和识别独立用户,将所述用户行为信息转化为由若干关键字段组成的用户行为数据,所述用户行为数据按照时间的先后顺序排列。
3.如权利要求2所述的知识资源库的智能推送系统,其特征在于,每条所述用户行为数据包括以下关键字段:用户识别标识及个人基本信息集、访问模块及资源、网页时间戳。
4.如权利要求1所述的知识资源库的智能推送系统,其特征在于,所述处理服务器包括通过网络依次通信连接的读取模块、计算模块和分析模块,
所述读取模块,用于读取所述用户行为数据中的所述访问模块及资源信息和网页时间戳信息;
所述计算模块,利用中文分词和TF.IDF算法,根据所述访问模块及资源信息,计算出代表访问模块及资源信息主题的特征词及所述特征词的权重;通过向量空间模型计算多个访问模块及资源信息之间的相似度,根据所述相似度认定是否为同类资源;通过聚类将同类资源聚合到一起,形成多个不同类型的知识资源信息集合;
所述分析模块,用于对所述网页时间戳信息进行计算,利用用户行为分析算法计算所述知识资源信息集合中资源访问时间的期望和方差,得到知识资源的特征新鲜度和特征离散度,得到带有价值权重的用户兴趣点。
5.如权利要求1-3任一项所述的知识资源库的智能推送系统,其特征在于,所述处理服务器为实时数据库处理器和/或关系数据库处理器。
6.如权利要求1所述的知识资源库的智能推送系统,其特征在于,所述的用户端包括:计算机或手机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810758682.0A CN109033281B (zh) | 2018-07-11 | 2018-07-11 | 一种知识资源库的智能推送系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810758682.0A CN109033281B (zh) | 2018-07-11 | 2018-07-11 | 一种知识资源库的智能推送系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033281A true CN109033281A (zh) | 2018-12-18 |
CN109033281B CN109033281B (zh) | 2019-12-13 |
Family
ID=64642169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810758682.0A Expired - Fee Related CN109033281B (zh) | 2018-07-11 | 2018-07-11 | 一种知识资源库的智能推送系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033281B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110166578A (zh) * | 2019-07-04 | 2019-08-23 | 钟毅 | 基于大数据行为轨迹分析的分布式部署个性化推送办法 |
CN110555170A (zh) * | 2019-09-12 | 2019-12-10 | 山东爱城市网信息技术有限公司 | 一种优化用户体验的系统及方法 |
CN111082988A (zh) * | 2019-12-18 | 2020-04-28 | 南京联成科技发展股份有限公司 | 一种安全态势感知的智慧系统 |
CN111967904A (zh) * | 2020-08-07 | 2020-11-20 | 泰康保险集团股份有限公司 | 用户数据处理方法及装置、计算机存储介质、电子设备 |
CN113297457A (zh) * | 2021-05-24 | 2021-08-24 | 陕西合友网络科技有限公司 | 一种高精准性的信息资源智能推送系统及推送方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246214A1 (en) * | 2009-12-15 | 2011-10-06 | Yarvis Mark D | Techniques to identify in-market purchasing interests |
CN102831199A (zh) * | 2012-08-07 | 2012-12-19 | 北京奇虎科技有限公司 | 建立兴趣模型的方法及装置 |
CN104376058A (zh) * | 2014-11-07 | 2015-02-25 | 华为技术有限公司 | 用户兴趣模型更新方法及相关装置 |
US20150066589A1 (en) * | 2012-04-28 | 2015-03-05 | Huawei Technologies Co., Ltd. | User behavior analysis method, and related device and method |
CN104462213A (zh) * | 2014-12-05 | 2015-03-25 | 成都逸动无限网络科技有限公司 | 一种基于大数据的用户行为分析方法及系统 |
CN105183727A (zh) * | 2014-05-29 | 2015-12-23 | 上海研深信息科技有限公司 | 一种图书推荐方法及其系统 |
CN106372133A (zh) * | 2016-08-19 | 2017-02-01 | 苏州七彩部落网络科技有限公司 | 一种基于大数据的用户行为分析处理方法及系统 |
CN107886949A (zh) * | 2017-11-24 | 2018-04-06 | 科大讯飞股份有限公司 | 一种内容推荐方法及装置 |
-
2018
- 2018-07-11 CN CN201810758682.0A patent/CN109033281B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246214A1 (en) * | 2009-12-15 | 2011-10-06 | Yarvis Mark D | Techniques to identify in-market purchasing interests |
US20150066589A1 (en) * | 2012-04-28 | 2015-03-05 | Huawei Technologies Co., Ltd. | User behavior analysis method, and related device and method |
CN102831199A (zh) * | 2012-08-07 | 2012-12-19 | 北京奇虎科技有限公司 | 建立兴趣模型的方法及装置 |
CN105183727A (zh) * | 2014-05-29 | 2015-12-23 | 上海研深信息科技有限公司 | 一种图书推荐方法及其系统 |
CN104376058A (zh) * | 2014-11-07 | 2015-02-25 | 华为技术有限公司 | 用户兴趣模型更新方法及相关装置 |
CN104462213A (zh) * | 2014-12-05 | 2015-03-25 | 成都逸动无限网络科技有限公司 | 一种基于大数据的用户行为分析方法及系统 |
CN106372133A (zh) * | 2016-08-19 | 2017-02-01 | 苏州七彩部落网络科技有限公司 | 一种基于大数据的用户行为分析处理方法及系统 |
CN107886949A (zh) * | 2017-11-24 | 2018-04-06 | 科大讯飞股份有限公司 | 一种内容推荐方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110166578A (zh) * | 2019-07-04 | 2019-08-23 | 钟毅 | 基于大数据行为轨迹分析的分布式部署个性化推送办法 |
CN110555170A (zh) * | 2019-09-12 | 2019-12-10 | 山东爱城市网信息技术有限公司 | 一种优化用户体验的系统及方法 |
CN111082988A (zh) * | 2019-12-18 | 2020-04-28 | 南京联成科技发展股份有限公司 | 一种安全态势感知的智慧系统 |
CN111967904A (zh) * | 2020-08-07 | 2020-11-20 | 泰康保险集团股份有限公司 | 用户数据处理方法及装置、计算机存储介质、电子设备 |
CN113297457A (zh) * | 2021-05-24 | 2021-08-24 | 陕西合友网络科技有限公司 | 一种高精准性的信息资源智能推送系统及推送方法 |
CN113297457B (zh) * | 2021-05-24 | 2023-02-28 | 陕西合友网络科技有限公司 | 一种高精准性的信息资源智能推送系统及推送方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109033281B (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677844B (zh) | 一种移动广告大数据的定向推送及用户跨屏识别方法 | |
CN109033281B (zh) | 一种知识资源库的智能推送系统 | |
WO2022126971A1 (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
WO2018028443A1 (zh) | 数据处理方法、设备及系统 | |
Kohlwey et al. | Leveraging the cloud for big data biometrics: Meeting the performance requirements of the next generation biometric systems | |
CN113342976B (zh) | 一种自动采集处理数据的方法、装置、存储介质及设备 | |
CN104050235B (zh) | 基于集合选择的分布式信息检索方法 | |
CN107291886A (zh) | 一种基于增量聚类算法的微博话题检测方法及系统 | |
CN105631707A (zh) | 基于决策树的广告点击率预估方法与应用推荐方法及装置 | |
CN110119477B (zh) | 一种信息推送方法、装置和存储介质 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN111708942B (zh) | 多媒体资源推送方法、装置、服务器及存储介质 | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
CN105389341A (zh) | 一种客服电话重复来电工单的文本聚类与分析方法 | |
CN106155817A (zh) | 业务信息处理方法、服务器及系统 | |
US20140006369A1 (en) | Processing structured and unstructured data | |
CN105159971B (zh) | 一种云平台数据检索方法 | |
Nasraoui et al. | A framework for mining evolving trends in web data streams using dynamic learning and retrospective validation | |
CN105868347A (zh) | 一种基于多步聚类的重名消歧方法 | |
CN110442614B (zh) | 元数据的搜索方法及装置、电子设备、存储介质 | |
CN103761286A (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Lian | Implementation of computer network user behavior forensic analysis system based on speech data system log | |
CN109213793A (zh) | 一种流式数据处理方法和系统 | |
CN105677850B (zh) | 一种基于神经网络模型的上下文感知音乐推荐方法 | |
Wang | The development of web log mining based on improve-K-means clustering analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191213 Termination date: 20210711 |