CN106296312A - 基于社交媒体的在线教育资源推荐系统 - Google Patents

基于社交媒体的在线教育资源推荐系统 Download PDF

Info

Publication number
CN106296312A
CN106296312A CN201610777227.6A CN201610777227A CN106296312A CN 106296312 A CN106296312 A CN 106296312A CN 201610777227 A CN201610777227 A CN 201610777227A CN 106296312 A CN106296312 A CN 106296312A
Authority
CN
China
Prior art keywords
resource
user
module
social media
online education
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610777227.6A
Other languages
English (en)
Inventor
秦谦
王飞
纪鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Mingtong Tech Co Ltd
Original Assignee
Jiangsu Mingtong Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Mingtong Tech Co Ltd filed Critical Jiangsu Mingtong Tech Co Ltd
Priority to CN201610777227.6A priority Critical patent/CN106296312A/zh
Publication of CN106296312A publication Critical patent/CN106296312A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于社交媒体的在线教育资源推荐系统,其特征在于,包括数据抓取模块,信息处理模块和教育资源推荐模块;数据抓取模块,在线教育资源推荐模块均与信息处理模块相连接;数据抓取模块分为两部分:社交媒体数据抓取模块和在线教育资源数据抓取模块;信息处理模块负责分析处理抓取到的数据,对商品进行商品树的建立和映射,并建立社交媒体用户的描述;教育资源推荐模块用于对待推荐用户进行教育资源查询,对得到的教育资源进行排序并进行推荐。本发明针对社交媒体和在线教育结合营销的一个整合系统,通过社交媒体和在线教育,利用客观的社交媒体大数据实现教育资源推荐,充分挖掘用户的资源选择兴趣。

Description

基于社交媒体的在线教育资源推荐系统
技术领域
本发明属于在线教育应用技术领域,特别涉及一种基于社交媒体的在线教育资源推荐系统。
背景技术
教育是一国之本,尤其是在中国,教育对于千千万万的家庭来讲是重中之重。这里教育不仅仅是孩子的教育,更包括成年教育,老年教育等等。随着互联网的普及,各种在线教育的资源也变得更加丰富起来。如何根据用户自己的需求找到合适的在线教育资源就成为了一个非常契合实际的问题。
随着网络的普及,社交网络例如微信,微博已逐渐走进千家万户,成为大家生活不可或缺的一部分。如果能够利用社交网络的数据来对用户进行精准地刻画,则可能更好的发掘用户的潜在兴趣,进一步的实现更好的用户与教育资源之间的匹配。这样的基于社交网络的教育资源推荐系统已经成为大数据时代不可或缺的潮流。
然而,基于社交网络数据的推荐还有很多困难。例如用户可能不够活跃造成用户的信息量不够,从而无法对用户的行为进行精准的刻画。用户在社交媒体上发表的言论通常短小精练,这对于后续的信息处理或是机器学习算法造成了不小的困难,因为没有足够多一集稠密的数据来充分的训练后续算法。此外用户发表的言论通常不仅有文字,而且包括照片,这种异构数据处理对于现有的机器学习算法是一个挑战。此外用户在社交媒体上通常并不适用标准化的语言,而是有很多俚语,这对自然语言的处理也是一个难题。
传统的教育资源推荐大都是靠口碑,或是传单。随着信息化时代的到来,各种各样的教育机构以及模式如雨后春笋般层出不穷,对于普通用户而言如何甄别合适的教育资源是一个不小的难题。基于大数据的自动化推荐是解决这一问题的根本方法。现有的推荐技术技术一般基于朋友的协同推荐或者基于内容理解的相似度推荐。
基于朋友的协同推荐实际上模仿了现实生活中的“口碑”,也就是说,如果一个用户的好友都说一个学校好,那么很有可能这个用户也会喜欢这个学校。在社交网络上,好友是天然定义的,例如微信的好友圈。然而,在很多社交网络上,并没有朋友购买或关注的教育资源的信息。因此,基于朋友的推荐很容易遇到“冷启动”的问题,即没有办法开始预测。基于朋友的推荐可以成为非常有用的信号,当且仅当社交网络上的推荐和关注形成一定的规模时才比较有效。
基于内容理解的推荐是指对社交网络用户发表的帖子或图像内容进行理解,从中推测用户的喜好。此外,社交网络上的各种标签信息也可以用来描述用户的喜好。这些喜好可以用来匹配教育资源。例如,某用户具有标签“英语”,那么英文相关的教育就成为了很好的备选推荐教育资源。这个方法虽然可以用来估计用户的偏好,但是不能很好的在细粒度上对用户进行描述。例如,推荐英语产品时,到底是口语,还是写作;或者到底是很贵的外教英语套餐,还是相对较便宜的国内英语专项。这些问题使用标签都较难进行判断。
例如,专利公布号CN103886054A公开了一种网络教学资源的个性化推荐系统和推荐方法,该系统包括:数据构建模块,其构建教师行为数据、教师模型数据、课程模型数据、资源模型数据;离线数据处理模块,其用于初始化和调整课程模型数据和资源模型数据,并利用教师行为数据推断教师身份,根据教师行为数据计算资源之间的关联度,根据资源模型数据计算资源之间的相似度,根据资源模型数据和课程模型数据计算课程与资源之间的关联度;在线推荐模块,其利用资源之间的关联度、资源之间的相似度、课程与资源的关联度、教师的动态描述在线推荐资源,还根据教师对推荐资源的反馈推荐资源标签,并通过UI交互,将教师的行为数据传输到数据构建模块的教师行为数据中。该系统并未对用户进行任何的建模,因而无法保证推荐的网络教学资源能够匹配用户的喜好。
例如,专利公布号CN103116657B公布了公开了一种基于知识的面向教学任务的网络教学资源搜索方法。所述方法首先通过预处理阶段完成对教学资源搜索列表的离线整理和存储,然后在实时搜索阶段通过调取和即时处理离线资源搜索列表为教师用户的在线教学任务提供实时资源个性化搜索服务。本发明公开的上述方法结合了教学任务的知识描述和教师用户的行为特征,具有强大的语义特性、良好的资源查询扩展能力、并且实现查询扩展深度的可控,体现出了特色和创新。使用本发明提供的方法,能够针对教师正在进行的教学任务,从海量的网络教学资源中为其准确搜索并推送出与此教学任务密切相关的内容,为教师完成教学设计、备课等教学任务提供方便,同时也让网络上的教学资源得到充分的利用。该方法主要实现教学资源的搜索,并未考虑到用户喜好的匹配以及合理的推荐。
目前,现有技术中还没有一种充分基于社交媒体信息的在线教育资源推荐系统,用户的兴趣没有充分挖掘。
发明内容
发明目的:本发明提供一种基于社交媒体的在线教育资源推荐系统,利用社交媒体上各种信息包括用户本身的信息以及帖子、朋友圈等,对用户兴趣及偏好进行理解,形成一个有效的在线教育资源推荐系统,以解决现有技术中的问题。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于社交媒体的在线教育资源推荐系统,其特征在于,包括数据抓取模块,信息处理模块和教育资源推荐模块;其中,数据抓取模块,在线教育资源推荐模块均与信息处理模块相连接;所述数据抓取模块分为两部分:社交媒体数据抓取模块和在线教育资源数据抓取模块;社交媒体数据抓取模块通过并行计算算法进行多机抓取社交媒体数据;在线教育资源数据抓取模块通过并行计算算法进行多机抓取在线教育资源相关数据;信息处理模块负责分析处理抓取到的数据,对商品进行商品树的建立和映射,并建立社交媒体用户的描述;教育资源推荐模块用于对待推荐用户进行教育资源查询,对得到的教育资源进行排序并进行推荐。
进一步,所述社交媒体数据抓取模块通过网络爬虫获取社交媒体上的数据,然后通过使用分布式系统在不破坏负载均衡的条件下将抓取任务分配给多台计算机,还通过网页解析器对网页进行分析、文本分析、链接分析和网页质量控制、去重,得到相应的网页内容,将所述网页内容结果分成结构化信息和非结构化信息,分别存储到结构化信息数据库和非结构化信息数据库中。
进一步,所述在线教育资源数据抓取模块通过机器学习查询生成器对于电子商务网站产生一系列正则表达式查询语句对在线教育网站进行查询,并把所有的信息抓取下来,通过深度网页查询扩展、网页分析器来进行网页内容的数据交互;通过机器学习算法学习不同网站的查询规则,使用关键词替换的方法遍历所有具有大概率的查询,通过知识库智能查询,资源属性抽取,真值发现,生成实体属性关系数据库。
进一步,所述信息处理模块包括用户建模模块、资源建模模块、资源和用户映射建模模块,用户建模模块、资源建模模块分别与资源和用户映射建模模块相连接。
进一步,所述用户建模模块包括:标签传播、内容判别和用户其他信息判别;
其中,所述标签传播对于社交网络用户,通过在社交网络上的标签组成的图进行随机游走得到标签传播的概率,从而扩展用户的标签;
其中,所述内容判别对用户发表的内容进行分析,通过非监督学习得到可能的标签;同时,通过监督学习的方法对没有标签的用户进行标签判断;
其中,所述用户其他信息判别对于用户发表的内容进行理解以及对其朋友圈进行分析,进而预估用户的年龄、工作性质、工作地点、收入信息,从而可以更好的理解用户的需求;对用户的年龄、工作性质、工作地点和收入信息进行预估时,对用户提取关键词和好友属性特征,使用机器学习方法,对已有标注信息进行学习得到分类器,对未知样本进行分类。
进一步,所述资源建模模块包括:属性值填充、资源树分类和教育资源其他信息采集;
其中,所述属性值填充通过网页抓取得到的教育资源属性可能不够全面,需要基于互联网搜索引擎进行搜索,从相应的摘要和广告内容中得到可能的属性值,并统计出现的概率,在互联网中进行查找、匹配、统计出现频率来进行真值发现;
其中,所述资源树分类在抓取商品同时得到资源分类树信息另外对没有分类树信息的教育资源进行分类,并分类到资源树的某一个节点上;
其中,所述教育资源其他信息采集对教育资源的其他信息进行收集,并存储到数据库中,通过对在线教育网站的结构进行分析,得到相应的评论和打分。
进一步,所述资源和用户映射建模模块将资源和用户建立映射对应,对用户在社交媒体上提到相关教育资源时发表的内容以及在线教育网站上的图片、用户对教育资源的评论去噪,建立映射模型,映射模型是对数据的直接特征抽取或者是通过机器学习的手段得到的特征表达,得到了映射模型后,比较资源和用户的相关性。
进一步,所述教育资源推荐模块包括:用户端推荐模块和资源端推荐模块。
进一步,所述用户端推荐模块运行过程包括以下步骤:
1-1)通过用户和教育资源的相关性得到可能推荐的教育资源列表;
1-2)对用户的好友进行用户和资源的相关性的分析,并通过好友的资源列表对该用户进行投票;
1-3)通过分析用户画像对资源推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣;
1-4)通过社交媒体的交互方式为该用户进行商品推荐,所述社交媒体的交互方式包括添加好友、引用好友、私信、评论等。
进一步,所述资源推荐模块运行过程包括以下步骤:
2-1)通过教育资源和用户的相关性得到可能对该商品感兴趣的用户;
2-2)对用户的好友进行资源和用户的相关性分析,并通过好友的资源列表对该用户进行投票;
2-3)通过分析用户画像对资源推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣;
2-4)通过社交媒体的交互方式为该用户进行教育资源推荐,所述社交媒体的交互方式包括添加好友、引用好友、私信、评论。
有益效果:与现有技术相比,本发明具有以下优点:
1、针对社交媒体和在线教育资源营销的一个整合系统,通过社交媒体,在没有客户主观行条件下实现教育资源推荐,用户的教育兴趣能够充分挖掘;
2、本系统有效的利用了社交媒体和互联网营销的特点,由于目前各大社交媒体平台和在线教育都在积极推出支付联通业务,因此提供第三方的营销系统将为广大广告商、电商提供有效地自动或半自动方式来进行在线教育资源营销、推广和高级用户变现提供了更多的途径。
附图说明
图1为本发明的结构示意图;
图2为社交媒体数据抓取模块过程处理示意图;
图3为电子商务数据抓取模块处理过程示意图;
图4 为信息抽取、融合、比较模块结构示意图。
具体实施方式
下面结合实施例对本发明作更进一步的说明。
一种基于社交媒体的在线教育资源推荐系统,其特征在于,包括数据抓取模块,信息处理模块和教育资源推荐模块;其中,数据抓取模块,在线教育资源推荐模块均与信息处理模块相连接;所述数据抓取模块分为两部分:社交媒体数据抓取模块和在线教育资源数据抓取模块;社交媒体数据抓取模块通过并行计算算法进行多机抓取社交媒体数据;在线教育资源数据抓取模块通过并行计算算法进行多机抓取在线教育资源相关数据;信息处理模块负责分析处理抓取到的数据,对商品进行商品树的建立和映射,并建立社交媒体用户的描述;教育资源推荐模块用于对待推荐用户进行教育资源查询,对得到的教育资源进行排序并进行推荐。
前述社交媒体数据抓取模块通过网络爬虫获取社交媒体上的数据,然后通过使用分布式系统在不破坏负载均衡的条件下将抓取任务分配给多台计算机,还通过网页解析器对网页进行分析、文本分析、链接分析和网页质量控制、去重,得到相应的网页内容,将所述网页内容结果分成结构化信息和非结构化信息,分别存储到结构化信息数据库和非结构化信息数据库中。
前述在线教育资源数据抓取模块通过机器学习查询生成器对于电子商务网站产生一系列正则表达式查询语句对在线教育网站进行查询,并把所有的信息抓取下来,通过深度网页查询扩展、网页分析器来进行网页内容的数据交互;通过机器学习算法学习不同网站的查询规则,使用关键词替换的方法遍历所有具有大概率的查询,通过知识库智能查询,资源属性抽取,真值发现,生成实体属性关系数据库。
前述信息处理模块包括用户建模模块、资源建模模块、资源和用户映射建模模块,用户建模模块、资源建模模块分别与资源和用户映射建模模块相连接。
前述用户建模模块包括:标签传播、内容判别和用户其他信息判别;
其中,所述标签传播对于社交网络用户,通过在社交网络上的标签组成的图进行随机游走得到标签传播的概率,从而扩展用户的标签;
其中,所述内容判别对用户发表的内容进行分析,通过非监督学习得到可能的标签;同时,通过监督学习的方法对没有标签的用户进行标签判断;
其中,所述用户其他信息判别对于用户发表的内容进行理解以及对其朋友圈进行分析,进而预估用户的年龄、工作性质、工作地点、收入信息,从而可以更好的理解用户的需求;对用户的年龄、工作性质、工作地点和收入信息进行预估时,对用户提取关键词和好友属性特征,使用机器学习方法,对已有标注信息进行学习得到分类器,对未知样本进行分类。
前述资源建模模块包括:属性值填充、资源树分类和教育资源其他信息采集;
其中,所述属性值填充通过网页抓取得到的教育资源属性可能不够全面,需要基于互联网搜索引擎进行搜索,从相应的摘要和广告内容中得到可能的属性值,并统计出现的概率,在互联网中进行查找、匹配、统计出现频率来进行真值发现;
其中,所述资源树分类在抓取商品同时得到资源分类树信息另外对没有分类树信息的教育资源进行分类,并分类到资源树的某一个节点上;
其中,所述教育资源其他信息采集对教育资源的其他信息进行收集,并存储到数据库中,通过对在线教育网站的结构进行分析,得到相应的评论和打分。
前述资源和用户映射建模模块将资源和用户建立映射对应,对用户在社交媒体上提到相关教育资源时发表的内容以及在线教育网站上的图片、用户对教育资源的评论去噪,建立映射模型,映射模型是对数据的直接特征抽取或者是通过机器学习的手段得到的特征表达,得到了映射模型后,比较资源和用户的相关性。
前述教育资源推荐模块包括:用户端推荐模块和资源端推荐模块。
前述用户端推荐模块运行过程包括以下步骤:
1-1)通过用户和教育资源的相关性得到可能推荐的教育资源列表;
1-2)对用户的好友进行用户和资源的相关性的分析,并通过好友的资源列表对该用户进行投票;
1-3)通过分析用户画像对资源推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣;
1-4)通过社交媒体的交互方式为该用户进行商品推荐,所述社交媒体的交互方式包括添加好友、引用好友、私信、评论等。
前述资源推荐模块运行过程包括以下步骤:
2-1)通过教育资源和用户的相关性得到可能对该商品感兴趣的用户;
2-2)对用户的好友进行资源和用户的相关性分析,并通过好友的资源列表对该用户进行投票;
2-3)通过分析用户画像对资源推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣;
2-4)通过社交媒体的交互方式为该用户进行教育资源推荐,所述社交媒体的交互方式包括添加好友、引用好友、私信、评论。
如图1所示,一种基于社交媒体的在线教育资源推荐系统,包括数据抓取模块,信息处理模块和资源推荐模块;
其中数据抓取模块包含两部分:社交媒体数据抓取模块用于社交媒体进行数据抓取,通过并行计算算法进行多机抓取数据;在线教育资源数据抓取模块用于在线教育网站进行数据抓取,通过并行计算算法进行多机抓取数据,通过深度网页查询扩展来进行全面的数据交互;信息处理模块用于对抓取得到的数据进行分析、处理,对在线教育资源进行资源树的建立和映射,对社交媒体用户进行建模分析。
教育资源推荐模块用于对待推荐用户进行在线教育资源查询,对得到的资源进行排序,按照相关度、兴趣、朋友圈信息进行推荐;
社交媒体数据抓取模块,在线教育资源数据抓取模块,资源推荐模块均与信息抽取、融合、比较模块相连接。
如图2所示,社交媒体数据抓取模块通过网络爬虫(包括N个爬虫,爬虫1、爬虫2、爬虫3……爬虫N)获取社交媒体上的数据,得到数据后,通过使用分布式系统将多条URL抓取的任务分配调度处理给多台计算机,使得每台计算机的负载均衡的调度处理方法交给多部服务器所组成的分布式系统,通过HTML parser对网页进行分析、文本分析、链接分析和网页质量控制、去重,得到相应的网页内容,将所述网页内容结果分成结构化信息(朋友、群等链接信息)和非结构化信息(文本、图像等),分别存储到结构化信息数据库和非结构化信息数据库中。
结构化和非结构化的分类可以通过判断该内容是否可以存储到结构化数据库中(如SQL)来判断。通常文本和图像是非结构化数据,无法把其中的内容进行切分和分类。如一段新闻,虽然知道里面有人名、地名、公司名、时间等信息,但是如果不进行处理,无法自动的把这些信息导入到SQL中。同时,结构化信息和非结构化信息也可以重复进行网页进行分析、文本分析、链接分析和网页质量控制、去重,得到精简的结构化信息和非结构化信息。
如图3所示,在线教育资源数据抓取模块通过机器学习查询生成器对于在线教育网站产生一系列正则表达式查询语句对在线教育网站进行查询,并把所有的信息抓取下来,通过DeepWeb查询扩展、网页分析器来进行网页内容的数据交互。通过机器学习算法学习不同网站的查询规则,使用关键词替换的方法遍历所有具有大概率的查询,通过知识库智能查询,商品属性抽取,真值发现,生成实体属性关系数据库,同时,也可以通过历史数据训练分类器进行。
正则表达式查询语句例如:已知一条淘宝的查询是“男,轻便,40,跑步鞋,nike,内色”,通过知识库可以将其扩展,例如尺码、颜色、类型、品牌,则可以抓取到更多种类的鞋,在通过分析相关页面实现抓取。
如图4所示,信息抽取、融合、比较模块包括用户建模模块、资源建模模块、资源和用户映射建模模块,用户建模模块、资源建模模块与资源和用户映射建模模块相连接。
用户建模模块工作过程包括:
1-1)标签传播:对于社交网络用户,通过在社交网络上的标签(社交网络上的标签可以是用户自己标注的标签)组成的图进行随机游走得到标签传播的概率,随机游走的方式是通过用户组成的好友网络随机游走,从而扩展用户的标签;
1-2)内容判别:对用户发表的内容进行分析,使用话题模型、实体抽取得到可能的标签;同时,通过训练机器学习分类器对已有标签的用户进行学习,从而对没有标签的用户进行标签判断;题模型是指一类机器学习的方法,例如:Latent Dirichlet Allocation(David M. Blei, Andrew Y. Ng, Michael I. Jordan: Latent Dirichlet Allocation.Journal of Machine Learning Research 3: 993-1022 (2003)),在实际操作过程中,可以不局限于使用这类方法,甚至可以使用文本聚类、或直接使用高频关键词来代表一个话题。
1-3)用户其他信息判别:对于用户发表的内容进行理解以及对其朋友圈进行分析,进而预估用户的年龄、工作性质、工作地点、收入信息,从而可以更好的理解用户的需求;对用户的年龄、工作性质、工作地点和收入信息进行预估时,对用户提取关键词和好友属性特征,使用机器学习方法,对已有标注信息进行学习得到分类器,对未知样本进行分类。
对朋友圈的分析是首先对每个用户估计一个年龄,这个年龄可以是他填写在社交网络上的年龄,也可以是我们通过初始化一个模型对他发表的内容进行回归所得到的年龄。进而在社交网络上进行类似于标签传播的过程,对该用户的朋友圈进行分析,得到朋友的年龄段统计,从行修改该用户的年龄估计。
资源建模模块运行过程包括,
2-1)属性值填充,通过网页抓取得到的商品属性可能不够全面,需要基于互联网搜索引擎进行搜索,从相应的摘要和广告内容中得到可能的属性值,并统计出现的概率,在互联网中进行查找、匹配、统计出现频率来进行真值发现。
2-2)资源树分类,在抓取商品同时得到资源分类树信息另外对没有分类树信息的在线教育资源进行分类,并分类到商品树的某一个节点上;
2-3)在线教育资源其他信息收集,对资源的其他信息进行收集,并存储到数据库中,通过对电子商务网站的结构进行分析,得到相应的评论和打分。
资源和用户映射建模模块将商品和用户建立映射对应,对用户在社交媒体上提到相关在线教育资源时发表的内容以及在线教育网站上的图片、用户对该资源的评论去噪,建立映射模型,映射模型是对数据的直接特征抽取或者是通过机器学习的手段得到的特征表达,得到了映射模型后,比较资源和用户的相关性。
资源推荐模块包括用户端推荐模块和教育资源端推荐模块。
用户端推荐模块运行过程包括以下步骤:
3-1)通过用户和资源的相关性得到可能推荐的在线教育资源列表;
3-2)对用户的好友进行用户和资源的相关性的分析,并通过好友的商品列表对该用户进行投票;
3-3)通过分析用户画像对教育资源推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣;
3-4)通过社交媒体的交互方式为该用户进行在线教育资源推荐,所述社交媒体的交互方式包括添加好友、引用好友、私信、评论等。
资源推荐模块运行过程包括以下步骤:
4-1)通过在线教育资源和用户的相关性得到可能对该资源感兴趣的用户;
4-2)对用户的好友进行资源和用户的相关性分析,并通过好友的资源列表对该用户进行投票;
4-3)通过分析用户画像对资源推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣;
4-4)通过社交媒体的交互方式为该用户进行资源推荐,所述社交媒体的交互方式包括添加好友、引用好友、私信、评论等。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于社交媒体的在线教育资源推荐系统,其特征在于,包括数据抓取模块,信息处理模块和教育资源推荐模块;其中,数据抓取模块,在线教育资源推荐模块均与信息处理模块相连接;
其中,所述数据抓取模块分为两部分:社交媒体数据抓取模块和在线教育资源数据抓取模块;
所述社交媒体数据抓取模块通过并行计算算法进行多机抓取社交媒体数据;
所述在线教育资源数据抓取模块通过并行计算算法进行多机抓取在线教育资源相关数据;
所述信息处理模块负责分析处理抓取到的数据,对商品进行商品树的建立和映射,并建立社交媒体用户的描述;
所述教育资源推荐模块用于对待推荐用户进行教育资源查询,对得到的教育资源进行排序并进行推荐。
2.根据权利要求1所述的基于社交媒体的在线教育资源推荐系统,其特征在于,所述社交媒体数据抓取模块通过网络爬虫获取社交媒体上的数据,然后通过使用分布式系统在不破坏负载均衡的条件下将抓取任务分配给多台计算机,还通过网页解析器对网页进行分析、文本分析、链接分析和网页质量控制、去重,得到相应的网页内容,将所述网页内容结果分成结构化信息和非结构化信息,分别存储到结构化信息数据库和非结构化信息数据库中。
3.根据权利要求1所述的基于社交媒体的在线教育资源推荐系统,其特征在于,所述在线教育资源数据抓取模块通过机器学习查询生成器对于电子商务网站产生一系列正则表达式查询语句对在线教育网站进行查询,并把所有的信息抓取下来,通过深度网页查询扩展、网页分析器来进行网页内容的数据交互;通过机器学习算法学习不同网站的查询规则,使用关键词替换的方法遍历所有具有大概率的查询,通过知识库智能查询,资源属性抽取,真值发现,生成实体属性关系数据库。
4.根据权利要求1所述的基于社交媒体的在线教育资源推荐系统,其特征在于,所述信息处理模块包括用户建模模块、资源建模模块、资源和用户映射建模模块,用户建模模块、资源建模模块分别与资源和用户映射建模模块相连接。
5.根据权利要求4所述的基于社交媒体的在线教育资源推荐系统,其特征在于,所述用户建模模块包括:标签传播、内容判别和用户其他信息判别;
其中,所述标签传播对于社交网络用户,通过在社交网络上的标签组成的图进行随机游走得到标签传播的概率,从而扩展用户的标签;
其中,所述内容判别对用户发表的内容进行分析,通过非监督学习得到可能的标签;同时,通过监督学习的方法对没有标签的用户进行标签判断;
其中,所述用户其他信息判别对于用户发表的内容进行理解以及对其朋友圈进行分析,进而预估用户的年龄、工作性质、工作地点、收入信息,从而可以更好的理解用户的需求;对用户的年龄、工作性质、工作地点和收入信息进行预估时,对用户提取关键词和好友属性特征,使用机器学习方法,对已有标注信息进行学习得到分类器,对未知样本进行分类。
6.根据权利要求4所述的基于社交媒体的在线教育资源推荐系统,其特征在于,所述资源建模模块包括:属性值填充、资源树分类和教育资源其他信息采集;
其中,所述属性值填充通过网页抓取得到的教育资源属性可能不够全面,需要基于互联网搜索引擎进行搜索,从相应的摘要和广告内容中得到可能的属性值,并统计出现的概率,在互联网中进行查找、匹配、统计出现频率来进行真值发现;
其中,所述资源树分类在抓取商品同时得到资源分类树信息另外对没有分类树信息的教育资源进行分类,并分类到资源树的某一个节点上;
其中,所述教育资源其他信息采集对教育资源的其他信息进行收集,并存储到数据库中,通过对在线教育网站的结构进行分析,得到相应的评论和打分。
7.根据权利要求4所述的基于社交媒体的在线教育资源推荐系统,其特征在于,所述资源和用户映射建模模块将资源和用户建立映射对应,对用户在社交媒体上提到相关教育资源时发表的内容以及在线教育网站上的图片、用户对教育资源的评论去噪,建立映射模型,映射模型是对数据的直接特征抽取或者是通过机器学习的手段得到的特征表达,得到了映射模型后,比较资源和用户的相关性。
8.根据权利要求1所述的基于社交媒体的在线教育资源推荐系统,其特征在于,所述教育资源推荐模块包括:用户端推荐模块和资源端推荐模块。
9.根据权利要求8所述的基于社交媒体的在线教育资源推荐系统,其特征在于,所述用户端推荐模块运行过程包括以下步骤:
1-1)通过用户和教育资源的相关性得到可能推荐的教育资源列表;
1-2)对用户的好友进行用户和资源的相关性的分析,并通过好友的资源列表对该用户进行投票;
1-3)通过分析用户画像对资源推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣;
1-4)通过社交媒体的交互方式为该用户进行商品推荐,所述社交媒体的交互方式包括添加好友、引用好友、私信、评论等。
10.根据权利要求8所述的基于社交媒体的在线教育资源推荐系统,其特征在于,所述资源推荐模块运行过程包括以下步骤:
2-1)通过教育资源和用户的相关性得到可能对该商品感兴趣的用户;
2-2)对用户的好友进行资源和用户的相关性分析,并通过好友的资源列表对该用户进行投票;
2-3)通过分析用户画像对资源推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣;
2-4)通过社交媒体的交互方式为该用户进行教育资源推荐,所述社交媒体的交互方式包括添加好友、引用好友、私信、评论。
CN201610777227.6A 2016-08-30 2016-08-30 基于社交媒体的在线教育资源推荐系统 Pending CN106296312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610777227.6A CN106296312A (zh) 2016-08-30 2016-08-30 基于社交媒体的在线教育资源推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610777227.6A CN106296312A (zh) 2016-08-30 2016-08-30 基于社交媒体的在线教育资源推荐系统

Publications (1)

Publication Number Publication Date
CN106296312A true CN106296312A (zh) 2017-01-04

Family

ID=57673006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610777227.6A Pending CN106296312A (zh) 2016-08-30 2016-08-30 基于社交媒体的在线教育资源推荐系统

Country Status (1)

Country Link
CN (1) CN106296312A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统
CN106980691A (zh) * 2017-04-01 2017-07-25 长沙智擎信息技术有限公司 一种在线教学资源库的自动构建方法
CN107045533A (zh) * 2017-01-20 2017-08-15 广东技术师范学院天河学院 基于标签的教育资源推荐方法及系统
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN107818510A (zh) * 2017-11-02 2018-03-20 长江证券股份有限公司 一种用于投资决策辅助的分布式处理系统及方法
CN108521465A (zh) * 2018-04-16 2018-09-11 徐超 一种基于微信的东方美学文化传播方法以及平台
CN109344274A (zh) * 2018-08-21 2019-02-15 深圳市致远优学教育科技有限公司 基于图片识别的教育资源定位系统及方法
CN109636682A (zh) * 2018-10-25 2019-04-16 安徽创见未来教育科技有限公司 一种教学资源自动收集系统
CN110209920A (zh) * 2018-05-02 2019-09-06 腾讯科技(深圳)有限公司 媒体资源的处理方法和装置、存储介质及电子装置
CN110321483A (zh) * 2019-06-18 2019-10-11 深圳职业技术学院 一种基于用户序列性行为的在线课程平台内容推荐方法、装置、系统及存储介质
CN110457493A (zh) * 2019-07-24 2019-11-15 安徽新知数媒信息科技有限公司 一种交互富媒体智能推荐及本地调用的方法
CN110619590A (zh) * 2019-08-22 2019-12-27 杭州名淘教育科技有限公司 一种基于社交媒体的在线教育资源推荐系统
CN110704737A (zh) * 2019-09-29 2020-01-17 百度在线网络技术(北京)有限公司 线上教学资源的匹配方法、装置、设备和介质
CN110968795A (zh) * 2019-11-27 2020-04-07 国网能源研究院有限公司 一种公司形象提升系统的数据关联匹配系统
CN111445366A (zh) * 2020-04-23 2020-07-24 深圳宏途教育网络科技有限公司 一种基于人工智能的在线教育资源管理系统及其推荐方法
CN111698300A (zh) * 2020-05-28 2020-09-22 北京联合大学 一种在线教育系统
CN111966913A (zh) * 2020-10-21 2020-11-20 拼说说(深圳)网络科技有限公司 一种教育资源推荐处理方法、装置及计算机设备
CN112559873A (zh) * 2020-12-21 2021-03-26 周欢 一种基于智慧教育的用户推荐系统
CN112765374A (zh) * 2020-07-27 2021-05-07 上海斐杰教育科技有限公司 一种用于信息推送的教育资源筛选系统及其方法
CN113961792A (zh) * 2020-07-15 2022-01-21 北京达佳互联信息技术有限公司 一种资源推荐系统、方法、电子设备及存储介质
CN116384703A (zh) * 2023-04-19 2023-07-04 福建梵古文化传媒有限公司 一种基于云计算的教育资源整合系统及云平台
CN116628339A (zh) * 2023-06-09 2023-08-22 国信蓝桥教育科技股份有限公司 一种基于人工智能的教育资源推荐方法及系统
CN117271710A (zh) * 2023-11-17 2023-12-22 山东接力教育集团有限公司 一种基于大数据的教辅热点数据智能分析系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559207A (zh) * 2013-10-10 2014-02-05 江苏名通信息科技有限公司 一种基于社交媒体计算的金融行为分析系统
CN103617290A (zh) * 2013-12-13 2014-03-05 江苏名通信息科技有限公司 中文机器阅读系统
CN103617294A (zh) * 2013-12-17 2014-03-05 江苏名通信息科技有限公司 Linux系统下用户行为分析方法
CN103886074A (zh) * 2014-03-24 2014-06-25 江苏名通信息科技有限公司 基于社交媒体的商品推荐系统
CN105868317A (zh) * 2016-03-25 2016-08-17 华中师范大学 一种数字教育资源推荐方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559207A (zh) * 2013-10-10 2014-02-05 江苏名通信息科技有限公司 一种基于社交媒体计算的金融行为分析系统
CN103617290A (zh) * 2013-12-13 2014-03-05 江苏名通信息科技有限公司 中文机器阅读系统
CN103617294A (zh) * 2013-12-17 2014-03-05 江苏名通信息科技有限公司 Linux系统下用户行为分析方法
CN103886074A (zh) * 2014-03-24 2014-06-25 江苏名通信息科技有限公司 基于社交媒体的商品推荐系统
CN105868317A (zh) * 2016-03-25 2016-08-17 华中师范大学 一种数字教育资源推荐方法及系统

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107045533A (zh) * 2017-01-20 2017-08-15 广东技术师范学院天河学院 基于标签的教育资源推荐方法及系统
CN107045533B (zh) * 2017-01-20 2018-09-14 广东技术师范学院天河学院 基于标签的教育资源推荐方法及系统
CN106980691A (zh) * 2017-04-01 2017-07-25 长沙智擎信息技术有限公司 一种在线教学资源库的自动构建方法
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统
CN107066599B (zh) * 2017-04-20 2021-11-30 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN107818510A (zh) * 2017-11-02 2018-03-20 长江证券股份有限公司 一种用于投资决策辅助的分布式处理系统及方法
CN108521465A (zh) * 2018-04-16 2018-09-11 徐超 一种基于微信的东方美学文化传播方法以及平台
CN110209920A (zh) * 2018-05-02 2019-09-06 腾讯科技(深圳)有限公司 媒体资源的处理方法和装置、存储介质及电子装置
CN109344274A (zh) * 2018-08-21 2019-02-15 深圳市致远优学教育科技有限公司 基于图片识别的教育资源定位系统及方法
CN109636682A (zh) * 2018-10-25 2019-04-16 安徽创见未来教育科技有限公司 一种教学资源自动收集系统
CN110321483A (zh) * 2019-06-18 2019-10-11 深圳职业技术学院 一种基于用户序列性行为的在线课程平台内容推荐方法、装置、系统及存储介质
CN110457493A (zh) * 2019-07-24 2019-11-15 安徽新知数媒信息科技有限公司 一种交互富媒体智能推荐及本地调用的方法
CN110619590A (zh) * 2019-08-22 2019-12-27 杭州名淘教育科技有限公司 一种基于社交媒体的在线教育资源推荐系统
CN110704737A (zh) * 2019-09-29 2020-01-17 百度在线网络技术(北京)有限公司 线上教学资源的匹配方法、装置、设备和介质
CN110968795A (zh) * 2019-11-27 2020-04-07 国网能源研究院有限公司 一种公司形象提升系统的数据关联匹配系统
CN110968795B (zh) * 2019-11-27 2023-06-02 国网能源研究院有限公司 一种公司形象提升系统的数据关联匹配系统
CN111445366A (zh) * 2020-04-23 2020-07-24 深圳宏途教育网络科技有限公司 一种基于人工智能的在线教育资源管理系统及其推荐方法
CN111698300A (zh) * 2020-05-28 2020-09-22 北京联合大学 一种在线教育系统
CN113961792A (zh) * 2020-07-15 2022-01-21 北京达佳互联信息技术有限公司 一种资源推荐系统、方法、电子设备及存储介质
CN112765374A (zh) * 2020-07-27 2021-05-07 上海斐杰教育科技有限公司 一种用于信息推送的教育资源筛选系统及其方法
CN111966913A (zh) * 2020-10-21 2020-11-20 拼说说(深圳)网络科技有限公司 一种教育资源推荐处理方法、装置及计算机设备
CN112559873B (zh) * 2020-12-21 2021-08-13 融易学控股(深圳)有限公司 一种基于智慧教育的用户推荐系统
CN112559873A (zh) * 2020-12-21 2021-03-26 周欢 一种基于智慧教育的用户推荐系统
CN116384703A (zh) * 2023-04-19 2023-07-04 福建梵古文化传媒有限公司 一种基于云计算的教育资源整合系统及云平台
CN116384703B (zh) * 2023-04-19 2024-04-26 上海光华好奇教育科技有限公司 一种基于云计算的教育资源整合系统及云平台
CN116628339A (zh) * 2023-06-09 2023-08-22 国信蓝桥教育科技股份有限公司 一种基于人工智能的教育资源推荐方法及系统
CN116628339B (zh) * 2023-06-09 2023-11-17 国信蓝桥教育科技股份有限公司 一种基于人工智能的教育资源推荐方法及系统
CN117271710A (zh) * 2023-11-17 2023-12-22 山东接力教育集团有限公司 一种基于大数据的教辅热点数据智能分析系统
CN117271710B (zh) * 2023-11-17 2024-01-30 山东接力教育集团有限公司 一种基于大数据的教辅热点数据智能分析系统

Similar Documents

Publication Publication Date Title
CN106296312A (zh) 基于社交媒体的在线教育资源推荐系统
CN103886074B (zh) 基于社交媒体的商品推荐系统
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及系统
CN101779180A (zh) 基于背景的内容推荐的方法和设备
KR101543780B1 (ko) 동적 사용자 프로필 및 소셜 네트워크 신뢰성을 이용한 전문가 검색 시스템 및 방법
Wang et al. SentiRelated: A cross-domain sentiment classification algorithm for short texts through sentiment related index
Mahdavi et al. Designing evolving user profile in e-CRM with dynamic clustering of Web documents
CN111309936A (zh) 一种电影用户画像的构建方法
CN109684635A (zh) 一种基于智能营销的用户评价观点挖掘系统
Dragoni A three-phase approach for exploiting opinion mining in computational advertising
CN107885857B (zh) 一种搜索结果页用户行为模式挖掘方法、装置及系统
Okazaki et al. How to mine brand Tweets: Procedural guidelines and pretest
CN105160545A (zh) 投放信息样式确定方法及装置
CN109522562A (zh) 一种基于文本图像融合识别的网页知识抽取方法
CN103886020A (zh) 一种房地产信息快速搜索方法
CN113901308A (zh) 基于知识图谱的企业推荐方法及推荐装置、电子设备
CN115329085A (zh) 一种社交机器人分类方法及系统
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
Wang et al. Link prediction in heterogeneous collaboration networks
US20130332440A1 (en) Refinements in Document Analysis
CN108920546B (zh) 一种基于用户需求的稳态标签开发方法及系统
Zhu A book recommendation algorithm based on collaborative filtering
CN112270570B (zh) 一种基于特征组合与表示学习的点击转化率预测方法
Shokeen On measuring the role of social networks in project recommendation
Cui et al. Perceiving group themes from collective social and behavioral information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104