CN114692006B - 一种基于大数据的教育资源共享系统及方法 - Google Patents

一种基于大数据的教育资源共享系统及方法 Download PDF

Info

Publication number
CN114692006B
CN114692006B CN202210612005.4A CN202210612005A CN114692006B CN 114692006 B CN114692006 B CN 114692006B CN 202210612005 A CN202210612005 A CN 202210612005A CN 114692006 B CN114692006 B CN 114692006B
Authority
CN
China
Prior art keywords
resource
shared
resources
user
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210612005.4A
Other languages
English (en)
Other versions
CN114692006A (zh
Inventor
陈彩虹
李小艳
李淼
李雪勇
李群娣
李文
王建刚
莫建国
张凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qicheng Education Technology Co ltd
Original Assignee
Shenzhen Qicheng Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qicheng Education Technology Co ltd filed Critical Shenzhen Qicheng Education Technology Co ltd
Priority to CN202210612005.4A priority Critical patent/CN114692006B/zh
Publication of CN114692006A publication Critical patent/CN114692006A/zh
Application granted granted Critical
Publication of CN114692006B publication Critical patent/CN114692006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的教育资源共享系统,包括:资源汇总模块、资源推荐模块和贡献度分配模块,所述资源汇总模块,用于对用户上传的需共享的资源进行审核,确定用户上传的资源在共享库中是否已经拥有,进而判断用户是否共享成功,对于共享成功的资源,该用户可以添加属于自己的独特的水印。本发明不仅对共享内容进行筛选评估,对于已有的共享资源进行限制,不予进行共享,同时对用户的检索内容的筛选方面进行优化,提高了用户筛选的精准度,且对资源提供者的报酬计算方面计算也进行了重新设置,使其更加合理。

Description

一种基于大数据的教育资源共享系统及方法
技术领域
本发明涉及信息共享技术领域,具体为一种基于大数据的教育资源共享系统及方法。
背景技术
随着社会的发展,人们生活水平的提高,现如今人们在物质方面得到满足的情况下,正在不断的提高自身的文化需求,同时对于自身子女的教育更加重视,不断为子女提供更加优质的教育环境,但是由于各地区经济发展不均衡,因此,各个地区的教育情况也不一样。
为了能够在一定程度上均衡各地区的教育资源差异,因此有了教育资源共享的概念出现,但是现如今的教育资源共享不够完善,许多共享的资源出现重复的情况,同时对用户的检索内容的筛选方面不够精准,且对资源提供者的报酬计算方面计算不够合理。
针对上述情况,我们需要一种基于大数据的教育资源共享系统及方法,不仅对共享内容进行筛选评估,对于已有的共享资源进行限制,不予进行共享,同时对用户的检索内容的筛选方面进行优化,提高了用户筛选的精准度,且对资源提供者的报酬计算方面计算也进行了重新设置,使其更加合理。
发明内容
本发明的目的在于提供一种基于大数据的教育资源共享系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于大数据的教育资源共享系统,包括:资源汇总模块、资源推荐模块和贡献度分配模块;
所述资源汇总模块,用于对用户上传的需共享的资源进行审核,确定用户上传的资源在共享库中是否已经拥有,进而判断用户是否共享成功,对于共享成功的资源,该用户可以添加属于自己的独特的水印;
所述资源推荐模块,根据用户检索的关键词并按照指定的规则对共享资源进行筛选,并将筛选的结果按照一定的顺序进行推荐展示;
所述贡献度分配模块,根据用户检索并浏览的内容对贡献度进行分配。
本发明通过各个模块的协同合作,共同实现对共享资源的收录、对检索资源的筛选及对贡献度的分配,资源汇总模块在收录过程中起到对共享资源查重的作用,通过指定的查重方式对查重不合格的资源不予进行共享,资源推荐模块根据用户的需求进行筛选,并将与用户需求相符度高的资源排到前面,贡献度分配方面根据用户浏览的内容对贡献度进行分配,这样更加合理。
一种基于大数据的教育资源共享方法,具体步骤如下:
S1、资源汇总模块用于对用户上传的需共享的资源进行审核,确定用户上传的资源在共享库中是否已经拥有,进而判断用户是否共享成功,对于共享成功的资源,该用户可以添加属于自己的独特的水印;
S2、资源推荐模块根据用户检索的关键词并按照指定的规则对共享资源进行筛选,并将筛选的结果按照一定的顺序进行推荐展示;
S3、贡献度分配模块根据用户检索并浏览的内容对贡献度进行分配。
进一步的,所述共享库包括区域性资源共享库和全网资源共享库;
所述区域性资源共享库可由本区域的组织进行申请建立,该区域性资源共享库在共享和检索资源时,需要具有权限,所述权限是由建立该区域性资源共享库的组织进行授予的;
所述全网资源共享库针对所有用户,所有用户均可以进行共享和检索资源。
本发明对于共享库进行分类,全网资源共享库的资源更加公开化,面对的所有用户,而区域性资源共享库则是针对的是特殊的群体或组织,该共享库不仅实现了资源的共享,还在一定程度上保护了该群体或组织的隐私,更加方便与安全。
进一步的,所述资源汇总模块中,当用户在共享库对资源进行共享时,该共享库会对共享的资源进行检验,查看该共享库中是否存在与该资源近似的资源,并判断是否采纳该资源:
若该共享库不采纳该资源,则用户共享该资源失败;
若该共享库采纳该资源,则用户共享该资源成功。
本发明根据指定规则对共享的资源进行判断,对于不满足规定的资源不予共享,既避免了数据的臃肿,还在一定程度上保护了资源共享者的权益。
进一步的,所述共享库对共享的资源检验过程如下:
S1.1、计算该资源的总字数A,查找共享库中总字数大于等于A减第一预设值的差,且小于等于A加第一预设值的和对应的所有资源,将查找到的资源作为该资源的对比资源,并提取该资源中第一页内容,对该页内容进行处理;
S1.2、将该页中的内容以各类标点符号为标准进行分割,分割成长短不一的语句,对分割后的语句按字数从多到少的顺序进行排序,对于字数相同的语句,则根据该资源内容中该语句出现的前后顺序进行判断,字数相同且在该资源中出现靠前的语句排名靠前;
S1.3、如同步骤S1.2中的操作,分别对每个对比资源进行语句分割排序;
S1.4、对该资源分割后的语句按顺序逐条与对比资源排序后的语句进行对比,对比对象的选取方法为:
第一步,计算该资源中该语句字数与对比资源中各语句字数差值的绝对值;
第二步,将求取的各个绝对值与第一阈值进行对比;
第三步,选取绝对值小于等于第一阈值对应的对比资源的语句,所得语句即为对比对象;
S1.5、将该资源该语句内容与各个对比对象中的内容进行对比,查看该语句与对比对象内容的相似度r:
若相似度r均小于第二阈值时,则判定该语句与对比对象均不相同,不进行标注;
若相似度r存在大于等于第二阈值时,则判定该语句与对比对象相同,对该语句进行标注;
统计该资源该页内容中标注的字数占总字数的比值,该比值记为相似度B;
S1.6、对相似度B进行判断:
若相似度B均小于第二预设值时,则判定该共享库中不存在与该资源相似的资源;
若相似度B存在大于第三预设值时,则判定该共享库中存在与该资源相似的资源;
若相似度B大于等于第二预设值,且小于等于第三预设值时,则需对该资源的相似度进一步确认;
S1.7、确认方式是将该资源最后一页内容与该对比资源最后一页中的内容进行对比,重复步骤S1.2、S1.3、S1.4、S1.5中的操作,并对得到的相似度B进行判断:
当相似度B均小于第二预设值时,则判定该共享库中不存在与该资源相似的资源;
当相似度B大于等于第二预设值,则该对比资源与该资源的相似度高,直接进行全文对比;
S1.8、在该对比资源与该资源进行全文对比过程中,资源汇总模块会分别提取该对比资源与该资源的全文内容中与标题相关的关键词,计算该资源中所提取关键词与该对比资源中提取关键词相同的个数,计算关键词相同个数占该资源总关键词个数的比值C;
如果全文对比中,比值C大于第三阈值,则判定该资源与该对比资源一样,共享失败;
如果全文对比中,比值C小于等于第三阈值,则判定该资源与该对比资源不一样,共享成功。
本发明共享库对共享的资源检验过程中,经过资源总字数的初级筛选,资源第一页语句的相似度筛选、资源最后一页语句的相似度筛选及资源全文关键词比值筛选这四个过程,能够对资源与共享库进行精准查重,避免因特殊情况导致的查重漏洞。同时,在全文对比时,采用资源全文关键词比值筛选,而不是全文语句筛选,是因为对全文语句逐条进行筛选的话,对模块造成的负荷较大,且速度较慢,效率不高,而采用资源全文关键词比值筛选的方式,不仅对模块的负荷小,且由于之前已经进行第一页与最后一页的语句筛选,因此,该方式不仅速度快,且对筛选内的精度影响不大。
进一步的,所述用户共享该资源成功时,能够对该共享资源附加独特的LOGO水印,同时用户还可以设置对查询浏览该共享资源的用户是否收取贡献度。
本发明中用户对共享的资源可以添加独特的LOGO水印,能够起到独特的宣传效果,而对是否收取贡献度进行设置,则是根据用户的实际需求,尤其是针对于区域性共享数据库,该数据库只是针对与特殊人群或者组织,可能没有收取贡献度的必要,因此需要进行设置。
进一步的,所述资源推荐模块会自动获取用户检索共享资源时所提交关键词的种类及前后顺序,获取所有共享资源中含有用户提交关键词中的一种或者多种的资源内容,并将获取的资源内容按规定的顺序进行推荐排列。
进一步的,规定顺序的推荐排列方式如下:
S2.1、确认用户检索时关键词的种类及顺序;
S2.2、获取共享资源的内容中出现一种或多种检索关键词对应的共享资源;
S2.3、记录获取的各个共享资源中出现的关键词种类及每种关键词出现的次数;
S2.4、比较各个共享资源中出现的关键词种类:
当共享资源中出现的关键词种类越多,则该共享资源的排名越靠前;
当共享资源中出现的关键词种类相同时,则比较共享资源中出现的关键词种类中,出现次数最少的关键词种类,对关键词种类的优先级进行判断;
S2.5、在对关键词种类的优先级进行判断时,需要参照步骤S2.1中用户检索时关键词的种类及顺序,当步骤S2.4中出现次数最少的关键词种类在用户的检索顺序中靠前的位置,则对应的共享资源的排名越靠后;当步骤S2.4中出现次数最少的关键词种类在用户的检索顺序中的位置相同,则比较该出现次数最少的关键词种类对应的次数大小:
若对应的次数越小时,则对应的共享资源的排名越靠后;
若对应的次数相同时,则比较共享资源中出现的检索关键词的总个数,总个数越小,对应的共享资源的排名越靠后。
本发明资源推荐模块对推荐排列方式进行设置,通过共享资源中出现的用户检索关键词的种类、数量及用户检索关键词的先后顺序对共享资源进行排序,共享资源中出现的用户检索关键词的种类越多,说明该资源与用户检索的方向越相符,在共享资源中出现的关键词种类相同时,共享资源中出现的关键词种类中,出现次数最少的关键词种类,在用户的检索顺序中位置越靠前,则说明该资源与用户的检索方向越不相符,其原因是因为用户在检索时,所采用的关键词越靠前,则说明该关键词与该用户检索的方向越相近,而位置靠前的关键词在资源中出现的次数最少,则说明该资源的描述方向与用户检索的方向偏差越大,因此在推荐排列中,该资源的排名越靠后。
进一步的,所述贡献度分配模块在用户每次检索共享资源时,均会扣除该用户第一单位的贡献度m,同时统计该用户浏览的共享资源的个数、每个共享资源的分享者是否设置对查询浏览该共享资源的用户收取贡献度、用户对每个共享资源的有效浏览字数及查询的共享资源中有效浏览的总字数,
所述有效浏览字数通过鼠标滑动的实际速度与鼠标滑动的预估速度进行判断,所述鼠标滑动的预估速度与预估的用户阅读速度、屏幕页面浏览内容上下之间的距离及屏幕页面内出现的字数有关,
鼠标滑动的预估速度V、预估的用户阅读速度v1、屏幕页面浏览内容上下之间的距离L、屏幕页面内出现的字数s分别代入计算公式
Figure 848958DEST_PATH_IMAGE002
,所述
Figure DEST_PATH_IMAGE004
为有效浏览的系数,得到的鼠标滑动的预估速度V是动态变化的,V值的大小直接受屏幕页面内出现的字数s的影响;
将得到的鼠标滑动的预估速度与鼠标滑动的实际速度进行比较:
当鼠标滑动的实际速度小于等于鼠标滑动的预估速度时,将鼠标滑动的实际速度小于等于鼠标滑动的预估速度的时间段内屏幕页面内变换的字数作为有效浏览字数;
当鼠标滑动的实际速度大于鼠标滑动的预估速度时,将鼠标滑动的实际速度大于鼠标滑动的预估速度的时间段内屏幕页面内变换的字数不作为有效浏览字数;
所述屏幕页面内变换的字数为鼠标滑动过程中,与屏幕页面内原来的内容相比,新出现的内容对应的字数。
本发明贡献度分配模块从预估的用户阅读速度v1、屏幕页面浏览内容上下之间的距离L、屏幕页面内出现的字数s这三个方面对鼠标滑动的预估速度V进行计算,通过将其与实际速度进行比较,可以得到用户在相应区间内是否有正常浏览,若未正常浏览,则该区间内的字数不算入有效浏览字数内,这样的计算方式更加精准。
进一步的,所述贡献度分配模块会根据每个共享资源的分享者是否设置对查询浏览该共享资源的用户收取贡献度情况,将设置的不收取贡献度的共享资源进行标示,并将用户每个共享资源的有效浏览字数及有效浏览的总字数中对应的标示部分进行剔除,将扣除的贡献度m根据剔除后的每个共享资源的有效浏览字数q占剔除后的有效浏览的总字数w的比值进行合理分配,即:
每个共享资源分配到的贡献度为
Figure 100002_DEST_PATH_IMAGE006
本发明通过用户对各个资源有效浏览的字数占有效浏览的总字数的比值来对贡献度进行公平分配,该分配方式更加合理,且由于一次检索只扣除固定数目的贡献值,因此,该方式还能够训练用户对关键词的提取能力以及对共享资源学习的热情,同时通过设置收取贡献度的方式,还能够对用户检索共享库的频率做出限制,防止用户因随意检索共享库,从而提高单位时间内人们对共享库的访问量,进而造成系统服务器的负担,导致卡顿的情况发生。
与现有技术相比,本发明所达到的有益效果是:本发明不仅对共享内容进行筛选评估,对于已有的共享资源进行限制,不予进行共享,同时对用户的检索内容的筛选方面进行优化,提高了用户筛选的精准度,且对资源提供者的报酬计算方面计算也进行了重新设置,使其更加合理。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于大数据的教育资源共享系统及方法的流程示意图;
图2是本发明一种基于大数据的教育资源共享系统及方法中共享库对共享的资源检验过程的流程示意图;
图3是本发明一种基于大数据的教育资源共享系统及方法中推荐排列方式的流程示意图;
图4是本发明一种基于大数据的教育资源共享系统及方法中有效浏览字数获取的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图4,本发明提供技术方案:一种基于大数据的教育资源共享系统,包括:资源汇总模块、资源推荐模块和贡献度分配模块;
所述资源汇总模块,用于对用户上传的需共享的资源进行审核,确定用户上传的资源在共享库中是否已经拥有,进而判断用户是否共享成功,对于共享成功的资源,该用户可以添加属于自己的独特的水印;
所述资源推荐模块,根据用户检索的关键词并按照指定的规则对共享资源进行筛选,并将筛选的结果按照一定的顺序进行推荐展示;
所述贡献度分配模块,根据用户检索并浏览的内容对贡献度进行分配。
本发明通过各个模块的协同合作,共同实现对共享资源的收录、对检索资源的筛选及对贡献度的分配,资源汇总模块在收录过程中起到对共享资源查重的作用,通过指定的查重方式对查重不合格的资源不予进行共享,资源推荐模块根据用户的需求进行筛选,并将与用户需求相符度高的资源排到前面,贡献度分配方面根据用户浏览的内容对贡献度进行分配,这样更加合理。
一种基于大数据的教育资源共享方法,具体步骤如下:
S1、资源汇总模块用于对用户上传的需共享的资源进行审核,确定用户上传的资源在共享库中是否已经拥有,进而判断用户是否共享成功,对于共享成功的资源,该用户可以添加属于自己的独特的水印;
S2、资源推荐模块根据用户检索的关键词并按照指定的规则对共享资源进行筛选,并将筛选的结果按照一定的顺序进行推荐展示;
S3、贡献度分配模块根据用户检索并浏览的内容对贡献度进行分配。
所述共享库包括区域性资源共享库和全网资源共享库;
所述区域性资源共享库可由本区域的组织进行申请建立,该区域性资源共享库在共享和检索资源时,需要具有权限,所述权限是由建立该区域性资源共享库的组织进行授予的;
所述全网资源共享库针对所有用户,所有用户均可以进行共享和检索资源。
本发明对于共享库进行分类,全网资源共享库的资源更加公开化,面对的所有用户,而区域性资源共享库则是针对的是特殊的群体或组织,该共享库不仅实现了资源的共享,还在一定程度上保护了该群体或组织的隐私,更加方便与安全。
所述资源汇总模块中,当用户在共享库对资源进行共享时,该共享库会对共享的资源进行检验,查看该共享库中是否存在与该资源近似的资源,并判断是否采纳该资源:
若该共享库不采纳该资源,则用户共享该资源失败;
若该共享库采纳该资源,则用户共享该资源成功。
本发明根据指定规则对共享的资源进行判断,对于不满足规定的资源不予共享,既避免了数据的臃肿,还在一定程度上保护了资源共享者的权益。
进一步的,所述共享库对共享的资源检验过程如下:
所述共享库对共享的资源检验过程如下:
S1.1、计算该资源的总字数A,查找共享库中总字数大于等于A减第一预设值的差,且小于等于A加第一预设值的和对应的所有资源,将查找到的资源作为该资源的对比资源,并提取该资源中第一页内容,对该页内容进行处理;
本实施例中该资源的总字数为10000,第一预设值为1000,那么共享库中字数为9000-11000之间的资源均为对比资源。
S1.2、将该页中的内容以各类标点符号为标准进行分割,分割成长短不一的语句,对分割后的语句按字数从多到少的顺序进行排序,对于字数相同的语句,则根据该资源内容中该语句出现的前后顺序进行判断,字数相同且在该资源中出现靠前的语句排名靠前;
本实施例中若该资源第一页中有50个标点符号,则分割后的语句为50条,
若其中有A1、A2、A3三条语句的字数均为20字,且在该资源内容中,A1在A2前,A2在A3前,则排序后语句排名中,A1的排名在A2前,A2的排名在A3前。
S1.3、如同步骤S1.2中的操作,分别对每个对比资源进行语句分割排序;
S1.4、对该资源分割后的语句按顺序逐条与对比资源排序后的语句进行对比,对比对象的选取方法为:
第一步,计算该资源中该语句字数与对比资源中各语句字数差值的绝对值;
第二步,将求取的各个绝对值与第一阈值进行对比;
第三步,选取绝对值小于等于第一阈值对应的对比资源的语句,所得语句即为对比对象;
本实施例中该资源中有一语句的字数为25字,第一阈值为3,则对比文件中语句长度为22-28字的语句均为对比对象。
S1.5、将该资源该语句内容与各个对比对象中的内容进行对比,查看该语句与对比对象内容的相似度r:
若相似度r均小于第二阈值时,则判定该语句与对比对象均不相同,不进行标注;
若相似度r存在大于等于第二阈值时,则判定该语句与对比对象相同,对该语句进行标注;
统计该资源该页内容中标注的字数占总字数的比值,该比值记为相似度B;
本实施例中该资源中有一语句与对比对象内容的相似度为90%,第二阈值为85%,由于90%大于85%,则判定该语句与对比对象相同,对该语句进行标注。
S1.6、对相似度B进行判断:
若相似度B均小于第二预设值时,则判定该共享库中不存在与该资源相似的资源;
若相似度B存在大于第三预设值时,则判定该共享库中存在与该资源相似的资源;
若相似度B大于等于第二预设值,且小于等于第三预设值时,则需对该资源的相似度进一步确认;
S1.7、确认方式是将该资源最后一页内容与该对比资源最后一页中的内容进行对比,重复步骤S1.2、S1.3、S1.4、S1.5中的操作,并对得到的相似度B进行判断:
当相似度B均小于第二预设值时,则判定该共享库中不存在与该资源相似的资源;
当相似度B大于等于第二预设值,则该对比资源与该资源的相似度高,直接进行全文对比;
S1.8、在该对比资源与该资源进行全文对比过程中,资源汇总模块会分别提取该对比资源与该资源的全文内容中与标题相关的关键词,计算该资源中所提取关键词与该对比资源中提取关键词相同的个数,计算关键词相同个数占该资源总关键词个数的比值C;
如果全文对比中,比值C大于第三阈值,则判定该资源与该对比资源一样,共享失败;
如果全文对比中,比值C小于等于第三阈值,则判定该资源与该对比资源不一样,共享成功。
本发明共享库对共享的资源检验过程中,经过资源总字数的初级筛选,资源第一页语句的相似度筛选、资源最后一页语句的相似度筛选及资源全文关键词比值筛选这四个过程,能够对资源与共享库进行精准查重,避免因特殊情况导致的查重漏洞。同时,在全文对比时,采用资源全文关键词比值筛选,而不是全文语句筛选,是因为对全文语句逐条进行筛选的话,对模块造成的负荷较大,且速度较慢,效率不高,而采用资源全文关键词比值筛选的方式,不仅对模块的负荷小,且由于之前已经进行第一页与最后一页的语句筛选,因此,该方式不仅速度快,且对筛选内的精度影响不大。
所述用户共享该资源成功时,能够对该共享资源附加独特的LOGO水印,同时用户还可以设置对查询浏览该共享资源的用户是否收取贡献度。
本发明中用户对共享的资源可以添加独特的LOGO水印,能够起到独特的宣传效果,而对是否收取贡献度进行设置,则是根据用户的实际需求,尤其是针对于区域性共享数据库,该数据库只是针对与特殊人群或者组织,可能没有收取贡献度的必要,因此需要进行设置。
所述资源推荐模块会自动获取用户检索共享资源时所提交关键词的种类及前后顺序,获取所有共享资源中含有用户提交关键词中的一种或者多种的资源内容,并将获取的资源内容按规定的顺序进行推荐排列。
规定顺序的推荐排列方式如下:
S2.1、确认用户检索时关键词的种类及顺序;
S2.2、获取共享资源的内容中出现一种或多种检索关键词对应的共享资源;
S2.3、记录获取的各个共享资源中出现的关键词种类及每种关键词出现的次数;
S2.4、比较各个共享资源中出现的关键词种类:
当共享资源中出现的关键词种类越多,则该共享资源的排名越靠前;
当共享资源中出现的关键词种类相同时,则比较共享资源中出现的关键词种类中,出现次数最少的关键词种类,对关键词种类的优先级进行判断;
S2.5、在对关键词种类的优先级进行判断时,需要参照步骤S2.1中用户检索时关键词的种类及顺序,当步骤S2.4中出现次数最少的关键词种类在用户的检索顺序中靠前的位置,则对应的共享资源的排名越靠后;当步骤S2.4中出现次数最少的关键词种类在用户的检索顺序中的位置相同,则比较该出现次数最少的关键词种类对应的次数大小:
若对应的次数越小时,则对应的共享资源的排名越靠后;
若对应的次数相同时,则比较共享资源中出现的检索关键词的总个数,总个数越小,对应的共享资源的排名越靠后。
本发明资源推荐模块对推荐排列方式进行设置,通过共享资源中出现的用户检索关键词的种类、数量及用户检索关键词的先后顺序对共享资源进行排序,共享资源中出现的用户检索关键词的种类越多,说明该资源与用户检索的方向越相符,在共享资源中出现的关键词种类相同时,共享资源中出现的关键词种类中,出现次数最少的关键词种类,在用户的检索顺序中位置越靠前,则说明该资源与用户的检索方向越不相符,其原因是因为用户在检索时,所采用的关键词越靠前,则说明该关键词与该用户检索的方向越相近,而位置靠前的关键词在资源中出现的次数最少,则说明该资源的描述方向与用户检索的方向偏差越大,因此在推荐排列中,该资源的排名越靠后。
本实施例中用户检索了三个关键词,按顺序分别为Q1、Q2、Q3,若在共享库中筛选到了三篇共享资源,分别为1号、2号、3号,
1号只检索到关键词Q2,对应的个数为4;
2号只检索到关键词Q2、Q3,对应的个数分别为2、4;
3号对应的检索关键词Q2、Q3的个数分别为5、4;
则由于1号对应的检索关键词种类比2号及3号少,因此在推荐排序中1号的排名最低,
因为2号与3号的关键种类均为两种, 且2号中出现次数最少的关键词种类为Q2,3号中出现次数最少的关键词种类为Q3,
因为在用户检索过程中,Q2比Q3的顺序更加靠前,因此,在推荐排名中2号的排名比3号的排名低。
所述贡献度分配模块在用户每次检索共享资源时,均会扣除该用户第一单位的贡献度m,同时统计该用户浏览的共享资源的个数、每个共享资源的分享者是否设置对查询浏览该共享资源的用户收取贡献度、用户对每个共享资源的有效浏览字数及查询的共享资源中有效浏览的总字数,
所述有效浏览字数通过鼠标滑动的实际速度与鼠标滑动的预估速度进行判断,所述鼠标滑动的预估速度与预估的用户阅读速度、屏幕页面浏览内容上下之间的距离及屏幕页面内出现的字数有关,
鼠标滑动的预估速度V、预估的用户阅读速度v1、屏幕页面浏览内容上下之间的距离L、屏幕页面内出现的字数s分别代入计算公式
Figure DEST_PATH_IMAGE008
,所述
Figure DEST_PATH_IMAGE010
为有效浏览的系数,得到的鼠标滑动的预估速度V是动态变化的,V值的大小直接受屏幕页面内出现的字数s的影响;
将得到的鼠标滑动的预估速度与鼠标滑动的实际速度进行比较:
当鼠标滑动的实际速度小于等于鼠标滑动的预估速度时,将鼠标滑动的实际速度小于等于鼠标滑动的预估速度的时间段内屏幕页面内变换的字数作为有效浏览字数;
当鼠标滑动的实际速度大于鼠标滑动的预估速度时,将鼠标滑动的实际速度大于鼠标滑动的预估速度的时间段内屏幕页面内变换的字数不作为有效浏览字数;
所述屏幕页面内变换的字数为鼠标滑动过程中,与屏幕页面内原来的内容相比,新出现的内容对应的字数。
本发明贡献度分配模块从预估的用户阅读速度v1、屏幕页面浏览内容上下之间的距离L、屏幕页面内出现的字数s这三个方面对鼠标滑动的预估速度V进行计算,通过将其与实际速度进行比较,可以得到用户在相应区间内是否有正常浏览,若未正常浏览,则该区间内的字数不算入有效浏览字数内,这样的计算方式更加精准。
本实施例中预估的用户阅读速度为7字/秒,屏幕页面浏览内容上下之间的距离25厘米、屏幕页面内出现的字数为500字、有效浏览的系数为10,
则鼠标滑动的预估速度
Figure DEST_PATH_IMAGE012
所述贡献度分配模块会根据每个共享资源的分享者是否设置对查询浏览该共享资源的用户收取贡献度情况,将设置的不收取贡献度的共享资源进行标示,并将用户每个共享资源的有效浏览字数及有效浏览的总字数中对应的标示部分进行剔除,将扣除的贡献度m根据剔除后的每个共享资源的有效浏览字数q占剔除后的有效浏览的总字数w的比值进行合理分配,即:
每个共享资源分配到的贡献度为
Figure DEST_PATH_IMAGE014
本发明通过用户对各个资源有效浏览的字数占有效浏览的总字数的比值来对贡献度进行公平分配,该分配方式更加合理,且由于一次检索只扣除固定数目的贡献值,因此,该方式还能够训练用户对关键词的提取能力以及对共享资源学习的热情,同时通过设置收取贡献度的方式,还能够对用户检索共享库的频率做出限制,防止用户因随意检索共享库,从而提高单位时间内人们对共享库的访问量,进而造成系统服务器的负担,导致卡顿的情况发生。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于大数据的教育资源共享方法,其特征在于,具体步骤如下:
S1、资源汇总模块用于对用户上传的需共享的资源进行审核,确定用户上传的资源在共享库中是否已经拥有,进而判断用户是否共享成功,对于共享成功的资源,该用户可以添加属于自己的独特的水印;
S2、资源推荐模块根据用户检索的关键词并按照指定的规则对共享资源进行筛选,并将筛选的结果按照一定的顺序进行推荐展示;
S3、贡献度分配模块根据用户检索并浏览的内容对贡献度进行分配;
所述共享库包括区域性资源共享库和全网资源共享库;
所述区域性资源共享库可由本区域的组织进行申请建立,该区域性资源共享库在共享和检索资源时,需要具有权限,所述权限是由建立该区域性资源共享库的组织进行授予的;
所述全网资源共享库针对所有用户,所有用户均可以进行共享和检索资源;
所述共享库对共享的资源检验过程如下:
S1.1、计算该资源的总字数A,查找共享库中总字数大于等于A减第一预设值的差,且小于等于A加第一预设值的和对应的所有资源,将查找到的资源作为该资源的对比资源,并提取该资源中第一页内容,对该页内容进行处理;
S1.2、将该页中的内容以各类标点符号为标准进行分割,分割成长短不一的语句,对分割后的语句按字数从多到少的顺序进行排序,对于字数相同的语句,则根据该资源内容中该语句出现的前后顺序进行判断,字数相同且在该资源中出现靠前的语句排名靠前;
S1.3、如同步骤S1.2中的操作,分别对每个对比资源进行语句分割排序;
S1.4、对该资源分割后的语句按顺序逐条与对比资源排序后的语句进行对比,对比对象的选取方法为:
第一步,计算该资源中该语句字数与对比资源中各语句字数差值的绝对值;
第二步,将求取的各个绝对值与第一阈值进行对比;
第三步,选取绝对值小于等于第一阈值对应的对比资源的语句,所得语句即为对比对象;
S1.5、将该资源该语句内容与各个对比对象中的内容进行对比,查看该语句与对比对象内容的相似度r:
若相似度r均小于第二阈值时,则判定该语句与对比对象均不相同,不进行标注;
若相似度r存在大于等于第二阈值时,则判定该语句与对比对象相同,对该语句进行标注;
统计该资源该页内容中标注的字数占总字数的比值,该比值记为相似度B;
S1.6、对相似度B进行判断:
若相似度B均小于第二预设值时,则判定该共享库中不存在与该资源相似的资源;
若相似度B存在大于第三预设值时,则判定该共享库中存在与该资源相似的资源;
若相似度B大于等于第二预设值,且小于等于第三预设值时,则需对该资源的相似度进一步确认;
S1.7、确认方式是将该资源最后一页内容与该对比资源最后一页中的内容进行对比,重复步骤S1.2、S1.3、S1.4、S1.5中的操作,并对得到的相似度B进行判断:
当相似度B均小于第二预设值时,则判定该共享库中不存在与该资源相似的资源;
当相似度B大于等于第二预设值,则该对比资源与该资源的相似度高,直接进行全文对比;
S1.8、在该对比资源与该资源进行全文对比过程中,资源汇总模块会分别提取该对比资源与该资源的全文内容中与标题相关的关键词,计算该资源中所提取关键词与该对比资源中提取关键词相同的个数,计算关键词相同个数占该资源总关键词个数的比值C;
如果全文对比中,比值C大于第三阈值,则判定该资源与该对比资源一样,共享失败;
如果全文对比中,比值C小于等于第三阈值,则判定该资源与该对比资源不一样,共享成功。
2.根据权利要求1所述的一种基于大数据的教育资源共享方法,其特征在于:所述资源汇总模块中,当用户在共享库对资源进行共享时,该共享库会对共享的资源进行检验,查看该共享库中是否存在与该资源近似的资源,并判断是否采纳该资源:
若该共享库不采纳该资源,则用户共享该资源失败;
若该共享库采纳该资源,则用户共享该资源成功。
3.根据权利要求1所述的一种基于大数据的教育资源共享方法,其特征在于:所述用户共享该资源成功时,能够对该共享资源附加独特的LOGO水印,同时用户还可以设置对查询浏览该共享资源的用户是否收取贡献度。
4.根据权利要求3所述的一种基于大数据的教育资源共享方法,其特征在于:所述资源推荐模块会自动获取用户检索共享资源时所提交关键词的种类及前后顺序,获取所有共享资源中含有用户提交关键词中的一种或者多种的资源内容,并将获取的资源内容按规定的顺序进行推荐排列。
5.根据权利要求4所述的一种基于大数据的教育资源共享方法,其特征在于:规定顺序的推荐排列方式如下:
S2.1、确认用户检索时关键词的种类及顺序;
S2.2、获取共享资源的内容中出现一种或多种检索关键词对应的共享资源;
S2.3、记录获取的各个共享资源中出现的关键词种类及每种关键词出现的次数;
S2.4、比较各个共享资源中出现的关键词种类:
当共享资源中出现的关键词种类越多,则该共享资源的排名越靠前;
当共享资源中出现的关键词种类相同时,则比较共享资源中出现的关键词种类中,出现次数最少的关键词种类,对关键词种类的优先级进行判断;
S2.5、在对关键词种类的优先级进行判断时,需要参照步骤S2.1中用户检索时关键词的种类及顺序,当步骤S2.4中出现次数最少的关键词种类在用户的检索顺序中靠前的位置,则对应的共享资源的排名越靠后;当步骤S2.4中出现次数最少的关键词种类在用户的检索顺序中的位置相同,则比较该出现次数最少的关键词种类对应的次数大小:
若对应的次数越小时,则对应的共享资源的排名越靠后;
若对应的次数相同时,则比较共享资源中出现的检索关键词的总个数,总个数越小,对应的共享资源的排名越靠后。
6.根据权利要求5所述的一种基于大数据的教育资源共享方法,其特征在于:所述贡献度分配模块在用户每次检索共享资源时,均会扣除该用户第一单位的贡献度m,同时统计该用户浏览的共享资源的个数、每个共享资源的分享者是否设置对查询浏览该共享资源的用户收取贡献度、用户对每个共享资源的有效浏览字数及查询的共享资源中有效浏览的总字数,
所述有效浏览字数通过鼠标滑动的实际速度与鼠标滑动的预估速度进行判断,所述鼠标滑动的预估速度与预估的用户阅读速度、屏幕页面浏览内容上下之间的距离及屏幕页面内出现的字数有关,
鼠标滑动的预估速度V、预估的用户阅读速度v1、屏幕页面浏览内容上下之间的距离L、屏幕页面内出现的字数s分别代入计算公式
Figure 742016DEST_PATH_IMAGE002
,所述
Figure 314949DEST_PATH_IMAGE004
为有效浏览的系数,得到的鼠标滑动的预估速度V是动态变化的,V值的大小直接受屏幕页面内出现的字数s的影响;
将得到的鼠标滑动的预估速度与鼠标滑动的实际速度进行比较:
当鼠标滑动的实际速度小于等于鼠标滑动的预估速度时,将鼠标滑动的实际速度小于等于鼠标滑动的预估速度的时间段内屏幕页面内变换的字数作为有效浏览字数;
当鼠标滑动的实际速度大于鼠标滑动的预估速度时,将鼠标滑动的实际速度大于鼠标滑动的预估速度的时间段内屏幕页面内变换的字数不作为有效浏览字数;
所述屏幕页面内变换的字数为鼠标滑动过程中,与屏幕页面内原来的内容相比,新出现的内容对应的字数。
7.根据权利要求6所述的一种基于大数据的教育资源共享方法,其特征在于:所述贡献度分配模块会根据每个共享资源的分享者是否设置对查询浏览该共享资源的用户收取贡献度情况,将设置的不收取贡献度的共享资源进行标示,并将用户每个共享资源的有效浏览字数及有效浏览的总字数中对应的标示部分进行剔除,将扣除的贡献度m根据剔除后的每个共享资源的有效浏览字数q占剔除后的有效浏览的总字数w的比值进行合理分配,即:
每个共享资源分配到的贡献度为
Figure DEST_PATH_IMAGE006
8.应用权利要求1所述的一种基于大数据的教育资源共享方法的系统,其特征在于,包括:资源汇总模块、资源推荐模块和贡献度分配模块;
所述资源汇总模块,用于对用户上传的需共享的资源进行审核,确定用户上传的资源在共享库中是否已经拥有,进而判断用户是否共享成功,对于共享成功的资源,该用户可以添加属于自己的独特的水印;
所述资源推荐模块,根据用户检索的关键词并按照指定的规则对共享资源进行筛选,并将筛选的结果按照一定的顺序进行推荐展示;
所述贡献度分配模块,根据用户检索并浏览的内容对贡献度进行分配。
CN202210612005.4A 2022-06-01 2022-06-01 一种基于大数据的教育资源共享系统及方法 Active CN114692006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210612005.4A CN114692006B (zh) 2022-06-01 2022-06-01 一种基于大数据的教育资源共享系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210612005.4A CN114692006B (zh) 2022-06-01 2022-06-01 一种基于大数据的教育资源共享系统及方法

Publications (2)

Publication Number Publication Date
CN114692006A CN114692006A (zh) 2022-07-01
CN114692006B true CN114692006B (zh) 2022-08-30

Family

ID=82131006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210612005.4A Active CN114692006B (zh) 2022-06-01 2022-06-01 一种基于大数据的教育资源共享系统及方法

Country Status (1)

Country Link
CN (1) CN114692006B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115907301A (zh) * 2022-12-08 2023-04-04 华中师范大学 基于资源共享机制的科教资源的价值评估方法及系统
CN117036127B (zh) * 2023-09-28 2023-12-15 南京诚勤教育科技有限公司 一种基于教育大数据平台的教育资源共享方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016199160A2 (en) * 2015-06-12 2016-12-15 Satyanarayana Krishnamurthy Language processing and knowledge building system
CN110728603A (zh) * 2019-10-31 2020-01-24 武汉天喻教育科技有限公司 一种基于教育云平台的教育资源共享方法及系统
CN111428478A (zh) * 2020-03-20 2020-07-17 北京百度网讯科技有限公司 一种词条同义判别的寻证方法、装置、设备和存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149572A1 (en) * 2004-12-30 2006-07-06 Superborrownet, Inc. System and method for asset sharing
CN106682870A (zh) * 2016-12-12 2017-05-17 武汉图灵创客科技有限公司 创客教育社交平台系统
CN107784489A (zh) * 2017-11-23 2018-03-09 兰州乐智教育科技有限责任公司 一种区域教育云资源共享平台
CN110062256A (zh) * 2019-04-30 2019-07-26 软通智慧科技有限公司 一种视频资源共享系统
CN110347782A (zh) * 2019-07-18 2019-10-18 知者信息技术服务成都有限公司 文章查重方法、装置和电子设备
CN111181954A (zh) * 2019-12-26 2020-05-19 航天信息股份有限公司 一种基于信息发布的资源共享方法及系统
CN112214984B (zh) * 2020-10-10 2024-08-02 北京蚂蜂窝网络科技有限公司 内容抄袭识别方法、装置、设备及存储介质
CN113408660B (zh) * 2021-07-15 2024-05-24 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质
CN114548730A (zh) * 2022-02-16 2022-05-27 南京新易维软件有限公司 基于校园场景的数字教学资源共享系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016199160A2 (en) * 2015-06-12 2016-12-15 Satyanarayana Krishnamurthy Language processing and knowledge building system
CN110728603A (zh) * 2019-10-31 2020-01-24 武汉天喻教育科技有限公司 一种基于教育云平台的教育资源共享方法及系统
CN111428478A (zh) * 2020-03-20 2020-07-17 北京百度网讯科技有限公司 一种词条同义判别的寻证方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李国才.大数据时代图书馆信息资源共享与协作.《电脑编程技巧与维护》.2018,(第12期),第116-118页. *
李淼.数据空间中基于主题词汇的概率聚类算法的研究与实现.《中国优秀硕士学位论文全文数据库 (信息科技辑)》.2012,(第06期),第I138-1601页. *

Also Published As

Publication number Publication date
CN114692006A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN114692006B (zh) 一种基于大数据的教育资源共享系统及方法
US8645385B2 (en) System and method for automating categorization and aggregation of content from network sites
Chen et al. Sheepdog: group and tag recommendation for flickr photos by automatic search-based learning
US9514216B2 (en) Automatic classification of segmented portions of web pages
KR101061234B1 (ko) 정보처리 장치와 방법, 및 기록 매체
US20180004850A1 (en) Method for inputting and processing feature word of file content
US20130110839A1 (en) Constructing an analysis of a document
CN108550068A (zh) 一种基于用户行为分析的个性化商品推荐方法及系统
US20090055390A1 (en) Information sorting device and information retrieval device
CN109740152A (zh) 文本类目的确定方法、装置、存储介质和计算机设备
CN105930546B (zh) 文件关联显示方法
US6219665B1 (en) Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
CN106354867A (zh) 多媒体资源的推荐方法及装置
AU2018429394B2 (en) Media source measurement for incorporation into a censored media corpus
US20090164418A1 (en) Retrieval system and method of searching information in the Internet
KR20080060547A (ko) 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체
US9977831B1 (en) Targeting users' interests with a dynamic index and search engine server
CN106372123B (zh) 一种基于标签的相关内容推荐方法和系统
CN113282789B (zh) 内容的显示方法及装置、电子设备和可读存储介质
WO2008032037A1 (en) Method and system for filtering and searching data using word frequencies
JP2019164438A (ja) レコメンド動画決定装置、レコメンド動画決定方法、およびプログラム
KR20060016468A (ko) 인터넷을 이용한 검색 서비스의 방법 및 시스템
Hietanen et al. What's with the free images? A study of Flickr's creative commons attribution images
Maneewongvatana et al. Book recommended formulation based on multiple bibliographic information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant