CN112529091A - 课件相似度检测方法、装置及存储介质 - Google Patents

课件相似度检测方法、装置及存储介质 Download PDF

Info

Publication number
CN112529091A
CN112529091A CN202011507687.XA CN202011507687A CN112529091A CN 112529091 A CN112529091 A CN 112529091A CN 202011507687 A CN202011507687 A CN 202011507687A CN 112529091 A CN112529091 A CN 112529091A
Authority
CN
China
Prior art keywords
courseware
page
checked
similarity
audited
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011507687.XA
Other languages
English (en)
Inventor
王嘉伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN202011507687.XA priority Critical patent/CN112529091A/zh
Publication of CN112529091A publication Critical patent/CN112529091A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Educational Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种课件相似度检测方法、装置及存储介质,此方法包括:提取待审核课件的页面特征和课件特征;将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到与待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件;对于每一锚课件,将待审核课件的页面特征与锚课件的页面特征进行比对,得到锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面;发送相似度检测结果给用户设备,相似度检测结果包含待审核课件中待审核页面及对应的目标页面,和/或,相似度检测结果用于指示待审核课件是否具备独创性。通过本申请可以高效率、低成本地完成对课件的独创性审核。

Description

课件相似度检测方法、装置及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种课件相似度检测方法、装置及存储介质。
背景技术
在教育领域,有许多用户原创内容(User Generated Content,简称UGC)平台,例如课件资源平台。在课件资源平台中,会经常使用到课件推送相关的功能,包括用户搜索和智能推送等。而如何为用户推送非抄袭的课件,是业界较为关注的一个问题。
目前业界常用的方法是对用户发布课件进行人工审核,具体为:当用户上传课件到课件资源平台时,审核人员通过观察该课件内容与平台中相似主题的课件内容,来对该课件的独创性进行审核。这要求审核人员在多个课件的页面之间来回对比,以寻找可能抄袭的痕迹,审核效率低且人力成本较高。
发明内容
本申请提供一种课件相似度检测方法、装置及存储介质,以高效率、低成本地完成对课件的独创性审核。
第一方面,本申请实施例提供一种课件相似度检测方法,包括:
提取待审核课件的页面特征和课件特征;
将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到与待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件;
对于每一锚课件,将待审核课件的页面特征与锚课件的页面特征进行比对,得到锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面;
发送相似度检测结果给用户设备,相似度检测结果包含待审核课件中待审核页面及对应的目标页面,和/或,相似度检测结果用于指示待审核课件是否具备独创性。
第二方面,本申请实施例还提供一种课件相似度检测方法,包括:
发送待审核课件给服务器;
接收服务器发送的相似度检测结果,相似度检测结果包含待审核课件中待审核页面及对应的目标页面,目标页面是锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面,锚课件是课件资源平台中与待审核课件的课件相似度满足第一相似度条件的至少一个课件,和/或,相似度检测结果用于指示待审核课件是否具备独创性;
显示相似度检测结果。
第三方面,本申请实施例提供一种课件相似度检测装置,包括:
特征提取模块,用于提取待审核课件的页面特征和课件特征;
课件比对模块,用于将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到与待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件;
页面比对模块,用于对于每一锚课件,将待审核课件的页面特征与锚课件的页面特征进行比对,得到锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面;
发送模块,发送相似度检测结果给用户设备,相似度检测结果包含待审核课件中待审核页面及对应的目标页面,和/或,相似度检测结果用于指示待审核课件是否具备独创性。
第四方面,本申请实施例提供一种课件相似度检测装置,包括:
发送模块,用于发送待审核课件给服务器;
接收模块,用于接收服务器发送的相似度检测结果,相似度检测结果包含待审核课件中待审核页面及对应的目标页面,和/或,相似度检测结果用于指示待审核课件是否具备独创性,目标页面是锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面,锚课件是课件资源平台中与待审核课件的课件相似度满足第一相似度条件的至少一个课件;
显示模块,用于显示相似度检测结果。
第五方面,本申请实施例提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行存储器中的程序指令,执行如第一方面或第二方面中任一项所述的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有程序指令;程序指令被执行时,实现如第一方面或第二方面中任一项所述的方法。
第七方面,本申请实施例提供一种计算机程序产品,该程序产品包括计算机程序,其中计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行如上所述的方法。
本申请实施例提供的课件相似度检测方法、装置及存储介质,在提取待审核课件的页面特征和课件特征后,将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到与待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件;之后,对于每一锚课件,将待审核课件的页面特征与锚课件的页面特征进行比对,得到锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面,并发送相似度检测结果给用户设备,相似度检测结果包含待审核课件中待审核页面及对应的目标页面,和/或,相似度检测结果用于指示待审核课件是否具备独创性。通过基于课件特征的比对确定锚课件,并基于页面特征的比对确定锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的目标页面,最后显示相似度检测结果给相关人员,以高效率、低成本地完成对课件的独创性审核。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的应用场景示例图;
图2为本申请一实施例提供的课件相似度检测方法的流程图;
图3为课件示例图;
图4为本申请一实施例提供的页面特征提取示意图;
图5为本申请一实施例提供的课件特征提取示意图;
图6为本申请一实施例提供的基于课件特征的比对流程示意图;
图7为本申请一实施例提供的基于页面特征的比对流程示意图;
图8为本申请另一实施例提供的课件相似度检测方法的流程图;
图9为本申请一实施例提供的显示界面的示例图;
图10为本申请一实施例提供的相似度检测结果的示例图;
图11为本申请一实施例提供的课件相似度检测装置的结构示意图;
图12为本申请另一实施例提供的课件相似度检测装置的结构示意图;
图13为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例的说明书、权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。“/”表示“或”的关系。
人工审核方式要求审核人员在多个课件的页面之间来回对比图像和文本信息,以寻找可能抄袭的痕迹。当课件资源平台的课件量随着时间增长变得比较大时,寻找可能抄袭的课件将是一项费时费力的工作。发明人研究发现,该审核方式主要存在的缺点包括:(1)审核效率低;(2)人力成本高。
基于上述问题,本申请提供一种课件相似度检测方案,首先基于课件特征的比对确定锚课件,再基于页面特征的比对确定锚课件中与待审核课件中各待审核页面最相似的目标页面,最后显示待审核课件中待审核页面及锚课件中对应的目标页面给相关人员,以高效率完成对课件的独创性审核。由于由设备自动化完成上述比对流程,因此,可提高审核效率、降低人力成本。
另外,人工审核标准不一致将导致审核结果不一致,即人工审核的主观性较强;但本申请中,由于设备自动化比对且审核标准一致,因此得到的审核结果一致性较高;再者,人工审核可能存在漏检课件资源平台中课件的情况,从而导致审核精度较低;而本申请所提供的课件相似度检测方案是由设备遍历课件资源平台中课件与待审核课件进行比对,因此,还可以提高审核结果的精度。
图1为本申请一实施例提供的应用场景示例图。如图1所示:
用户设备与服务器之间通过无线技术进行通信。用户通过用户设备向服务器上传课件,也就是如本文所述的“待审核课件”。具体地,用户设备中安装有教务业务相关的应用软件,用户可通过该应用软件进行课件的上传,具体地用户点击标识有类似“上传课件”等内容的虚拟按键,并在上传成功后进行修改、观看、教学等。可选地,“上传成功”表示该课件具备独创性。服务器在获取到待审核课件后,通过本申请提供的课件相似度检测方案对该待审核课件进行独创性审核,以确定是否公布待审核课件。示例地,当服务器确定该待审核课件具备独创性时,将该待审核课件存储至课件资源平台的课件库中,以供相关人员查看;当服务器确定该待审核课件不具备独创性时,丢弃该待审核课件,即不存储至课件资源平台的课件库中,并可选地提示上传该待审核课件的用户其不具备独创性,需要进一步修改后再上传。
图1所示示例中,用户设备以手机为例,但本申请不以此为限制。示例地,用户设备还可以是交互平板(interactive white board)或电脑等用户设备;服务器还可以替换为服务器集群或其他具备一定算力的计算机,等等。其中,交互平板,集成有投影机、电子白板、幕布、音响、电视机以及视频会议终端等功能中的任意一种或多种功能。
另外,本申请不限制场景中用户设备和服务器的个数,具体以根据实际需求为准。
以下结合具体的实施例,对本申请提供的课件相似度检测方法进行解释说明。
图2为本申请一实施例提供的课件相似度检测方法的流程图。该课件相似度检测方法可以由课件相似度检测装置执行,该课件相似度检测装置可以通过软件和/或硬件的方式实现。实际应用中,该课件相似度检测装置可以是服务器或服务器集群等电子设备或电子设备中的芯片或电路。以下以服务器为执行主体进行示例说明。
参考图2,本实施例提供的课件相似度检测方法包括:
S201、提取待审核课件的页面特征和课件特征。
其中,待审核课件是服务器获取到的新上传的课件。示例地,如图1所示例的场景中,待审核课件是由用户设备发送给服务器的课件。该待审核课件可以是用户通过用户设备中安装的应用软件所上传的存储于存储设备的课件。其中,存储设备可以是用户设备内部的存储器,或者,存储设备是独立于用户设备的例如U盘等存储器。
示例地,待审核课件为以页面形式存在的文档,包括但不限于PPT、Word、PDF等。可选地,待审核课件中包含文本、图像和排版等内容中的至少一种。示例地,如图3所示,一个类似于PPT类型的课件,其含有多个页面,每个页面可视为由图像、文本还有排版组成。其中,图像包括页面中的背景、插入图片以及页面缩略图等;文本包括标题、正文及公式等各类文字输入;排版包括图像和文本的位置、大小等格式,其常用可扩展标记语言(Extensible Markup Language,简称XML)或(JavaScript Object Notation,简称JS对象简谱)等文件格式进行组织。
可以理解,课件特征与课件对应,是从课件这一整体角度粗粒度地描述课件的信息;页面特征与课件中页面对应,具体为课件中页面信息,是从页面这一角度对课件的信息进行细粒度地描述。页面特征包括图像特征、文本特征和页面结构特征。其中,图像特征用于描述页面中图像的特征;文本特征用于描述页面中文本的特征;页面结构特征用于表征页面中除图像特征、文本特征之外的、与排版等有关的特征,设备通过页面结构特征可以将图像特征和文本特征组合成页面。课件特征是从课件这一整体角度描述待审核课件的特征。可选地,课件特征是根据页面特征得到的。
在实际应用中,可以采取相关技术手段从待审核课件中提取页面特征和课件特征,具体描述可参考后续实施例。
S202、将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到与待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件。
该步骤是基于课件特征进行粗粒度的比对,首先筛选出与待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件。
可选地,第一相似度条件可以为课件相似度大于预设相似度阈值;或者,第一相似度条件可以为:对各课件相似度进行大小排序,得到排序在前的预设个数个课件相似度。例如,按照课件相似度进行大小排序,将排列在前的5个课间相似度对应的课件作为锚课件;或者,将课件相似度大于90%的课件作为锚课件,等等。
需说明的是,本申请中的第一相似度条件不以上述示例为限制,在实际应用中可根据实际需求或历史经验进行设置。
其中,课件资源平台中存储有多个课件以及这多个课件的课件特征。课件相似度检测装置遍历课件资源平台中每个课件,获取该课件的课件特征,将待审核课件的课件特征与课件资源平台中课件的课件特征进行比对,得到与待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件。示例地,若课件资源平台中包含L个课件,则课件相似度检测装置需执行L次该步骤。
一些实施例中,课件资源平台中的多个课件存储于课件库,课件特征存储于课件特征库,通过课件标识信息可在课件库中匹配到对应课件,以及在课件特征库中匹配到对应课件的课件特征。其中,课件标识信息例如为课件编号等唯一区分信息。
S203、对于每一锚课件,将待审核课件的页面特征与锚课件的页面特征进行比对,得到锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面。
该步骤是基于页面特征进行细粒度的比对。在S202所得到的至少一个锚课件的基础上,在每个锚课件中,遍历锚课件的每个页面,获取该页面的页面特征,将待审核课件的页面特征与锚课件的页面特征进行比对,得到锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面。
示例地,待审核课件a包含M1页待审核页面,每页的页面特征可通过一个向量(即页面特征向量)进行表示,向量中元素用于表征不同的页面特征,这样待审核课件a对应M1个页面特征向量;课件资源平台中课件b包含M2页,每页的页面特征可通过一个向量(即页面特征向量)进行表示,向量中元素用于表征不同的页面特征,这样课件b对应M2个页面特征向量,其中,M1与M2均为正整数,二者可以不等或相等。针对待审核课件a对应的每一页面特征向量,均需要与课件b对应的M2个页面特征向量进行比对,即比对M2次,得到M2个比对结果,这样总共比对M2*M11次得到M2*M1个比对结果,进一步地从M2*M1个比对结果中得到锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的目标页面。其中,第二相似度条件可以为得到的页面相速度中的最大页面相似度,或者其它。
需说明的是,对于待审核课件的一个待审核页面,其在锚课件中页面相似度满足第二相似度条件的目标页面可以是一个或多个;同理,对于锚课件的一个页面,其可能与待审核课件中的至少一个待审核页面相似,即一个目标页面对应有待审核课件中多个不同待审核页面。
S204、发送相似度检测结果给用户设备。
其中,该相似度检测结果包含待审核课件中待审核页面及对应的目标页面,和/或,相似度检测结果用于指示待审核课件是否具备独创性。
示例地,服务器将发送相似度检测结果给用户设备,以使用户设备显示该相似度检测结果给审核人员,通过该步骤可视化比对结果。
在后续过程中,可由相关人员进行进一步的人工审核,判断待审核课件中待审核页面与对应的目标页面是否具备独创性(构成抄袭),若不具备独创性(构成抄袭),审核不通过,则通过相关操作使得服务器丢弃该待审核课件,例如不将其存储至课件库中,且不保存该审核课件的课件特征及页面特征;若具备独创性(不构成抄袭),审核通过,则通过相关操作使得服务器保存该待审核课件,例如将其存储至课件库中,且保存该审核课件的课件特征及页面特征至课件库或课件特征库,或分别将课件特征及页面特征保存至课件特征库和页面特征库,完成课件上传。该实现方式中,通过设备进行特征比对,可大大节省人力,提高审核效率。
或者,由课件相似度检测装置进一步判断待审核课件中待审核页面与对应的目标页面是否具备独创性(构成抄袭),进而确定是否保存该待审核课件及其对应的课件特征和页面特征。例如,设置页面抄袭阈值,若待审核课件中待审核页面及对应的目标页面的页面相似度大于或等于该页面抄袭阈值,则确定待审核页面不具备独创性(构成抄袭);进一步地,设置课件抄袭阈值,若待审核课件中构成抄袭的待审核页面的个数大于或等于该课件抄袭阈值,则确定该待审核课件不具备独创性(构成抄袭),审核不通过,不保存待审核课件。否则,例如不具备独创性的待审核页面的个数小于课件抄袭阈值,则确定该待审核课件具备独创性(不构成抄袭),审核通过,保存待审核课件及其课件特征和页面特征。例如,将待审核课件保存至课件库,且保存该审核课件的课件特征及页面特征至课件库或课件特征库,或分别将课件特征及页面特征保存至课件特征库和页面特征库。相比上述人工判断待审核课件中待审核页面与对应的目标页面是否构成抄袭的实现方式,本实现方式可以进一步节省人力,提高审核效率。
本申请实施例,在提取待审核课件的页面特征和课件特征后,将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到与待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件;之后,对于每一锚课件,将待审核课件的页面特征与锚课件的页面特征进行比对,得到锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面,并显示待审核课件中待审核页面及对应的目标页面,和/或,相似度检测结果用于指示待审核课件是否具备独创性。通过基于课件特征的比对确定锚课件,并基于页面特征的比对确定锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的目标页面,最后显示相似度检测结果给相关人员,以高效率、低成本地完成对课件的独创性审核。
基于上述实施例的描述可知,页面特征可以包括图像特征、文本特征和页面结构特征。针对不同的页面特征,采用的提取手段也是不同的。接下来,将具体介绍页面特征的提取。
一些实施例中,上述提取待审核课件的页面特征,可以包括:对于待审核课件的每一待审核页面,执行以下操作:
将待审核页面输入图像神经网络,得到待审核页面对应的图像特征;
将待审核页面输入文本神经网络,得到待审核页面对应的文本特征;
将待审核页面输入图神经网络,得到待审核页面对应的页面结构特征。
为了有效提取页面信息以及用于后续课件的高效对比计算,需要将页面中的图像、文本还有排版表征为向量,如图4所示。对于待审核课件中每一待审核页面中的图像,可使用图像神经网络表征为一维向量,又因为每一待审核页面可能含有多张图像,故可将所有图像先使用图像神经网络处理,再对得到的所有图像向量使用池化操作进行合并,即可得到页面级的图像向量表征。同理,对于文本信息,可使用文本神经网络进行处理,如存在多个文本,同样需要使用池化操作对所有文本向量进行合并,即可得到页面级的文本向量表征;对于排版信息,因为页面中的数据可表示为结点和关系的图,所以可采用图神经网络进行处理,即可得到页面级的结构向量表征。
在得到图像向量表征、文本向量表征以及结构向量表征之后,可实施特征融合步骤得到页向量表征,其中,页向量表征可用于页面特征的比对。具体方法为:首先对图像向量表征、文本向量表征和结构向量表征分别进行归一化操作:
Figure BDA0002845379730000101
其中,y为一维向量,具体为图像向量表征、文本向量表征和结构向量表征,||y||2为向量模长,x∈[0,1]。
接着,将这三者的结果拼接为一维向量,即可实现特征融合。
需要注意的是,上述的图像神经网络、文本神经网络和图神经网络是泛称,在实践中,可实例化为各种学界和工业界常用的模型。例如,图像神经网络可实例化为高效的卷积神经网络“Efficient Net”,文本神经网络可实例化为双向编码表示器“BERT”,图神经网络可实例化为图卷积神经网络“GCN”,它们均能够实现对特定模态数据的向量表示。同样的,池化操作也可实例化为平均池化、最大池化等操作,它们能够实现对多维矩阵进行压缩,最终得到多维的向量。
至此,所得到的页向量表征即有效包含了该页面的页面信息。接下来说明如何获取课件级的向量表征。一些实施例中,上述提取待审核课件的课件特征,可以包括:对待审核课件的各页面特征进行融合处理,得到待审核课件的课件特征。具体地,将页向量表征进行融合,得到课件向量表征。其中,课件向量表征可用于课件特征的比对。
进一步地,对待审核课件的各页面特征进行融合处理,得到待审核课件的课件特征,可以包括:采用平均池化操作对待审核课件的各页面特征进行特征融合;对融合后的特征进行归一化处理,得到待审核课件的课件特征。示例地,如图5所示,在实践中,可以采用平均池化操作对多维页向量表征进行特征融合,并对融合后的特征进行归一化处理,即可得到课件向量表征。具体而言,假设xi为页向量特征,i=1,2,...,P,P为总页数,z为课件向量表征,则平均池化计算公式为:
Figure BDA0002845379730000111
以上是课件向量表征的计算方法。
使用以上的处理方法,就可以得到每个课件的页向量表征xi和课件向量表征z。可选地,在得到课件向量表征之后,将把课件向量表征存储于课件特征库中,目的是为了方便高效地实现课件相似度计算。其中,课件特征库可用MySQL等数据库实现,对应的键可设置为课件标识(ID),相应的值即为课件的页向量表征和课件向量表征。
当用户新上传一个课件到课件资源平台时,服务器将使用前述课件特征提取方式计算该待审核课件的课件向量表征,并将该课件向量表征与课件资源平台中所有课件向量表征分别进行对比,得到相应的相似度。接着对相似度大小进行排序,得出待审核课件所对应的最为相似的k个锚课件。即上述将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到与待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件,可以包括:将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到待审核课件与各课件的课件相似度;在课件相似度满足以下至少一第一相似度条件时,确定对应课件为锚课件:(1)课件相似度大于预设相似度阈值;(2)对各课件相似度进行大小排序,得到排序在前的预设个数个课件相似度。
具体地,将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到待审核课件与各课件的课件相似度,可以包括:根据以下公式得到待审核课件与各课件的课件相似度:
s=zTZ
其中,z表示待审核课件的课件特征对应的课件向量表征;Z=[z1,z2,...,zN]表示课件资源平台中各课件的课件特征对应的课件向量表征的集合,N为课件资源平台中的课件总个数;s=[s1,s2,...,sN],表示课件相似度的集合。
如图6所示例,待审核课件的课件向量表征表示为D维向量表征z,接着将其与课件特征库中的所有课件向量表征Z=[z1,z2,...,zN]逐一进行特征比对,N为课件资源平台中的课件总个数,得到课件相似度s=[s1,s2,...,sN],计算过程如下:
s=zTZ
接着,可根据课件相似度大小对该N维向量进行排序,筛选出k个最相似的课件,称为锚课件。
之后,可对待审核课件和锚课件实现页面特征的反抄袭比对。
可选地,步骤S203可以包括:对于待审核课件的每一待审核页面,将待审核页面的页面特征与锚课件的各页面特征进行比对,得到待审核页面与锚课件中各页面的页面相似度;将最大页面相似度对应的锚课件中的页面,确定为锚课件中与待审核页面的页面相似度满足第二相似度条件的目标页面。具体地:将待审核课件的页向量表征与上述最相似的k个锚课件的页向量表征进行两两比较得到相似度矩阵,对该相似度矩阵进行排序即可得到锚课件中与待审核课件中待审核页面间最相似的页面。
一种具体实现中,可以根据以下公式得到待审核页面与所述锚课件中各页面的页面相似度:
S=UTV
其中,设定待审核课件总页数为P,P个页面的页面特征对应的页向量表征表示为U=[u1,u2,...,uP],p为待审核课件页码,p∈[0,P);锚课件总页数为Q,Q个页面的页面特征对应的页向量表征表示为V=[v1,v2,...,vQ],q为锚课件页码,q∈[0,Q);S为P×Q的相似度矩阵,其中每一行中的元素表示对应待审核页面与锚课件中各页面的页面相似度。
这里,以一个待审核课件与一个锚课件的细粒度反抄袭计算为例,如图7所示。假设待审核课件对应P条D维的页向量表征,即U=[u1,u2,...,uP],而锚课件对应Q条D维的页向量表征,即V=[v1,v2,...,vQ]。s∈[0,1],s表示对应待审核页面与锚课件中各页面的页面相似度。据此,可将待审核课件的每一待审核页面与锚课件的每一页面分别进行比对,得到页面级别的相似度矩阵S∈[0,1]P×Q
接着,通过该相似度矩阵即可找到待审核课件中每一待审核页面对应最相似的锚课件页面,如图7右侧所示,其中相似度矩阵中颜色越深表示越相似。如图7所示,待审核课件的第1页与锚课件的第2页相似;待审核课件的第2页与锚课件的第1页相似;待审核课件的第3页与锚课件的第3页相似。
以上是一对待审核课件和锚课件的细粒度反抄袭计算过程,那么根据粗粒度反抄袭计算的结果,总共有k个锚课件,则只需将细粒度反抄袭计算过程分别应用k次,即可得到查询课件与每一个锚课件之间的课件页面相似结果。
将上述粗粒度及细粒度的计算结果都将保存于后台数据库中,用于开发前端可视化界面,最终交由审核人员对上传课件进行审核。
以上实施例从服务器的角度说明如何进行相似度检测,与上述实施例相对应,后续实施例从用户设备的角度说明如何进行相似度检测。
图8为本申请另一实施例提供的课件相似度检测方法的流程图。该课件相似度检测方法可以由课件相似度检测装置执行,该课件相似度检测装置可以通过软件和/或硬件的方式实现。实际应用中,该课件相似度检测装置可以是手机或交互平板等电子设备或电子设备中的芯片或电路。以下以手机为执行主体进行示例说明。
参考图8,本实施例提供的课件相似度检测方法包括:
S801、发送待审核课件给服务器。
示例地,手机在检测到用户的上传操作后,获取待审核课件并发送给服务器,由服务器执行如图2所示的流程。其中,该上传操作用于上传待审核课件。
S802、接收服务器发送的相似度检测结果。
其中,相似度检测结果包含待审核课件中待审核页面及对应的目标页面,目标页面是锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面,锚课件是课件资源平台中与待审核课件的课件相似度满足第一相似度条件的至少一个课件。和/或,相似度检测结果用于指示待审核课件是否具备独创性。
该步骤中相关术语如前所述,可参考上述实施例,此处不再赘述。
S803、显示相似度检测结果。
通过该步骤可视化比对结果,将相似度检测结果呈现给相关人员。
后续操作流程可参考如图2对应的实施例,此处不再赘述。
该实施例是与图2所示实施例相对应的实施例,其实现原理和技术效果类似,此处不再赘述。
一些实施例中,若相似度检测结果包含待审核课件中待审核页面及对应的目标页面,则S803步骤可以包括:在第一区域显示待审核课件的待审核页面;在第二区域显示对应的至少一个锚课件的目标页面。可选地,第一区域与第二区域组成显示界面,且第一区域与第二区域不重合。该显示界面布局可使用WEB前端开发技术进行实现,其后台信息来源如前所述。该显示界面可用于审核用户上传的课件,审核人员可根据显示界面展示结果,综合课件的图像、文本及排版在主观感知上的相似度,高效地评估用户上传课件是否涉嫌抄袭,并最终决定对上传课件的审核是否通过。
进一步地,相似度检测结果还可以包含:待审核页面和目标页面的页码;和/或,待审核页面与对应目标页面的相似度。
如图9所示,显示界面中包含有上传课件ID、课件名、作者、课件上传时间等信息;左侧第一列为新上传课件(即待审核课件),从上到下依次按照页码进行排列,最下侧为待审核课件的总页数;右侧两列为课件库中与该待审核课件最相似的锚课件,每页上方的值代表相似页码及对应相似度,即“页码—相似度”。
可选地,第一区域与第二区域之间设置滚动条,鼠标滚轮用于上下滚动课件页面,使用时将同时滚动左右两侧页面。
可选地,第二区域的下部设置有滚动条,鼠标滚轮用于左右滚动相似课件页面。
可选地,第二区域的下部还设置有鼠标按钮,用于快速左右滚动相似课件页面。
可选地,显示界面中还包含标识有“审核通过”等类似字样的虚拟按键,审核人员可通过勾选方框表示审核通过。
图10示出一相似度检测结果,可以发现,新上传的课件抄袭了右侧第一列的课件,两个课件在图片和文本上有着诸多相似的地方,即新上传课件抄袭了右侧第一列课件的第1页、第2页和第20页,等等。而右侧第二列课件在图片和背景上有着部分相似的地方,但文本不同。综合以上课件相似度检测结果,审核人员可以给出是否抄袭的判断。
以下,将对传统流程和本申请流程进行对比,以突出本方案的优势:
在传统流程中,每当用户上传一份课件,为了评估用户上传的课件是否抄袭,审核人员需在多个可能相似的课件页面之间交叉对比。例如,假设一个用户上传了一份课件,而该课件部分抄袭了课件库中的另一份课件,审核人员为了确认具体哪一页是抄袭的,需要将上传课件的每一页内容在另一份课件中进行交叉比对,假设这两份课件都为N页,那么审核人员需要比对的页面数共为N2对,直到找到相应的抄袭内容。这样的资源审核流程工作量较大,使得人工成本较高。
而在本文所提供的流程中,每当用户上传一份课件,设备就会执行一次相似度检测计算,不仅能够筛选出几个最相似的课件用于新上传课件的独创性审核,还提供了细粒度的页面级查重结果。审核人员只需要逐页对比上传课件的页面与可能抄袭的课件的页面,就能够据此方便地筛选出无抄袭且高质量的课件,相比传统流程,该方法需要审核人员比对的页面数共为N对,能够较大程度地减轻审核人员的工作负担。
综上,相比目前人工审核的方式,本申请至少具有以下优势:
一、在特征提取部分,采用图神经网络对课件排版信息进行处理。在现有技术中,课件反抄袭方法只提取了课件图文信息,而在本申请提供的技术方案中,除了课件图文信息,还考虑了课件的排版信息,由于课件每一页的排版信息由XML格式或JSON格式表达,其格式可被读取为树状图结构,故可使用图神经网络对其进行处理,最终可得到排版信息的向量表征。这种方案相比只考虑图文信息的特征提取方法,能更加忠实地保留课件的信息,从而提高课件反抄袭效果。
二、在特征对比部分,基于页面特征进行比对,提高了审核人员的工作效率。在特征对比部分,现有技术的课件反抄袭方法只考虑对课件整体的信息进行对比,类似于本方案中的基于课件特征的粗粒度比对,这种方案只能粗略筛选出可能抄袭的锚课件,但对于审核人员而言,还需要对上传课件和锚课件的页面进行交叉对比,假设课件页码数都为N,这种方案的效率是O(N2),故效率不高。而在本方案中,还实现了基于页面特征的细粒度计算,这种方案采用自动化的方法对上传课件和锚课件之间的页面进行交叉比对,直接筛选出上传课件与另一份锚课件之间的最相似页面,故审核人员只需人工检验最相似页面,即可判断课件是否抄袭,这种方案的效率是O(N),将审核人员原有的资源审核流程的效率从O(N2)提高到了O(N)。
三、在特征对比部分,提出了基于课件特征的粗粒度比对与基于页面特征的细粒度比对相结合的方案,平衡了算法在效率和精度之间的矛盾。原本可以考虑对所有课件库中的课件进行细粒度计算,如上述讨论所示,页面之间交叉对比的效率为O(N2),故该过程的算法效率不高,不适用于大规模课件反抄袭场景。故本方案采用了粗粒度计算与细粒度计算相结合的方法,首先采用O(N)计算效率的粗粒度计算模块排除掉大多数不相似的课件,再在可能相似的课件中应用细粒度交叉对比不同课件之间最可能相似的页面,相比于只参考粗粒度比对的结果进行审核,该混合方案减少了算法计算的时间,提高了审核人员审核的精度,最终平衡了算法在效率和精度之间的矛盾。
以下为本申请装置实施例,可以用于执行本申请上述方法实施例。对于本申请装置实施例中未披露的细节,可参考本申请上述方法实施例。
图11为本申请一实施例提供的课件相似度检测装置的结构示意图。该课件相似度检测装置可以通过软件和/或硬件的方式实现。如图11所示,课件相似度检测装置40包括:特征提取模块41、课件比对模块42、页面比对模块43和发送模块44。其中:
特征提取模块41,用于提取待审核课件的页面特征和课件特征;
课件比对模块42,用于将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到与待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件;
页面比对模块43,用于对于每一锚课件,将待审核课件的页面特征与锚课件的页面特征进行比对,得到锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面;
发送模块44,发送相似度检测结果给用户设备,相似度检测结果包含待审核课件中待审核页面及对应的目标页面,和/或,相似度检测结果用于指示待审核课件是否具备独创性。
可选地,特征提取模块41包括页面特征提取单元(未示出),用于提取待审核课件的页面特征。页面特征提取单元具体可以用于:对于待审核课件的每一待审核页面,执行以下操作:
将待审核页面输入图像神经网络,得到待审核页面对应的图像特征;
将待审核页面输入文本神经网络,得到待审核页面对应的文本特征;
将待审核页面输入图神经网络,得到待审核页面对应的页面结构特征;
其中,页面特征包括图像特征、文本特征和页面结构特征。
一些实施例中,特征提取模块41包括课件特征提取单元(未示出),用于提取待审核课件的课件特征。课件特征提取单元具体可以用于:对待审核课件的各页面特征进行融合处理,得到待审核课件的课件特征。可选地,课件特征提取单元用于:采用平均池化操作对待审核课件的各所述页面特征进行特征融合;对融合后的特征进行归一化处理,得到所述待审核课件的课件特征。
一些实施例中,课件比对模块42可以具体用于:将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到待审核课件与各课件的课件相似度;在课件相似度满足以下至少一第一相似度条件时,确定对应课件为锚课件:
课件相似度大于预设相似度阈值;
对各课件相似度进行大小排序,得到排序在前的预设个数个课件相似度。
可选地,课件比对模块42在将待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到待审核课件与各课件的课件相似度时,具体用于:
根据以下公式得到待审核课件与各课件的课件相似度:
s=zTZ
其中,z表示待审核课件的课件特征对应的课件向量表征;Z=[z1,z2,...,zN]表示课件资源平台中各课件的课件特征对应的课件向量表征的集合,N为课件资源平台中的课件总个数;s=[s1,s2,...,sN],表示课件相似度的集合。
一些实施例中,页面比对模块43可以具体用于:对于待审核课件的每一待审核页面,将待审核页面的页面特征与锚课件的各页面特征进行比对,得到待审核页面与锚课件中各页面的页面相似度;将最大页面相似度对应的锚课件中的页面,确定为锚课件中与待审核页面的页面相似度满足第二相似度条件的目标页面。
进一步地,页面比对模块43在将待审核页面的页面特征与锚课件的各页面特征进行比对,得到待审核页面与锚课件中各页面的页面相似度时,具体用于:根据以下公式得到待审核页面与锚课件中各页面的页面相似度:
S=UTV
其中,待审核课件总页数为P,P个页面的页面特征对应的页向量表征表示为U=[u1,u2,...,uP],p为待审核课件页码,p∈[0,P);锚课件总页数为Q,Q个页面的页面特征对应的页向量表征表示为V=[v1,v2,...,vQ],q为锚课件页码,q∈[0,Q);S为P×Q的相似度矩阵,其中每一行中的元素表示对应待审核页面与所述锚课件中各页面的页面相似度。
一些实施例中,相似度检测结果还包含:待审核页面和目标页面的页码;和/或,待审核页面与对应目标页面的相似度。
一些实施例中,页面比对模块43可以还用于:在将待审核课件的页面特征与锚课件的页面特征进行比对,得到锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面之后,若待审核页面及对应的目标页面的页面相似度大于或等于页面抄袭阈值,则确定待审核页面不具备独创性;若不具备独创性的待审核页面的个数大于或等于课件抄袭阈值,则确定待审核课件不具备独创性,不保存(丢弃)待审核课件;或者,若不具备独创性的待审核页面的个数小于课件抄袭阈值,则确定待审核课件具备独创性,保存待审核课件及其课件特征和页面特征。
图12为本申请另一实施例提供的课件相似度检测装置的结构示意图。该课件相似度检测装置可以通过软件和/或硬件的方式实现。如图12所示,课件相似度检测装置60包括:发送模块61、接收模块62和显示模块63。其中:
发送模块61,用于发送待审核课件给服务器;
接收模块62,用于接收服务器发送的相似度检测结果,相似度检测结果包含待审核课件中待审核页面及对应的目标页面,目标页面是锚课件中与待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面,锚课件是课件资源平台中与待审核课件的课件相似度满足第一相似度条件的至少一个课件,和/或,相似度检测结果用于指示待审核课件是否具备独创性;
显示模块63,用于显示相似度检测结果。
一些实施例中,若相似度检测结果包含待审核课件中待审核页面及对应的目标页面,则显示模块63可以具体用于:在第一区域显示待审核课件的待审核页面;在第二区域显示对应至少一个锚课件的目标页面。可选地,第一区域与第二区域组成显示界面,且第一区域与第二区域不重合。
一些实施例中,相似度检测结果还包含:待审核页面和目标页面的页码;和/或,待审核页面与对应目标页面的相似度。
图13为本申请一实施例提供的电子设备的结构示意图。如图13所示,电子设备50包括:处理器51,以及与处理器51连接的存储器52、通信模块53。
处理器51可以包括一个或多个处理单元,例如:处理器51可以是中央处理单元(Central Processing Unit,简称:CPU),也可以是数字信号处理器(Digital SignalProcessor,简称:DSP)、专用集成电路(Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器52可以用于存储程序指令。存储器52可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能等)等。存储数据区可存储电子设备50使用过程中所创建的数据(比如音频数据等)等。此外,存储器52可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,简称:UFS)等。处理器51通过运行存储在存储器52的程序指令,执行电子设备50的各种功能应用以及数据处理。
通信模块53可以提供应用在电子设备50上的包括2G/3G/4G/5G等无线通信的解决方案。通信模块53可以由天线接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。通信模块53还可以对经调制解调处理器调制后的信号放大,经天线转为电磁波辐射出去。在一些实施例中,通信模块53的至少部分功能模块可以被设置于处理器51中。在一些实施例中,通信模块53的至少部分功能模块可以与处理器51的至少部分模块被设置在同一个器件中。
需说明的是,对于存储器52及处理器51的个数,本申请实施例不对其进行限制,其均可以为一个或多个,图13以一个为例进行图示;存储器52、及处理器51之间,可以通过多种方式进行有线或者无线连接,例如通过总线连接。实际应用中,该电子设备50可以是计算机,例如服务器或服务器集群等。
当电子设备50用于执行如图8所示流程时,该电子设备50可以是例如手机、电脑或交互平板等用户设备。该情况下,电子设备50还可以包含:显示屏54等。
显示屏54用于显示图像,视频等。显示屏54包括显示面板。显示面板可以采用液晶显示器(Liquid Crystal Display,简称:LCD),有机发光二极管(Organic Light-EmittingDiode,简称:OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-MatrixOrganic Light Emitting Diode,简称:AMOLED),柔性发光二极管(Flex Light-EmittingDiode,简称:FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(Quantum DotLight Emitting Diodes,简称:QLED)等。在一些实施例中,电子设备50可以包括1个或N个显示屏54,N为大于1的正整数。显示面板可以接收用户通过手指或者输入设备输入的触摸操作。其中,输入设备包括但不限定于:触控笔、红外笔和/或电容笔等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称:ISA)总线、外部设备互连(Peripheral Component,简称:PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称:EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本实施例的电子设备,可以用于执行上述方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有程序指令,该程序指令被执行时,实现如上述任一实施例所述的课件相似度检测方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
在上述的实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (18)

1.一种课件相似度检测方法,其特征在于,包括:
提取待审核课件的页面特征和课件特征;
将所述待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到与所述待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件;
对于每一所述锚课件,将所述待审核课件的页面特征与所述锚课件的页面特征进行比对,得到所述锚课件中与所述待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面;
发送相似度检测结果给用户设备,所述相似度检测结果包含所述待审核课件中待审核页面及对应的目标页面,和/或,所述相似度检测结果用于指示所述待审核课件是否具备独创性。
2.根据权利要求1所述的方法,其特征在于:
所述页面特征与课件中页面对应,用于描述页面信息;
和/或,所述课件特征与课件对应,用于描述课件信息。
3.根据权利要求1或2所述的方法,其特征在于,所述提取待审核课件的页面特征,包括:
对于所述待审核课件的每一待审核页面,执行以下操作:
将所述待审核页面输入图像神经网络,得到所述待审核页面对应的图像特征;
将所述待审核页面输入文本神经网络,得到所述待审核页面对应的文本特征;
将所述待审核页面输入图神经网络,得到所述待审核页面对应的页面结构特征;
其中,所述页面特征包括所述图像特征、所述文本特征和所述页面结构特征。
4.根据权利要求1或2所述的方法,其特征在于,所述提取待审核课件的课件特征,包括:
对所述待审核课件的各所述页面特征进行融合处理,得到所述待审核课件的课件特征。
5.根据权利要求4所述的方法,其特征在于,所述对所述待审核课件的各所述页面特征进行融合处理,得到所述待审核课件的课件特征,包括:
采用平均池化操作对所述待审核课件的各所述页面特征进行特征融合;
对融合后的特征进行归一化处理,得到所述待审核课件的课件特征。
6.根据权利要求1或2所述的方法,其特征在于,所述将所述待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到与所述待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件,包括:
将所述待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到所述待审核课件与各所述课件的课件相似度;
在所述课件相似度满足以下至少一第一相似度条件时,确定对应课件为锚课件:
所述课件相似度大于预设相似度阈值;
对各所述课件相似度进行大小排序,得到排序在前的预设个数个课件相似度。
7.根据权利要求6所述的方法,其特征在于,所述将所述待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到所述待审核课件与各所述课件的课件相似度,包括:
根据以下公式得到所述待审核课件与各所述课件的课件相似度:
s=zTZ
其中,z表示所述待审核课件的课件特征对应的课件向量表征;Z=[z1,z2,...,zN]表示所述课件资源平台中各课件的课件特征对应的课件向量表征的集合,N为所述课件资源平台中的课件总个数;s=[s1,s2,...,sN],表示课件相似度的集合。
8.根据权利要求1或2所述的方法,其特征在于,所述将所述待审核课件的页面特征与所述锚课件的页面特征进行比对,得到所述锚课件中与所述待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面,包括:
对于所述待审核课件的每一待审核页面,将所述待审核页面的页面特征与所述锚课件的各页面特征进行比对,得到所述待审核页面与所述锚课件中各页面的页面相似度;
将最大页面相似度对应的所述锚课件中的页面,确定为所述锚课件中与所述待审核页面的页面相似度满足第二相似度条件的目标页面。
9.根据权利要求8所述的方法,其特征在于,所述对于所述待审核课件的每一待审核页面,将所述待审核页面的页面特征与所述锚课件的各页面特征进行比对,得到所述待审核页面与所述锚课件中各页面的页面相似度,包括:
根据以下公式得到所述待审核页面与所述锚课件中各页面的页面相似度:
S=UTV
其中,所述待审核课件总页数为P,P个页面的页面特征对应的页向量表征表示为U=[u1,u2,...,uP],p为待审核课件页码,p∈[0,P);所述锚课件总页数为Q,Q个页面的页面特征对应的页向量表征表示为V=[v1,v2,...,vQ],q为锚课件页码,q∈[0,Q);S为P×Q的相似度矩阵,其中每一行中的元素表示对应待审核页面与所述锚课件中各页面的页面相似度。
10.根据权利要求1或2所述的方法,其特征在于,所述相似度检测结果还包含:
所述待审核页面和所述目标页面的页码;
和/或,所述待审核页面与对应所述目标页面的相似度。
11.根据权利要求1或2所述的方法,其特征在于,所述将所述待审核课件的页面特征与所述锚课件的页面特征进行比对,得到所述锚课件中与所述待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面之后,还包括:
若所述待审核页面及对应的目标页面的页面相似度大于或等于页面抄袭阈值,则确定所述待审核页面不具备独创性;
若不具备独创性的待审核页面的个数大于或等于课件抄袭阈值,则确定所述待审核课件不具备独创性,不保存所述待审核课件;
或者,若不具备独创性的待审核页面的个数小于所述课件抄袭阈值,则确定所述待审核课件具备独创性,保存所述待审核课件及其课件特征和页面特征。
12.一种课件相似度检测方法,其特征在于,包括:
发送待审核课件给服务器;
接收所述服务器发送的相似度检测结果,所述相似度检测结果包含所述待审核课件中待审核页面及对应的目标页面,和/或,所述相似度检测结果用于指示所述待审核课件是否具备独创性,所述目标页面是锚课件中与所述待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面,所述锚课件是课件资源平台中与所述待审核课件的课件相似度满足第一相似度条件的至少一个课件;
显示所述相似度检测结果。
13.根据权利要求12所述的方法,其特征在于,若所述相似度检测结果包含所述待审核课件中待审核页面及对应的目标页面,则所述显示所述相似度检测结果,包括:
在第一区域显示所述待审核课件的待审核页面;
在第二区域显示对应的至少一个所述锚课件的目标页面。
14.根据权利要求12或13所述的方法,其特征在于,所述相似度检测结果还包含:
所述待审核页面和所述目标页面的页码;
和/或,所述待审核页面与对应所述目标页面的相似度。
15.一种课件相似度检测装置,其特征在于,包括:
特征提取模块,用于提取待审核课件的页面特征和课件特征;
课件比对模块,用于将所述待审核课件的课件特征分别与课件资源平台中各课件的课件特征进行比对,得到与所述待审核课件的课件相似度满足第一相似度条件的至少一个课件为锚课件;
页面比对模块,用于对于每一所述锚课件,将所述待审核课件的页面特征与所述锚课件的页面特征进行比对,得到所述锚课件中与所述待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面为目标页面;
发送模块,发送相似度检测结果给用户设备,所述相似度检测结果包含所述待审核课件中待审核页面及对应的目标页面,和/或,所述相似度检测结果用于指示所述待审核课件是否具备独创性。
16.一种课件相似度检测装置,其特征在于,包括:
发送模块,用于发送待审核课件给服务器;
接收模块,用于接收所述服务器发送的相似度检测结果,所述相似度检测结果包含所述待审核课件中待审核页面及对应的目标页面,和/或,所述相似度检测结果用于指示所述待审核课件是否具备独创性,所述目标页面是锚课件中与所述待审核课件中各待审核页面的页面相似度满足第二相似度条件的页面,所述锚课件是课件资源平台中与所述待审核课件的课件相似度满足第一相似度条件的至少一个课件;
显示模块,用于显示所述相似度检测结果。
17.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行如权利要求1至14中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序指令;所述程序指令被执行时,实现如权利要求1至14中任一项所述的方法。
CN202011507687.XA 2020-12-18 2020-12-18 课件相似度检测方法、装置及存储介质 Pending CN112529091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011507687.XA CN112529091A (zh) 2020-12-18 2020-12-18 课件相似度检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011507687.XA CN112529091A (zh) 2020-12-18 2020-12-18 课件相似度检测方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112529091A true CN112529091A (zh) 2021-03-19

Family

ID=75001676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011507687.XA Pending CN112529091A (zh) 2020-12-18 2020-12-18 课件相似度检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112529091A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312449A (zh) * 2021-05-17 2021-08-27 华南理工大学 基于关键字和深度学习的文本审核方法、系统及介质
CN113821709A (zh) * 2021-09-26 2021-12-21 土巴兔集团股份有限公司 一种装修案例审核方法及其相关设备
CN115225930A (zh) * 2022-07-25 2022-10-21 广州博冠信息科技有限公司 直播互动应用的处理方法、装置、电子设备及存储介质
WO2023151622A1 (zh) * 2022-02-09 2023-08-17 北京罗克维尔斯科技有限公司 页面测试方法、装置、设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101990A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
JP2006236367A (ja) * 2006-03-24 2006-09-07 Fuji Electric Systems Co Ltd ニューラルネットワークの出力値の評価方法及び記憶媒体
CN101369279A (zh) * 2008-09-19 2009-02-18 江苏大学 一种基于计算机检索系统的学术论文相似度的检测方法
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN109885657A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种文本相似度的计算方法、装置及存储介质
CN110083808A (zh) * 2019-03-18 2019-08-02 平安科技(深圳)有限公司 基于用户答案的作弊判定方法、装置、设备及存储介质
CN110163498A (zh) * 2019-05-15 2019-08-23 广州视源电子科技股份有限公司 课件原创度评分方法、装置、存储介质及处理器
CN110309835A (zh) * 2019-06-27 2019-10-08 中国人民解放军战略支援部队信息工程大学 一种图像局部特征提取方法及装置
CN110837602A (zh) * 2019-11-05 2020-02-25 重庆邮电大学 基于表示学习和多模态卷积神经网络的用户推荐方法
CN111061774A (zh) * 2020-01-17 2020-04-24 深圳云天励飞技术有限公司 搜索结果准确性判断方法、装置、电子设备及存储介质
CN111179129A (zh) * 2019-12-17 2020-05-19 广州视源电子科技股份有限公司 课件质量的评价方法、装置、服务器及存储介质
CN111753516A (zh) * 2020-06-29 2020-10-09 平安国际智慧城市科技股份有限公司 文本查重处理方法、装置、计算机设备及计算机存储介质
CN112084776A (zh) * 2020-09-15 2020-12-15 腾讯科技(深圳)有限公司 相似文章的检测方法、装置、服务器和计算机存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101990A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
JP2006236367A (ja) * 2006-03-24 2006-09-07 Fuji Electric Systems Co Ltd ニューラルネットワークの出力値の評価方法及び記憶媒体
CN101369279A (zh) * 2008-09-19 2009-02-18 江苏大学 一种基于计算机检索系统的学术论文相似度的检测方法
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN109885657A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种文本相似度的计算方法、装置及存储介质
CN110083808A (zh) * 2019-03-18 2019-08-02 平安科技(深圳)有限公司 基于用户答案的作弊判定方法、装置、设备及存储介质
CN110163498A (zh) * 2019-05-15 2019-08-23 广州视源电子科技股份有限公司 课件原创度评分方法、装置、存储介质及处理器
CN110309835A (zh) * 2019-06-27 2019-10-08 中国人民解放军战略支援部队信息工程大学 一种图像局部特征提取方法及装置
CN110837602A (zh) * 2019-11-05 2020-02-25 重庆邮电大学 基于表示学习和多模态卷积神经网络的用户推荐方法
CN111179129A (zh) * 2019-12-17 2020-05-19 广州视源电子科技股份有限公司 课件质量的评价方法、装置、服务器及存储介质
CN111061774A (zh) * 2020-01-17 2020-04-24 深圳云天励飞技术有限公司 搜索结果准确性判断方法、装置、电子设备及存储介质
CN111753516A (zh) * 2020-06-29 2020-10-09 平安国际智慧城市科技股份有限公司 文本查重处理方法、装置、计算机设备及计算机存储介质
CN112084776A (zh) * 2020-09-15 2020-12-15 腾讯科技(深圳)有限公司 相似文章的检测方法、装置、服务器和计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋建洪;王珂;: "计算机编程类课程源代码自动测评方法研究", 教育现代化, no. 50, 11 December 2017 (2017-12-11) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312449A (zh) * 2021-05-17 2021-08-27 华南理工大学 基于关键字和深度学习的文本审核方法、系统及介质
CN113821709A (zh) * 2021-09-26 2021-12-21 土巴兔集团股份有限公司 一种装修案例审核方法及其相关设备
WO2023151622A1 (zh) * 2022-02-09 2023-08-17 北京罗克维尔斯科技有限公司 页面测试方法、装置、设备及存储介质
CN115225930A (zh) * 2022-07-25 2022-10-21 广州博冠信息科技有限公司 直播互动应用的处理方法、装置、电子设备及存储介质
CN115225930B (zh) * 2022-07-25 2024-01-09 广州博冠信息科技有限公司 直播互动应用的处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112529091A (zh) 课件相似度检测方法、装置及存储介质
US8990128B2 (en) Graph-based framework for multi-task multi-view learning
US20170147544A1 (en) Multimedia Document Summarization
CN111626048A (zh) 文本纠错方法、装置、设备及存储介质
US20160253303A1 (en) Digital processing and completion of form documents
US20090265363A1 (en) Forum web page clustering based on repetitive regions
US20150186787A1 (en) Cloud-based plagiarism detection system
CN113204691B (zh) 一种信息展示方法、装置、设备及介质
US20120046937A1 (en) Semantic classification of variable data campaign information
CN106095738A (zh) 推荐表单片段
Wang et al. Similarity-based visualization of large image collections
CN107766316B (zh) 评价数据的分析方法、装置及系统
CN109034199B (zh) 数据处理方法及装置、存储介质和电子设备
CN111126031A (zh) 代码文本处理方法及相关产品
Hsiao et al. Screenqa: Large-scale question-answer pairs over mobile app screenshots
CN110889406A (zh) 一种习题数据卡的信息采集方法、系统及终端
CN111275683B (zh) 图像质量评分处理方法、系统、设备及介质
CN110264311B (zh) 一种基于深度学习的商业推广信息精准推荐方法及系统
CN107451194A (zh) 一种图片搜索方法及装置
CN112883218A (zh) 一种图文联合表征的搜索方法、系统、服务器和存储介质
CN113221572B (zh) 一种信息处理方法、装置、设备及介质
CN114637866B (zh) 数字化新媒体的信息管理方法及装置
Yang et al. A large-scale dataset for end-to-end table recognition in the wild
CN115080039A (zh) 前端代码生成方法、装置、计算机设备、存储介质和产品
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination