CN110163498A

CN110163498A - 课件原创度评分方法、装置、存储介质及处理器

Info

Publication number: CN110163498A
Application number: CN201910408186.7A
Authority: CN
Inventors: 杨粤
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2019-08-23
Anticipated expiration: 2039-05-15
Also published as: CN110163498B

Abstract

本发明公开了一种课件原创度评分方法、装置、存储介质及处理器。其中，该方法包括：获取课件相邻版本之间的编辑行为对应的多个编辑距离，其中，课件包括课件待测版本和课件待测版本之前的所有版本；获取编辑距离之和的封顶最大值和封顶最小值，将课件所有版本的编辑行为对应的编辑距离之和，限制在封顶最大值和封顶最小值的范围内；对编辑距离之和进行归一化处理；根据编辑距离之和的归一化结果和编辑行为对应的权重，确定课件待测版本的原创度分数。本发明解决了相关技术中缺乏衡量教师对课件修改和完善的客观依据的技术问题。

Description

课件原创度评分方法、装置、存储介质及处理器

技术领域

本发明涉及课件应用领域，具体而言，涉及一种课件原创度评分方法、装置、存储介质及处理器。

背景技术

在当今教学或汇报等活动中，课件发挥着极其重要的作用，例如，可以作为讲授的核心资料。然而，修改和完善课件需要相关人员耗费的时间和精力，相关技术中，并没有一种可以用于衡量相关人员对课件进行修改和完善所投入努力的方法，由此可见，相关技术中缺乏衡量教师对课件修改和完善的客观依据。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种课件原创度评分方法、装置、存储介质及处理器，以至少解决相关技术中缺乏衡量教师对课件修改和完善的客观依据的技术问题。

根据本发明实施例的一个方面，提供了一种课件原创度评分方法，包括：获取课件相邻版本之间的编辑行为对应的多个编辑距离，其中，所述课件包括所述课件待测版本和所述课件待测版本之前的所有版本；获取编辑距离之和的封顶最大值和封顶最小值，将所述课件所有版本的所述编辑行为对应的编辑距离之和，限制在所述封顶最大值和所述封顶最小值的范围内；对所述编辑距离之和进行归一化处理；根据所述编辑距离之和的归一化结果和所述编辑行为对应的权重，确定所述课件待测版本的原创度分数。

可选地，在获取课件相邻版本之间的编辑行为对应的多个编辑距离之前包括：依据所述课件相邻版本的先后顺序，得到课件父版本和课件子版本；根据所述课件父版本和课件子版本，确定所述课件相邻版本之间的编辑行为对应的多个编辑距离。

可选地，根据所述课件父版本和课件子版本，确定所述课件相邻版本之间的编辑行为对应的多个编辑距离包括：获取所述课件父版本和所述课件子版本中每一页面的唯一识别码；根据所述页面的唯一识别码，对所述课件父版本和所述课件子版本进行页面匹配；利用所页面匹配的结果，确定所述课件相邻版本之间的编辑行为对应的多个编辑距离。

可选地，在获取所述编辑距离之和的封顶最大值和封顶最小值之前包括：将所述编辑行为对应的编辑距离由字符串拓展为数据表，其中，所述数据表的每一列用于表述一类编辑行为。

可选地，在获取所述编辑距离之和的封顶最大值和封顶最小值之前包括：获取所述数据表中课件相邻版本之间的编辑行为存在编辑距离数量百分比；从所述课件中筛选出存在编辑距离数量百分比超过预设存在编辑距离数量百分比阈值的课件，生成所述课件的标尺样本集，其中，所述标尺样本集包含具有评判能力的课件。

可选地，在获取所述编辑距离的封顶最大值和封顶最小值之前包括：获取所述标尺样本集中所述课件的编辑行为对应的多个编辑距离；根据所述多个编辑距离，确定所述编辑距离的封顶最大值和封顶最小值。

可选地，在对所述编辑距离之和进行归一化处理之前包括：对所述编辑行为进行融合处理。

可选地，所述融合处理包括以下至少之一：将插入节点的编辑行为和删除节点的编辑行为，融合成实际增加节点的编辑行为；将插入页面的编辑行为和删除页面的编辑行为，融合成实际增加页面的编辑行为；将移动节点的编辑行为和重新命名节点的编辑行为，融合成合并节点的编辑行为。

可选地，在对所述编辑距离之和进行归一化处理包括：获取所述多个编辑距离；对所述多个编辑距离进行计算，得到所述编辑距离之和的归一化结果。

可选地，根据所述编辑距离之和的归一化结果和所述编辑行为对应的权重，确定所述课件待测版本的原创度分数包括：预先设置所述编辑行为对应的权重；根据所述编辑距离之和的归一化结果和所述权重，确定所述课件待测版本的原创度分数。

可选地，根据所述编辑距离之和的归一化结果和所述权重，确定所述课件待测版本的原创度分数包括：将所述归一化结果与所述权重相乘后叠加，得到所述课件待测版本的原创度百分制分数，其中，所有权重相加等于第一预设值。

根据本发明实施例的另一方面，还提供了一种课件原创度评分装置，包括：获取模块，用于获取课件相邻版本之间的编辑行为对应的多个编辑距离，其中，所述课件包括所述课件待测版本和所述课件待测版本之前的所有版本；限制模块，用于获取所述编辑距离之和的封顶最大值和封顶最小值，将所述课件所有版本的所述编辑行为对应的编辑距离之和，限制在所述封顶最大值和所述封顶最小值的范围内；归一化模块，用于对所述编辑距离之和进行归一化处理；确定模块，用于根据所述编辑距离之和的归一化结果和所述编辑行为对应的权重，确定所述课件待测版本的原创度分数。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的课件原创度评分方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的课件原创度评分方法。

在本发明实施例中，采用获取课件相邻版本之间的编辑行为对应的多个编辑距离，其中，所述课件包括所述课件待测版本和所述课件待测版本之前的所有版本；获取所述编辑距离之和的封顶最大值和封顶最小值，将所述课件所有版本的所述编辑行为对应的编辑距离之和，限制在所述封顶最大值和所述封顶最小值的范围内；对所述编辑距离之和进行归一化处理；根据所述编辑距离之和的归一化结果和所述编辑行为对应的权重，确定所述课件待测版本的原创度分数的方式，通过课件相邻编辑行为的编辑距离来得到课件待测版本的原创度分数，达到了为学校管理和教师能力评定提供客观依据的目的，从而实现了准确衡量教师修改和完善课件的努力程度的技术效果，进而解决了相关技术中缺乏衡量教师对课件修改和完善的客观依据的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的课件原创度评分方法的流程图；

图2是根据本发明实施例的课件原创度评分装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

课件原创度评分，是指对于一份课件，以一个数值指标来衡量老师投入了多少努力在其中进行修改和完善。在课件作为教师授课的核心资料的背景下，本发明的目的在于为学校管理和教师能力评定提供客观数据，以衡量一个老师花了多少精力在课件的制作和完善上。因此，此处原创度的定义与常规理解的独创度有所区别。考虑到课件是针对同一主题课程内容的不同演绎版本，其本身的独创程度较低。而我们的目的在于衡量老师的努力程度，所以仅考虑每一份课件的历史版本更迭中，一共做出了多少修订和更改操作。

根据本发明实施例，提供了一种课件原创度评分方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的课件原创度评分方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取课件相邻版本之间的编辑行为对应的多个编辑距离，其中，课件包括课件待测版本和课件待测版本之前的所有版本；

步骤S104，获取编辑距离之和的封顶最大值和封顶最小值，将课件所有版本的编辑行为对应的编辑距离之和，限制在封顶最大值和封顶最小值的范围内；

步骤S106，对编辑距离之和进行归一化处理；

步骤S108，根据编辑距离之和的归一化结果和编辑行为对应的权重，确定课件待测版本的原创度分数。

通过上述步骤，可以采用获取课件相邻版本之间的编辑行为对应的多个编辑距离，其中，课件包括课件待测版本和课件待测版本之前的所有版本；获取编辑距离之和的封顶最大值和封顶最小值，将课件所有版本的编辑行为对应的编辑距离之和，限制在封顶最大值和封顶最小值的范围内；对编辑距离之和进行归一化处理；根据编辑距离之和的归一化结果和编辑行为对应的权重，确定课件待测版本的原创度分数的方式，通过课件相邻版本不同编辑行为的编辑距离来得到课件待测版本的原创度分数，达到了为学校管理和教师能力评定提供客观依据的目的，从而实现了准确衡量教师修改和完善课件的努力程度的技术效果，进而解决了相关技术中缺乏衡量教师对课件修改和完善的客观依据的技术问题。

上述课件通常为多媒体课件，可以应用于多种场景中，例如教学、培训等，其中，根据不同应用效果，可以包括页面型课件，生成型课件，以及网页型课件等。上述课件可以从网络、数据库等多种途径获取，其中，课件信息包括课件标识号，版本，父版本，所包含文件信息等。对于同一份课件，至少存在一个版本，该版本作为父版本可以经过修改与完善得到更多的版本。而同一课件相邻的版本之间，利用树编辑距离算法可以计算出子版本相对于父版本的编辑距离。由于课件相邻版本之间存在不同的编辑行为操作，例如，增加、删除等，其不同的编辑行为对应的编辑距离也是不同的。上述课件待测版本为需要对其原创度进行评分的课件版本。在具体实施过程中，上述课件既可以是一个，也可以是多个，对课件的数量无需限定。

上述获取编辑距离之和的封顶最大值和封顶最小值，对于不同的编辑行为，存在与该编辑行为对应的编辑距离之和的封顶最大值和封顶最小值。需要说明的是，若课件所有版本的编辑行为对应的编辑距离之和小于其对应的封顶最小值，则将该编辑行为对应的编辑距离设置为封顶最小值；若课件所有版本的编辑行为对应的编辑距离之和大于其对应的封顶最大值，则将该编辑行为对应的编辑距离设置为封顶最大值；此外，对于课件所有版本的编辑行为对应的编辑距离之和在封顶最大值和封顶最小值之间，则保留编辑距离之和。因此，将课件所有版本的编辑行为对应的编辑距离之和，限制在封顶最大值和封顶最小值的范围内，可以有效保证编辑行为对应编辑距离的均匀分布，避免编辑距离差异较大，对后续课件评分造成的不利的影响。

上述对编辑距离之和进行归一化处理，经过归一化处理后的编辑距离之和，能够保证其在预设范围内，其中，上述编辑距离之和是同一课件相邻版本之间的编辑行为对应的编辑距离相加后的结果，实际上是该课件某一类编辑行为对应的所有编辑距离之和。经过归一化处理后，归一化结果稳定在一定的阈值范围内。

上述根据编辑距离之和的归一化结果和编辑行为对应的权重，确定课件的原创度分数，是通过将编辑行为对应的权重及其对应的归一化结果进行相应的计算，得到课件待测版本的原创度分数。而原创度分数可以反映用户对课件的修改和完善中所体现的努力程度。

可选地，在获取课件相邻版本之间的编辑行为对应的多个编辑距离之前包括：依据课件相邻版本的先后顺序，得到课件父版本和课件子版本；根据课件父版本和课件子版本，确定课件相邻版本之间的编辑行为对应的多个编辑距离。

不同的课件在其应用中会经过多次修改和完善，对于每一次修改和完善，会产生一个版本。以一个课件为例来讲，该课件在不同的时期，用户会对其进行修改和完善，因此，基于课件的父版本会产生相应的子版本，而子版本又会在下一次作为父版本，产生相应的子版本，如此循环下去，就会有不同先后顺序产生的各个版本的课件。上述先后顺序也即同一课件相邻版本的顺序，由此可以得到课件父版本和课件子版本。而在得到课件父版本和课件子版本后，进而可以得到同一课件相邻版本的编辑距离。对于课件父版本和课件子版本之间可能存在不同的编辑行为，因此，可以得到课件不同版本之间的编辑行为对应的多个编辑距离。

可选地，根据课件父版本和课件子版本，确定课件相邻版本之间的编辑行为对应的编辑距离包括：获取课件父版本和课件子版本中每一页面的唯一识别码；根据页面的唯一识别码，对课件父版本和课件子版本进行页面匹配；利用所页面匹配的结果，确定课件相邻版本之间的编辑行为对应的编辑距离。

为了保证课件相邻版本之间的编辑行为对应的多个编辑距离准确性，对课件父版本和课件子版本中的每一页进行标识，其中，该标识为该页面对应的唯一识别码。例如，该唯一识别码添加到可见内容的顶层标签中，可以准确的引导相应的算法进行页面匹配。由于课件父版本和课件子版本中的每一页都存在唯一识别码，可以根据该识别码对每一页进行匹配，从而可以确定课件父版本和课件子版本的编辑行为对应的编辑距离，也即可以准确得到课件不同版本之间的编辑行为对应的多个编辑距离。

可选地，在获取编辑距离之和的封顶最大值和封顶最小值之前包括：将编辑行为对应的编辑距离由字符串拓展为数据表，其中，数据表的每一列用于表述一类编辑行为。

在经过数编辑距离算法后，编辑行为对应的编辑距离以字符串的形式存在，为了更好的对编辑行为对应的编辑距离进行比较，将字符串转换为数据表的，而数据表中的每一列用于表述一类编辑行为，例如，第一列为删除节点的编辑行为，第二列为删除课件页面的编辑行为，以此类推，在具体实施过程中，该数据表中的每一列用于表述一类编辑行为，可以采用默认的形式，也可以根据具体情况设定。通过该数据表可以直观的反映不同课件，同一课件的相邻版本的各个编辑行为对应编辑距离，从而可以快速、准确的实现后续的课件评分。

可选地，在获取编辑距离之和的封顶最大值和封顶最小值之前包括：获取数据表中课件相邻版本之间的编辑行为存在编辑距离数量百分比；从课件中筛选出存在编辑距离数量百分比超过预设存在编辑距离数量百分比阈值的课件，生成课件的标尺样本集，其中，标尺样本集包含具有评判能力的课件。

在数据表中可以获得课件相邻版本之间的编辑行为存在编辑距离数量百分比，可以根据上述存在编辑距离数量确定具有评判能力的课件，将具有评判能力的课件构成标尺样本集。例如，A课件有100个版本，其中具有编辑距离的有70个，而预设存在编辑距离数量阈值为50％，A课件的存在编辑距离数量百分比为70％，超过了预设的阈值，则A课件属于标尺样本集中的课件。

可选地，在获取相邻编辑距离的封顶最大值和封顶最小值之前包括：获取相邻标尺样本集中相邻课件的编辑行为对应的多个编辑距离；根据相邻多个编辑距离，确定相邻编辑距离的封顶最大值和封顶最小值。

作为一种可选的实施例，确定上述封顶最大值和封顶最小值的方法并不唯一，可以根据相邻的应用场景，选择合适的方法得到封顶最大值和封顶最小值。比如，可以获取标尺样本集中课件的编辑行为对应的编辑距离分位数；根据编辑距离分位数以及四分位距，确定编辑距离的封顶最大值和封顶最小值。也即获取标尺样本集中每个课件的每类编辑行为的编辑距离分位数，进而根据编辑距离分位数以及四分位距，得到编辑距离的封顶最大值和封顶最小值。例如，Q0.75+1.5*IQR为封顶最大值，Q0.25+1.5*IQR为封顶最小值，其中，Q代表分位数，例如，Q0.75代表75％分位数，而IQR为四分位距。另外，还可以根据均值等其他数据，确定封顶最大值和封顶最小值。需要说明的是，封顶最大值和封顶最小值既可以采用系统默认设置，还可以根据实际的应用需要进行调整。

可选地，在对编辑距离之和进行归一化处理之前包括：对编辑行为进行融合处理。

上述融合处理是将同时发生的编辑行为进行合并，可以有效减少参与评分的编辑行为的个数，简化了评分设计，即考虑到每类编辑行为的现实意义，又能保证评分的准确性。

可选地，融合处理包括以下至少之一：将插入节点的编辑行为和删除节点的编辑行为，融合成实际增加节点的编辑行为；将插入页面的编辑行为和删除页面的编辑行为，融合成实际增加页面的编辑行为；将移动节点的编辑行为和重新命名节点的编辑行为，融合成合并节点的编辑行为。

由于插入节点时常伴随删除节点，可以根据插入节点的编辑行为和删除节点的编辑行为，确定实际增加节点的编辑行为，而实际增加节点更能反映对课件的努力程度；由于插入页面时常伴随删除页面，可以根据插入页面的编辑行为和删除页面的编辑行为，确定实际增加页面的编辑行为，而实际增加页面更能反映对课件的努力程度；由于移动节点的编辑行为和重命名节点的编辑行为的目的相同，都是从一个相似的节点变换为另一个相似的节点，因而可以将两者合并，即根据移动节点的编辑行为和重新命名节点的编辑行为，确定合并节点的编辑行为。通过上述的融合处理可以采用其中一个或多个，从而实现简化对课件的评分设计。

可选地，在对编辑距离之和进行归一化处理包括：获取多个编辑距离；对多个编辑距离进行计算，得到编辑距离之和的归一化结果。

作为一种可选的实施例，在对编辑距离之和进行归一化处理还包括：获取编辑距离的封顶最大值和封顶最小值的差值；根据编辑距离之和以及差值，得到编辑距离之和的归一化结果。例如，课件插入节点的编辑行为对应的编辑距离之和为25，而且其对应的编辑距离的封顶最大值为51，封顶最小值为1，编辑距离之和在封顶最大值和封顶最小值的范围内，经过归一化处理，其得到的归一化结果为：25/(51-1)＝0.5，课件归一化的结果在预设范围[0,1]中。在具体实施中，并不局限于本申请上述所例举的内容，可以根据实际情况，进行归一化处理。例如，还可以通过均值、方差等计算实现归一化处理，使得归一化的结果在预设范围[0,1]中呈概率分布。

可选地，根据编辑距离之和的归一化结果和编辑行为对应的权重，确定课件待测版本的原创度分数包括：预先设置编辑行为对应的权重；根据编辑距离之和的归一化结果和权重，确定课件待测版本的原创度分数。

在本发明实施例中，可以根据实际情况设置编辑行为对应的权重，从而根据上述权重和归一化结果，得到课件的原创度分数。需要说明的是，每一个课件在对课件待测版本的原创度进行评分时，该课件对应的编辑行为对应的权重可能是不同的。可以根据编辑行为的具体情况，设定权重，从而得到能够充分反映对课件的修改和完善的努力程度。

可选地，根据编辑距离之和的归一化结果和权重，确定课件待测版本的原创度分数包括：将归一化结果与权重相乘后叠加，得到课件待测版本的原创度百分制分数，其中，所有权重相加等于第一预设值。

在本发明实施例中，不同的编辑行为对应的不同权重的和归一化结果结合起来，课件待测版本的原创度百分制分数。其中，在对每个课件的计算结果(0～150)取自然对数，再乘以第二预设值20，得到最后的百分制分数。其中，取对数的原因在于为了让高分更难获得，而权重总和，即第一预设值等于150的原因在于ln(150)≈5。

下面结合本发明的一个优选实施方式进行说明。

对单台服务器的流程说明如下：

1.程序并行在多台服务器上开始执行。每台服务器上，会根据服务器的ip地址，从任务索引表中获取对应的任务。任务是指总的任务清单会根据课件id(36位16进制编码)最后三位的不同(如0a0，87b)，分为4096个分块(16³)，而每台服务器所负责的任务是4096个分中互不重叠的一部分(如共12台服务器，则每台服务器负责341个小块数据的计算)。

2.每台服务器针对所分配到的任务，创建循环，并创建多进程并行处理，每个进程每轮处理一个分块。若每台服务器使用20个进程，则每轮仅处理任务列表中的前20个分块，当某一进程处理完成后关闭后，会开启新的进程处理第21个分块。以此类推。

3.每个进程会根据被分配到的任务分块(如0a0)，从外部数据库中获取总任务清单的对应部分(如所有id以0a0结尾的课件的版本、父版本、所含文件信息)，暂存于内存。数据结构如下表1所示：

表1

课件id	版本	父版本	文件名
				4e8c231b-4f13-4418-92f8-6b24828130a0	5	4	a.xml
4e8c231b-4f13-4418-92f8-6b24828130a0	5	4	b.xml
				4e8c231b-4f13-4418-92f8-6b24828130a0	5	4	c1.xml
4e8c231b-4f13-4418-92f8-6b24828130a0	5	4	d.xml
				4e8c231b-4f13-4418-92f8-6b24828130a0	3	4	a.xml
4e8c231b-4f13-4418-92f8-6b24828130a0	4	3	b.xml
				4e8c231b-4f13-4418-92f8-6b24828130a0	4	3	c.xml
4e8c231b-4f13-4418-92f8-6b24828130a0	3	2	a.xml
				...	...	...	...

4.将上述获取的信息与服务器本地保存的完成列表进行对比，剔除掉已经完成的(含不能被下载的)、且不作为任何未完成课件版本的父版本的课件，依照上述文件结构保存为“待完成任务0”。本地保存的完成列表结构如下表2所示。

表2

课件id	版本	编辑距离脚本
			4e8c231b-4f13-4418-92f8-6b24828130a0	4	脚本1
4e8c231b-4f13-4418-92f8-6b24828130a0	3	脚本2
			...	...	...

若按照上述表内容及以下表内容，最终“待完成任务0”中将保留课件4e8c231b-4f13-4418-92f8-6b24828130a0、版本为5(未有编辑距离结果)和4(有编辑距离结果，但作为版本5的父版本)的记录，而版本为3(有编辑距离，且不作为未完成课件版本的父版本)的记录将被移除。

5.为提高程序稳定性，减少意外中断对于整体进程的影响，“待完成任务0”将被拆分成多个批次，分批进行下述步骤，并在每个批次完成的最后保存本批次的结果。在划分批次时，采取按固定行数划分的策略，但在此基础上，确保最后一行的课件的所有版本涵盖在本批次中，否则将由于版本数据不完整，导致无法对比不同版本间的文件差异并进行后续计算。

6.对于上述切分后的任务集，记为“待完成任务1”。

7.由于本专利技术方案所涉及的技术背景中的保存方式，若父子版本的课件中某些页面未被修改，并且其页码没有发生改变，文件名将保持不变。考虑到我们最终的目的是评价某一课件的各版本更迭过程的编辑行为，那么我们不需要考虑没有改变的页面，故此处我们去除每对父子课件中具有完全一样文件名的文件，以下列表3中的形式保存为“待完成任务2”：

表3

8.对于“待完成任务2”中的课件信息，如果某一课件的某一版本，其父课件所剩页面数为0，则代表在这一轮的版本更新中，仅进行了添加页面的操作(不考虑其中内容的变化)，故将其记为InsertSlides＝子课件所剩页面数。对于子课件所剩页面数为0的，则记为DeleteSlides＝父课件所剩页面数。

9.将“待完成任务2”中的课件，已有上述结果的版本移除，保存为“待完成任务3”。

10.对上述课件的xml文件进行多线程下载，将下载成功的结果以文本形式保存于数据表中的一列中，对于下载失败的进行标记。保存为“待完成任务4”。

11.对“待完成任务4”中下载失败的文件进行处理：若某一课件的某一版本中有一个或一个以上的文件下载失败，则标记该课件的该版本为“不完整课件”，并将该部分单独保存，待合并到本批次的最终结果中。

12.对于“待完成任务4”中下载成功的文件进行处理：当且仅当某一课件的某一版本，其自身及父课件都被完整下载时，该课件及其父课件的信息被保存于“待完成任务5”。

13.对“待完成任务5”进行数据预处理1：为了计算某一特定页面新旧版本间的区别，将每个课件不变的Slide识别码(更新课件中某一页会改变该页的文件名，但不会改变该页的识别码)加入到文件内容的顶层标签中(如以xml:id＝slide_id的方式)，以在树编辑距离计算中的匹配阶段，引导算法匹配对应的页面。

14.对“待完成任务5”进行数据预处理2：将父课件的所有页面内容(多个文本)融合为一个文本(如新建最外层名为的tag，再将所有页面的信息归于其子项)，对子课件也做同样的操作。

15.将上述预处理的结果保存为“待完成任务6”。

16.通过树编辑距离算法计算父子版本间的树编辑距离，将结果保存至“待完成任务6”中。若计算时间超过1小时，则终止计算，记为超时。舍弃少部分版本间的编辑距离并不会对最终的结果产生显著影响，原因在于评分规则的设计是考虑每一份课件的所有版本与其父版本的编辑距离的总和，并与其他课件进行横向对比(每个课件的超时版本数占其总版本数的比例近似)。

17.用以下表4形式，保存计算结果到本地。

表4

18.重复5中下一批次的计算。

19.重复2中的下一任务分块的计算。

多个服务器同步执行上述步骤，其中一台服务器被设置为master服务器，每天收集汇总各台服务器的数据，依照以下流程对课件进行评分：

1.汇总各服务器的计算结果到master服务器上，合并为“待计算分数任务0”。

2.移除其中被标记为超时的记录(对应某一课件的某一版本)，保存为“待计算分数任务1”。

3.读取现有拓展结果数据表(已经将保存在一列中的结果，依照内容拓展为多列的数据表，下有详细描述)，与“待计算分数任务1”中的结果进行对比，若某一课件的某一版本在拓展结果数据表已有记录，则从“待计算分数任务1”中移除。将结果保存为“待计算分数任务2”。

4.对“待计算分数任务2”进行去重，保存为“待计算分数任务3”。

5.对“待计算分数任务3”中的树编辑距离结果进行拓展，结果如表5所示：

表5

6.以上述拓展结果数据表，对编辑距离结果进行清洗1：因为要与所有课件进行横向对比，故需要对编辑距离进行归一化处理。而归一化处理中，若存在过大或过小的异常值outlier，会导致最终归一化的结果分布集中在某一区域，缺乏区分度。故筛选出历史版本中50％都有结果的课件(认为其具有评判能力)，计算此样本集中每个课件的每类编辑行为总和，计算每类编辑行为总和的Q0.75+1.5*IQR作为封顶最大值，Q0.25-1.5*IQR作为封顶最小值。(其中Q代表分位数，如Q0.75代表75％分位数)对于样本集的筛选，例如A有100个版本，其中有编辑距离结果的有70个，那么A就会作为确定编辑距离封顶标准的样本。如果B有100个版本，但只有10个版本有结果，则不会被列入样本集。

7.以上述清洗1的结果，对拓展结果数据表中编辑距离结果进行清洗2：基于上述封顶最大最小值，对所有课件的每类编辑行为的总和进行限制，高于最大值或低于最小值的，设置为对应的最大值或最小值。

8.以上述清洗2的结果，对上述结果中的编辑距离结果进行处理1：为减少评分权重的总个数，简化评分设计，且考虑到每类编辑行为的现实意义，对编辑行为进行融合，包括以下三类：

Ins_DelNode＝InsertNode-DeleteNode：插入节点与删除节点同为对节点的操作，并且从该技术方案解决的目标来看，由于插入节点时常伴随着删除节点(用新的内容替代旧的内容)，故节点的绝对增加更能体现对于课件的努力程度。

Ins_DelSlides＝InsertSlides-DeleteSlides：同上逻辑。

Mov_RenNode＝MoveNode+RenameNode：移动节点和重命名的目的相同，都是为了从一个相似的节点变换到另一相似节点，故合并考虑。

9.以上述处理1的结果，对上述结果中的编辑距离结果进行处理2：对每类编辑行为(融合后)进行归一化，具体来说，对所有课件的某一类编辑距离，计算其最大值与最小值的差，再将所有的值除以该差值。

10.对上述四个维度进行不同权重的叠加，使权重的总和等于150。在对每个课件的计算结果(0～150)取自然对数，再乘以20，得到最后的百分制分数。取对数的原因在于为了让高分更难获得，而权重总和等于150的原因在于ln(150)≈5。

11.对于上述结果，导出至数据库进行保存。

在本发明实施例中，“原创性”这个定义可以是采用的“努力程度”，也可以是更加常见的“独创性”。

若以独创性考虑，需要计算每一份课件与全局所有课件的相似度，在计算复杂度上远高于上述解决方案(虽然两者目标不同)。

若就“努力程度”这个定义来说，目前上述方案已经采用了多服务器+多进程+多线程的方案，已经在效率上达到了较高的水平。在相似度计算的方法上，可能被新的算法替代。在评分规则上，可能会由于更换相似度计算方法，而导致评分规则的改变。

图2是根据本发明实施例的课件原创度评分装置的结构示意图；如图2所示，该课件原创度评分装置包括：获取模块22，限制模块24，归一化模块26和确定模块28。下面对该课件原创度评分装置进行详细说明。

获取模块22，用于获取课件相邻版本之间的编辑行为对应的多个编辑距离，其中，课件包括课件待测版本和课件待测版本之前的所有版本；限制模块24，连接至上述获取模块22，用于获取编辑距离之和的封顶最大值和封顶最小值，将课件所有版本的编辑行为对应的编辑距离之和，限制在封顶最大值和封顶最小值的范围内；归一化模块26，连接至上述限制模块24，用于对编辑距离之和进行归一化处理；确定模块28，连接至上述归一化模块26，用于根据编辑距离之和的归一化结果和编辑行为对应的权重，确定课件待测版本的原创度分数。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述中任意一项的课件原创度评分方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项的课件原创度评分方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种课件原创度评分方法，其特征在于，包括：

获取课件相邻版本之间的编辑行为对应的多个编辑距离，其中，所述课件包括所述课件待测版本和所述课件待测版本之前的所有版本；

获取编辑距离之和的封顶最大值和封顶最小值，将所述课件所有版本的所述编辑行为对应的编辑距离之和，限制在所述封顶最大值和所述封顶最小值的范围内；

对所述编辑距离之和进行归一化处理；

根据所述编辑距离之和的归一化结果和所述编辑行为对应的权重，确定所述课件待测版本的原创度分数。

2.根据权利要求1所述的方法，其特征在于，在获取课件相邻版本之间的编辑行为对应的多个编辑距离之前包括：

依据所述课件相邻版本的先后顺序，得到课件父版本和课件子版本；

根据所述课件父版本和课件子版本，确定所述课件相邻版本之间的编辑行为对应的多个编辑距离。

3.根据权利要求2所述的方法，其特征在于，根据所述课件父版本和课件子版本，确定所述课件相邻版本之间的编辑行为对应的多个编辑距离包括：

获取所述课件父版本和所述课件子版本中每一页面的唯一识别码；

根据所述页面的唯一识别码，对所述课件父版本和所述课件子版本进行页面匹配；

利用所页面匹配的结果，确定所述课件相邻版本之间的编辑行为对应的多个编辑距离。

4.根据权利要求2所述的方法，其特征在于，在获取所述编辑距离之和的封顶最大值和封顶最小值之前包括：

将所述编辑行为对应的编辑距离由字符串拓展为数据表，其中，所述数据表的每一列用于表述一类编辑行为。

5.根据权利要求4所述的方法，其特征在于，在获取所述编辑距离之和的封顶最大值和封顶最小值之前包括：

获取所述数据表中课件相邻版本之间的编辑行为存在编辑距离数量百分比；

从所述课件中筛选出存在编辑距离数量百分比超过预设存在编辑距离数量百分比阈值的课件，生成所述课件的标尺样本集，其中，所述标尺样本集包含具有评判能力的课件。

6.根据权利要求5所述的方法，其特征在于，在获取所述编辑距离之和的封顶最大值和封顶最小值之前包括：

获取所述标尺样本集中所述课件的编辑行为对应的多个编辑距离；

根据所述多个编辑距离，确定所述编辑距离之和的封顶最大值和封顶最小值。

7.根据权利要求1所述的方法，其特征在于，在对所述编辑距离之和进行归一化处理之前包括：对所述编辑行为进行融合处理。

8.根据权利要求7所述的方法，其特征在于，所述融合处理包括以下至少之一：

将插入节点的编辑行为和删除节点的编辑行为，融合成实际增加节点的编辑行为；

将插入页面的编辑行为和删除页面的编辑行为，融合成确定实际增加页面的编辑行为；

将移动节点的编辑行为和重新命名节点的编辑行为，融合成合并节点的编辑行为。

9.根据权利要求1所述的方法，其特征在于，在对所述编辑距离之和进行归一化处理包括：

获取所述多个编辑距离；

对所述多个编辑距离进行计算，得到所述编辑距离之和的归一化结果。

10.根据权利要求1所述的方法，其特征在于，根据所述编辑距离之和的归一化结果和所述编辑行为对应的权重，确定所述课件待测版本的原创度分数包括：

预先设置所述编辑行为对应的权重；

根据所述编辑距离之和的归一化结果和所述权重，确定所述课件待测版本的原创度分数。

11.根据权利要求10所述的方法，其特征在于，根据所述编辑距离之和的归一化结果和所述权重，确定所述课件待测版本的原创度分数包括：

将所述归一化结果与所述权重相乘后叠加，得到所述课件待测版本的原创度百分制分数，其中，所有权重相加等于第一预设值。

12.一种课件原创度评分装置，其特征在于，包括：

获取模块，用于获取课件相邻版本之间的编辑行为对应的多个编辑距离，其中，所述课件包括所述课件待测版本和所述课件待测版本之前的所有版本；

限制模块，用于获取所述编辑距离之和的封顶最大值和封顶最小值，将所述课件所有版本的所述编辑行为对应的编辑距离之和，限制在所述封顶最大值和所述封顶最小值的范围内；

归一化模块，用于对所述编辑距离之和进行归一化处理；

确定模块，用于根据所述编辑距离之和的归一化结果和所述编辑行为对应的权重，确定所述课件待测版本的原创度分数。

13.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至11中任意一项所述的课件原创度评分方法。

14.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至11中任意一项所述的课件原创度评分方法。