CN105786943A

CN105786943A - 一种数字对象生成的方法及装置

Info

Publication number: CN105786943A
Application number: CN201510895270.8A
Authority: CN
Inventors: 李玉顺; 杨轶名; 李萌; 陈渊波
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2015-12-08
Filing date: 2015-12-08
Publication date: 2016-07-20
Anticipated expiration: 2035-12-08
Also published as: CN105786943B

Abstract

本发明提供了一种数字对象生成的方法及装置，包括：根据本体知识点体系，确定第一量化关系，所述第一量化关系为所述本体知识点体系中知识点间的量化关系；根据所述第一量化关系标注数字资源块以得到所述数字资源块的知识点标注，所述数字资源块是将数字资源文件分块处理后得到的；将所述数字资源块聚合以生成数字对象。采用本发明的技术方案，在聚合标注的数字资源块的过程中，结合了本体知识点体系中知识点间的量化关系，可以更为准确而合理地生成知识型数字对象。

Description

一种数字对象生成的方法及装置

技术领域

本发明涉及数字资源处理技术领域，特别涉及一种数字对象生成的方法及装置。

背景技术

数字对象在可重用性、互操作性和可接入性等方面具有显著的优势而成为奠定知识共享的基石。随着数字资源技术的深入发展，数字对象技术与教学设计技术相结合成为一种趋势，数字资源按照教学内容形成细颗粒的教学资源单元，以提升在数字资源的重用性，可以生成并推送具有适应性的动态数字资源对象。构成数字资源对象的要素是数字资源块和与之相对应的元数据描述。资源库管理员或分类专家以手工方式完成教学资源描述信息的添加是一种一直被沿用的传统数字资源管理方式，虽然这种方式的标注能实现具有良好一致性的元数据，但这种方式仅能满足短期、小规模数字资源环境下的元数据生成需求，且费事费力，同时也不能反映终端用户的需求和关联数字资源内容语义的描述，不能实现深度的数字资源检索与重用。

发明内容

本发明实施例提出了一种数字对象生成的方法及装置，用以将数字资源文件处理、生成可供检索、重用的数字资源单元，以及与之相关联的语义元数据。

本发明实施例提供了一种数字对象生成的方法，包括如下步骤：

根据本体知识点体系，确定第一量化关系，所述第一量化关系为所述本体知识点体系中知识点间的量化关系；

根据所述第一量化关系标注数字资源块以得到所述数字资源块的知识点标注，所述数字资源块是将数字资源文件分块处理后得到的；

将所述数字资源块聚合以生成数字对象。

本发明实施例提供了一种数字对象生成的装置，包括：

第一确定单元，用于根据本体知识点体系，确定第一量化关系所述第一量化关系为所述本体知识点体系中知识点间的量化关系；

标注单元，用于根据所述第一量化关系标注数字资源块以得到所述数字资源块的知识点标注，所述数字资源块是将数字资源文件分块处理后得到的；

聚合单元，用于将所述数字资源块聚合以生成数字对象。

本发明有益效果如下：

本发明实施例中提供的数字对象生成的方法及装置，根据预先建立的本体知识点体系，确定本体知识点体系中知识点间的量化关系，并根据所述量化关系对标注的数字资源块进行聚合生成数字对象，在聚合标注的数字资源块的过程中，结合了本体知识点体系中知识点间的量化关系，可以更为准确而合理地生成数字对象。

附图说明

下面将参照附图描述本发明的具体实施例，

图1为本发明实施例中数字对象生成的方法流程示意图；

图2为本发明实施例中数字对象生成的方法实施的架构示意图；

图3为本发明实施例中本体知识点体系的构建流程示意图；

图4为本发明实施例中JAVA知识体系结构示意图；

图5为本发明实施例中JAVA知识体系中各知识点间的关系示意图；

图6为本发明实施例中数字对象生成的流程示意图；

图7为本发明实施例中数字资源文件预处理的流程示意图；

图8为本发明实施例中数字资源块标注的流程示意图；

图9为本发明实施例中数字资源块知识点聚合的流程示意图；

图10为本发明实施例中数字对象生成的装置结构示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图对本发明的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本发明的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明书中的实施例及实施例中的特征可以互相结合。

图1为本发明实施例中数字对象生成的方法流程示意图，如图1所示，数字对象生成的方法可以包括如下步骤：

步骤101：根据本体知识点体系，确定第一量化关系，所述第一量化关系为所述本体知识点体系中知识点间的量化关系；

步骤102：根据所述第一量化关系标注数字资源块以得到所述数字资源块的知识点标注，所述数字资源块是将数字资源文件分块处理后得到的；

步骤103：将所述数字资源块聚合以生成数字对象。

具体实施中，根据预设的本体知识点体系，可以确定本体知识点体系中各个知识点之间的关系(例如，包含关系、构成关系、并列关系等待)，可以根据各个知识点之间的关系，确定各个知识点之间的量化关系。其中，本体是共享概念模型的明确的形式化规范说明。本体的目标是捕获相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。总的来说，构造本体可以实现某种程度的知识共享和重用，以及提高系统通讯、互操作、可靠性的能力。

数字资源可以包括数字文档文件、数字图片文件、数字音频文件、数字视频文件等等。

根据所述第一量化关系对标注后的数字资源块进行聚合以生成可被快速检索和复用的数字对象。

具体实施中，本发明提供的数字对象生成的方法应用于生成知识型学习对象时，本发明实施例中的本体知识点体系可以为学科本体知识点体系。根据某一学科本体知识点体系，确定该学科本体知识点体系中知识点间的量化关系。其中，该学科本体知识点体系可以由该学科领域专家进行构建。知识点间的量化关系是由知识点间的关系来量化确定的。根据确定的该学科本体知识点体系中知识点间的量化关系将与该学科相关的待处理数字资源块进行知识点标注，然后将数字资源块进行聚合以生成该学科的数字对象。输入的数字资源文件经过本发明实施例中提供的数字对象生成的方法的处理后，可以形成细粒度并可灵活重用的知识型学习对象，便于构建一个具有一致性的知识性学科数据对象集合。

图2为本发明实施例中数字对象生成的方法实施的架构示意图，如图2所示，本体数字资源库即本体知识点体系可以由领域专家构建，根据构建的本体知识点体系，可以得到本体知识点体系中各知识点间的关系图映射，根据关系图映射确定并记录本体知识点体系中各知识点间的量化关系。

同时，从原始数字资源库中获取数字资源后，经相应的分析器分析以抽取内容，分块为数字资源块，输入至分块标注器，根据上述确定的第一量化关系进行知识点标注。标注的过程中参考训练文件集合的结果。若获取的数字资源中有元数据，同时获取该元数据对该获取的数字资源进行整体标注，以供分块标注处理中使用。数字资源块标注完成后进行聚合处理，并进行标注验证，验证通过后，存储至数字资源库，验证不通过，则请求用户干预，用户反馈干预后，存储至数字资源库中。

本体知识点体系可以是预先设置的，图3为本发明实施例中本体知识点体系的构建流程示意图，如图3所示，可以遵循以下六个步骤完成本体知识点体系的构建：

1.明确需求。在这个阶段进行本体知识点体系的需求分析，至少明确本体知识点体系的构建目的、覆盖范围、应用背景、使用者和维护人员等；2.信息收集。信息收集包括两个方面：一方面，考虑复用或者完善现存本体知识点体系；另一方面，无可复用本体知识点体系便需要确定本体知识点体系信息的来源(书籍、网络等等)；3.数据分析。本阶段需要列出一份详细的领域内的术语清单并整理出本体知识点体系概念之间的关系；4.评价。由领域专家从明确性、完整性、一致性、可扩展性和最小承诺等方面对本体知识点体系进行评估；5.本体知识点体系实现。根据需求阶段确定的本体描述语言，把数据分析阶段得到的本体知识点和相互关系用本体描述语言编码表示，即本体知识点体系建模；6.本体知识点体系完善。在后续的工作中，将会对本体知识点体系内容进行增加和修改，不断完善本体知识点体系内容。

下面以《Java程序设计》课程为例来说明本体知识点体系的构建。明确需求后，进行信息收集。查询现有本体库，没有发现可以直接集成的《JAVA程序设计》课程本体，搜集了包括《JAVA编程思想》、《JAVA核心编程上下卷》在内的多种权威教材，并且通过百度和Google搜索引擎搜集了大量课程相关资料加以补充形成了JAVA程序设计的知识体系结构图，图4为本发明实施例中JAVA知识体系结构示意图，具体如图4所示。

形成了JAVA程序设计的知识体系结构图，进行数据分析，如《Java程序设计》课程中“整型”数据类型知识点与课程本体中类的对应关系为：工学(门类)-计算机科学与技术(一级学科)-计算机软件(二级学科)-程序设计语言(三级学科)-Java程序设计(课程名称)-Java语言基础(一级知识点)-数据类型(二级知识点)-基本数据类型(三级知识点)-整型(四级知识点)。此外，将《JAVA程序设计》课程知识点划分如下：1)一级知识点：编程环境、语言基础、面向对象、异常处理、输入输出、GUI(界面)、网络编程、数据库编程。2)二级知识点：Java的起源与发展、Java的技术体系、Java语法机制、Java语言的特点、Java运行系统、基本数据类型、复合数据类型、关系运算符等46个。3)三级以上知识点：如Java工作方式，Java虚拟机，Java编译与运行环境等130多个。这些知识点将作为课程本体类对应的实例，图5为本发明实施例中JAVA知识体系中各知识点间的关系示意图。在此基础之上定义了本体知识点之间的八种关系：包含/构成关系、前序/后继关系、并列关系、基本关联关系、等价关系、同现关系。

本体知识点体系的评价、实现及完善，上面已经有相应说明，这里不再赘述。

本发明实施例中提供的数字对象生成的方法，根据预先建立的本体知识点体系，确定本体知识点体系中知识点间的量化关系，并根据所述量化关系对标注的数字资源块进行聚合生成数字对象，在聚合标注的数字资源块的过程中，结合了本体知识点体系中知识点间的量化关系，可以更为准确而合理地生成数字对象。

实施中，根据本体知识点体系，确定第一量化关系之前，还可以包括：

分析所述本体知识点体系；

根据分析结果，确定第一关系，所述第一关系为所述本体知识点体系中知识点间的关系；

根据本体知识点体系，确定第一量化关系，具体包括：

根据所述第一关系，确定所述第一量化关系。

具体实施中，分析所述本体知识点体系可以得到如图4所示的本体知识点体系中各知识点间的关系，即，第一关系。进而根据所述第一关系确定所述第一量化关系。

实施中，所述第一关系可以主要包括：包含关系、构成关系、前序关系、后继关系、并列关系、基本关联关系、等价关系或同现关系。

具体实施中，所述第一关系还可包括除上述八种关系之外的关系。这里简要介绍该八种关系：

A.包含/构成：该两种关系为一种对称关系，两个知识点所表征的知识范畴存在集合理论上的“包含/被包含”关系。比如“布尔型”构成了“基本数字类型”，而“基本数字类型”也包含了“布尔型”。

B.前序/后继：该两种关系为一种对称关系，两个知识点所表征的知识在学习时存在充分必要关系。

C.并列关系：该种关系双向可逆，表示两个知识点直接构成同一个知识点。比如“布尔型”、“字节型”都构成“基本数据类型”，所以“布尔型”、“字节型”存在并列关系。

D.基本关联关系：该种关系双向可逆，表示两个知识节点之间并不存在“前序/后继”关系，但是在内容上存在一定程度的关联，比如“循环语句”和“while”循环便是基本关联关系。

E.等价关系：该种关系双向可逆，表示两个知识点是含义相同的知识内容的不同名称，比如“关键字”和“关键词”以及“保留字”。

F.同现关系：该种关系双向可逆，表示两个知识点在日常的教学教材中总是同时出现的，比如符合数据类型中的“类”和关键字中的“Class”。

实施中，分析所述本体知识点体系，具体可以包括：

分析所述本体知识点体系，形成第一关系图，所述第一关系图为所述本体知识点体系中知识点间的关系连接拓扑图，所述第一关系图中的知识点间存在直接相连的直接关系或间接联系的间接关系。

具体实施中，构建完本体知识点体系后，本体知识点体系中的知识节点之间的关系为“边”可映射成一张图，该图一定具有如下特点：1.存在某个无入度根节点(领域内的最上位知识点，比如：JAVA学习中的“JAVA”)；2.最细粒度的知识节点(比如：JAVA课程中的条件语句)为叶子(无出度节点)；3.由根节点到叶子节点的路径上的节点所代表的知识节点的粒度由大到小依次递减，即知识点粒度逐层递减；4.每条边都是双向的(比如：分支结构-包含-条件语句；条件语句-构成-分支结构，中“包含/构成”即为分支结构和条件语句的一种双向关系)；5.映射图为无环连通图。

在这个映射图中，本发明定义两种类型的关系：1.直接连接关系。两个知识点之间在本体知识点体系构建时就被定义了关系，即在映射图中存在直接连接的边。2.间接连接关系。两个知识点之间不存在直接连接的边，但是连通图中两知识点之间必定存在连通路径，也就是包含着一定的间接连接关系。

具有直接关系的节点之间的关联强度显然要大于非直接关系的知识点之间的关联强度。由此本发明约定直接关系的知识节点之间的关系量化数值在[1，2]之间，而非直接关系的知识节点之间的关系量化数值在[0，1]之间。

实施中，当所述本体知识点体系中两个知识点x和y间为直接连接关系时，所述第一量化关系可以表示为：

similar(x，y)＝1+DataType，其中，similar(x，y)为所述第一量化关系，DataType为根据所述第一关系预设的系数。

具体实施中，根据映射图中边所表征的直接连接关系，以及两个知识点之间的距离、深度关系、到根节点的重合路径等因素就可以通过计算来量化两个知识点之间的关系，用以反映两个节点之间关联的强弱。

DataType是按照知识点x和y间的关系疏密程度定义的一个[0，1]的值，例如，同义＝1、基本关联＝0.8、包含/构成＝0.6、前序/后继＝0.6等等。本领域技术人员可以根据实际情况进行定义，这里不做具体限定。

实施中，当所述本体知识点体系中两个知识点x和y间为间接连接关系时，所述第一量化关系可以表示为：

similar(x，y)＝1-(a×weight^granularity(x，y)+b×weight^distabce(x，y)+c×weight^semantic(x，y)+d×weigth^infor(x，y))²

其中，similar(x，y)为所述第一量化关系，weight^granularity(x，y)为x和y的相对深度权重，weight^distance(x，y)语义权利权重，distance(x，y)为连接知识节点x和y的最短路径通路，weight^semantic(x，y)为相对语义重合度权重，semantic(x，y)为知识节点x和y重合的上位知识点个数，weigth^infor(x，y)为信息量权重，infor(x，y)为知识节点x和y所有训练材料中的信息量，a、b、c、d为小于1的正数，a+b+c+d＝1。

具体实施中，当所述本体知识点体系中两个知识点x和y间为间接连接关系时，根据本体知识点体系结构图中所包含的关系，考虑以下因素作为计算所述第一量化关系：

A.深度(granularity)：定义粒度最大的节点深度为0，往根节点上依次增大；深度越大的节点表征的知识点越细化越具体，深度越小的节点表征的知识点越抽象越粗化。

B.带权语义距离(distance)：在知识本体结构映射图中连接两个知识节点的通路中最短路径所包含的边数，而知识节点之间的关系强弱与这路径的长短成反比；而该路径上的每一条边其所连接的出度节点，该节点的出度越大，代表该节点的分化越大，也就是其每个子节点之间的关系越弱(粗分概念之间的重合以及关联部分更多)，因而可以推论每一个边所表征的关联强弱与其对应的出度节点的出度成反比，综上所述，这两方面综合就得到了一条带权的语义距离。

C.相对语义重合度(semantic)：本体结构映射图内部的两个知识节点包含相同的上位知识点的个数称为语义重合度，而重合的上位知识节点个数与两个知识节点的深度相比，比值越大语义的重合度越高。

D.信息量(infor)：两个知识节点K1、K2，在所有的训练材料中，根据K1，K2同时出现的概率，得出他们的同现信息量(方便归1化)，信息量越小说明两个节点的关联性越强。

综合考虑以上4个因素，并考虑到归1化的问题，计算所得的similar值(即，知识点x和y间的第一量化关系)与知识点x和y间的关系强弱成正比。

下面对当所述本体知识点体系中两个知识点x和y间为间接连接关系时，计算所述第一量化关系过程中涉及的概念及计算公式进行说明，具体如下：

定义1(知识节点的深度)在本体知识点体系中各知识点间的关系映射图中，设粒度最大的节点为根节点，根节点的深度为1，即Depth(root)＝1，那么任意非根节点k的深度为：Depth(k)＝Depth(Parent(k))+1。

定义2(本体知识点体系映射图的深度)本体知识点体系映射图的最大深度Depth(tree)，即：Depth(tree)＝Max(Depth(k))。

在本体知识点体系映射图中，随着深度的增加，映射图中节点所表示的知识点粒度越细，表达的知识内容越明确，那么就有两个概念知识点之间的相似度与他们的深度总和成正比，与他们的深度差成反比，如下面这个公式可以很好表征此种关系。

定义3(相对深度权重)两个知识节点的深度之差表征了两个概念的层次差距，也就是粒度上的差距，差值越大代表两个知识节点所表征的知识(概念)粒度差别越大；同时深度之和表示了两个知识节点的深度位置，引入这个因素是因为两对同样的深度差知识节点(比如第一层和第二层以及第二层和第三层，这两对层次的层次差都为1)，深度大的那一组知识节点对他们所表针的知识(概念)粒度更细，表示着一种更强(更具象)的关联性，最后为了防止深度差为0时，深度和被忽略掉，所以最后加上1，总体设计的表示式如下：

{weight}^{g r a n u l a r i t y} (x, y) = \frac{| d e p t h (x) - d e p t h (y) | + 1}{d e p t h (x) + d e p t h (y)}

但是注意到如下情况，同一层的兄弟知识节点之间的关系肯定要近于同一层的非兄弟节点，所以单独从深度方面来考虑不能完全表达知识节点之间的语义关系的强弱，如此引入语义距离来进一步完善知识节点之间的相似度计算。

定义4(语义距离)在知识本体结构映射图中连接两个知识节点的通路中最短路径所包含的边数。

映射图中两个知识节点之间的语义距离越大，其相似度越低；反之两个知识节点之间的语义距离越小，其相似度越高。在知识本体映射图中，知识点的粒度自树根(零入度节点)至树叶(末端)逐渐变细，远离根节点的知识节点之间相似度要比离根近的知识节点之间要更加具象和细化，代表一种关系更加紧密的可能，但是语义距离的计算中知识节点之间的通路路径边是没有差别的，而事实上他们是有差别的，由此引入下面定义将差别量化：

定义5(知识点的度)在本体结构映射图中，知识节点k的直接孩子节点数，用outdegree(k)表示。

定义6(知识点的分化度)分化度即知识点度的倒数，在本体结构映射图中，知识节点的度越高，说明对应的知识点可以细化的程度越高，由此带来的是只是分化后的孩子知识节点之间的相似度越低，即：

d e n s i t y (x_e d g e) = \frac{1}{o u t \deg r e e (x_n o d e)}

同时两个相连知识节点之间的边可以用其中父节点的分化度去表征，也就是构成语义路径的边的权重，由此也可以得到定义7

定义7(带权语义距离权重)计算公式如下：

{weight}^{d i s \tan c e} (x, y) = 1 - Σ_{1}^{m} [d e n s i t y (x_{n}_e d g e) * (1 / d e p t h (x_{n}_e d g e)]

其中设知识节点对x和y之间的距离有m条边。

定义8(相对语义重合度权重)本体知识点体系中各知识点间的关系映射图内部的两个知识节点包含相同的上位知识点的个数称为语义重合度，而重合的上位知识节点个数与两个知识节点的深度相比，比值越大语义的重合度越高，即：

{weight}^{s e m a n t i c} (x, y) = - \frac{d e p t h (c)}{d e p t h (x)} \times \frac{d e p t h (c)}{d e p t h (y)}

其中c节点为知识点x和y分别向根节点遍历的第一个公共知识节点。

定义9(知识点的信息量权重)在所有的训练资料中，设P(k₁，k₂)为概念k₁、k₂同时出现的概率，即：P(k₁，k₂)等于k₁、k₂同时在训练资料中出现的次数/训练资料的总数。

则知识k₁、k₂的信息量权重为：

{weight}^{\inf o r} (x, y) = \frac{\arctan (- \lg P (k 1, k 2))}{π / 2} .

实施中，所述数字对象生成的方法还可以包括：

对所述数字资源块中的内容文本进行分词；

采用词频-逆向文件频率TD-IDF算法确定所述数字资源块内知识点特征的权值，所述知识点特征为表征知识点的词；

选取若干个权值大于第一阈值的知识点特征作为所述数字资源块的知识点标注。

具体实施中，还可以不参考所述第一量化关系实现对所述数字资源块的标注，具体方案如下：对所述数字资源块中的内容文本进行分词，采用TD-IDF确定所述数字资源块内知识点特征的权值，选取若干个权值大于第一阈值的知识点特征作为所述数字资源块的知识点标注。其中，本发明实施例中的TD-IDF算法在应用过程中，不是现有技术中以整体文件为单元，而是以数字资源块为单元进行的。第一阈值的具体取值本领域技术人员可以根据实际情况进行设置，这里不做具体限定。

从理论上来说，只要是能够确定所述数字资源块内知识点特征的权值的其它的技术也是可以实施本方案的，TD-IDF仅用于教导本领域技术人员具体如何实施本发明，但不意味仅能使用TD-IDF一种方式，实施过程中可以结合实践需要来确定相应的方式。

实施中，根据所述第一量化关系标注数字资源块以得到所述数字资源块的知识点标注之前，还可以包括：

确定第二知识点体系，所述第二知识点体系为所述数字资源文件的知识点体系；

若所述数字资源块的知识点标注不在所述第二知识点体系内，确定所述数字资源块是否有前序数字资源块；

若所述数字资源块有前序数字资源块，根据所述第一量化关系确定所述数字资源块与其前序数字资源块的量化关系值大于第二阈值时，以所述数字资源块的前序数字资源块的标注作为所述数字资源块的标注。

具体实施中，若数字资源文件本身具有元数据，可以通过提取的该数字资源文件的元数据来确定第二知识点体系；若数字资源文件没有元数据，可以基于TD-IDF算法来确定第二知识点体系。

图6为本发明实施例中数字资源生成的流程示意图，如图6所示，在具体实施中，数字对象生成的方法，在数字资源输入后，资源块，即：数字资源块标注之前，还可以包括一个对输入的数字资源的预处理过程。

图7为本发明实施例中数字资源内容预处理流程图，如图7所示，数字资源预处理，可以包括目标文件文档抽取(即，数字资源内容提取)、元数据抽取、划分数字资源块。

其中，数字资源内容提取是对于目标数字资源内容信息提取(可针对PPT、WORD、音视频提取的字幕)。

元数据抽取是直接获取目标数字资源本身已经具备一些结构良好的元数据信息，比如说标题、摘要、关键字等等。

划分数字资源块是以一定的划分规则对于目标文档细分块(例如：PPT按“页”，WORD按“段”，音视频字幕按“30秒/60秒”)。

具体实施中，可以使用中文分词工具对于数字资源块进行分词获取所述数字资源块内知识点特征，并根据领域专业词典修正歧义词汇以及去停用词。

若数字资源文件本身具有元数据，元数据获取后，根据所述元数据确定所述数字资源文件的知识点体系(即，第二知识点体系)，并对所述数字资源文件进行整体知识点标注。所述数字资源文件的整体知识点标注结果及知识点体系对其包含的数字资源块的后续标注提供信息。

根据所述数字资源文件的知识点体系，综合考虑数字资源块本身的知识点特征，确定该数字资源块的候选知识点特征。根据所述数字资源文件的知识点体系，若确定所述数字资源块的所有知识点特征均不在所述数字资源文件的知识点体系内，而在所述本体知识点体系内，则确定所述数字资源块是否有前序数字资源块，若有前序数字资源块，根据所述第一量化关系确定所述数字资源块中的知识点特征与其前序数字资源块中的知识点特征的量化关系值大于第二阈值时，就以所述数字资源块的前序数字资源块的标注作为所述数字资源块的标注。所述第二阈值的具体取值本领域技术人员可以根据实际情况进行设置，这里不做具体限定。

实施中，数字对象生成的方法还可以包括：

若所述数字资源块无前序数字资源块或所述数字资源块与其前序数字资源块的量化关系值小于第二阈值时，确定所述数字资源块是否有后继数字资源块；

若所述数字资源块有后继数字资源块，根据所述第一量化关系确定所述数字资源块与其后继数字资源块的量化关系值大于第三阈值时，以所述数字资源块的后继数字资源块的标注作为所述数字资源块的标注。

具体实施中，若确定所述数字资源块的所有知识点特征均不在所述数字资源文件的知识点体系内，而在所述主体知识点体系内，且确定无前序数字资源块或所述数字资源块与其前序数字资源块的量化关系值小于第二阈值时，确定所述数字资源块是否有后继数字资源块，若有后继数字资源块，根据所述第一量化关系确定所述数字资源块中的知识点特征与其后继数字资源块中的知识点特征的量化关系值大于第三阈值时，则以所述数字资源块的后继数字资源块的标注作为所述数字资源块的标注。第三阈值的具体取值本领域技术人员可以根据实际情况进行设置，这里不做具体限定。

实施中，若所述数字资源块与其前序数字资源块的量化关系值小于第二阈值且所述数字资源块与其后继数字资源块的量化关系值小于第三阈值时，可以标记所述数字资源块为奇异数字资源块；

请求人工干预标注所述奇异数字资源块。

具体实施中，对于与其前序数字资源块的量化关系值小于第二阈值且与其后继数字资源块的量化关系值小于第三阈值的数字资源块，将其标注为奇异数字资源块，当出现标注为奇异数字资源块的数字资源块时，请求相关人员进行干预，对该奇异数字资源块进行人工标注。

实施中，若所述数字资源块内所有知识点特征的权值均小于所述第一阈值，可以标记所述数字资源块为无知识点。

具体实施中，采用TD-IDF确定所述数字资源块内知识点特征的权值均小于所述第一阈值，数字资源块标记该数字资源块为无知识点。

实施中，若确定所述数字资源块内存在与所述第二知识点体系中的知识点相同的知识点特征时，可以增加所述数字资源块中所述与所述第二知识点体系中的知识点相同的知识点特征的权值。

具体实施中，图8为本发明实施例中数字资源块标注的流程示意图，如图8所示，从数字资源块中所有知识点特征中选取3个权值最大的知识点作为CKL(备选知识点列表)。

检测CKL列表内是否有术语属于第二知识点体系的知识点标注为根知识点的知识点特征(比如“程序控制流”这个知识点特征为《JAVA》知识点体系中的一个知识点，其所表征的知识点体系包括其自身以及所有子节点)，如若存在，对该知识点特征乘以一个大于1的系数，以增加该知识点特征的权值。

然后，选择CKL中权值最大者作为该内容分块的标注。

实施中，标记所述数字资源块为无知识点之后，可以确定所述数字资源块是否有前序数字资源块；

若所述数字资源块有前序数字资源块，则以所述数字资源块的前序数字资源块的标注作为所述数字资源块的标注。

实施中，确定所述数字资源块无前序数字资源块之后，可以确定所述数字资源块是否有后继数字资源块；

若所述数字资源块有后继数字资源块，则以所述数字资源块的后继数字资源块的标注作为所述数字资源块的标注。

实施中，将所述数字资源块聚合以生成数字对象，具体可以包括：

对于知识点标注相同且相邻的数字资源块进行合并。

图9为本发明实施例中数字资源块知识点聚合的流程示意图，如图9所示，知识点标注可以按照数字资源块在资源文件中出现的先后顺序遍历，对于标注着相同的知识点而且相邻的数字资源块进行合并。

检查分块待处理列表是否为空：如果为空则对字幕文档的标注结果计算有效性，如果有效性大于阈值，那么可以提交给用户，否则可以请求人工干预。如果不为空，取出当前分块，则依据上述的数字资源块标注方式继续运行数字资源块的标注。

具体实施中，由于数字资源文档本身的内容组织具一定结构规律，所以在将所述数字资源块聚合以生成数字对象时，可以合并知识点标注相同且相邻的数字资源块。

确定所述数字资源块颗粒度是否合适；

若确定所述数字资源块颗粒度过大，对所述数字资源块进行细分。

具体实施中，还可以在对所述数字资源块进行标注之前，依据分块规则对该数字资源块的颗粒度进行验证，具体的分块规则本领域技术人员可以根据具体情况进行确定，例如，PPT按“页”，WORD按“段”，音视频字幕按“30秒/60秒”等进行分块。

当确定该数字资源块颗粒度过大，则依据分块规则对所述数字资源块进行细分。

实施中，将所述数字资源块聚合以生成数字对象之后，还可以包括：

确定M/N是否大于第四阈值，M为所述资源文件的知识点体系包含的数字资源块数量，N为所述资源文件包含的数字资源块聚合后的数字资源块数量；

若M/N大于所述第四阈值，则对所述数字资源块标注合理；

若M/N不大于所述第四阈值，则对所述数字资源块标注不合理，请求人工干预标注。

具体实施中，还可以定义一个公式来量化这种总体标注结果所产生的知识空间与最终标注结果集合之间的关系，并设立第四阈值，只有当如下公式中的的结果大于所述第四阈值时，说明标注结果总体合理；否则说明标注结果总体不合理，对于不合理的情况，可以反馈给相关人员，提示相关人员对于标注结果进行人工干预修正。

公式为：A＝M/N，M为所述数字资源文件的知识点体系包含的数字资源块数量，N为所述数字资源文件包含的数字资源块聚合后的数字资源块数量。

标注结果通过验证后，就可以存储至数字资源库中，作为一个细粒度的数字资源供检索与重用了。

基于同一发明构思，本发明实施例中还提供了一种数字对象生成的装置，由于该装置解决问题的原理与一种数字对象生成的方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

图10为本发明实施例中数字对象生成的装置结构示意图，如图10所示，该数字对象生成的装置可以包括：

第一确定单元1001，用于根据本体知识点体系，确定第一量化关系，所述第一量化关系为所述本体知识点体系中知识点间的量化关系；

标注单元1002，用于根据所述第一量化关系标注数字资源块以得到所述数字资源块的知识点标注，所述数字资源块是将数字资源文件分块处理后得到的；

聚合单元1003，用于将所述数字资源块聚合以生成数字对象。

实施中，该数字对象生成的装置还可以包括：

关系分析单元，用于根据本体知识点体系，确定第一量化关系之前，分析所述本体知识点体系；根据分析结果，确定第一关系，所述第一关系为所述本体知识点体系中知识点间的关系；

所述第一确定单元具体用于根据所述第一关系，确定所述第一量化关系。

实施中，所述第一关系主要包括：包含关系、构成关系、前序关系、后继关系、并列关系、基本关联关系、等价关系或同现关系。

实施中，所述关系分析单元具体用于分析所述本体知识点体系，形成第一关系图，所述第一关系图为所述本体知识点体系中知识点间的关系连接拓扑图，所述第一关系图中的知识点间存在直接连接关系或间接联系关系。

实施中，所述第一确定单元具体用于当所述本体知识点体系中两个知识点x和y间为直接连接关系时，所述第一量化关系可以表示为：

实施中，所述第一确定单元具体用于当所述本体知识点体系中两个知识点x和y间为间接连接关系时，所述第一量化关系可以表示为：

similar(x，y)＝1-(a×weight^granularity(x，y)+b×weight^distance(x，y)+c×weight^semantic(x，y)+d×weigth^infor(x，y))²

实施中，所述标注单元进一步用于对所述数字资源块中的内容文本进行分词；采用词频-逆向文件频率TD-IDF算法确定所述数字资源块内知识点特征的权值，所述知识点特征为表征知识点的词；选取若干个权值大于第一阈值的知识点特征作为所述数字资源块的知识点标注。

实施中，该数字对象生成的装置还可以包括：

第二确定单元，用于确定第二知识点体系，所述第二知识点体系为所述数字资源文件的知识点体系；

前序数字资源块确定单元，用于若所述数字资源块的知识点标注不在所述第二知识点体系内，确定所述数字资源块是否有前序数字资源块；

所述标注单元进一步用于若所述数字资源块有前序数字资源块，根据所述第一量化关系确定所述数字资源块与其前序数字资源块的量化关系值大于第二阈值时，以所述数字资源块的前序数字资源块的标注作为所述数字资源块的标注。

实施中，该数字对象生成的装置还可以包括：

后继数字资源块确定单元，用于若所述数字资源块无前序数字资源块或所述数字资源块与其前序数字资源块的量化关系值小于第二阈值时，确定所述数字资源块是否有后继数字资源块；

所述标注单元进一步用于若所述数字资源块有后继数字资源块，根据所述第一量化关系确定所述数字资源块与其后继数字资源块的量化关系值大于第三阈值时，以所述数字资源块的后继数字资源块的标注作为所述数字资源块的标注。

实施中，所述标注单元进一步用于若所述数字资源块与其前序数字资源块的量化关系值小于第二阈值且所述数字资源块与其后继数字资源块的量化关系值小于第三阈值时，标记所述数字资源块为奇异数字资源块；

所述数字对象生成的装置，还包括：

请求单元，用于请求人工干预标注所述奇异数字资源块。

实施中，所述标注单元进一步用于若所述数字资源块内所有知识点特征的权值均小于所述第一阈值，标记所述数字资源块为无知识点。

实施中，所述标注单元进一步用于若确定所述数字资源块的知识点特征列表中存在属于所述第二知识点体系中知识点的知识点特征时，增加所述数字资源块中所述与所述第二知识点体系中的知识点相同的知识点特征的权值。

实施中，所述前序数字资源块确定单元进一步用于标记所述数字资源块为无知识点之后，确定所述数字资源块是否有前序数字资源块；

所述标注单元进一步用于若所述数字资源块有前序数字资源块，则以所述数字资源块的前序数字资源块的标注作为所述数字资源块的标注。

实施中，所述后继数字资源块确定单元进一步用于确定所述数字资源块无前序数字资源块之后，确定所述数字资源块是否有后继数字资源块；

所述标注单元进一步用于若所述数字资源块有后继数字资源块，则以所述数字资源块的后继数字资源块的标注作为所述数字资源块的标注。

实施中，所述聚合单元具体用于根据对于知识点标注相同且相邻的数字资源块进行合并。

实施中，该数字对象生成的装置还可以包括：

颗粒度确认单元，用于根据所述第一量化关系标注数字资源块以得到所述数字资源块的知识点标注之前，确定所述数字资源块颗粒度是否合适；若确定所述数字资源块颗粒度过大，对所述数字资源块进行细分。

实施中，该数字对象生成的装置还可以包括：

校验单元，用于将所述数字资源块聚合以生成数字对象之后，确定M/N是否大于第四阈值，M为所述数字资源文件的知识点体系包含的数字资源块数量，N为所述数字资源文件包含的数字资源块聚合后的数字资源块数量；若M/N大于所述第四阈值，则对所述数字资源块标注合理；若M/N不大于所述第四阈值，则对所述数字资源块标注不合理，请求人工干预标注。

为了描述的方便，以上所述装置的各部分以功能分为各种模块或单元分别描述。当然，在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数字对象生成的方法，其特征在于，包括如下步骤：

根据本体知识点体系，确定第一量化关系，所述第一量化关系为所述学科本体知识点体系中知识点间的量化关系；

将所述数字资源块聚合以生成数字对象。

2.如权利要求1所述的方法，其特征在于，根据本体知识点体系，确定第一量化关系之前，还包括：

分析所述本体知识点体系；

根据本体知识点体系，确定第一量化关系具体包括：

根据所述第一关系，确定所述第一量化关系。

3.如权利要求2所述的方法，其特征在于，所述第一关系主要包括：包含关系、构成关系、前序关系、后继关系、并列关系、基本关联关系、等价关系或同现关系。

4.如权利要求2所述的方法，其特征在于，分析所述本体知识点体系，具体包括：

5.如权利要求4所述的方法，其特征在于，当所述本体知识点体系中两个知识点x和y间为直接连接关系时，所述第一量化关系表示为：

6.如权利要求4所述的方法，其特征在于，当所述本体知识点体系中两个知识点x和y间为间接连接关系时，所述第一量化关系表示为：

similar(x，y)＝1-(a×weight^granulanty(x，y)+b×weight^distance(x，y)+c×weight^semantic(x，y)+d×weigth^infor(x，y))²

其中，similar(x，y)为所述第一量化关系，weight^granularity(x，y)为x和y的相对深度权重，weight^distance(x，y)语义权利权重，distance(x，y)为连接知识节点x和y的最短路径通路，weight^semantic(x，y)为相对语义重合度权重，semantic(x，y)为知识节点x和y重合的上位知识点个数，weigth^infor(x，y)为信息量权重，infor(x，y)为知识节点x和y所有训练材料中的信息量，a、b、c、d为小于1的正数，且a+b+c+d＝1。

7.如权利要求1所述的方法，其特征在于，还包括：

对所述数字资源块中的内容文本进行分词；

8.如权利要求7所述的方法，其特征在于，根据所述第一量化关系标注数字资源块以得到所述数字资源块的知识点标注之前，还包括：

根据所述第一量化关系标注数字资源块以得到所述数字资源块的知识点标注，具体包括：若所述数字资源块有前序数字资源块，根据所述第一量化关系确定所述数字资源块与其前序数字资源块的量化关系值大于第二阈值时，以所述数字资源块的前序数字资源块的标注作为所述数字资源块的标注。

9.如权利要求8所述的方法，其特征在于，还包括：

10.如权利要求9所述的方法，其特征在于，若所述数字资源块与其前序数字资源块的量化关系值小于第二阈值且所述数字资源块与其后继数字资源块的量化关系值小于第三阈值时，标记所述数字资源块为奇异数字资源块；

请求人工干预标注所述奇异数字资源块。

11.如权利要求7所述的方法，其特征在于，若所述数字资源块内所有知识点特征的权值均小于所述第一阈值，标记所述数字资源块为无知识点。

12.如权利要求7所述的方法，其特征在于，若确定所述数字资源块的知识点特征列表中存在属于所述第二知识点体系中知识点的知识点特征时，增加所述数字资源块中所述与所述第二知识点体系中的知识点相同的知识点特征的权值。

13.如权利要求11所述的方法，其特征在于，标记所述数字资源块为无知识点之后，确定所述数字资源块是否有前序数字资源块；

14.如权利要求13所述的方法，其特征在于，确定所述数字资源块无前序数字资源块之后，确定所述数字资源块是否有后继数字资源块；

15.如权利要求1所述的方法，其特征在于，将所述数字资源块聚合以生成数字对象，具体包括：

对于知识点标注相同且相邻的数字资源块进行合并。

16.如权利要求1所述的方法，其特征在于，根据所述第一量化关系标注数字资源块以得到所述数字资源块的知识点标注之前，还包括：

确定所述数字资源块颗粒度是否合适；

17.如权利要求1所述的方法，其特征在于，将所述数字资源块聚合以生成数字对象之后，还包括：

确定M/N是否大于第四阈值，M为所述数字资源文件的知识点体系包含的数字资源块数量，N为所述数字资源文件包含的数字资源块聚合后的数字资源块数量；

若M/N大于所述第四阈值，则对所述数字资源块标注合理；

18.一种数字对象生成的装置，其特征在于，包括：

第一确定单元，用于根据本体知识点体系，确定第一量化关系，所述第一量化关系为所述本体知识点体系中知识点间的量化关系；

聚合单元，用于将所述数字资源块聚合以生成数字对象。

19.如权利要求18所述的装置，其特征在于，还包括：

20.如权利要求19所述的装置，其特征在于，所述第一关系主要包括：包含关系、构成关系、前序关系、后继关系、并列关系、基本关联关系、等价关系或同现关系。

21.如权利要求19所述的装置，其特征在于，所述关系分析单元具体用于分析所述本体知识点体系，形成第一关系图，所述第一关系图为所述本体知识点体系中知识点间的关系连接拓扑图，所述第一关系图中的知识点间存在直接连接关系或间接联系关系。

22.如权利要求21所述的装置，其特征在于，所述第一确定单元具体用于当所述本体知识点体系中两个知识点x和y间为直接连接关系时，所述第一量化关系表示为：

23.如权利要求21所述的装置，其特征在于，所述第一确定单元具体用于当所述本体知识点体系中两个知识点x和y间为间接连接关系时，所述第一量化关系表示为：

similar(x，y)＝1-(a×weight^granularity(x，y)+b×weight^distance(x，y)+c×weight^semantic(x，y)

+d×weigth^infor(x，y))²

其中，similar(x，y)为所述第一量化关系，weight^granulanty(x，y)为x和y的相对深度权重，weight^distance(x，y)语义权利权重，distanee(x，y)为连接知识节点x和y的最短路径通路，weight^semantic(x，y)为相对语义重合度权重，semantic(x，y)为知识节点x和y重合的上位知识点个数，weigth^infor(x，y)为信息量权重，infor(x，y)为知识节点x和y所有训练材料中的信息量，a、b、c、d为小于1的正数，a+b+c+d＝1。

24.如权利要求18所述的装置，其特征在于，所述标注单元进一步用于对所述数字资源块中的内容文本进行分词；采用词频-逆向文件频率TD-IDF算法确定所述数字资源块内知识点特征的权值，所述知识点特征为表征知识点的词；选取若干个权值大于第一阈值的知识点特征作为所述数字资源块的知识点标注。

25.如权利要求24所述的装置，其特征在于，还包括：

26.如权利要求25所述的装置，其特征在于，还包括：

27.如权利要求26所述的装置，其特征在于，所述标注单元进一步用于若所述数字资源块与其前序数字资源块的量化关系值小于第二阈值且所述数字资源块与其后继数字资源块的量化关系值小于第三阈值时，标记所述数字资源块为奇异数字资源块；

所述数字对象生成的装置，还包括：

请求单元，用于请求人工干预标注所述奇异数字资源块。

28.如权利要求24所述的装置，其特征在于，所述标注单元进一步用于若所述数字资源块内所有知识点特征的权值均小于所述第一阈值，标记所述数字资源块为无知识点。

29.如权利要求24所述的装置，其特征在于，所述标注单元进一步用于若确定所述数字资源块的知识点特征列表中存在属于所述第二知识点体系中知识点的知识点特征时，增加所述数字资源块中所述与所述第二知识点体系中的知识点相同的知识点特征的权值。

30.如权利要求28所述的装置，其特征在于，所述前序数字资源块确定单元进一步用于标记所述数字资源块为无知识点之后，确定所述数字资源块是否有前序数字资源块；

31.如权利要求30所述的装置，其特征在于，所述后继数字资源块确定单元进一步用于确定所述数字资源块无前序数字资源块之后，确定所述数字资源块是否有后继数字资源块；

32.如权利要求18所述的装置，其特征在于，所述聚合单元具体用于根据对于知识点标注相同且相邻的数字资源块进行合并。

33.如权利要求18所述的装置，其特征在于，还包括：

34.如权利要求18所述的装置，其特征在于，还包括：