CN116912867A

CN116912867A - 结合自动标注和召回补全的教材结构提取方法和装置

Info

Publication number: CN116912867A
Application number: CN202311175495.7A
Authority: CN
Inventors: 何贵甲; 黄程韦; 盖君芳; 黄宝忠; 刘俊聪
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-10-20
Anticipated expiration: 2043-09-13
Also published as: CN116912867B

Abstract

本发明公开了一种结合自动标注和召回补全的教材结构提取方法和装置，将教材PDF转换为图片，并通过高精度OCR识别出图片中的每个区域的文本信息和位置信息，再结合规则模型和聚类来构建样本，并利用样本训练与区域类型对应的多种分类模型来预测区域类型未知的区域类型，最后自动召回补全缺失的部分并建立整本教材的内容及结构关系，这样能够顾实现快速准确地从教材中快速准备地提取出标题和正文，并建立相应的结构关系。

Description

结合自动标注和召回补全的教材结构提取方法和装置

技术领域

本发明属于智能教育技术领域，具体涉及一种结合自动标注和召回补全的教材结构提取方法和装置。

背景技术

当前，教育正朝着智能化、自适应方向发展，为了实现自适应教育，需要大规模的学科知识图谱来支持个性化学习推荐和行为分析等功能。而构建学科知识图谱需要依赖教材中的章、节、点标题及对应正文内容，因此从教材中自动提取这些信息成为前序工作，并且从内容中准确识别并提取出结构化的标题和正文信息才是关键。一种可行的方案是将PDF教材中的每一页都转换成图片，然后利用OCR（Optical Character Recognition）技术识别图片中的文本信息，再通过规则或者正则表达式等方式来提取出相应的章、节、点等标题信息。例如，在CN110837788A公开的技术中，就是使用OCR首先识别出文本内容，然后通过自然语言理解来识别出章节标题。然而，自然语言理解模型有着领域局限性，针对某一特定学科专业领域训练的语义模型，如果迁移到另一个学科去预测会产生很大的误差，因此单纯使用自然语言理解模型来识别有着较大的局限性。

另外，有两个关键能力是现有方案不具备的，一个是遗漏信息的召回能力，另一个是模型的迁移能力。由于现有技术普遍采用OCR技术，而OCR很可能出现误识别、漏识别的现象，从而造成标题、正文识别的遗漏或误判。例如，原本的标题文本是“1.2 机器人系统组成与分类”，但由于OCR的识别结果将前面的“1.2”漏掉了，那么基于正则表达式的方法就无法将“机器人系统组成与分类”判定为标题，导致结果缺失。如何将这些因OCR错误导致遗漏的信息召回，是一个关键问题，但现有的公开技术并没有提及并解决该问题。

同时，现有技术往往依赖大量人工标记的样本数据来训练模型并进行预测。然而，在实际的应用中，由于教材排版的多样性，基于标注好的样本集训练出的视觉模型很难对另外一种不同排版样式的教材做出准确预测；类似地，基于标注好的某学科领域的语料库训练出的语义模型，在面对其他的学科教材时可能也难免出错。根本原因是预训练好的模型不适合这些未知的新教材，也就意味着这些模型或技术不具备迁移能力。

因此，需要设计一种方法能够针对任何教材进行自动标注并训练出适合当前教材的模型，同时能够召回由于OCR错误而被遗漏的信息。可惜的是，在已公开的技术中并没有关于上述两个能力的解决方案。

发明内容

鉴于上述，本发明的目的是提供一种结合自动标注和召回补全的教材结构提取方法和装置，用于从教材中快速准确地提取出标题和正文，并建立相应的结构关系。

为实现上述发明目的，实施例提供了一种结合自动标注和召回补全的教材结构提取方法，包括以下步骤：

采用OCR对PDF教材对应的图片进行区域识别，并记录每个区域包含位置信息和文本信息的识别结果；

利用规则模型根据识别结果判断每个区域的区域类型，其中，区域类型包括页眉、页脚、标题以及正文，其中，标题包括章标题、节标题、点标题；

依据识别结果提取每个区域的相对位置特征和相对上下文特征并组合得到整体特征；

依据区域类型识别结果构建簇，每个簇对应一个区域类型，依据簇内区域的整体特征计算每个簇的特征权重，并依据特征权重对当前区域进行聚类；

为每个区域类型构建1个分类模型，提取区域类型对应簇包含的所有区域作为正样本对分类模型进行训练；

对区域类型已知的区域构建结构关系，该结构关系存在缺失节点；

依据结构关系确定缺失节点对应缺失区域在PDF教材中的范围，并在范围内搜索区域类型未知的区域作为召回区域；

依据缺失节点对应的区域类型，调用区域类型对应的分类模型对召回区域进行分类，并筛选分类概率最大的召回区域补充到缺失节点。

优选地，所述规则模型包括正则规则和位置规则，利用规则模型判断每个区域的区域类型，包括：

利用正则规则对每个区域的文本信息进行识别，确定第一区域类型；

利用位置规则对每个区域的位置信息进行识别，确定第二区域类型，其中，位置规则约束文本行对应的矩形所在页面的高度比例、宽度比例、像素比例以及对齐方式；

综合基于正则规则确定的第一区域类型和基于位置规则确定的第二区域类型，确定每个区域的最终区域类型。

优选地，所述依据识别结果提取每个区域的相对位置特征和相对上下文特征并组合得到整体特征，包括：

依据每个区域的位置信息，提取每个区域相对于页面的上、下、左、右的距离比例和面积比例，作为相对位置特征；

依据每个区域的文本信息，提取文本中的关键字，并将各关键字的嵌入向量相加得到每个区域的文本向量，以当前区域为基准前向取多个区域作为前区域，后向取多个区域作为后区域，依据文本向量计算当前区域分别与多个前区域和多个后区域的相似度，并将所有相似度作为当前区域的相对上下文特征；

合并每个区域的相对位置特征和相对上下文特征得到每个区域的整体特征。

优选地，采用N-gram算法提取文本中的关键字；

为当前区域选择前区域和后区域时，允许跨页选择。

优选地，所述依据簇内区域的整体特征计算每个簇的特征权重，包括：

针对整体特征包括的每类特征，采用以下公式计算第i类特征在第j个簇中的特征权重：

；

其中，表示第i类特征在第j个簇中的标准方差，/>表示第k类特征在第j个簇中的标准方差，n表示特征总量。

优选地，所述依据特征权重对当前区域进行聚类，包括：

依据特征权重计算当前区域与各当前簇的平均相似度，如果当前区域的最高平均相似度满足阈值条件，则将当前区域加入到最高平均相似度对应的簇，其中，采用以下公式依据特征权重计算当前区域A与第j个簇的平均相似度：

；

其中，simCluster(A,j)表示区域A与第j个簇的平均相似度，num(j)为簇j内的样本数量，表示区域A与第j个簇内区域B的相似度，/>为第j个簇对应的特征权重中第i个特征的权重，/>和/>分别为区域A和第j个簇中区域B所对应的特征向量中第i个特征的特征值，n表示特征总量。

优选地，对分类模型进行训练时，基于正样本提取其他区域类型的样本作为负样本，将每个正样本和负样本的整体特征与对应的特征权重逐元素相乘，加权计算后的结果作为训练样本输入至分类模型中，进行有监督训练，以得到训练后的分类模型。

优选地，所述对区域类型已知的区域构建结构关系，包括：

将教材设置为根节点，遍历全部区域，将标题类型为标题中章的区域作为章子节点挂载到根节点下，并记录区域的文本和位置索引；将标题类型为标题中节的区域作为节子节点挂载到最近章子节点下，并记录区域的文本和位置索引；将标题类型为标题中点的区域作为点子节点挂载到最近节子节点下，并记录区域的文本和位置索引；将正文类型的区域挂载到当前位置索引所对应的标题节点下，其中，标题节点包括章子节点、节子节点、点子节点；

当检测到低级别子节点的标题，但没有检测到高级别父节点的标题，则预生成一个父节点占位符作为缺失节点。

优选地，所述依据结构关系确定缺失节点对应缺失区域在PDF教材中的范围，包括：

在结构关系中找到缺失节点相邻的父节点和子节点，依据父节点和子节点对应区域的位置信息确定缺失区域在PDF教材中的范围。

为实现上述发明目的，实施例还提供了一种结合自动标注和召回补全的教材结构提取装置，包括区域识别模块、区域类型判断模块、特征提取模块、聚类模块、训练模块、结构关系构建模块、召回区域确定模块、召回补全模块；

所述区域识别模块用于采用OCR对PDF教材对应的图片进行区域识别，并记录每个区域包含位置信息和文本信息的识别结果；

所述区域类型判断模块用于利用规则模型根据识别结果判断每个区域的区域类型，其中，区域类型包括页眉、页脚、标题以及正文，其中，标题包括章标题、节标题、点标题；

所述特征提取模块用于依据识别结果提取每个区域的相对位置特征和相对上下文特征并组合得到整体特征；

所述聚类模块用于依据区域类型识别结果构建簇，每个簇对应一个区域类型，依据簇内区域的整体特征计算每个簇的特征权重，并依据特征权重对当前区域进行聚类；

所述训练模块用于为每个区域类型构建1个分类模型，提取区域类型对应簇包含的所有区域作为正样本对分类模型进行训练；

所述结构关系构建模块用于对区域类型已知的区域构建结构关系，该结构关系存在缺失节点；

所述召回区域确定模块用于依据结构关系确定缺失节点对应缺失区域在PDF教材中的范围，并在范围内搜索区域类型未知的区域作为召回区域；

所述召回补全模块用于依据缺失节点对应的区域类型，调用区域类型对应的分类模型对召回区域进行分类，并筛选分类概率最大的召回区域补充到缺失节点。

与现有技术相比，本发明具有的有益效果至少包括：

将教材PDF转换为图片，并通过高精度OCR识别出图片中的每个区域的文本信息和位置信息，再结合规则模型和聚类来构建样本，并利用样本训练与区域类型对应的多种分类模型来预测区域类型未知的区域类型，最后自动召回补全缺失的部分并建立整本教材的内容及结构关系，这样能够实现快速准确地从教材中提取出标题和正文，并建立相应的结构关系。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的结合自动标注和召回补全的教材结构提取方法的流程图；

图2是实施例提供的相对位置特征提取示意图；

图3是实施例提供的特征提取流程图；

图4是实施例提供的类型聚类流程图；

图5是实施例提供的带有缺失节点的教材结构关系示意图；

图6是实施例提供的召回补全后的教材结构关系示意图；

图7是实施例提供的结合自动标注和召回补全的教材结构提取装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了提取出PDF教材的结构关系，需要识别出PDF教材中包含的标题和正文，以及他们之间的层级关系。这里的标题指的是对正文内容的一种概括和分类，如常见的章、节、点等。而正文指的是标题下方对应的具体的说明讲解，例如文本、图、表、公式等。标题之间通常有树状的层级关系，例如一本教材包括很多章，每章包含若干节，有的节下面可能会包含几个点。通常节以上层次的标题都会包含在教材前面的目录中，但有些点级别的标题不一定被收录到目录中，所以仅靠解析教材目录无法覆盖全部的标题。并且目录也只是汇总了标题，无法将标题与正文建立对应关系。

为了从教材中提取出标题和正文，并建立结构关系，本发明提出一种结合自动标注和召回补全的教材结构提取方法和装置，基本思路是将教材的每一页转换成图片，并通过高精度OCR识别每个区域中的文本及坐标信息。然后结合规则模型和聚类来构建训练样本集并训练分类模型，最后通过不断地召回并预测剩余区域，从而生成整本教材的内容结构。

如图1所示，实施例提供的一种结合自动标注和召回补全的教材结构提取方法，包括以下步骤：

步骤1，采用OCR对PDF教材对应的图片进行区域识别，并记录每个区域包含位置信息和文本信息的识别结果。

实施例中，输入PDF教材并转换为对应图片。目前的电子版教材大多是PDF格式，如果是纸质版教材，在本发明的准备工作中会通过扫描的方式统一转换为PDF格式。因此，本发明中所输入的教材默认为PDF文件类型。而用于PDF的加载和读写的技术框架有很多，以python为例，可以通过PyPDF2或者fitz等开源框架来读取，而读取后的PDF信息主要取决于PDF本身。如果PDF是基于标准技术框架生成的，那么PDF读取后可以直接获取文本信息，有的甚至包括一些字符、格式信息。但如果PDF本身是通过影印实体书籍而生成的，那么这种PDF在读取后得到的是只有图片信息，而无法直接获取到文本信息，更不可能获取到字符、格式等信息。由于本发明并不直接依赖从标准PDF中获取到的文本和字符等信息，因此只需要将教材PDF的基本信息读取即可。然后通过PyPDF2或者fitz等开源框架加载PDF并提取出PDF各个页面的像素矩阵，然后通过PIL（Python Imaging Library）等图像处理框架将各个像素矩阵转换为图像文件。转换结果为有序的图片列表，图片总数与PDF页面总数一致，例如第5张图片与PDF中的第5页在视觉和内容上完全一致。在此步骤，各种不同格式的教材PDF均被转换成图片格式，实现了格式的统一，为后续的处理提供了标准的、规范的输入。

实施例中，在获取PDF教材对应的图片后，采用OCR对PDF教材对应的图片进行区域识别，并记录每个区域的识别结果，该识别结果包括位置信息和文本信息。具体地，为了识别出每个教材页面图片中包含的字符内容，这里使用高精度的OCR（Optical CharacterRecognition）框架来进行文本识别。高精度的OCR不但可以识别包括中英文、数字、符号等在内的文本字符作为文本信息，还能识别出每一行文本在页面上的坐标信息作为位置信息。其中，坐标信息通常是一行文本的矩形区域在页面中的位置，记录方式比较灵活，比如矩形四个点的坐标，或者左上角和右下角坐标，或者左上角的坐标及矩阵的高和宽等。

举例说明，通过OCR识别到一行文本为“第一章绪论”，其所在矩形区域对应的坐标信息为：左上角坐标（236,383）、高度52,、宽度533。其中，数值单位是页面图片中的像素点。通过OCR，教材的每个页面中的每一行内容都被转换为文本信息及对应坐标信息，不同行的字符在识别结果中会以换行符进行分隔。

由于教材的各个页面是有序的，且OCR也是由上至下有序识别的，因此全部的文本区域也是有序的，且顺序与教材的阅读顺序相一致。在OCR的处理过程中，各个识别结果的位置信息、文本信息都被记录下来，如表1所示。表1的示例显示，每一个区域块在教材的第几页、以及位于该页中的第几个区域都被记录下来了。同时也记录了通过高精度OCR所识别出的纵坐标、横坐标、宽度、高度，以及文本内容。基于此，就建立了区域块与文本字符的一一对应关系。给定一个文本，可以知道其所在页面的坐标信息；同理，给定页面的坐标区域，也可以知道该区域中所包含的文本内容。这些信息将用于后续的规则模型、特征提取、类型的聚类和分类、教材结构建立，以及遗漏区域的召回等。

步骤2，利用规则模型根据识别结果判断每个区域的区域类型。

规则模型的作用是基于规则对OCR识别出的文本信息和位置信息进行标注，识别出区域类型。其中，其中，区域类型包括页眉、页脚、标题以及正文，标题包括章标题、节标题、点标题；规则包括正则规则和位置规则。

正则规则主要是针对区域的文本内容，利用正则规则对每个区域的文本信息进行识别以确定第一区域类型。具体地，正则规则通过正则表达式等方法来识别。对于标题类型，一本教材的标题层级一般不超过三级，对应级别从高到低依次为章、节、点。每一个级别的标题都有约定俗成的表达模式。例如，“章”的文本模式是“第*章”开头，“节”的文本模式是“1.1”开头，“点”的文本模式是“1.1.1”开头。除此之外，在标题字符中还有一些其他隐含规则。例如，标题中一定要包含中文或英文字符；标题不能包含“？！。”等字符；标题只有一行文字等。而正文往往没有这样的约束，并且文本字符长度较长。例如，如果一行内容中的文本字符长度过长，基本上可以判断该行不是标题而是正文。

位置规则主要约束文本行对应的矩形所在页面的高度比例、宽度比例、像素比例、对齐方式等，利用位置规则对每个区域的位置信息进行识别以确定第二区域类型。具体地，页眉和页脚通常在页面的顶端和底端，比例不超过5%且在整本教材的相近位置反复出现；标题所在矩形的高度通常不会超过页面高度的10%，否则视觉上就会是非常巨大的字体；宽度比例通常不超过页面宽度的70%，因为标题通常都比较简短，加上两侧还有空白区域，所以整体的宽度占比不会太高；矩形中的文本像素比例通常不高于10%，因为绝大多数都是背景空白像素；矩形的位置通常是左对齐或者居中对齐，而右对齐的标题几乎不会出现；若矩形文本宽度超过90%且位置为两端对齐的可以被认定为正文。

最后，综合基于正则规则确定的第一区域类型和基于位置规则确定的第二区域类型，确定每个区域的最终区域类型。为了给后续的聚类和分类模型提供参考，需要保证每种区域类型的区域至少识别出一个以上。

步骤3，依据识别结果提取每个区域的相对位置特征和相对上下文特征并组合得到整体特征。

信息记录中的数据包括位置信息和文本信息。位置信息记录了一个区域在页面中的坐标和大小，而文本信息记录的是该区域中的文字内容。如图3所示，基于区域的绝对坐标和大小，可以提取出每个区域相较于页面上、下、左、右的距离比例和面积比例等特征，作为相对位置特征。如图2所示。假设整个页面的高度为2000像素，宽度为1500像素，区域的左上角的纵坐标为700，横坐标为465，宽度和高度分别为555和240像素。那么设整个页面的宽和高的基数为1.0，则基于页面和区域数据可计算出该区域相对于整个页面的上、下、左、右的距离比例以及面积比例分别为0.35、0.53、0.31、0.32、0.04，这些可作为相对位置特征。

针对区域的文本信息，如图3所示，使用N-gram算法可以从文本中提取一系列的关键字。例如，设定N取值为2的话，从文本“第1章绪论”中可以提取出关键字：第1、1章、章（空格）、（空格）绪、绪论。随后将各个关键字的嵌入向量相加，得到整个文本的文本向量。类似地，计算出各个页面所有区域的文本向量。然后，以作为目标的当前区域为基点，向前选取P个区域作为前区域、向后选取Q个区域作为后区域，前区域和后区域的文本作为当前区域的上下文信息，并通过余弦相似度计算当前区域的文本向量与前后区域的文本向量的相似度，并将所有相似度作为当前区域的相对上下文特征。

需要说明的是，在选择上下文时，允许跨页选择，即当前页面的区域无法满足向前的P个区域时，则用前一页的末位区域依次替补；同理，向后选择时亦是如此。如果教材有页眉和页脚，则页面的第一行和最后一行不参与选择。例如，设定P和Q分别为2和3，则“1.1机器人发展趋势”文本与上下文的相似度计算结果分别为0.03、0.01、0.23、0.19、0.07，这些结果可作为上下文特征。如图3所示，将每个区域的相对位置特征和相对上下文特征合并在一起作为每个区域的整体特征。基于上述两个例子，区域的整体特征为10维，如表2所示。

可以看到的是，本发明方法中所提取的特征均是相对特征，而其他方法主要使用的是原始特征，这是一个明显的区别。由于不同教材的页面宽和高是不同的，因此使用绝对的位置值（如700, 465）没有统计意义。类似地，将目标区域的文本Embedding作为特征也很难判断该文本是标题或是正文。相反，相对特征可以将内在判断逻辑外化出来。比如，相对于整个页面，标题区域的面积可能较大、同时距离两侧比例差不多（居中对齐）、相较于前面的文本，和后面文本的相似度更高等。因此，使用这些相对特征有助于提高各个区域的区分度，有助于进行模型训练和预测。

步骤4，依据区域类型识别结果构建簇，每个簇对应一个区域类型，依据簇内区域的整体特征计算每个簇的特征权重，并依据特征权重对当前区域进行聚类。

通过规则模型的区域识别结果是各种类型的部分区域样本，然而这部分的样本数量也许不足以训练出有监督的分类模型。如果把规则模型识别出的各个区域类型作为簇，即每个簇对应一个区域类型，而把每个簇中的区域作为样本，则可以通过聚类的方式可以不断补充簇中样本的数量，使之满足有监督模型的训练需求。本发明提供了一个自适应的聚类方式，如图4所示，具体流程包括：首先依据簇内区域的整体特征计算每个簇的特征权重，依据特征权重计算当前区域与各当前簇的平均相似度，如果当前区域的最高平均相似度满足阈值条件，则将当前区域加入到最高平均相似度对应的簇。具体实现时，首先依据簇内区域的整体特征计算每个簇的特征权重，然后候选集合中遍历不属于任何簇的所有区域，依据特征权重计算每个区域与各当前簇的平均相似度，选择平均相似度最高的区域，如果平均相似度满足阈值条件，则将其加入到最高平均相似度所对应的簇，并将其从候选集合中删除，重复以上步骤直到不再有区域满足阈值条件为止。

每个簇中特征权重的计算如[式-1]所示。

其中，第i类特征在第j个簇中的特征权重由簇所包含的区域样本所决定。表示第i类特征在第j个簇中的标准方差，/>表示第k类特征在第j个簇中的标准方差，n表示特征总量。/>越小，代表着第j个簇内区域样本在第i类特征上的相似度和集中度越高，意味着第i类特征是第j个簇（区域类型）的显著特征，应当赋予更高的权重。最后将簇内各个特征的权重进行归一化处理，保证所有特征的权重和等于1。值得注意的是，通过[式-1]计算出的各簇的特征权重是不同的。同时，随着簇内区域样本的增加，簇的特征权重也是不断更新变化，自适应当前的样本分布。不同簇内的权重蕴含着不同类型区域的视觉和语义含义。例如，页眉类型的簇内，上距特征的权重可能是最高的，而标题类型的簇内，左距和右距的权重可能较高，而正文类型的簇内，上下文特征的权重可能比位置特征的权重高。

当簇外的目标区域A与簇j计算平均相似度时，使用簇j的特征权重来进行加权计算，具体方法如[式-2]和[式-3]所示。使用各簇特有的特征权重进行加权计算，可以更好地找到与该簇最为相似的目标区域。在不断增加簇内区域样本的同时，保证簇内各样本间的相似程度。

其中，simCluster(A,j)表示区域A与第j个簇的平均相似度，num(j)为簇j内的样本数量，表示区域A与第j个簇内区域B的相似度，/>为第j个簇对应的特征权重中第i个特征的权重，/>和/>分别为区域A和第j个簇中区域B所对应的特征向量中第i个特征的特征值，n表示特征总量。因此，/>公式对应的是两个向量的加权余弦相似度，其中分子是加权内积，分母是加权模的乘积。

步骤5，为每个区域类型构建1个分类模型，提取区域类型对应簇包含的所有区域作为正样本对分类模型进行训练。

聚类结果是一系列的簇及对应的特征权重。每个簇对应一种区域类型，如页眉、页脚、章标题、节标题、点标题、正文等区域类型。每个簇内有若干个区域样本。将这些区域样本的特征、特征权重和作为标签的区域类型对应起来作为样本集。样本构建是为后续的模型训练提供有标签的样本，通过构建各种类型的训练样本集，以便模型可以学习和识别各个区域的类型。

使用构建的样本，可以训练出M个分类模型，M的数值与样本中区域类型的数量相同，也就是为每一种标签（即区域类型）单独训练一个分类模型。分类算法的选择可以选择逻辑回归算法、支持向量机算法、决策树算法等，这里不受限制。当为一种标签训练分类模型时，将该标签对应的样本作为正样本，并将抽取相同的其他样本作为负样本，再将标签对应的特征权重分别与这些正样本和负样本的整体特征相乘作为训练样本，将训练样本输入到正样本对应的分类模型中，基于标签进行有监督训练，以得到训练后的分类模型。

举例来说，当训练“章标题模型”用来判定区域是否为章标题时，首先将标签为“章”的样本找出作为正样本，再从其他标签的样本中随机选择数量相近的样本作为负样本，并保证正负样本的数量相同。然后将正负样本的整体特征向量与章标签所对应的特征权重向量逐元素相乘，加权计算后的结果作为训练样本。计算方法如[式-4]所示。其中，是原始的样本特征向量，/>是特征权重，/>是加权计算后的特征向量。

使用特征权重对区域样本的整体特征向量进行加权，可以强化标签的显著特征，提高正负样本之间的区分度，有助于提高分类模型的预测精度。值得一提的是，当用某一分类模型预测未知区域的类型前，也要使用分类模型所对应的特征权重来进行加权计算后，再进行类别预测，从而保证训练与预测的一致性。

步骤6，对区域类型已知的区域构建结构关系，该结构关系存在缺失节点。

按照教材排版的设定，章标题的级别高于节标题，节标题的级别高于点标题。这意味着任何一个级别的标题无法独立存在，需要和其他级别的标题建立层级关系。基于规则模型和聚类的识别结果，将教材设置为根节点，遍历全部区域，将标题类型为标题中章的区域作为章子节点挂载到根节点下，并记录区域的文本和位置索引；将标题类型为标题中节的区域作为节子节点挂载到最近章子节点下，并记录区域的文本和位置索引；将标题类型为标题中点的区域作为点子节点挂载到最近节子节点下，并记录区域的文本和位置索引；将正文类型的区域挂载到当前位置索引所对应的标题节点下，其中，标题节点包括章子节点、节子节点、点子节点，通过上述方式，可以将教材组织成有层次的树状结构关系。

根节点包含若干个章，每个章包含若干个节，每个节包含若干个点。其中无论是章、节、点节点，都可能包含若干个正文。整棵树按照由上到下，由左至右的顺序排列，与教材的顺序保持一致。

当检测到低级别子节点的标题，但没有检测到高级别父节点的标题，则预生成一个父节点占位符作为缺失节点，该缺失节点代表这里应该有某个层级的节点但没有被识别出来。例如，识别出的一个“点”级别的标题，文本为“3.1.1 连杆参数”，通过正则表达式或语义分析可知，其属于第3章第1节中第一个点级别标题。但由于在其前序模型并没有识别出“3.1”开头的“节”级别的标题，因此在建立结构时会预先生成一个“节”标题的占位符以保证结构的完整性，再将“3.1.1 连杆参数”作为子节点挂在到该占位节点下。类似地，当识别出一个点节点“2.3.3齐次变换的逆”后，发现前面只有一个点节点“2.2.1 基本旋转矩阵”，可知中间缺失了一个节点，因此也预生成一个节点来进行标记。图5以思维导图的格式作为示例展示了教材的部分结构及缺失节点。椭圆形代表这里应该有节点但尚未识别出来。由于结构的首次生成是基于规则模型及聚类模型的结果，通常会有很多区域尤其是标题区域被漏掉。这些缺失的区域块会在后续的召回、预测步骤的迭代中逐渐补全。

步骤7，依据结构关系确定缺失节点对应缺失区域在PDF教材中的范围，并在范围内搜索区域类型未知的区域作为召回区域。

图5所示的结构关系中包含了若干个缺失的标题，这些标题没有被识别出来的原因一方面是规则模型和聚类过程设置的参数比较严格而未满足条件，另一方面可能是由于OCR结果的错误。例如，一个区域在教材中对应的文本为“3.1 坐标系的建立方法”，它本该被识别为节标题，但OCR的识别结果漏掉了其中的“3.1”，而实际识别出的文本为“坐标系的建立方法”。由于它不符合预设的规则，因此该区域未被判定为节标题，从而导致该节点的缺失。虽然不知道被漏掉的节标题具体哪个区域，但通过标题的层级分析，可以推断出这个节标题的位置应该在“2.3.2 欧拉角”和“3.1.1 连杆参数”所对应的区域之间。因此，在结构关系中找到缺失节点相邻的父节点和子节点，结合信息记录表，依据父节点和子节点对应区域的位置信息，从而确定缺失区域在PDF教材中的范围，并在范围内搜索区域类型未知的区域作为召回区域。

以表1为例，假设发现遗漏了一个“1.2”级别的节标题，可分析出它应该在前面的“1.1机器人发展趋势”和后面的“1.2.1机器人系统组成”之间。因此缺失区域潜在的范围应该在11页的8区域至14页的9区域之间，包括11页的30区域、12页的2区域、14页的1区域等。然后将该范围内类型未知的区域提取出来作为召回区域，利用训练好的分类模型来进行预测，即可召回被遗漏的节标题。另外，召回的顺序原则是潜在范围内缺失区域越少越优先、范围内未知区域越少越优先，从而尽可能地降低由于分类模型的误识别所导致的召回错误。

步骤8，依据缺失节点对应的区域类型，调用区域类型对应的分类模型对召回区域进行分类，并筛选分类概率最大的召回区域补充到缺失节点。

对于一系列召回区域，预测其类型并非无差别预测，而是有针对性的预测。换言之，并非预测各个区域属于哪种类型，而是预测哪个区域最有可能是缺失的那个类型。继续上述示例，发现遗漏了一个“1.2”级别的节标题，并且已经召回了潜在的召回区域在11页8区域至14页9区域之间，包括11页的30区域、12页的2区域、14页的1区域等。若想召回节标题，则使用训练好的节标题类型的分类模型，然后将各个候选区域所对应的特征向量与节标题类型的特征权重向量按照[式-4]的方法进行加权计算后输入到训练好的节标题分类模型中，可以预测出各个召回区域属于节标题类型的概率。最后选择节标题类型概率最大的召回区域作为预测结果，例如，14页1区域。

由于在区域召回时，通过标题的语义分析锁定了较为准确的位置范围，因此可以极大地提升分类模型预测的成功率。另外，模型预测出的类型结果，将补全并更新已建立好的教材结构。随后，系统会基于最新的教材结构再进一步地召回其他的未知区域并进行预测，补全和更新，直至所有未知区域的类型都被预测出来。更新补全后的教材结构及内容如图6所示。

基于同样的发明构思，如图7所示，实施例还提供了一种结合自动标注和召回补全的教材结构提取装置700，包括区域识别模块710、区域类型判断模块720、特征提取模块730、聚类模块740、训练模块750、结构关系构建模块760、召回区域确定模块770、召回补全模块780。

其中，区域识别模块710用于采用OCR对PDF教材对应的图片进行区域识别，并记录每个区域包含位置信息和文本信息的识别结果；区域类型判断模块720用于利用规则模型根据识别结果判断每个区域的区域类型；特征提取模块730用于依据识别结果提取每个区域的相对位置特征和相对上下文特征并组合得到整体特征；聚类模块740用于依据区域类型识别结果构建簇，每个簇对应一个区域类型，依据簇内区域的整体特征计算每个簇的特征权重，并依据特征权重对当前区域进行聚类；训练模块750用于为每个区域类型构建1个分类模型，提取区域类型对应簇包含的所有区域作为正样本对分类模型进行训练；结构关系构建模块760用于对区域类型已知的区域构建结构关系，该结构关系存在缺失节点；召回区域确定模块770用于依据结构关系确定缺失节点对应缺失区域在PDF教材中的范围，并在范围内搜索区域类型未知的区域作为召回区域；召回补全模块780用于依据缺失节点对应的区域类型，调用区域类型对应的分类模型对召回区域进行分类，并筛选分类概率最大的召回区域补充到缺失节点。

需要说明的是，上述实施例提供的结合自动标注和召回补全的教材结构提取装置在进行教材结构提取时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的结合自动标注和召回补全的教材结构提取装置与结合自动标注和召回补全的教材结构提取方法实施例属于同一构思，其具体实现过程详见结合自动标注和召回补全的教材结构提取方法实施例，这里不再赘述。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种结合自动标注和召回补全的教材结构提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的结合自动标注和召回补全的教材结构提取方法，其特征在于，所述规则模型包括正则规则和位置规则，利用规则模型判断每个区域的区域类型，包括：

3.根据权利要求1所述的结合自动标注和召回补全的教材结构提取方法，其特征在于，所述依据识别结果提取每个区域的相对位置特征和相对上下文特征并组合得到整体特征，包括：

4.根据权利要求3所述的结合自动标注和召回补全的教材结构提取方法，其特征在于，采用N-gram算法提取文本中的关键字；

为当前区域选择前区域和后区域时，允许跨页选择。

5.根据权利要求1所述的结合自动标注和召回补全的教材结构提取方法，其特征在于，所述依据簇内区域的整体特征计算每个簇的特征权重，包括：

；

6.根据权利要求1所述的结合自动标注和召回补全的教材结构提取方法，其特征在于，所述依据特征权重对当前区域进行聚类，包括：

；

7.根据权利要求1所述的结合自动标注和召回补全的教材结构提取方法，其特征在于，对分类模型进行训练时，基于正样本提取其他区域类型的样本作为负样本，将每个正样本和负样本的整体特征与对应的特征权重逐元素相乘，加权计算后的结果作为训练样本输入至分类模型中，进行有监督训练，以得到训练后的分类模型。

8.根据权利要求1所述的结合自动标注和召回补全的教材结构提取方法，其特征在于，所述对区域类型已知的区域构建结构关系，包括：

9.根据权利要求1所述的结合自动标注和召回补全的教材结构提取方法，其特征在于，所述依据结构关系确定缺失节点对应缺失区域在PDF教材中的范围，包括：

10.一种结合自动标注和召回补全的教材结构提取装置，其特征在于，包括区域识别模块、区域类型判断模块、特征提取模块、聚类模块、训练模块、结构关系构建模块、召回区域确定模块、召回补全模块；