CN110705503A

CN110705503A - 生成目录结构化信息的方法和装置

Info

Publication number: CN110705503A
Application number: CN201910973998.6A
Authority: CN
Inventors: 田英爱; 王长胜; 李宁; 施运梅; 李海波
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-01-17
Anticipated expiration: 2039-10-14
Also published as: CN110705503B

Abstract

本公开的实施例公开了生成目录结构化信息的方法和装置。该方法的一具体实施方式包括：获取待处理版式文档，待处理版式文档包括目录；基于目录的目录特征信息，对目录进行识别，得到版式目录信息；对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息；将处理后的版式目录信息映射为目录结构化信息。该实施方式增强了目录在不同设备上显示的自适应性。

Description

生成目录结构化信息的方法和装置

技术领域

本公开的实施例涉及计算机版式技术领域，具体涉及生成目录结构化信息的方法和装置。

背景技术

数字出版物，常见为电子书，基本都含有目录，可以在在电脑、手机、大型号立柜式的触摸屏、电纸书等数字阅读设备上呈现。目录大体有三种作用：1、目录信息的纯静态独立展现，通常与该书籍的封面、作者等元数据信息、内容简介一起展现给读者(无交互行为)，也称之为元数据目录或浏览展示目录。2.阅读过程中展现目录信息供读者点击跳转到对应章节，也称之为活动目录。3.作为书籍内容的一部分静态呈现给读者，也称之为内容目录。

当前数字出版资源加工的输入多是专业排版软件的中间产物，如 PDF等纯版式文档。一般来说，这类文档的阅读显示与印刷效果一致。但是由于不包含流式的目录结构化信息或者经过自动化的智能版面识别后得到的流式的目录结构化信息质量较差，因而在不同尺寸屏幕的设备之间的自适应性阅读效果差，无法完全满足“一次出版，多平台应用，多途径传播”的目标。

为解决这类问题，需要针对版式文档中的内容目录进行提取。目前，主要通过人工智能算法进行识别和提取。实践中，版式文档目录的排版方式千差万别。常见的包括：带有背景图(如图6所示)、带层级(如图7所示)、带有页眉页脚(如图8所示)、带底纹填充(如图 9所示)、带装饰图案(如图10所示)、多栏(如图11所示)等等排版方式。

由于人工智能算法是在大量样本基础上训练优化得到的，对于排版比较复杂的版式文档的目录进行提取时，常常出现以下问题：一段目录被拆分为两段(如图12a和12b所示)、多段目录被合并为一段(如图13a和13b所示)、流式图元顺序错乱、包含透明底图/图形/图像/ 底纹/页眉页脚等噪声、包含无用的修饰字符串等等。本公开的实施例旨在提出一种准确率高的生成目录结构化信息的方法和装置。

发明内容

本公开的实施例提出了生成目录结构化信息的方法和装置。

第一方面，本公开的实施例提出了一种生成目录结构化信息的方法，包括：获取待处理版式文档，待处理版式文档包括目录；基于目录的目录特征信息，对目录进行识别，得到版式目录信息；对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息；将处理后的版式目录信息映射为目录结构化信息。

在一些实施例中，目录特征信息包括目录起始页码和目录结束页码，目录起始页码和目录结束页码通过以下步骤确定：确定活动目录中是否包含目录起始页码和目录结束页码；响应于确定活动目录中包含目录起始页码和目录结束页码，从活动目录中获取目录起始页码和目录结束页码；响应于确定活动目录中不包含目录起始页码和目录结束页码，接收操作人员输入的目录起始页码和目录结束页码。

在一些实施例中，目录特征信息包括阅读方向信息，阅读方向信息通过以下步骤确定：确定待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向是否相同；响应于确定待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向相同，将预设阅读方向信息确定为阅读方向信息；响应于确定待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向不同，从预设的至少一个候选阅读方向信息中选取一个候选阅读方向信息作为阅读方向信息。

在一些实施例中，对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息，包括：去除目录起始页码至目录结束页码范围内的非文本图元，保留目录页版心范围内的文本图元并按页储存，得到页面块集和页面块中的文本图元集；根据目录特征信息中的栏目类型、目录页版心和阅读方向，得到分栏区域框集合；依据阅读顺序,分栏区域的宽度，文本图元纵坐标和转换矩阵值计算得到真实绘制起始纵坐标偏差值，若某行中各文本图元纵坐标偏差值大于偏差范围且纵坐标偏差值无交集时，则依据纵坐标偏差值拆分为多个独立文本图元数据，并重新拆解和组装对应的页面块，在误差偏差范围内且没有超出的分栏区域的宽度的文本图元归并为一行，成行分析计算的结果形式依然为版面块集和文本图元集；在成行分析的结果上进行成段分析，若前后两行的字体大小、文本勾边/填充颜色、字体样式、字体名称不同，则前一行独立成段；若前后两行行尾字符的起始绘制横坐标值差值小于误差偏差范围且纵坐标值差值大于误差偏差范围，则前一行独立成段；若前后两行首字符为目录级别编号或目录项修饰符中“第”，而且后续3 个字符出现在目录级别编号或关键字列表或目录项修饰符中，则前一行独立成段；若前后两行行首字符横坐标值差值小于误差偏差范围且纵坐标值差值大于误差偏差范围，则前一行独立成段；若前后两行纵坐标偏差值存在交集时，继续判断下一行是否与第一行纵坐标偏差值存在交集，若存在交集且该行与前一行的行首横坐标值差值小于1mm，且接续的下一行中匹配到大量目录项修饰符，则将这些行归并为一段；循环处理目录页范围内的前后两行文本的成段分析，跨页时前后两页的两行成段分析与上述成段分析相同，得到成行分段结果；对于成行分段结果内的行文本图元进行流式文本图元阅读顺序重排计算和流式去重分析计算；调整文档阅读顺序。

在一些实施例中，将处理后的版式目录信息映射为目录结构化信息，包括：初始化结构化信息根节点，以及生成对应的目录页节点；在目录页节点下增加段落节点；在段落节点下增加片段节点，以及将处理后的版式目录信息中所包含的页码映射到片段节点；在片段节点下增加图元块节点，以及将处理后的版式目录信息中所包含的图元映射到图元块节点。

第二方面，本公开的实施例提出了一种生成目录结构化信息的装置，包括：获取单元，被配置成获取待处理版式文档，待处理版式文档包括目录；识别单元，被配置成基于目录的目录特征信息，对目录进行识别，得到版式目录信息；处理单元，被配置成对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息；映射单元，被配置成将处理后的版式目录信息映射为目录结构化信息。

在一些实施例中，处理单元包括以下子单元：去噪子单元，被配置成去除目录起始页码至目录结束页码范围内的非文本图元，保留目录页版心范围内的文本图元并按页储存，得到页面块集和页面块中的文本图元集；分栏子单元，被配置成根据目录特征信息中的栏目类型、目录页版心和阅读方向，得到分栏区域框集合；成行子单元，被配置成依据阅读顺序,分栏区域的宽度，文本图元纵坐标和转换矩阵值计算得到真实绘制起始纵坐标偏差值，若某行中各文本图元纵坐标偏差值大于偏差范围且纵坐标偏差值无交集时，则依据纵坐标偏差值拆分为多个独立文本图元数据，并重新拆解和组装对应的页面块，在误差偏差范围内且没有超出的分栏区域的宽度的文本图元归并为一行，成行分析计算的结果形式依然为版面块集和文本图元集；分段子单元，被配置成在成行分析的结果上进行成段分析，若前后两行的字体大小、文本勾边/填充颜色、字体样式、字体名称不同，则前一行独立成段；若前后两行行尾字符的起始绘制横坐标值差值小于误差偏差范围且纵坐标值差值大于误差偏差范围，则前一行独立成段；若前后两行首字符为目录级别编号或目录项修饰符中“第”，而且后续3个字符出现在目录级别编号或关键字列表或目录项修饰符中，则前一行独立成段；若前后两行行首字符横坐标值差值小于误差偏差范围且纵坐标值差值大于误差偏差范围，则前一行独立成段；若前后两行纵坐标偏差值存在交集时，继续判断下一行是否与第一行纵坐标偏差值存在交集，若存在交集且该行与前一行的行首横坐标值差值小于1mm，且接续的下一行中匹配到大量目录项修饰符，则将这些行归并为一段；循环处理目录页范围内的前后两行文本的成段分析，跨页时前后两页的两行成段分析与上述成段分析相同，得到成行分段结果；去重子单元，被配置成对于成行分段结果内的行文本图元进行流式文本图元阅读顺序重排计算和流式去重分析计算；调整文档阅读顺序。

第三方面，本公开的实施例提出了一种电子设备，该电子设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当上述一个或多个程序被上述一个或多个处理器执行，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本公开的实施例提出了一种计算机可读介质，其上存储有计算机程序，上述程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本公开的实施例提出的生成目录结构化信息的方法和装置，首先获取待处理版式文档，待处理版式文档包括目录。之后，基于目录的目录特征信息，对目录进行识别，得到版式目录信息。在此基础上，对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息。最后，将处理后的版式目录信息映射为目录结构化信息。从而实现了从版本文档提取结构化目录信息。由于结构化目录信息描述了目录中的信息的结构层次，从而通过生成目录结构化信息，增强了目录在不同设备上显示的自适应性。其中，通过去噪、分栏、成行分段、去重处理，提高了处理后的版式目录信息的准确率，进而提高了最后生成的目录结构化信息的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的生成目录结构化信息的方法的一个实施例的流程图；

图3是根据本公开的生成目录结构化信息的方法的又一个实施例的流程图；

图4是根据本公开的生成目录结构化信息的装置的一个实施例的结构示意图；

图5是适于用来实现本公开的实施例的电子设备的结构示意图；

图6-图11示例性的版式文档目录的排版方式；

图12a和12b是一段目录被拆分为两段的示意图；

图13a和13b是多段目录被合并为一段的示意图。

具体实施方式

下面结合附图和实施例对本公开的作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关公开，而非对该公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的实施例的生成目录结构化信息的方法或生成目录结构化信息的装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105 交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用，例如扫描类应用、拍照类应用、文字识别类应用、电子书阅读类应用、文档处理类应用等等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、 102、103上的应用提供支持的后台服务器。作为示例，后台处理服务器可以从终端设备101、102、103获取待处理版式文档，并对待处理版式文档进行处理，最终生成目录结构化信息。根据实际需要，还可以将生成的目录结果树发送至上述终端设备进行显示。

需要说明的是，本公开的实施例所提供的生成目录结构化信息的方法一般由服务器105执行，相应地，生成目录结构化信息的装置一般设置于服务器105中。根据实际需要，生成目录结构化信息的方法也可以由终端设备101、102、103执行，相应地，生成目录结构化信息的装置也可以设置于终端设备101、102、103中。可以理解，此时可以不设置服务器以及网络。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本公开的生成目录结构化信息的方法的一个实施例的流程200。该生成目录结构化信息的方法，包括以下步骤：

步骤201，获取待处理版式文档，待处理版式文档包括目录。

在本实施例中，上述生成目录结构化信息的方法的执行主体(例如图1中的服务器)可以通过有线或无线的方式从通信连接的终端设备 (终端设备101、102、103)中获取待处理版式文档。实践中，待处理版式文档也可以存储在上述执行主体本地。此时，上述执行主体可以直接本地获取上述待处理版式文档。待处理版式文档可以是任意的版式文档。待处理版式文档的确定可以由技术人员指定，也可以根据一定的条件筛选。作为示例，可以将当前接收到终端设备发送的请求中信息所指向的版式文档作为待处理版式文档。其中，待处理版式文档中包括目录。实践中，版式文档可以是一种独立于软件、硬件、操作系统等显示设备或打印设备的文档。作为示例，可以是PDF、CEBX、 OFD等格式的文档。

目录常见于各类电子或纸质文档中，可以用于描述文档的内容的信息。

步骤202，基于目录的目录特征信息，对目录进行识别，得到版式目录信息。

在本实施例中，上述执行主体可以基于目录的目录特征信息，对目录进行识别，得到版式目录信息。其中，目录特征信息可以是用于描述目录的各种特征的信息。目录的特征包括但不限于：全文的阅读顺序、文档度量单位、目录页版心、行间距偏差值、字间距偏差值、目录页分栏数目、目录起始页码、目录结束页码、关键字列表、目录级别编号、目录项修饰符等等。其中，作为示例，关键字列表可以是：第、章、回、篇、节、单元。作为示例，目录级别编号可以是：1，2，3…、一，二，三…。作为示例，目录项修饰符可以包括：制表符、空格、括号等等。

在本实施例中，根据目录的目录特征信息所指示的特征的不同，可以采取不同的方法对目录进行识别，从而得到版式目录信息。作为示例，目录特征信息所指示的特征包括目录页版心。上述执行主体可以从目录起始页读取页面版心，并确定为目录页版心。若读取失败，也可以接收技术人员所输入的选框区域，并确定为目录页版心。其中，作为示例，目录起始页可以通过接收技术人员输入起始页的页码的方式确定。目录页版心一般包括了目录的主体内容，不包含页眉页脚等非必要的信息。从而在对目录进行识别的过程中，可以排除页眉页脚等非必要信息。

在本实施例的一些可选的实现方式中，目录特征信息包括目录起始页码和目录结束页码，目录起始页码和目录结束页码通过以下步骤确定：确定活动目录中是否包含目录起始页码和目录结束页码；响应于确定活动目录中包含目录起始页码和目录结束页码，从活动目录中获取目录起始页码和目录结束页码；响应于确定活动目录中不包含目录起始页码和目录结束页码，接收操作人员输入的目录起始页码和目录结束页码。实践中，活动目录可以包括在版式文档中。活动目录可以包括页面跳转信息、目录页子项信息等，而目录页子项信息中可以包括目录起始页码和目录结束页码。

在本实施例的一些可选的实现方式中，目录特征信息包括阅读方向信息，阅读方向信息通过以下步骤确定：确定待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向是否相同；响应于确定待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向相同，将预设阅读方向信息确定为阅读方向信息；响应于确定待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向不同，从预设的至少一个候选阅读方向信息中选取一个候选阅读方向信息作为阅读方向信息。

本申请的上述步骤可以通过编程来实现，例如，可以采用以下方式实现：

初始化识别上下文：给定全文书写/阅读顺序，如l2r—表示从左到右，至上而下书写/阅读顺序readDirection；文档度量单位docUnit，如mm毫米；目录页版心pageCntBox；行间距或字间距偏差值dOffset，取值4pt；目录页分栏类别columnType，单栏，双栏，四栏等；目录页起始结束页码tocStartPage/EndPage，特殊多篇目录页时则记录n个起始结束页码区间，无目录时记录0/0；此外还给定目录分析特有信息：常见关键字列表 tocKeys:{第、章、回、篇、节、单元}，常见目录级别编号tocLists:{1,2,3…、一,二,三…}，常见目录项修饰符tocDecos:{Tab制表符,space空格,(),[],., /,-}。即<readDirection,docUnit,pageCntBox,dOffset,columnType, vecTocStart/EndPage,tocKeys,tocLists,tocDecos>。

其中tocStart/EndPage目录页起始结束页码可从活动目录的目录页中获取，若无则人为配置给出；同样readDirection默认取值l2r，若文档阅读方向不同于默认值则从所有阅读方向的枚举值中选择一个；文档度量单位docUnit从文档中即可获取；目录页版心pageCntBox，首先从该目录页起始页读取页面版心区域，若无则人为框选出该版心区域box。目录页分类类别columnType默认单栏，即常见的不分栏目录，若实际文档不同于默认值则人为给出其枚举值(可依据目录页版心pageCntBox和对应的分栏类型计算出各栏的区域框columnBox，各栏的前后顺序通常可从 readDirection等价映射而来，当然也可比较各columnBox中各目录项的页码大小识别各栏的前后顺序)。依据段落外边框选取该范围内的图元信息列表以及页面块信息列表，记为选取结果，即PageObjectList& pageBlockList。其中PageObject记录图元类别type信息和标识id,外接矩形边框box，是否跨页以及跨页时页码，文本图元还记录字体大小和间距值以及其文本内容列表信息(起始绘制点x,y,文本字符串strText),即图元 PageObject<type,id,box,bCrossPage,pageNumber,fontSize,charSpace, wordSpace,x,y,strText>；pageBlock记录该页面排版框标识id,以及 <pageObjId,PageObjectRefId,CTM转换矩阵,ClipArea裁剪区>。

步骤203，对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息。

在本实施例中，上述执行主体可以对步骤202中得到的版式目录信息，依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息。

作为示例，上述执行主体可以对版式目录信息依次进行去噪处理。具体来说，去除目录起始页到目录结束页之间的所有非文本图元。其中，图元可以是页面内容的基本单元。例如，文本、图像、表格等等。对于图像等非文本图元的删除可以降低这些图元对于后续处理的干扰。去噪处理的结果可以预设的存储方式进行存储。例如，去噪的结果按页储存在页面块集和页面块中的文本图元集中。页面块记录其标识、页面图元对象、页面图元对象引用的文本图元标识、以及转换矩阵、裁剪区、绘制参数以及外接矩形框信息。页面块文本图元记录其标识、字体、字体大小、字体样式、是否可见、文本透明度、文本勾边/填充颜色，以及文本内容串列表信息(起始绘制点坐标、文本字符串、字符间距、字送、字间距)。

在本实施例的一些实现方式中，对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息，包括：对于版式目录信息包括的版面块进行拆分。其中，版面块包含在页面中，页面通过各个版面块作为容器组织页面内容。将版式目录信息中的版面块进行拆分，对于包含多个版面块的页面来说，便于后续去除非版心区域的内容，提高了后续处理的准确性。作为示例，上述执行主体可以对经过去噪处理后得到的信息进行分栏。例如，若目录特征信息所指示的特征包含目录页分栏数目，可以根据目录页分栏数目的具体值进行均分分栏。实践中，可以根据分栏数据、目录页版心、阅读方向等特征得到多个分栏区域。正常单栏只有一个分栏，多栏时才会有多个分栏区域框。多个分栏之间的顺序可以根据全文的阅读顺序映射而来。当然，多个分栏之间的顺序也可以通过比较各栏区域中各目录项中的页码大小识别各分栏的前后顺序。

作为示例，上述执行主体可以对分栏后的信息进行成行分段。对于多个分栏中的每个分栏中的多个文本，可以根据各个文本的坐标值进行成行分段。具体来说，若某行中各个文本的纵坐标的偏差值大于预设的阈值，可将这些文本分行。若各个文本的纵坐标的偏差值小于或等于预设的阈值，则可以分为一行。

在此基础上，可以继续进行分段处理。例如，若两行的文本的首字符的多个特征(例如字体、字号等)不同，则前一行单独成段。例如，若两行的行尾字符的横坐标的差值小于预设的阈值，并且纵坐标的差值大于预设的阈值，即两行基本右对齐，则前一行独立成段。若两行首字符为目录级别编号或目录项修饰符中的“第”，并且后续三个字符出现在目录级别编号或目录项修饰符中，则前一行独立成段。实践中，根据不同版式文档的不同特性，可以采用不同的成行分段方法。

在本实施例中，上述执行可以对经过成行分段的信息进行去重处理。例如：对于完全相同的文本句，并且这些文本句的纵坐标之间的偏差值小于预设的阈值，则可以保留其中一个文本句，而去除其余的文本句。实践中，可以根据实际需要，确定保留其中的哪个文本句。例如，可以保留最后生成的文本句。

1)其中去噪：去除目录页起始结束页码tocStartPage/EndPage范围内的所有非文本图元，而且仅仅保留目录页版心pageCntBox范围内的文本图元。保留措施还包括可能的pageCntBox交叉范围内的含有文本图元的复合图元及其版面块pageBlock的拆分，即去除版心交叉或其范围内的装饰图象/图形/复合等非文本图元。去噪的结果按页储存在vecPageBlock 页面块集and vecText页面块中的文本图元集。PageBlock记录其标识id，pageObjId页面图元对象Id，pageObjRefId页面图元对象引用的文本图元标识id,以及pageObjCTM转换矩阵,pageObjClipArea裁剪区,绘制参数 drawParam以及外接矩形框box信息，即<id,<pageObjId,pageObjRefId, pageObjCTM,pageObjClipArea,drawParam,box>>。Text文本图元记录其标识id,Font字体,fontSize字体大小,weight/Italic字体样式,是否可见 Visible,Alpha文本透明度，textStroke/FillColor文本勾边/填充颜色，以及文本内容串列表信息(起始绘制点x,y,文本字符串 strText,kerning/charSpace字符间距|charDistance字送,wordSpace字间距). 即<id,font,fontSize,weight,italic,visible,alpha,strokeColor,fillColor, <x,y,strText>>。

2)其中分栏：依据<columnType,pageCntBox,readDirection>计算分栏区域框集合vecColumnBox,正常单栏只有一个columnBox，其值等价 pageCntBox；多栏时才会有多个分栏区域框。分栏各区域框依据 columnType+readDirection相应均分pageCntBox，各columnBox前后顺序可以简单的从readDirection映射而来，复杂一点可以通过比较各栏区域中各目录项中的页码大小计算得到它们的前后阅读顺序。

3)其中成行分段：首先依据上述分栏结果vecColumnBox，逐一框选得到各分栏框区域内的所有目录项信息：vecPageBlock and vecText。然后进行成行分析，初始若文本图元内各文本句的y坐标值不同则先按照y 值进行拆解，并重新组装对应的页面块pageBlock；依据readDirection, columnBox的宽度,文本图元y坐标和CTM值计算得到真实绘制起始dY 值，若某行中各文本图元dY的偏差值大于dOffset且dY值无交集时，则依据dY拆分为n个独立Text文本图元数据,同时重新拆解并组装对应的页面块pageBlock以保持版面的正确性。在误差dOffset偏差范围内且没有超出的columnBox的宽度的文本图元归并为一行，成行分析计算的结果形式依然为vecPageBlock and vecText。在成行分析计算的结果上进行成段分析，若前后两行的fontSize,Stroke/FillColor,weight/Italic,甚至font字体名称明显不同，则前一行独立成段，结果记录paraInfo： <pageBlockId该段对应的页面块id,该段所在页码值pageNumber>；否则前后两行行尾字符的起始绘制x值差值小于dOffset且y值差值大于 dOffset，即基本右对齐，则前一行独立成段，结果记录paraInfo；否则若前后两行首字符为tocList or tocKeys中“第”，而且后续3个字符出现在tocList or tocKeys or tocDecos中，则前一行独立成段，结果记录paraInfo；否则若前后两行行首字符x值差值小于dOffset且y值差值大于dOffset，即基本左对齐，(且行尾5个字符出现在tocList数字页码or tocDecos装饰字符列表中的个数不少于2个；若小于2则进行行首字符匹配tocList or tocDecos—有些目录项页码制表符等编排在行首，若匹配个数不少于2 个)，则前一行独立成段，结果记录paraInfo；若前后两行dY值存在交集时，继续判断下一行是否与第一行dY存在交集，若存在交集且该行与前一行的行首x坐标值差值小于1mm，且接续的下一行中匹配到大量 tocDecos，则将这些行归并为一段，结果记录paraInfo2:<pageBlockId, space,pageBlockId,space,pageBlockId,pageBlockId,pageNumber>；其它情形暂且将两行归并为一个段落。循环依据上述成段计算处理页内columnBox范围内的前后两行，跨页分析处理前后两页的两行成段计算依然同上处理逻辑，若跨页多行归并为一个段落则paraInfo中跨页行所在的页码值需要记录为上一页的页码值。此外其它情形中暂且将前后两行归并为一段时，还需要处理一种特殊情形，即一个逻辑目录项段落中编排作者将n个目录项合并到一个段落中。此时需要进一步拆分该逻辑段落中的n个目录项信息为n个目录项逻辑段落，拆分依据是在tocLists or tocDecos ortocKeys中查找文本行中的页码号及其前后缀修饰符以及分隔符号，依次找到后还需要重新拆解Text文本图元及其对应的 pageBlock，最终结果记录为n个paraInfo。

4)其中去重：依据上述成行分段结果，依次对paraInfo/paraInfo2内的行文本图元vecText进行必要的流式文本图元阅读顺序重排计算和流式去重分析计算，首先依据文本图元起始绘制x坐标值及其CTM值计算得到真实排版绘制位置dX，再结合阅读顺序依据readDirection值得到行内文本图元的排序列表，若前后文本句宽度存在包含关系则依据宽度短的文本句的dX值在长的文本句的文本图元中查找并计算dX之前以及dX 加短文本句宽度之后的文本句，将该文本图元拆解为2个文本图元(相应地也重新组装其对应的pageBlock)，并重新排序文本图元顺序。依次进行直到该行结束,最后重新组装它们对应的pageBlock下的pageObject图元引用顺序,即整个文字阅读顺序。相应地上述dX排序过程中，若文本句完全相同且存在dY值也完全重合或者它们之间的偏差值小于dOffset且偏差在该fontSize的20％范围之内时，此时去除底层重叠/阴影字即仅保留pageBlock中后绘制的文本图元，多余的重叠字图元不参与流式重排 (重叠字/阴影字效果通常是n多个相同字前后进行微小幅度的(x,y)错位—常用CTM矩阵平移实现，搭配绘制颜色的差异叠加错位而成)；若行尾或行首文本图元字符全部为tocDecos中制表符或.或/等装饰字符或仅仅为页码数字时，此时也全部忽略它们参与流式重排。文本字符阅读顺序重排和去重计算后的结果形式是微调后的paraInfo/paraInfo2。

步骤204，将处理后的版式目录信息映射为目录结构化信息。

在本实施例中，上述执行主体可以将处理后的版式目录信息映射为目录结构化信息。作为示例，上述执行主体可以利用一些现有的目录结构化信息生成工具将处理后的版式目录信息映射为目录结构化信息。

在本实施例中，通过首先获取待处理版式文档，待处理版式文档包括目录。之后，基于目录的目录特征信息，对目录进行识别，得到版式目录信息。在此基础上，对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息。最后，将处理后的版式目录信息映射为目录结构化信息。从而实现了从版本文档提取结构化目录信息。由于结构化目录信息描述了目录中的信息的结构层次，通过生成目录结构化信息，增强了目录在不同设备上显示的自适应性。其中，通过去噪、分栏、成行分段、去重处理，提高处理后的版式目录信息的准确率，进而提高最后生成的目录结构化信息的准确性。基于此，可以快速生成或完善版式文档中的目录结构化信息。

继续参考图3，图3示出了根据本公开的生成目录结构化信息的方法的又一个实施例的流程图。

步骤301，获取待处理版式文档，待处理版式文档包括目录。

步骤302，基于目录的目录特征信息，对目录进行识别，得到版式目录信息。

步骤303，对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息。

步骤304，将处理后的版式目录信息映射为目录结构化信息，包括以下步骤：

步骤3041，初始化结构化信息根节点，以及生成对应的目录页节点。

步骤3042，在目录页节点下增加段落节点。

步骤3043，在段落节点下增加片段节点，以及将处理后的版式目录信息中所包含的页码映射到片段节点。

步骤3044，在片段节点下增加图元块节点，以及将处理后的版式目录信息中所包含的图元映射到图元块节点。

初始化结构化根节点，同时构建类型Type为TableOfContents的目录页节信息。通过上述去噪-->分栏-->成行分段-->去重分析计算后得到的 paraInfo/paraInfo2，在目录页节点下增加相应的段落节点，同时在该段落节点下增加段落片段fragment节点，并将其中的页码值映射到该节点，同时将其中排序好的版面图元块pageBlockId映射到上述段落片段的 piece节点上，若其中存在space空格，则在该段落片段下新建Maker控制符节点，Type标记为空格，Value为1个空格。至此目录结构化信息映射完毕。

在本实施例中，通过生成根节点、目录页节点、段落节点、片段节点以及图元块节点，实现了在图元粒度的目录结构化信息。进一步增强了目录在不同设备上显示的自适应性。

下面参考图4，示出了根据本申请实施例的生成目录结构化信息的装置的一个实施例的结构示意图。该生成目录结构化信息的装置可以应用于各种电子设备中。

在本实施例中，生成目录结构化信息的装置，包括：获取单元401、识别单元402、处理单元403和映射单元404。其中，获取单元401被配置成获取待处理版式文档，待处理版式文档包括目录，识别单元402被配置成基于目录的目录特征信息，对目录进行识别，得到版式目录信息；处理单元403被配置成对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息；映射单元404被配置成将处理后的版式目录信息映射为目录结构化信息。

在本实施例的一些可选的实现方式中，目录特征信息包括目录起始页码和目录结束页码，目录起始页码和目录结束页码通过以下步骤确定：确定活动目录中是否包含目录起始页码和目录结束页码；响应于确定活动目录中包含目录起始页码和目录结束页码，从活动目录中获取目录起始页码和目录结束页码；响应于确定活动目录中不包含目录起始页码和目录结束页码，接收操作人员输入的目录起始页码和目录结束页码。

在本实施例的一些可选的实现方式中，对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息，包括：对于版式目录信息包括的版面块进行拆分。

在本实施例的一些可选的实现方式中，将处理后的版式目录信息映射为目录结构化信息，包括：初始化结构化信息根节点，以及生成对应的目录页节点；在目录页节点下增加段落节点；在段落节点下增加片段节点，以及将处理后的版式目录信息中所包含的页码映射到片段节点；在片段节点下增加图元块节点，以及将处理后的版式目录信息中所包含的图元映射到图元块节点。

在本实施例中，获取单元首先获取待处理版式文档，待处理版式文档包括目录。之后，识别单元基于目录的目录特征信息，对目录进行识别，得到版式目录信息。在此基础上，处理单元对版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息。最后，映射单元将处理后的版式目录信息映射为目录结构化信息。从而实现了从版本文档提取结构化目录信息。由于结构化目录信息描述了目录中的信息的结构层次，通过生成目录结构化信息，增强了目录在不同设备上显示的自适应性。其中，通过去噪、分栏、成行分段、去重处理，提高处理后的版式目录信息的准确率，进而提高最后生成的目录结构化信息的准确性。

下面参考图5，其示出了适于用来实现本公开的实施例的服务器的电子设备(例如图1中的服务器)500的结构示意图。5示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备 500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线 504。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。

需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于) 具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种生成目录结构化信息的方法，包括：

获取待处理版式文档，所述待处理版式文档包括目录；

基于所述目录的目录特征信息，对所述目录进行识别，得到版式目录信息；

对所述版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息；

将处理后的版式目录信息映射为目录结构化信息。

2.根据权利要求1所述的方法，其中，所述目录特征信息包括目录起始页码和目录结束页码，所述目录起始页码和目录结束页码通过以下步骤确定：

确定活动目录中是否包含目录起始页码和目录结束页码；

响应于确定所述活动目录中包含目录起始页码和目录结束页码，从所述活动目录中获取所述目录起始页码和目录结束页码；

响应于确定所述活动目录中不包含目录起始页码和目录结束页码，接收操作人员输入的目录起始页码和目录结束页码。

3.根据权利要求2所述的方法，其中，所述目录特征信息包括阅读方向信息，所述阅读方向信息通过以下步骤确定：

确定所述待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向是否相同；

响应于确定所述待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向相同，将所述预设阅读方向信息确定为所述阅读方向信息；

响应于确定所述待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向不同，从预设的至少一个候选阅读方向信息中选取一个候选阅读方向信息作为所述阅读方向信息。

4.根据权利要求3所述的方法，其中，所述对所述版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息，包括：

去除所述目录起始页码至目录结束页码范围内的非文本图元，保留目录页版心范围内的文本图元并按页储存，得到页面块集和页面块中的文本图元集；

根据所述目录特征信息中的栏目类型、目录页版心和阅读方向，得到分栏区域框集合；

依据阅读顺序,分栏区域的宽度，文本图元纵坐标和转换矩阵值计算得到真实绘制起始纵坐标偏差值，若某行中各文本图元纵坐标偏差值大于偏差范围且纵坐标偏差值无交集时，则依据纵坐标偏差值拆分为多个独立文本图元数据，并重新拆解和组装对应的页面块，在误差偏差范围内且没有超出的分栏区域的宽度的文本图元归并为一行，成行分析计算的结果形式依然为版面块集和文本图元集；

在成行分析的结果上进行成段分析，若前后两行的字体大小、文本勾边/填充颜色、字体样式、字体名称不同，则前一行独立成段；若前后两行行尾字符的起始绘制横坐标值差值小于误差偏差范围且纵坐标值差值大于误差偏差范围，则前一行独立成段；若前后两行首字符为目录级别编号或目录项修饰符中“第”，而且后续3个字符出现在目录级别编号或关键字列表或目录项修饰符中，则前一行独立成段；若前后两行行首字符横坐标值差值小于误差偏差范围且纵坐标值差值大于误差偏差范围，则前一行独立成段；若前后两行纵坐标偏差值存在交集时，继续判断下一行是否与第一行纵坐标偏差值存在交集，若存在交集且该行与前一行的行首横坐标值差值小于1mm，且接续的下一行中匹配到大量目录项修饰符，则将这些行归并为一段；

循环处理目录页范围内的前后两行文本的成段分析，跨页时前后两页的两行成段分析与上述成段分析相同，得到成行分段结果；

对于所述成行分段结果内的行文本图元进行流式文本图元阅读顺序重排计算和流式去重分析计算；

调整文档阅读顺序。

5.根据权利要求1-4中任一所述的方法，其中，所述将处理后的版式目录信息映射为目录结构化信息，包括：

初始结构化信息根节点，以及生成对应的目录页节点；

依据上述综合分析后的结果中段落个数依次在所述目录页节点下增加段落节点；

在段落节点下增加片段节点，以及将所述处理后的版式目录信息中所包含的页码映射到片段节点；

在片段节点下增加图元块节点，以及将所述处理后的版式目录信息中所包含的图元列表按上述综合分析后的所在段落中的版面块集合中的每个携带有阅读顺序的图元标识依次映射到图元块节点。

6.一种生成目录结构化信息的装置，包括：

获取单元，被配置成获取待处理版式文档，所述待处理版式文档包括目录；

识别单元，被配置成基于所述目录的目录特征信息，对所述目录进行识别，得到版式目录信息；

处理单元，被配置成对所述版式目录信息依次进行去噪、分栏、成行分段、去重处理，得到处理后的版式目录信息；

映射单元，被配置成将处理后的版式目录信息映射为目录结构化信息。

7.根据权利要求6所述的装置，其中，所述目录特征信息包括目录起始页码和目录结束页码，所述目录起始页码和目录结束页码通过以下步骤确定：

确定活动目录中是否包含目录起始页码和目录结束页码；

8.根据权利要求7所述的装置，其中，所述目录特征信息包括阅读方向信息，所述阅读方向信息通过以下步骤确定：

9.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。