CN104090920A

CN104090920A - 一种实现数字内容跨终端出版的系统

Info

Publication number: CN104090920A
Application number: CN201410270214.0A
Authority: CN
Inventors: 吴雷; 阮怀伟; 昌磊; 虞勇勇
Original assignee: ANHUI EDUCATION NETWORK PUBLISHING Co Ltd
Current assignee: ANHUI EDUCATION NETWORK PUBLISHING Co Ltd
Priority date: 2014-06-17
Filing date: 2014-06-17
Publication date: 2014-10-08

Abstract

本发明公开了一种实现数字内容跨终端出版的系统。包括PDF处理子系统，PDF版面分析与信息抽取子系统，跨终端自适应重组子系统。PDF处理子系统主要任务就是接受用户提交的PDF文档，经过PDF处理引擎，输出结构良好的XML文档。PDF版面分析与信息抽取子系统接受结构良好的XML文档，根据用户界面分析得到的版面分析和信息抽取得到的结果输出具有自描述性的XML文档，即具有语义信息的XML文档。实际上是把抽取规则中的语义项与数据项特征的映射关系转换为语义项与数据项的映射关系。跨终端自适应重组子系统则是实现不同终端的设备特点，实现数字内容在不同终端的展现。本发明可以实现不同终端的自适应的数字内容出版。

Description

一种实现数字内容跨终端出版的系统

技术领域

本发明涉及计算机和人工智能应用领域，具体是一种实现数字内容跨终端出版的系统。

背景技术

国内外学者对数字内容跨终端出版的研究做了大量有价值的工作。比如，亚马逊Kindle阅读器的专有格式，提供一种可以识别原生PDF，使用E-ink技术，使阅读如同纸张一般，且通过与出版集团的合作提供教科书。微软等IT公司于出版商、出版物经销商等联合主导研发的开放格式Epub，该格式的国际影响力不断加强，且渐渐成为国际电子书格式的通用标准。国内方面，方正主导的面向移动终端研发的XEB电子书格式体系成为国内该领域的事实标准，并推出了一种独立于软件、硬件、操作系统、打印设备的CEBX文档格式规范，其能够保留原文件的字符、字体、版式和色彩等重要信息。

跨终端出版，需要出版者同时将传输相同内容到不同媒体上以满足受众的不同需求的过程。即需要将传统的出版内容进行知识化、碎片化，根据终端的不同需求进行内容的自适应重组，以实现一次创建、多次出版的需要。但是国内外跨终端数字出版的研究，所建立的终端电子书格式都具有自身的知识产权，不愿意对外公开自己的格式标准。而开放格式Epub虽然具有版面结构信息和文档逻辑语义信息，对阅读呈现效果的规范性存在不足，而且由于传统的出版物版式制作主要为了印刷，较少考虑数字出版，因此有传统的排版技术转化成Epub存在着很多困难，特别是版面中数学公式、表格、图形等复杂对象，在移动终端上无法高质量地呈现。

发明内容 本发明的目的是提供一种实现数字内容跨终端出版的系统，以解决现有技术存在的问题。

为了达到上述目的，本发明所采用的技术方案为：

一种实现数字内容跨终端出版的系统，其特征在于：包括PDF处理子系统、PDF版面分析与信息抽取子系统、跨终端自适应重组子系统、日志管理子系统、以及具有版式信息的XML文档库，其中：

所述的PDF处理子系统从用户获得PDF文档，然后根据PDF固有的物理结构和逻辑结构，经过PDF处理子系统自带的PDF处理引擎将PDF内容流输出，形成结构良好的XML文档；

所述的PDF版面分析与信息抽取子系统，对结构良好的XML文档进行进一步的处理，分析PDF的版面信息，将抽取规则中的语义项与数据项特征的映射关系转换为语义项与数据项的映射关系，利用PDF源码中的版式数据中存在的版式信息，辅以语义分析，提取版式数据的逻辑结构，将无序、无结构的数据组织成有序、有机构的数据，从而提取必要的文字和版式信息，自动判定排版方向、合并正文块，自动还原正文阅读顺序，自动关联文章标题和正文，并进行附图与图说、文章与附图之间的自动关联，自动进行版心定位、页眉页脚和页码处理；

所述的跨终端自适应重组子系统，由服务器端根据客户端的请求生成合适阅读终端的页面，下载到移动阅读终端并在终端上进行显示，服务器端负责数字内容的绘制工作,对于PC或者具有较大屏幕的移动阅读终端，服务器端生成原始版面终端，供终端客户端或者通用浏览器实现下载阅读，对于小屏幕的移动阅读终端，服务器端会根据移动阅读终端的具体的设备信息，将存储的流式和结构化数据的XML文档快速重新绘制成客户端页面；

所述的日志管理子系统包括日志分析器和用户行为日志数据库，通过检索器建立用户接口，方便用户查询检索信息，将用户的行为记录在用户行为日志数据库中，作为日志分析器的依据，日志管理子系统记录用户在各个子系统中的行为情况，并且将日志情况汇集到日志管理子系统中，用于数据的查询和分析。

所述的一种实现数字内容跨终端出版的方法，其特征在于：跨终端自适应重组子系统的自适应过程如下：

将XML文档进行格式化处理：分析如何利用工具将XML文档转化为XML树；

终端设备信息的获取：分析如何获取终端设备的信息以及提取终端设备信息，并为终端建立数据库，记录终端设备信息参数；

图片资源的下载和适配：分析如何将从PDF中抽取得到的图片进行处理，并利用终端设备信息库对图片进行相应的格式转换和大小自适应改变；

文本资源的适配：分析如何利用建立的终端设备信息库对文本设置进行自适应重组，并添加新的版式风格。

所述的一种实现数字内容跨终端出版的方法，其特征在于：所述的具有版式信息的XML文档库包括数据库、文本库、图片库、版式信息库，其中版式信息库是经过标引形成的PDF版式信息库。

所述的一种实现数字内容跨终端出版的方法，其特征在于：所述的PDF引擎，可以解析不同版本的PDF文档，可以对PDF文档进行内容提取和结构分析。

所述的一种实现数字内容跨终端出版的方法，其特征在于：所述的PDF版面分析与信息抽取，提供用户PDF编辑视图，提供自定义语义标引操作，能够满足用户自主进行版面分析操作和信息抽取，形成具有语义、版式、文本、图片等PDF文档信息库。

所述的一种实现数字内容跨终端出版的方法，其特征在于：所述的终端自适应重组，能够根据终端设备的具体设备信息，进行终端自适应重组算法处理，将具有版式信息的XML文档进行自适应重组，完成跨终端的数字内容出版。

所述的一种实现数字内容跨终端出版的方法，其特征在于：所述的日志管理，能够采集用户在系统中操作过程中的行为操作，且能够根据日志分析器分析用户行为操作。

本发明的有益效果是：

现有技术中的对PDF转化为XML的描述，无法做到对PDF内容和版式的完全解析，无法对PDF页面信息准确的附加语义，无法根据用户自主标引PDF页面语义。而在跨终端自适应方面，也仅仅局限于将版式的出版文档转化为流式文档，没有添加相应版式信息，无法满足跨终端出版的多样化需求。

本发明方法中：用户通过用户接口，利用PDF处理引擎将PDF文档转化为结构良好的XML文档，同时将用户的行为记录在用户行为日志数据库中，作为日志分析器的依据。转化成结构良好的XML文档经过PDF版面分析与信息抽取引擎，以PDF视图的形式呈现在用户的客户端，根据用户自定义的语义描述转化为具有语义信息的XML文档，并存入数字内容管理的XML库，并建立具有版式信息的XML文档库。XML文档库记录了版式数据中存在的版式信息，包括：位置、字体、字号、颜色、辅助信息、版式风格等。终端使用者通过终端设备可以通过网络访问具有版式信息的XML文档库，并由服务器根据终端设备信息，查询设备库信息，将具有版式信息的XML文档进行终端自适应重组，重新加上版式渲染，显示在终端设备上。

本发明对出版社进行数字化内容跨终端的出版将有更加迫切的需求。目前国内数字内容跨终端出版还处于技术突破的前沿，因此实现数字内容跨终端出版的方法为我国蓬勃发展的数字出版、语义出版提供跨终端的个性化服务。有效的缓解数字出版过程的关键技术问题，对促进数字内容的跨终端出版起着关键作用。同时，改方法对建立其它格式的跨终端出版具有指导性意义。

附图说明

图1本发明的数字内容跨终端出版平台示意图。

图2实现数字内容跨终端出版方法实施方框图。

图3实现数字内容跨终端出版方法的流程图。

具体实施方式

跨终端自适应重组子系统的自适应过程如下：

具有版式信息的XML文档库包括数据库、文本库、图片库、版式信息库，其中版式信息库是经过标引形成的PDF版式信息库。

PDF引擎，可以解析不同版本的PDF文档，可以对PDF文档进行内容提取和结构分析。

PDF版面分析与信息抽取，提供用户PDF编辑视图，提供自定义语义标引操作，能够满足用户自主进行版面分析操作和信息抽取，形成具有语义、版式、文本、图片等PDF文档信息库。

终端自适应重组，能够根据终端设备的具体设备信息，进行终端自适应重组算法处理，将具有版式信息的XML文档进行自适应重组，完成跨终端的数字内容出版。

日志管理，能够采集用户在系统中操作过程中的行为操作，且能够根据日志分析器分析用户行为操作。

图1是本发明的数字内容跨终端出版平台示意图。在图1中：

PDF处理模块，PDF版面分析与信息抽取模块，跨终端自适应重组模块作为平台的三个重要的主体模块。

PDF处理模块，负责接收用户提交的PDF文档，根据PDF处理引擎，将PDF内容解析并生成结构良好的XML文档。

PDF版面分析与信息抽取模块，对结构良好的XML文档进行处理，并根据PDF版式和用户版面分析的结果形成具有版式信息的XML文档。

跨终端自适应重组模块，则是跨终端出版的具体实现模块，根据终端设备的设备信息，结合平台自身建立的终端设备信息，将具有版式信息的XML文档库在服务器上进行自适应重组并发送给终端设备上。

平台建立的结构良好的XML文档库属于中间过渡文档库，保存初步解析的PDF文档，主要保存PDF内容及其对应的坐标信息等。

具有版式信息的XML文档库则保存了PDF具体的版式信息和用户自定义的语义信息，可以用于具体的语义查询。也是作为数字内容跨终端出版的重要信息依据。

终端设备库则记录了终端设备信息，包括屏幕大小、型号等，作为自适应重组的主要依据。

图2是实现数字内容跨终端出版方法实施方框图。

从功能模块上划分，用于实现数字内容跨终端出版系统由PDF处理子系统，PDF版面分析与信息抽取子系统，跨终端自适应重组子系统，日志管理子系统构成。

PDF处理子系统经过系统控制器，将PDF文档转化处理进入结构良好的XML文档库。

系统控制由DTD文档定义、PDF处理引擎。其中DTD文档定义负责XML描述，根据用户的具体需求，提供XML描述的DTD文档定义，PDF处理引擎则负责原始PDF文档的解析，对PDF文档的内容和结构进行描述。

PDF版面分析与信息抽取子系统包括PDF视图、PDF版面分析、PDF信息抽取。PDF视图将PDF文档转化为用户可以交互操作视图模式，并将PDF文档进行简单的版面划分；PDF版面分析提供用户交互操作，根据用户划分PDF的版面结构进行标引，并能够自定义编辑PDF版面；PDF信息抽取根据用户标引的版面结构，进行PDF的信息抽取并生成具有版式信息的XML文档。

终端自适应重组子系统，服务器根据用户客户端的终端设备信息，查询设备库的终端设备信息，从XML文档库中取出相应的文档，在服务器上进行自适应重组，将文档发送到用户的客户端。

日志管理子系统包括用户行为日志数据库和日志分析器。用户行为日志数据库记录用户在整体系统中的行为操作。日志分析器则负责分析整体系统的用户行为数据。

图3是实现数字内容跨终端出版方法的流程图。

PDF处理引擎开始初始化，用户提交PDF文档，开始进行PDF文档引擎的处理，对PDF文档进行内容和结构解析，将解析的结果保存到XML文档库，对PDF文档进行版面分析额信息抽取，建立具有版式信息的XML文档库，如果有新的PDF转化任务需要处理，则继续进行PDF的转化，获取终端设备信息，查询设备库设备信息，在服务器上进行自适应重组，最终实现终端出版。

Claims

1.一种实现数字内容跨终端出版的系统，其特征在于：包括PDF处理子系统、PDF版面分析与信息抽取子系统、跨终端自适应重组子系统、日志管理子系统、以及具有版式信息的XML文档库，其中：

2.根据权利要求1所述的一种实现数字内容跨终端出版的方法，其特征在于：跨终端自适应重组子系统的自适应过程如下：

3.根据权利要求1所述的一种实现数字内容跨终端出版的方法，其特征在于：所述的具有版式信息的XML文档库包括数据库、文本库、图片库、版式信息库，其中版式信息库是经过标引形成的PDF版式信息库。

4.根据权利要求1所述的一种实现数字内容跨终端出版的方法，其特征在于：所述的PDF引擎，可以解析不同版本的PDF文档，可以对PDF文档进行内容提取和结构分析。

5.根据权利要求1所述的一种实现数字内容跨终端出版的方法，其特征在于：所述的PDF版面分析与信息抽取，提供用户PDF编辑视图，提供自定义语义标引操作，能够满足用户自主进行版面分析操作和信息抽取，形成具有语义、版式、文本、图片等PDF文档信息库。

6.根据权利要求1所述的一种实现数字内容跨终端出版的方法，其特征在于：所述的终端自适应重组，能够根据终端设备的具体设备信息，进行终端自适应重组算法处理，将具有版式信息的XML文档进行自适应重组，完成跨终端的数字内容出版。

7.根据权利要求1所述的一种实现数字内容跨终端出版的方法，其特征在于：所述的日志管理，能够采集用户在系统中操作过程中的行为操作，且能够根据日志分析器分析用户行为操作。