CN106326306A

CN106326306A - Pdf文件自动识别生成数字报刊技术

Info

Publication number: CN106326306A
Application number: CN201510386691.8A
Authority: CN
Inventors: 黄声杰
Original assignee: Hunan Kexingda Information Technology Co Ltd
Current assignee: Hunan Kexingda Information Technology Co Ltd
Priority date: 2015-07-03
Filing date: 2015-07-03
Publication date: 2017-01-11

Abstract

本发明属于数字媒体技术领域。PDF文件自动识别生成数字报刊技术包括模板组件与主流网页制作工具Dreamweaver集成，是采用如下步骤：上传要生成的数字报的pdf文件；系统将根据pdf的各个页面生成对应的版面图片文件；对各个版面中的文章内容进行选定；系统根据选定的目标文章的位置到pfd文件中搜索，智能提取文章内容并进行关联，最终生成数字报。本发明PDF文件自动识别生成数字报刊技术只需要制作人员进行版面标引系统会自动完成后续工作，极大地提高了工作效率和简化制作过程。

Description

PDF文件自动识别生成数字报刊技术

技术领域

本发明属于数字媒体技术领域，具体涉及到PDF版面的识别和自动提取、稿件关联、信息指引与加工、智能搜素及内容自动生成的PDF文件自动识别生成数字报刊技术。

背景技术

在网络信息时代，人们对新闻信息的需求表现出前所未有的强烈。这种强烈的需求不仅仅体现在人们希望在第一时间获取最新、最全、最有深度的内容，而且希望能够在各种不同类型的媒介上都能够随时、随地、随需获取到丰富形式的信息。现有的数字报纸的管理系统的实现方法是先添加和报纸版面相关的内容，然后上传报纸各个版面的图片，在图片上选定区域与之前添加的文章进行关联。这个前提就是必须手工录入文章内容，工作量大，效率低下。

发明内容

本发明的目的是提供一种能够免去录入文章的电子版报纸生成系统，自动生成HTML页面进行网站发布，同时可以生成相应的PDF版本的PDF文件自动识别生成数字报刊技术。

本发明的目的是通过如下途径实现的：

PDF文件自动识别生成数字报刊技术，包括模板组件与主流网页制作工具Dreamweaver集成，其特征是采用如下步骤：

笫一步上传要生成的数字报的pdf文件；

笫二步系统将根据pdf的各个页面生成对应的版面图片文件；

笫三步对各个版面中的文章内容内容进行选定；

笫四步系统根据选定的目标文章的位置到pfd文件中搜索，智能提取文章内容并进行关联，最终生成数字报。

更进一步是：所述模板组件支持多个文字块、图文、表格以及其他块之间的关联，支持版面块多层次间的嵌套关联关系。

更进一步是：所述系统支持对版面信息、文章信息、图片信息等相关标引项的信息反解和标引。

更进一步是：所述系统提供了对版面文章的内容加工修改的功能，包括对文章内容的预览和修改、选中标引块转换为图片等功能。

本发明的积极效果：本发明PDF文件自动识别生成数字报刊技术只需要制作人员进行版面标引系统会自动完成后续工作，极大地提高了工作效率和简化制作过程。有了本发明之后每天所需要做的工作就是对pdf进行版面标引，然后有数字报刊发布系统自动完成数字报刊信息的入库、页面生成与发布工作。降低数字报刊的制作成本基于HTML模板的开放式发布形式，易于被搜索引擎收录，便于内容的推广，完善的期、版索引，方便历史资料的查阅，报纸资料存储检索的另一种方式采用强大的内容管理系统进行数字报刊的管理，管理功能完善，能够提供标准化的系统接口，方便数字报刊内容的再次利用给读者带来的方便保持纸报原汁原味的报纸版式，符合阅读纸报的传统看报习惯，融合网上看新闻的方便快捷。

附图说明

图1为本发明所提供生成数字报的操作流程意图

图2为本发明拓扑图

具体实施方式

下面结合附图对本发明作详细说明:

实施例,如图1、图2所示，数字报刊是什么样子的，数字报刊首先要保持纸制报纸最吸引人的报纸版式，还要融合在互联网上阅读新闻的方便和快捷，方正翔宇数字报刊系统制作完成的，数字报刊包括报纸原始的版面图，在版面图上点击感兴趣的文章直接，弹出此篇文章的新闻内容，即保持原汁原味的报纸版式，符合传统看报习惯，又融合网上看新闻的方便快捷，吸引读者关注报社网站。版面导航页面主要用于方便地在某期报纸的不同版面之间进行跳转，其中包括几个区域：

版面信息：用于展现当前版面的版面信息，包括版面图、版次号、版面名称等，同时使用者可以通过点击版面图上的某个区域，进入文章页面

标题列表：用于展现当前版面的标题列表，使用者可以通过链接进入文章页。

版次列表：列出当期报纸的所有版次，使用者可以方便地切换到别的版进行浏览。

日历检索：使用者可通过日历方便地进入当前版次的历史页面

本发明开发出一种能够免去录入文章的电子版报纸生成系统，以克服上述现有技术中的缺陷，自动生成HTML页面进行网站发布，同时可以生成相应的PDF版本。

发明的技术步骤如下：

1、上传要生成的数字报的pdf文件。

2、系统将根据pdf的各个页面生成对应的版面图片文件。

3、对各个版面中的文章内容内容进行选定。

4、系统根据选定的目标文章的位置到pfd文件中搜索，智能提取文章内容并进行关联，最终生成数字报。

同时系统支持多报刊管理，提供了完善的期、版管理功能，能够方便查看以往某天的数字报刊内容。通过模板机制来实现数字报刊的自动更新，模板组件是与主流网页制作工具Dreamweaver集成在一起的，能够在Dreamweaver中进行可视化的模板编辑，使网站美编能够充分发挥Dreamweaver强大的网页制作能力，轻松实现各种复杂的页面效果。

1、稿件关联功能：支持多个文字块、图文、表格以及其他块之间的关联，支持版面块多层次间的嵌套关联关系。

2、信息标引功能：系统支持对版面信息、文章信息、图片信息等相关标引项的信息反解和标引。

3、信息加工功能：系统提供了对版面文章的内容加工修改的功能，包括对文章内容的预览和修改、选中标引块转换为图片等功能。

Claims

1.一种PDF文件自动识别生成数字报刊技术，包括模板组件与主流网页制作工具Dreamweaver集成，其特征是采用如下步骤：

笫一步上传要生成的数字报的pdf文件；

笫二步系统将根据pdf的各个页面生成对应的版面图片文件；

笫三步对各个版面中的文章内容内容进行选定；

2.根据权利要求1所述PDF文件自动识别生成数字报刊技术，其特征在于所述模板组件支持多个文字块、图文、表格以及其他块之间的关联，支持版面块多层次间的嵌套关联关系。

3.根据权利要求1所述PDF文件自动识别生成数字报刊技术，其特征在于所述系统支持对版面信息、文章信息、图片信息等相关标引项的信息反解和标引。

4.根据权利要求1所述PDF文件自动识别生成数字报刊技术，其特征在于所述系统提供了对版面文章的内容加工修改的功能，包括对文章内容的预览和修改、选中标引块转换为图片等功能。