CN106326306A - Pdf文件自动识别生成数字报刊技术 - Google Patents

Pdf文件自动识别生成数字报刊技术 Download PDF

Info

Publication number
CN106326306A
CN106326306A CN201510386691.8A CN201510386691A CN106326306A CN 106326306 A CN106326306 A CN 106326306A CN 201510386691 A CN201510386691 A CN 201510386691A CN 106326306 A CN106326306 A CN 106326306A
Authority
CN
China
Prior art keywords
article
digital newspaper
pdf
content
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510386691.8A
Other languages
English (en)
Inventor
黄声杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Kexingda Information Technology Co Ltd
Original Assignee
Hunan Kexingda Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Kexingda Information Technology Co Ltd filed Critical Hunan Kexingda Information Technology Co Ltd
Priority to CN201510386691.8A priority Critical patent/CN106326306A/zh
Publication of CN106326306A publication Critical patent/CN106326306A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明属于数字媒体技术领域。PDF文件自动识别生成数字报刊技术包括模板组件与主流网页制作工具Dreamweaver集成,是采用如下步骤:上传要生成的数字报的pdf文件;系统将根据pdf的各个页面生成对应的版面图片文件;对各个版面中的文章内容进行选定;系统根据选定的目标文章的位置到pfd文件中搜索,智能提取文章内容并进行关联,最终生成数字报。本发明PDF文件自动识别生成数字报刊技术只需要制作人员进行版面标引系统会自动完成后续工作,极大地提高了工作效率和简化制作过程。

Description

PDF文件自动识别生成数字报刊技术
技术领域
本发明属于数字媒体技术领域,具体涉及到PDF版面的识别和自动提取、稿件关联、信息指引与加工、智能搜素及内容自动生成的PDF文件自动识别生成数字报刊技术。
背景技术
在网络信息时代,人们对新闻信息的需求表现出前所未有的强烈。这种强烈的需求不仅仅体现在人们希望在第一时间获取最新、最全、最有深度的内容,而且希望能够在各种不同类型的媒介上都能够随时、随地、随需获取到丰富形式的信息。现有的数字报纸的管理系统的实现方法是先添加和报纸版面相关的内容,然后上传报纸各个版面的图片,在图片上选定区域与之前添加的文章进行关联。这个前提就是必须手工录入文章内容,工作量大,效率低下。
发明内容
本发明的目的是提供一种能够免去录入文章的电子版报纸生成系统,自动生成HTML页面进行网站发布,同时可以生成相应的PDF版本的PDF文件自动识别生成数字报刊技术。
本发明的目的是通过如下途径实现的:
PDF文件自动识别生成数字报刊技术,包括模板组件与主流网页制作工具Dreamweaver集成,其特征是采用如下步骤:
笫一步上传要生成的数字报的pdf文件;
笫二步系统将根据pdf的各个页面生成对应的版面图片文件;
笫三步对各个版面中的文章内容内容进行选定;
笫四步系统根据选定的目标文章的位置到pfd文件中搜索,智能提取文章内容并进行关联,最终生成数字报。
更进一步是:所述模板组件支持多个文字块、图文、表格以及其他块之间的关联,支持版面块多层次间的嵌套关联关系。
更进一步是:所述系统支持对版面信息、文章信息、图片信息等相关标引项的信息反解和标引。
更进一步是:所述系统提供了对版面文章的内容加工修改的功能,包括对文章内容的预览和修改、选中标引块转换为图片等功能。
本发明的积极效果:本发明PDF文件自动识别生成数字报刊技术只需要制作人员进行版面标引系统会自动完成后续工作,极大地提高了工作效率和简化制作过程。有了本发明之后每天所需要做的工作就是对pdf进行版面标引,然后有数字报刊发布系统自动完成数字报刊信息的入库、页面生成与发布工作。降低数字报刊的制作成本基于HTML模板的开放式发布形式,易于被搜索引擎收录,便于内容的推广,完善的期、版索引,方便历史资料的查阅,报纸资料存储检索的另一种方式采用强大的内容管理系统进行数字报刊的管理,管理功能完善,能够提供标准化的系统接口,方便数字报刊内容的再次利用给读者带来的方便保持纸报原汁原味的报纸版式,符合阅读纸报的传统看报习惯,融合网上看新闻的方便快捷。
附图说明
图1为本发明所提供生成数字报的操作流程意图
图2为本发明拓扑图
具体实施方式
下面结合附图对本发明作详细说明:
实施例,如图1、图2所示,数字报刊是什么样子的,数字报刊首先要保持纸制报纸最吸引人的报纸版式,还要融合在互联网上阅读新闻的方便和快捷,方正翔宇数字报刊系统制作完成的,数字报刊包括报纸原始的版面图,在版面图上点击感兴趣的文章直接,弹出此篇文章的新闻内容,即保持原汁原味的报纸版式,符合传统看报习惯,又融合网上看新闻的方便快捷,吸引读者关注报社网站。版面导航页面主要用于方便地在某期报纸的不同版面之间进行跳转,其中包括几个区域:
版面信息:用于展现当前版面的版面信息,包括版面图、版次号、版面名称等,同时使用者可以通过点击版面图上的某个区域,进入文章页面
标题列表:用于展现当前版面的标题列表,使用者可以通过链接进入文章页。
版次列表:列出当期报纸的所有版次,使用者可以方便地切换到别的版进行浏览。
日历检索:使用者可通过日历方便地进入当前版次的历史页面
本发明开发出一种能够免去录入文章的电子版报纸生成系统,以克服上述现有技术中的缺陷,自动生成HTML页面进行网站发布,同时可以生成相应的PDF版本。
发明的技术步骤如下:
1、上传要生成的数字报的pdf文件。
2、系统将根据pdf的各个页面生成对应的版面图片文件。
3、对各个版面中的文章内容内容进行选定。
4、系统根据选定的目标文章的位置到pfd文件中搜索,智能提取文章内容并进行关联,最终生成数字报。
同时系统支持多报刊管理,提供了完善的期、版管理功能,能够方便查看以往某天的数字报刊内容。通过模板机制来实现数字报刊的自动更新,模板组件是与主流网页制作工具Dreamweaver集成在一起的,能够在Dreamweaver中进行可视化的模板编辑,使网站美编能够充分发挥Dreamweaver强大的网页制作能力,轻松实现各种复杂的页面效果。
1、稿件关联功能:支持多个文字块、图文、表格以及其他块之间的关联,支持版面块多层次间的嵌套关联关系。
2、信息标引功能:系统支持对版面信息、文章信息、图片信息等相关标引项的信息反解和标引。
3、信息加工功能:系统提供了对版面文章的内容加工修改的功能,包括对文章内容的预览和修改、选中标引块转换为图片等功能。

Claims (4)

1.一种PDF文件自动识别生成数字报刊技术,包括模板组件与主流网页制作工具Dreamweaver集成,其特征是采用如下步骤:
笫一步上传要生成的数字报的pdf文件;
笫二步系统将根据pdf的各个页面生成对应的版面图片文件;
笫三步对各个版面中的文章内容内容进行选定;
笫四步系统根据选定的目标文章的位置到pfd文件中搜索,智能提取文章内容并进行关联,最终生成数字报。
2.根据权利要求1所述PDF文件自动识别生成数字报刊技术,其特征在于所述模板组件支持多个文字块、图文、表格以及其他块之间的关联,支持版面块多层次间的嵌套关联关系。
3.根据权利要求1所述PDF文件自动识别生成数字报刊技术,其特征在于所述系统支持对版面信息、文章信息、图片信息等相关标引项的信息反解和标引。
4.根据权利要求1所述PDF文件自动识别生成数字报刊技术,其特征在于所述系统提供了对版面文章的内容加工修改的功能,包括对文章内容的预览和修改、选中标引块转换为图片等功能。
CN201510386691.8A 2015-07-03 2015-07-03 Pdf文件自动识别生成数字报刊技术 Pending CN106326306A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510386691.8A CN106326306A (zh) 2015-07-03 2015-07-03 Pdf文件自动识别生成数字报刊技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510386691.8A CN106326306A (zh) 2015-07-03 2015-07-03 Pdf文件自动识别生成数字报刊技术

Publications (1)

Publication Number Publication Date
CN106326306A true CN106326306A (zh) 2017-01-11

Family

ID=57727202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510386691.8A Pending CN106326306A (zh) 2015-07-03 2015-07-03 Pdf文件自动识别生成数字报刊技术

Country Status (1)

Country Link
CN (1) CN106326306A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871518A (zh) * 2019-02-02 2019-06-11 北京仁和汇智信息技术有限公司 一种科技论文网络版pdf文档生成方法及装置
CN110008195A (zh) * 2019-04-11 2019-07-12 重庆猪八戒知识产权服务有限公司 一种动态配置html转pdf的方法、装置及系统
CN110728151A (zh) * 2019-10-23 2020-01-24 深圳报业集团 基于视觉特征的信息深度处理方法及系统
CN112765522A (zh) * 2021-01-22 2021-05-07 杭州前方信息技术有限公司 一种数字报刊内容生成方法、系统和计算机可读存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871518A (zh) * 2019-02-02 2019-06-11 北京仁和汇智信息技术有限公司 一种科技论文网络版pdf文档生成方法及装置
CN109871518B (zh) * 2019-02-02 2020-01-10 北京仁和汇智信息技术有限公司 一种科技论文网络版pdf文档生成方法及装置
CN110008195A (zh) * 2019-04-11 2019-07-12 重庆猪八戒知识产权服务有限公司 一种动态配置html转pdf的方法、装置及系统
CN110728151A (zh) * 2019-10-23 2020-01-24 深圳报业集团 基于视觉特征的信息深度处理方法及系统
CN110728151B (zh) * 2019-10-23 2024-03-12 深圳报业集团 基于视觉特征的信息深度处理方法及系统
CN112765522A (zh) * 2021-01-22 2021-05-07 杭州前方信息技术有限公司 一种数字报刊内容生成方法、系统和计算机可读存储介质
CN112765522B (zh) * 2021-01-22 2023-04-28 杭州前方信息技术有限公司 一种数字报刊内容生成方法、系统和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN101025738B (zh) 一种免模板动态网站生成方法
CN101611399A (zh) 网页、网站建模和生成
CN109614504A (zh) 一种互联网电子书的管理系统及方法
CN102566945B (zh) 一种实现图书自动组稿按需印刷的方法和系统
Daines III et al. Re-imagining archival display: Creating user-friendly finding aids
CN106354860A (zh) 基于标签集的信息资源自动贴标签并自动推送的方法
CN106326306A (zh) Pdf文件自动识别生成数字报刊技术
CN103020322A (zh) 查询方法
CN102682082A (zh) 基于内容结构特征的网络Flash搜索系统及搜索方法
Cucchiara et al. Multimedia for cultural heritage: key issues
CN102624770A (zh) 信息摘录方法及基于云计算的摘录信息网络存储管理系统
CN107193549A (zh) 基于元数据的网页快速开发方法
CN105159904A (zh) 一种数字资源关联管理的方法及系统
CN107590116A (zh) 一种编辑设计文件的方法及系统
CN104063367A (zh) 注释检索装置、方法及程序
CN106528739B (zh) 一种数码印染图像素材大数据仓库的建立方法
Tranouez et al. DocExplore: overcoming cultural and physical barriers to access ancient documents
CN105095225A (zh) 文件数据的获取方法和装置
CN102708099B (zh) 用于图片标题的提取方法和装置
Lee et al. A study on the importance and application of 3D printing technology for street furniture manufacturing
CN104063386B (zh) 一种内容对象复用的方法和装置
CN104298685A (zh) 实现异构系统统一检索的方法及装置
Swami et al. Web Scraping Framework based on Combining Tag and Value Similarity
KR20240081523A (ko) 실감형 뉴스 콘텐츠를 위한 빅데이터 플랫폼 구축 방법
Ferris Robert Mayer's Walter Scott and Fame: Authors and Readers in the Romantic Age

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170111