CN110765902A - 一种古旧报纸的数字化保护和传承的装置 - Google Patents
一种古旧报纸的数字化保护和传承的装置 Download PDFInfo
- Publication number
- CN110765902A CN110765902A CN201910960209.5A CN201910960209A CN110765902A CN 110765902 A CN110765902 A CN 110765902A CN 201910960209 A CN201910960209 A CN 201910960209A CN 110765902 A CN110765902 A CN 110765902A
- Authority
- CN
- China
- Prior art keywords
- newspaper
- display
- retrieval
- text
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000010899 old newspaper Substances 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims description 24
- 238000012937 correction Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000012015 optical character recognition Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 7
- 230000001915 proofreading effect Effects 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims 2
- 230000037431 insertion Effects 0.000 claims 2
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0483—Interaction with page-structured environments, e.g. book metaphor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Remote Sensing (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Radar, Positioning & Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明所述的方法古旧报纸的数字化保护和传承的装置及其使用方法,是通过扫描并存储古旧报纸版面于服务器中,采集报纸的期、版、篇信息,每篇文章的题名、作者、出版日期、全文文本等信息,以及报纸版面中每篇文章的版块热点,并以表格数据存储于服务器的数据库中,然后通过编程,实现古旧报纸版面与期、版、篇的交互展示,以及报纸版面中热点区域与每篇文章的交互展示,实现期、版、篇的聚类检索,以及与报纸版面和文章原文的对照显示及多维显示、在线阅读、考证纠错等。采该方法实现了古旧报纸的保护、传承和利用,其数字化浏览方法具有方便性、易用性、直观性等优点,通过热点触发,从版面层到内容层的对应,独立显示,实现了阅读、考据和纠错功能。
Description
技术领域
本发明属于实体报纸的数字化保存和利用技术方法领域,具体的涉及一种古旧报纸的数字化保护和传承的装置。
背景技术
报刊在我国具有悠久的历史,其在各个时期都为人们提供了大量的,及时的新闻,帮助人们了解世界,洞悉重大事件的发展变化,给人们带来了丰富的实用和娱乐信息。而历史报刊,特别是早期报刊也是历史文档的重要资料,但是对于古旧报刊,由于年深月久,随着时间的推移,有的字体可能会模糊,且纸张也会变得发黄发脆,翻阅一遍就要受到一定程度的破坏,因此,对于实体报刊,尤其古旧报纸实现其数字化展示、保护、传承和挖掘利用变得非常有必要。
发明内容
为解决现有技术的不足,本发明的目的在于提出一种古旧报纸的数字化保护和传承的系统平台及其使用方法,该平台能够实现对古旧报纸的多维度展示,并根据需要检索报纸内容信息,使得其能够在满足查看需要的前提下,最大程度的保护古旧期刊的完整性,并实现考证功能,另外,本发明还提供一种灵活的古旧报纸的浏览方法,提高用户查看报纸的用户体验。
为了实现上述目标,本发明采用如下的技术方案:一种古旧报纸的数字化展示和利用方法,该方法包括:
步骤1,使用超宽幅面扫描仪对古旧报纸进行扫描,获取古旧报纸的扫描件;
步骤2,对古旧报纸的扫描件进行OCR识别,并结合人工辅助,对扫描得到的PDF报纸版面进行内容采集,获取古旧报纸的期次、版次、报纸日期、篇名、作者及全文内容信息;
步骤3,在对报纸版面进行内容采集之后,对存储在数据库中的数据进行检索聚类,所述检索聚类采用机器学习加人工干预的方式,对通过全文检索技术提取的报纸文章的关键词、主题词进行聚类,并创建题名索引、关键词索引、主题索引、全文索引,实现题名、关键词、主题、全文检索的各级检索。
步骤4,通过编程,实现所述内容的展示,所述展示包括存储于服务器的PDF报纸版面原貌的展示及全文文本的展示,所述全文文本用于展示储存于数据库中的古旧报纸的期次、版次、报纸日期、篇名、作者及全文内容的结构化数据中的至少一项,所述展示以HTML方式实现;
进一步的,所述方法还包括:
步骤5,通过对展示内容的进一步触发,还可实现期次跳转、版次跳转、文章跳转,方便地进行在线阅读;通过纠错功能,实现校对;
进一步的,所述方法还包括:
步骤6,通过PDF报纸版面及全文文本的对照,或通过点击放大原图,实现报纸内容的考证。
进一步的,所述方法还包括:美观的PDF报纸版面及全文文本的对照版式与阅读器、平板、触摸屏硬件结合,可转化为古旧报刊新产品。
进一步的,所述方法还包括:在全文文本内容显示页面使用水印技术,并限制拷贝功能。
进一步的,所述方法还包括:所述全文检索技术为solr搜索引擎技术。
进一步的,所述方法还包括:所述展示包括报刊汇总界面和检索框,或者所述展示包括检索聚类区域、检索框和检索结果的展示,所述检索聚类、检索框和检索结果分别展示在同一展示界面的不同区域。
进一步的,所述方法步骤2中还包括:在对相关内容进行采集时,还包括字体的转换和校对,例如繁体字到简体字的转换。
相应的,本发明还提一种古旧报纸的数字化保护和传承的系统平台,所述平台包括:
扫描模块,用于使用超宽幅面扫描仪对古旧报纸进行扫描,获取古旧报纸的扫描件;
采集模块,用于对古旧报纸的扫描件进行OCR识别,并结合人工辅助,对扫描得到的PDF报纸版面进行内容采集,获取古旧报纸的期次、版次、报纸日期、篇名、作者及全文内容信息;
处理模块,在对报纸版面进行内容采集之后,对存储在数据库中的数据进行检索聚类,所述检索聚类采用机器学习加人工干预的方式,对通过全文检索技术提取的报纸文章的关键词、主题词进行聚类,创建题名索引、关键词索引、主题索引、全文索引,实现题名、关键词、主题、全文检索的各级检索;
显示模块,用于通过编程,将存储于服务器的PDF报纸版面原貌及储存于数据库中的古旧报纸的期次、版次、报纸日期、篇名、作者及全文内容的结构化数据中的至少一项,以HTML方式,实现古旧报纸版面与期次、版次及文章篇名的对应展示,显示在显示屏幕上;
交互模块,用于通过触发报纸版面热点区域,实现报纸版面原貌与报纸题名、作者、全文内容及报纸日期、期次、版次的对应展示。
进一步的,所述交互模块还用于:通过对展示内容的进一步触发,还可实现期次跳转、版次跳转、文章跳转,方便地进行在线阅读;通过纠错功能,实现校对。
进一步的,所述平台还包括:通过PDF报纸版面及全文文本的对照,通过点击放大原图,实现报纸内容的考证。
进一步的,所述处理模块还包括:在全文内容显示页面使用水印技术,并限制拷贝功能。
进一步的,所述全文检索技术为solr搜索引擎技术。
本发明还提出一种针对上述任一种数字化展示方法或保护和传承的系统平台进行在线内容的浏览方法,所述浏览方法包括:检索浏览、点击浏览和追踪浏览。
进一步的,所述检索浏览包括:在展示界面的检索框内选择检索对象,并输入检索词,点击浏览,在检索结果展示界面以列表形式显示检索结果,所述检索结果包括:题名、作者、报纸名称、时间、以及阅读,选择所需浏览对象的题名点击,进入浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示。
进一步的,所述点击浏览包括:点击首页报纸浏览中的报纸名称,选择所需的报纸,可直接进入报纸浏览页面;所述报纸浏览页面包括具有代表性的某一期阅读报纸原貌和导航区域,所述导航区域包括期面导航、版面导航、标题导航,用户选择所需的期面、版面、和标题,就可以进入对应的浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示
进一步的,所述追踪检索包括:对版面的追踪展示、对热区的追踪展示,具体为:
在检索浏览或点击浏览时,在对某一篇目的浏览中,左边会对应显示该期的第一版版面,同时会通过上一版、下一版跳转不同的版面;也可直接通过点击版次,对应阅读该版的任意一篇文章;还可以通过点击版面某一热区,直接浏览对应文章。
本发明的有益之处在于:
1、通过扫描并存储古旧报纸版面于服务器中,然后通过编程,实现古旧报纸版面与期、版、篇的交互展示,实现古旧报纸的保护和传承;
2、通过html实现报刊内容的数字化展示,使得报纸版面中热点区域与每篇文章的可以交互展示,并实现期、版、篇内容各种程度的聚类检索;
3、报纸版面和文章原文的对照显示、在线阅读、考证纠错;美观的PDF报纸版面及全文文本的对照版式与阅读器、平板、触摸屏硬件结合,可转化为古旧报刊新产品。
4、在数据采集、聚类算法以及界面展示过程中均可实现人工干预,从而保证数据采集、处理的可靠性、完整性。
附图说明
图1是本发明所述的古旧报纸的数字化展示界面图;
图2是全文信息内容展示示意图;
图3是“查看大图”图标位置示意图。
图4是点击“查看大图”图标后展示界面示意图;
图5是基于聚类检索展示界面示意图;
图6是选择报纸触发后展示期次、版次、篇名聚类界面示意图;
图7是在检索框输入词检索结果展示界面示意图;
图8是通过下拉列表选择检索对象示意图;
图9是对版面原貌热区选择、版面跳转选择示意图;
图10是对报纸导航区域选择触发界面示意图;
图11是输入期次位置示意图;
图12是输入期次示意图;
图13是输入期次后显示内容的展示界面示意图;
图14是“有奖纠错”位置示意图;
图15是在全文文本显示页面进行内容的查找并高亮显示示意图;
图16是进行多维展示示意图;
图17是错误描述内容输入界面示意图;
图18本发明所述的古旧报纸的数字化保护和传承的系统平台组成模块示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
为保护延安时期报纸文献,传承红色文化,服务教育教学和科研,对延安时期机关报进行了全文数字化,除了题名、作者、全文检索方法外,还采用了美观别致的展示和浏览方式,使延安时期机关报得到了妥善保存,并可以快速浏览和阅读,并进行相关考证。下面以保护延安时期机关报为具体实施例对本发明做进一步阐述:
该古旧报纸的数字化展示方法包括:
步骤1,对古旧报纸进行扫描,具体的可使用超宽幅面扫描仪进行扫描,获取古旧报纸的扫描件;
步骤2,对古旧报纸的扫描件进行OCR识别,并结合人工辅助,对扫描得到的PDF报纸版面进行内容采集,获取古旧报纸的期次、版次、报纸日期、文章篇名、作者及全文内容等信息;
该步骤通过采集软件,采集每篇文章所对应的版面热点信息,并用结构化数据方式,储存在数据库中,具体的,所述提取热区坐标的方式为通过Adobe Dreamweaver,采集每篇文章所对应的版面热点信息,并用结构化数据方式,储存在数据库中;
优选的,在对相关内容进行采集时,还包括字体的转换和校对,例如繁体字到简体字的转换。
步骤3,在对报纸版面进行内容采集之后,对存储在数据库中的数据进行检索聚类,所述检索聚类采用机器学习加人工干预的方式,对通过全文检索技术提取的报纸文章的关键词、主题词进行聚类,并创建题名索引、关键词索引、主题索引、全文索引,实现题名、关键词、主题、全文检索的各级检索。
步骤4,通过编程,实现所需内容的展示。所述展示包括存储于服务器的PDF报纸版面原貌及全文文本的展示,所述全文文本用于展示储存于数据库中的古旧报纸的期次、版次、报纸日期、篇名、作者及全文内容的结构化数据中的至少一项,所述展示以HTML方式实现。
优选的,所述展示页面可对照阅读报纸原貌以及文本全文,使阅读和考证变得非常方便。
优选的,报纸原貌以图片格式显示,全文文本以网页格式显示,所述报纸原貌显示在展示界面的左边,全文文本显示在展示屏幕的右边,如图1中1-1所示。
优选的,所述展示页面可与触摸屏硬件结合,转化为古旧报刊展示的新产品形式。如图1中1-2所示。
本领域技术人员能够明了,所述展示位置只是实施例中一种展示方式,在不付出创造性劳动的基础上,本领域技术人员还可以使用其他的位置排布方式,例如报纸原貌展示在显示界面上方,全文文本展示在显示界面下方等其他位置。
优选的,所述全文文本还包括:基于快捷键的触发,实现对全文文本内容的查找和高亮显示,如图15所示:利用ctrl+f或其他自定义快捷键实现“周新福”在全文文本页面的查找,并高亮显示。
步骤5、通过对展示内容的触发,还可实现期次跳转、版次跳转、文章跳转,方便地进行在线阅读,如针对图2中红色指示部分所示;通过点击放大原图,实现报纸内容的考证等,如点击图3左栏显示的报纸版面信息右下角“查看大图”图标,会出现图4所示的版面图放大显示,还可以针对大图的浏览对全文文本内容核实实现纠错功能。本领域技术人员能够理解,图标可根据需要设置于其他位置,图3所示位置仅为示意图。
所述方法进一步包括:在对报纸版面进行内容采集之后,采用机器学习加人工干预方式,对存储在数据库中的数据进行检索聚类,所述检索聚类采用机器学习加人工干预的方式,对通过全文检索技术提取的报纸文章的关键词、主题词进行聚类,并创建题名索引、关键词索引、主题索引、全文索引,实现题名、关键词、主题、全文检索的各级检索。所述全文检索技术为solr搜索引擎技术。基于此,对存储在数据库中的报纸数据进行检索聚类。
因此,相应的实现所需内容的展示还包括对聚类结果的显示,如图5所示:
该数字化内容进行在线展示界面包括报刊汇总界面和检索框。该展示界面可以作为数据库平台外观界面模式,用户可以通过对图5中的报刊汇总界面中聚类内容的触发,选择相应的报刊进行浏览,例如通过触摸屏或者鼠标点击首页中需要浏览的报纸名称,进入报纸浏览页面如图6所示;所述报纸浏览页面包括具有代表性的某一期阅读报纸原貌和导航区域,所述导航区域包括期面导航、版面导航、标题导航,用户选择所需的期面、版面、和标题,就可以进入对应的浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示,从而使得阅读和考证变得非常方便。
对图5中的检索框进行触发,例如通过下拉列表选择针对全文进行检索,并在检索框中输入检索词,则检索结果界面如图7所示:
该展示包括检索聚类区域、检索框和检索结果的展示,所述检索聚类、检索框和检索结果分别展示在同一展示界面的不同区域。用户可通过在检索框不同部分的调整进行重新检索,例如通过对检索框下拉列表选择检索对象,例如全文、提名、作者、主题词、关键词,从而实现对不同内容的检索,如图8所示,也可以通过勾选复选框“在检索结果中检索”实现在检索结果中的二次检索、筛查。
所述在线展示包括检索聚类区域、检索框和检索结果的展示时,可以在展示界面的左侧展示检索聚类,检索聚类包括主题分类导航、年份导航、地名导航、人名导航,所述检索聚类通过机器学习的方法进行分类,首先通过人工实现部分报纸内容的分类,这些已经分类的报纸内容作为训练集,进行机器学习,进而对其余对象进行分类,实现人工智能进行分类;
所述检索结果区域展示针对用户输入的关键词在选择的检索内容下的检索结果,所述检索结果包括:题名、作者、报纸名称、时间、以及阅读等,如图7所示,选择所需浏览对象的题名点击,进入浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示,从而使得阅读和考证变得非常方便。
进一步的,所述古旧报纸的数字化展示方法还包括:针对图片的多维度展示,如图16中16-1所示,当点击“趣图欣赏”时,该数字化展示方法在进行聚类时,还将数据库中各类报纸中的插画、地图、书法、曲谱等图片进行分类,从而满足不同用户的需求,并实现考证功能。对插画、地图、书法、曲谱等图片的展示如图16中16-2至 16-5所示。本领域技术人员能够明白,所述“趣图欣赏”的题目及其位置仅是示例性描述,本领域技术人员可以根据需要将“趣图欣赏”或其他题目链接到另外位置,同样能够实现对分类图片的调出和展示。
本发明另一实施例还包括一种对上述古旧报纸的数字化展示方法进行在线内容浏览的方法,所述方法包括:
检索浏览、点击浏览和追踪浏览。
所述检索浏览包括:在展示界面的检索框内选择检索对象,并输入检索词,点击浏览,在检索结果展示界面以列表形式显示检索结果,所述检索结果包括:题名、作者、报纸名称、时间、以及阅读,选择所需浏览对象的题名点击,进入浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示,从而使得阅读和考证变得非常方便,如图7所示。
所述点击浏览包括:点击首页报纸浏览中的报纸名称,选择所需的报纸,可直接进入报纸浏览页面;所述报纸浏览页面包括具有代表性的某一期阅读报纸原貌和导航区域,所述导航区域包括期面导航、版面导航、标题导航,用户选择所需的期面、版面、和标题,就可以进入对应的浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示,从而使得阅读和考证变得非常方便。
所述追踪检索包括:对版面的追踪展示、对热区的追踪展示、对期次的追踪展示。
例如,在检索浏览或点击浏览时,在对某一篇目的浏览中,左边会对应显示该期的第一版版面,同时会通过上一版、下一版跳转不同的版面;也可直接通过点击版次,对应阅读该版的任意一篇文章;还可以通过点击版面原貌某一热区,直接浏览对应文章,如图9中的 9-1所示。
另外,进行点击浏览时,若点击版面原貌某一热区时,该热区对应的是图片,如插画、地图、书法或曲谱,则在全文文本页面显示该对应的图片,如图9中的9-2至9-5所示。
其中,对版面热区信息的定位方式可以根据下面方式实现:
步骤2.1、建立平面坐标系;
步骤2.2、基于采集位置的坐标获取所述采集点在显示平面上的位置坐标,所述采集位置的坐标与显示平面上的位置坐标一一对应;
步骤2.3、基于显示平面上的位置坐标获取所述采集位置对应的版面热点信息在版面中的位置坐标,其中,所述显示平面上的位置坐标与版面中的位置坐标一一对应。
优选的,还可以将上述点击浏览、检索浏览或者追踪浏览结合,实现更精确的选择,如在图10所在的浏览界面上如箭头所示,点击报纸名称,其可直接进入报纸浏览页面如图11所示,在图11所示展示页面展示的导航页面可显示第__期,具体的,该显示位置可设置于导航页面左上角,在该空格上直接输入期次,通过“期导航”、“版面导航”、“标题导航”浏览报纸内容。例如输入“374”期,可直接进入第374期浏览报纸内容如图12所示,选择相应的标题即可进入全文文本显示界面。
优选的,在任一全文浏览的界面上,可通过点击“返回目录”,继续浏览报纸其他期次和版面。
也可以点击“有奖纠错”提交错误内容的描述,完善报纸全文的内容,如图14所示。在点击“有奖纠错”后,出现图17所示界面,读者在界面内输入错误描述等相关内容,点击提交即可,待后台审批结束,完善报纸全文内容。
优选的,在全文文本显示页面使用水印技术,并限制拷贝功能,以实现版权保护。
如图18所示,本发明另一实施例还提供一种该古旧报纸的数字化保护和传承的系统平台,其包括:
扫描模块,用于对古旧报纸进行扫描,具体的可使用超宽幅面扫描仪进行扫描,获取古旧报纸的扫描件;
采集模块,用于对古旧报纸的扫描件进行OCR识别,并结合人工辅助,对扫描得到的PDF报纸版面进行内容采集,获取古旧报纸的期次、版次、报纸日期、篇名、作者及全文内容等信息;
该步骤通过采集软件,采集每篇文章所对应的版面热点信息,并用结构化数据方式,储存在数据库中,具体的,所述提取热区坐标的方式为通过Adobe Dreamweaver,采集每篇文章所对应的版面热点信息,并用结构化数据方式,储存在数据库中;
处理模块,用于对报纸版面进行内容采集之后,对存储在数据库中的数据进行检索聚类,所述检索聚类采用机器学习加人工干预的方式,对通过全文检索技术提取的报纸文章的关键词、主题词进行聚类,创建题名索引、关键词索引、主题索引、全文索引,实现题名、关键词、主题、全文检索的各级检索;
显示模块,用于通过编程,实现所需内容的展示。所述展示包括存储于服务器的PDF报纸版面原貌及储存于数据库中的古旧报纸的期次、版次、报纸日期、篇名、作者及全文内容等结构化数据至少一项,所述展示以HTML方式实现。
优选的,所述展示页面可对照阅读报纸原貌以及文本全文,使阅读和考证变得非常方便。
优选的,报纸原貌以图片格式显示,全文文本以网页格式显示,所述报纸原貌显示在展示界面的左边,全文文本显示在展示屏幕的右边,本领域技术人员能够明了,所述展示位置只是实施例中一种展示方式,在不付出创造性劳动的基础上,本领域技术人员还可以使用其他的位置排布方式,例如报纸原貌展示在显示界面上方,全文文本展示在显示界面下方等其他位置。
交互模块,用于触发报纸版面热点区域,将指定内容显示在显示屏幕上,所述显示包括报纸题名、作者、全文内容及报纸日期、期次、版次的对应展示,如图2所示。
优选的,所述交互模块还用于通过对展示内容的进一步触发,还可实现期次跳转、版次跳转、文章跳转,方便地进行在线阅读,如针对图2中箭头指示部分所示;通过点击放大原图,实现报纸内容的考证等,如点击图3左栏显示的报纸版面信息右下角“查看大图”图标,会出现图4所示的版面图放大显示,还可以针对大图的浏览对全文文本内容核实实现纠错功能。
优选的,所述交互模块还用于在数据采集模块以及处理模块中的人工辅助,例如对于采集对象的清理、采集对象的调整,处理过程中的人工干扰等。
优选的,所述显示模块还包括对聚类结果的显示,如图5所示。
优选的,所述展示模块的展示界面包括报刊汇总界面和检索框。该展示界面可以作为数据库平台外观界面模式,用户可以通过对图5 中的报刊汇总界面中聚类内容的触发,选择相应的报刊进行浏览,例如通过触摸屏或者鼠标点击首页需要浏览的报纸名称,进入报纸浏览页面如图6所示;所述报纸浏览页面包括具有代表性的某一期阅读报纸原貌和导航区域,所述导航区域包括期面导航、版面导航、标题导航,用户选择所需的期面、版面、和标题,就可以进入对应的浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示,从而使得阅读和考证变得非常方便。
优选的,所述交互模块还包括对图5中的检索框进行触发,例如通过下拉列表选择针对全文进行检索,并在检索框中输入检索词,则检索结果界面如图7所示。
优选的,对检索结果的显示界面包括检索聚类区域、检索框和检索结果的展示,所述检索聚类、检索框和检索结果分别展示在同一展示界面的不同区域。用户可通过在检索框不同部分的调整进行重新检索,例如通过对检索框下拉列表选择检索对象,例如全文、提名、作者、主题词、关键词,从而实现对不同内容的检索,如图8所示,也可以通过勾选复选框“在检索结果中检索”实现在检索结果中的二次检索、筛查。
所述在线展示包括检索聚类区域、检索框和检索结果的展示时,可以在展示界面的左侧展示检索聚类,检索聚类包括主题分类导航、年份导航、地名导航、人名导航,所述检索聚类通过机器学习的方法进行分类,首先通过人工实现部分报纸内容的分类,这些已经分类的报纸内容作为训练集,进行机器学习,进而对其余对象进行分类,实现人工智能进行分类;
所述检索结果区域展示针对用户输入的关键词在选择的检索内容下的检索结果,所述检索结果包括:题名、作者、报纸名称、时间、以及阅读等,如图7所示,选择所需浏览对象的题名点击,进入浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示,从而使得阅读和考证变得非常方便。
本发明另一实施例还包括一种对上述古旧报纸的数字化保护和传承的系统平台进行在线内容浏览的方法,所述方法包括:
检索浏览、点击浏览和追踪浏览。
所述检索浏览包括:在展示界面的检索框内选择检索对象,并输入检索词,点击浏览,在检索结果展示界面以列表形式显示检索结果,所述检索结果包括:题名、作者、报纸名称、时间、以及阅读,选择所需浏览对象的题名点击,进入浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示,从而使得阅读和考证变得非常方便,如图7所示。
所述点击浏览包括:点击首页报纸浏览中的报纸名称,选择所需的报纸,可直接进入报纸浏览页面;所述报纸浏览页面包括具有代表性的某一期阅读报纸原貌和导航区域,所述导航区域包括期面导航、版面导航、标题导航,用户选择所需的期面、版面、和标题,就可以进入对应的浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示,从而使得阅读和考证变得非常方便。
所述追踪检索包括:对版面的追踪展示、对热区的追踪展示、对期次的追踪展示。
例如,在检索浏览或点击浏览时,在对某一篇目的浏览中,左边会对应显示该期的第一版版面,同时会通过上一版、下一版跳转不同的版面;也可直接通过点击版次,对应阅读该版的任意一篇文章;还可以通过点击版面某一热区,直接浏览对应文章,如图9所示。
其中,对版面热区信息的定位方式可以根据下面方式实现:
步骤2.1、建立平面坐标系;
步骤2.2、基于采集位置的坐标获取所述采集点在显示平面上的位置坐标,所述采集位置的坐标与显示平面上的位置坐标一一对应;
步骤2.3、基于显示平面上的位置坐标获取所述采集位置对应的版面热点信息在版面中的位置坐标,其中,所述显示平面上的位置坐标与版面中的位置坐标一一对应。
优选的,还可以将上述点击浏览、检索浏览或者追踪浏览结合,实现更精确的选择,如在图10所在的浏览界面上如箭头所示,点击报纸名称,其可直接进入报纸浏览页面如图11所示,在图11所示展示页面展示的导航页面可显示第__期,具体的,该显示位置可设置于导航页面左上角,在该空格上直接输入其次,通过“期导航”、“版面导航”、“标题导航”浏览报纸内容。例如输入“374”期,可直接进入第374期浏览报纸内容如图12所示,选择相应的标题即可进入全文文本显示界面。
优选的,在任一全文浏览的界面上,可通过点击“返回目录”,继续浏览报纸其他期次和版面,也可以点击“有奖纠错”提交错误内容的描述,待后台审核后进行数据的修改,完善报纸全文的内容,如图 14-15所示。
优选的,在全文文本显示页面使用水印技术,并限制拷贝功能,以实现版权保护。
综上所述,本发明将古旧报纸扫描件与数据内容放置在同一个版面,并可以交互,形成一种新的数字版式,不仅使报纸原貌得到了保护和展示,而且可以交互使用,全文检索技术使挖掘利用更加快捷方便,另外,还有主体分类浏览共能,这些都对古旧报纸的保护、传承和利用提供了很好的方法和途径。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种古旧报纸的数字化展示和利用方法,其特征在于,所述方法包括:
步骤1,使用超宽幅面扫描仪对古旧报纸进行扫描,获取古旧报纸的扫描件;
步骤2,对古旧报纸的扫描件进行OCR识别,并结合人工辅助,对扫描得到的PDF报纸版面进行内容采集,获取古旧报纸的期次、版次、报纸日期、篇名、作者及全文内容信息;
步骤3、在对报纸版面进行内容采集之后,对存储在数据库中的数据进行检索聚类,所述检索聚类采用机器学习加人工干预的方式,对通过全文检索技术提取的报纸文章的关键词、主题词进行聚类,并创建题名索引、关键词索引、主题索引、全文索引,实现题名、关键词、主题、全文检索等的各级检索。
步骤4、通过编程,实现所述内容的展示,所述展示包括存储于服务器的PDF报纸版面及全文文本的展示,所述全文文本用于展示储存于数据库中的古旧报纸的期次、版次、报纸日期、篇名、作者及全文内容的结构化数据中的至少一项,所述展示以HTML方式显示在显示屏幕上。
步骤5、通过对展示内容的触发,还可实现期次跳转、版次跳转、文章跳转,方便地进行在线阅读;通过纠错功能,实现校对。
步骤6、通过PDF报纸版面及全文文本的对照,通过点击放大原图,实现报纸内容的考证。
2.如权利要求1所述的古旧报纸的数字化展示和利用方法,其特征在于,所述方法还包括:美观的PDF报纸版面及全文文本的对照版式与阅读器、平板、触摸屏硬件结合,可转化为古旧报刊新产品。
所述全文内容显示页面使用水印技术,并限制拷贝功能。
所述全文检索技术为solr搜索引擎技术。
3.如权利要求1所述的古旧报纸的数字化展示和利用方法,其特征在于,所述方法还包括:
所述展示包括报刊汇总界面和检索框,或者所述展示包括检索聚类区域、检索框和检索结果的展示,所述检索聚类、检索框和检索结果分别展示在同一展示界面的不同区域。
4.如权利要求1所述的古旧报纸的数字化展示方法,其特征在于,所述方法还包括:对采集内容的多维展示,包括文字展示、地图展示、曲谱展示、书法展示、插画展示。
5.一种古旧报纸的数字化保护和传承的装置,其特征在于,所述平台包括:
扫描模块,用于使用超宽幅面扫描仪对古旧报纸进行扫描,获取古旧报纸的扫描件;
采集模块,用于对古旧报纸的扫描件进行OCR识别,并结合人工辅助,对扫描得到的PDF报纸版面进行内容采集,获取古旧报纸的期次、版次、报纸日期、篇名、作者及全文内容信息;
处理模块,用于对报纸版面进行内容采集之后,对存储在数据库中的数据进行检索聚类,所述检索聚类采用机器学习加人工干预的方式,对通过全文检索技术提取的报纸文章的关键词、主题词进行聚类,创建题名索引、关键词索引、主题索引、全文索引,实现题名、关键词、主题、全文检索等的各级检索。
显示模块,用于通过编程,实现所述内容的展示,所述展示包括存储于服务器的PDF报纸版面原貌及全文文本的展示,所述全文文本用于展示储存于数据库中的古旧报纸的期次、版次、报纸日期、篇名、作者及全文内容的结构化数据中的至少一项,所述展示以HTML方式显示在显示屏幕上。
交互模块:用于通过对展示内容的触发,还可实现期次跳转、版次跳转、文章跳转,方便地进行在线阅读;通过纠错功能,实现校对。
放大模块,用于通过点击放大原图,实现报纸内容的考证。
6.如权利要求5所述的古旧报纸的数字化保护和传承的装置,其特征在于,所述处理模块还包括:在全文内容显示页面使用水印技术,并限制拷贝功能。
所述全文检索技术为solr搜索引擎技术。
7.如权利要求5所述的古旧报纸的数字化保护和传承的装置,其特征在于,所述处理和显示模块还包括:
展示包括报刊汇总界面和检索框,或者所述展示包括检索聚类区域、检索框和检索结果的展示,所述检索聚类、检索框和检索结果分别展示在同一展示界面的不同区域。
8.如权利要求5所述的古旧报纸的数字化保护和传承的装置,其特征在于,所述显示模块还包括:
对采集内容的多维展示,包括文字展示、地图展示、曲谱展示、书法展示、插画展示。
9.一种对权利要求1-4任一项所述的数字化展示方法或权利要求5-8任一项所述的数字化保护和传承的装置进行在线内容的浏览方法,其特征在于,所述浏览方法包括:检索浏览、点击浏览和追踪浏览。
10.如权利要求9所述的浏览方法,其特征在于,所述检索浏览包括:在展示界面的检索框内选择检索对象,并输入检索词,点击浏览,在检索结果展示界面以列表形式显示检索结果,所述检索结果包括:题名、作者、报纸名称、时间、以及阅读,选择所需浏览对象的题名点击,进入浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示。
所述点击浏览包括:点击首页报纸浏览中的报纸名称,选择所需的报纸,可直接进入报纸浏览页面;所述报纸浏览页面包括具有代表性的某一期阅读报纸原貌和导航区域,所述导航区域包括期面导航、版面导航、标题导航,用户选择所需的期面、版面、和标题,就可以进入对应的浏览页面,所述浏览页面包括阅读报纸原貌以及文本全文,所述阅读报纸原貌以图片方式展示,所述文本全文以网页格式展示。
所述追踪检索包括:对版面的追踪展示、对热区的追踪展示,具体为:
在检索浏览或点击浏览时,在对某一篇目的浏览中,左边会对应显示该期的第一版版面,同时会通过上一版、下一版跳转不同的版面;也可直接通过点击版次,对应阅读该版的任意一篇文章;还可以通过点击版面某一热区,直接浏览对应文章。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910960209.5A CN110765902B (zh) | 2019-10-10 | 2019-10-10 | 一种古旧报纸的数字化保护和传承的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910960209.5A CN110765902B (zh) | 2019-10-10 | 2019-10-10 | 一种古旧报纸的数字化保护和传承的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765902A true CN110765902A (zh) | 2020-02-07 |
CN110765902B CN110765902B (zh) | 2023-04-18 |
Family
ID=69331585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910960209.5A Active CN110765902B (zh) | 2019-10-10 | 2019-10-10 | 一种古旧报纸的数字化保护和传承的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765902B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887361A (zh) * | 2021-09-23 | 2022-01-04 | 苏州浪潮智能科技有限公司 | 一种文献校对方法、系统、存储介质及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192703A1 (en) * | 2006-02-09 | 2007-08-16 | Unz Ron K | Organizing digitized content on the Internet through digitized content reviews |
CN102591878A (zh) * | 2011-01-14 | 2012-07-18 | 上海现代建筑设计(集团)有限公司 | 技术标准的数字化处理方法 |
CN103218351A (zh) * | 2013-03-15 | 2013-07-24 | 杭州中元数据科技有限公司 | 现代地方文献电子图书制作方法 |
CN105373560A (zh) * | 2014-08-28 | 2016-03-02 | 北京龙源创新信息技术有限公司 | 出版物页面在线展现的方法 |
-
2019
- 2019-10-10 CN CN201910960209.5A patent/CN110765902B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192703A1 (en) * | 2006-02-09 | 2007-08-16 | Unz Ron K | Organizing digitized content on the Internet through digitized content reviews |
CN102591878A (zh) * | 2011-01-14 | 2012-07-18 | 上海现代建筑设计(集团)有限公司 | 技术标准的数字化处理方法 |
CN103218351A (zh) * | 2013-03-15 | 2013-07-24 | 杭州中元数据科技有限公司 | 现代地方文献电子图书制作方法 |
CN105373560A (zh) * | 2014-08-28 | 2016-03-02 | 北京龙源创新信息技术有限公司 | 出版物页面在线展现的方法 |
Non-Patent Citations (2)
Title |
---|
张攀峰等: "图像检索技术在书法古籍数字化中的应用", 《软件导刊》 * |
肖红: "民国报纸数字化实践中的主要问题及处理策略", 《图书馆学研究》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887361A (zh) * | 2021-09-23 | 2022-01-04 | 苏州浪潮智能科技有限公司 | 一种文献校对方法、系统、存储介质及设备 |
CN113887361B (zh) * | 2021-09-23 | 2024-01-09 | 苏州浪潮智能科技有限公司 | 一种文献校对方法、系统、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110765902B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6457009B1 (en) | Method of searching multiples internet resident databases using search fields in a generic form | |
US20110307491A1 (en) | Digital photo organizing and tagging method | |
US20100185651A1 (en) | Retrieving and displaying information from an unstructured electronic document collection | |
US20070219945A1 (en) | Key phrase navigation map for document navigation | |
US8977645B2 (en) | Accessing a search interface in a structured presentation | |
JP4547500B2 (ja) | 検索装置及びプログラム | |
CN101359332A (zh) | 具有语义分类功能的可视化搜索界面的设计方法 | |
Hoeber et al. | The visual exploration ofweb search results using hotmap | |
JP2001527246A (ja) | 出版物ファイルの変換と表示 | |
JPH05128157A (ja) | 文書検索装置 | |
JPH1074210A (ja) | 文献検索支援方法及び装置およびこれを用いた文献検索サービス | |
KR20000006838A (ko) | 인터넷상의 검색전문웹사이트 및 그 검색방법 | |
CN101390093B (zh) | 利用语言链提供搜索结果的方法和装置 | |
CN110765902B (zh) | 一种古旧报纸的数字化保护和传承的装置 | |
CN112380338A (zh) | 一种基于历史知识库的言历图谱的可视化方法和系统 | |
Lage et al. | Collecting hidden weeb pages for data extraction | |
Tajima et al. | Browsing large HTML tables on small screens | |
US9817861B2 (en) | Spiritual research system and method | |
Yeh et al. | A case for query by image and text content: searching computer help using screenshots and keywords | |
KR20050045650A (ko) | 인포박스를 이용한 정보제공 시스템 및 방법 | |
Stevenson et al. | Next generation library catalogues: reviews of Encore, Primo, Summon and Summa | |
Cameron et al. | Using computers in history | |
EP2026216A1 (en) | Data processing method, computer program product and data processing system | |
JP2000231569A (ja) | インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH11154164A (ja) | 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |