CN113887361B - 一种文献校对方法、系统、存储介质及设备 - Google Patents

一种文献校对方法、系统、存储介质及设备 Download PDF

Info

Publication number
CN113887361B
CN113887361B CN202111117271.1A CN202111117271A CN113887361B CN 113887361 B CN113887361 B CN 113887361B CN 202111117271 A CN202111117271 A CN 202111117271A CN 113887361 B CN113887361 B CN 113887361B
Authority
CN
China
Prior art keywords
information
icon
correct
document
date
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111117271.1A
Other languages
English (en)
Other versions
CN113887361A (zh
Inventor
刘鑫
王鹏飞
赵冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111117271.1A priority Critical patent/CN113887361B/zh
Publication of CN113887361A publication Critical patent/CN113887361A/zh
Application granted granted Critical
Publication of CN113887361B publication Critical patent/CN113887361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种文献校对方法、系统、存储介质及设备,方法包括:将文献的PDF文件输入至文件提取模块进行解析,以得到文献的所有的文本信息及其坐标,并将所有的文本信息中文献的头部信息从文件提取模块中输出;将文献的PDF文件输入至图标分类模块进行解析,以得到文献的图标信息及其坐标,并将图标信息输入至图标分类模块的分类模型中进行判别,且输出判别结果以确定图标信息的内容是否正确;响应于图标信息的内容正确,将图标信息以及头部信息输入至信息校对模块,并基于预设规则判断图标信息以及头部信息是否正确;若存在错误,基于错误信息的坐标将错误信息在PDF文件上做标记以完成文献的校对。本发明提高了文献校对的有效性及校对效率。

Description

一种文献校对方法、系统、存储介质及设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文献校对方法、系统、存储介质及设备。
背景技术
随着深度学习的发展,其应用也越来越广泛,越来越多的领域都逐渐将深度学习作为未来重点发展的方向,新媒体行业也不例外,作为传统行业,很多的工作均以人工为主,效率较低。深度学习的发展为其带来了希望,以OCR(Optical Character Recognition,光学字符识别)技术为主的文字识别方法逐步被应用到该领域,比如通过OCR加语音识别进行报纸阅读等。作为向人们传输信息的重要媒介,报纸版面信息的重要性不容忽视,除了具体的内容之外,报头作为最显眼的部分,尤为重要,其代表了报纸的形象,如果报头信息出错,或者有非法的信息出现在报头中,则造成的影响是非常大的。
但对于报头文字的校对,OCR的效果并不好,原因在于,一方面OCR主要进行的是文字识别的功能,由于是从图片中获取文字信息,所以很容易出现错误识别,在这一情况下,校对就是没有意义的。另一方面,基于OCR的方法需要利用标注好的数据进行训练,才能达到一定的识别效果,而数据标注是一项非常耗费人力的工作,因此传统的智能校对系统无法直接应用于报头的校对。总体而言,现有的技术存在以下不足:应用范围有限;且迁移到新的应用场景需要在相应的数据集上重新训练,费时费力。
发明内容
有鉴于此,本发明的目的在于提出一种文献校对方法、系统、存储介质及设备,用以解决现有技术中利用OCR进行文献校对导致校对效果差且效率低的问题。
基于上述目的,本发明提供了一种文献校对方法,包括以下步骤:
将文献的PDF文件输入至文件提取模块进行解析,以得到文献的所有的文本信息及其每个文本信息的坐标,并将所有的文本信息中文献的头部信息从文件提取模块中输出;
将文献的PDF文件输入至图标分类模块进行解析,以得到文献的图标信息以及图标信息的坐标,并将图标信息输入至图标分类模块的分类模型中进行判别,且输出判别结果以确定图标信息的内容是否正确;
响应于图标信息的内容正确,将图标信息以及头部信息输入至信息校对模块,并基于预设规则判断图标信息以及头部信息是否正确;
响应于图标信息和/或头部信息中存在错误,基于错误信息的坐标将错误信息在PDF文件上做标记以完成文献的校对。
在一些实施例中,将文献的PDF文件输入至文件提取模块进行解析包括:
将文献的PDF文件输入至文件提取模块,并利用文件提取模块中的PDFMiner对PDF文件进行解析。
在一些实施例中,将图标信息输入至图标分类模块的分类模型中进行判别包括:
将图标信息输入至图标分类模块的预先训练完成的分类模型中进行判别,其中,分类模型的分类网络结构包括ResNet。
在一些实施例中,文献包括报纸,文献的头部信息包括报头,图标信息包括报纸名称。
在一些实施例中,基于预设规则判断图标信息以及头部信息是否正确包括:
判断头部信息中的栏目信息是否存在于预设列表中;
响应于栏目信息存在于预设列表中,判断栏目信息的位置是否正确;
响应于栏目信息的位置正确,确认栏目信息正确;和/或
判断头部信息中的日期是否为当天日期;
响应于日期为当天日期,判断日期的位置是否正确;
响应于日期的位置正确,确认日期正确;和/或
判断头部信息中的版号是否在预设号码范围内;
响应于版号在预设号码范围内,判断版号的位置是否正确;
响应于版号的位置正确,确认版号正确。
在一些实施例中,基于预设规则判断图标信息以及头部信息是否正确包括:
判断图标信息的图标大小是否正确;
响应于图标信息的图标大小正确,判断图标信息的位置是否正确;
响应于图标信息的位置正确,确认图标信息正确。
在一些实施例中,基于错误信息的坐标将错误信息在PDF文件上做标记以完成文献的校对包括:
基于错误信息的坐标对PDF文件上的错误信息进行圈注以完成文献的校对。
本发明的另一方面,还提供了一种文献校对系统,包括:
头部信息提取模块,配置用于将文献的PDF文件输入至文件提取模块进行解析,以得到文献的所有的文本信息及其每个文本信息的坐标,并将所有的文本信息中文献的头部信息从文件提取模块中输出;
图标信息提取模块,配置用于将文献的PDF文件输入至图标分类模块进行解析,以得到文献的图标信息以及图标信息的坐标,并将图标信息输入至图标分类模块的分类模型中进行判别,且输出判别结果以确定图标信息的内容是否正确;
信息判断模块,配置用于响应于图标信息的内容正确,将图标信息以及头部信息输入至信息校对模块,并基于预设规则判断图标信息以及头部信息是否正确;以及
文献校对模块,配置用于响应于图标信息和/或头部信息中存在错误,基于错误信息的坐标将错误信息在PDF文件上做标记以完成文献的校对。
本发明的又一方面,还提供了一种计算机可读存储介质,存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述方法。
本发明的再一方面,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该计算机程序被处理器执行时执行上述方法。
本发明至少具有以下有益技术效果:
本发明的文献校对方法,利用文献的PDF文件的输入代替传统的图片输入,依靠PDF文件解析替换传统的OCR,提高了文本信息和图标信息提取的准确率;通过在信息校对模块中根据预设规则进行信息正确性的判断,并将错误的信息做标注,为校对人员提供了极大的便利,节省了大量的时间和精力;避免了现有技术中通过标注数据集对OCR模型进行训练,减少了开发时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明实施例提供的文献校对方法的示意图;
图2为根据本发明实施例提供的文献校对系统的示意图;
图3为根据本发明实施例提供的实现文献校对方法的计算机可读存储介质的示意图;
图4为根据本发明实施例提供的执行文献校对方法的计算机设备的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称的非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备固有的其他步骤或单元。
基于上述目的,本发明实施例的第一个方面,提出了一种文献校对方法的实施例。图1示出的是本发明提供的文献校对方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
步骤S10、将文献的PDF文件输入至文件提取模块进行解析,以得到文献的所有的文本信息及其每个文本信息的坐标,并将所有的文本信息中文献的头部信息从文件提取模块中输出;
步骤S20、将文献的PDF文件输入至图标分类模块进行解析,以得到文献的图标信息以及图标信息的坐标,并将图标信息输入至图标分类模块的分类模型中进行判别,且输出判别结果以确定图标信息的内容是否正确;
步骤S30、响应于图标信息的内容正确,将图标信息以及头部信息输入至信息校对模块,并基于预设规则判断图标信息以及头部信息是否正确;
步骤S40、响应于图标信息和/或头部信息中存在错误,基于错误信息的坐标将错误信息在PDF文件上做标记以完成文献的校对。
本发明实施例中,对文献的头部信息和图标信息进行准确的提取是一切校对的前提,因为如果信息提取有误,则后续的校对是没有意义的。虽然OCR(Optical CharacterRecognition,光学字符识别)的方法可以有效的实现文本识别,但对于文献头部信息校对这种特定场景的应用,则需要在该场景下重新训练模型,才能达到一定的准确度,而OCR方法中数据集的准备是一项非常耗时的任务。
本发明实施例的文献校对方法,利用文献的PDF(Portable Document Format,便携式文档格式)文件的输入代替传统的图片输入,依靠PDF文件解析替换传统的OCR,提高了文本信息和图标信息提取的准确率;通过在信息校对模块中根据预设规则进行信息正确性的判断,并将错误的信息做标注,为校对人员提供了极大的便利,节省了大量的时间和精力;避免了现有技术中通过标注数据集对OCR模型进行训练,减少了开发时间。
在一些实施例中,将文献的PDF文件输入至文件提取模块进行解析包括:将文献的PDF文件输入至文件提取模块,并利用文件提取模块中的PDFMiner对PDF文件进行解析。
本实施例中,PDF文件可以采用低精度的PDF文件。PDFMiner是一个Python的PDF解析器,可以从PDF文档中提取信息。与其他PDF相关的工具不同,它侧重的是获取和分析文本数据。PDFMiner允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器,可以把PDF文件转换成HTML等格式;还有一个扩展的PDF解析器,可以用于除文本分析以外的其他用途。PDFMiner内置两个工具:pdf2txt.py和dumppdf.py。pdf2txt.py从PDF文件中提取所有文本内容,但不能识别画成图片的文本,这需要特征识别,对于加密的PDF你需要提供一个密码才能解析,对于没有提取权限的PDF文档你得不到任何文本。dumppdf.py把PDF文件内容变成pseudo-XML格式。这个程序主要用于调试,但是它也可能用于提取一些有意义的内容(比如图片)。
在一些实施例中,将图标信息输入至图标分类模块的分类模型中进行判别包括:将图标信息输入至图标分类模块的预先训练完成的分类模型中进行判别,其中,分类模型的分类网络结构包括ResNet。
本实施例中,对于图标分类模块来说,同样以PDF文件作为输入,然后利用PDFMiner解析PDF文件,由于图标是以图片的形式插入到PDF文件中的,所以通过解析,图标会以jpg的格式被保存下来,将图标输入到分类模型中进行判别,输出图标是否正确的结果。
本实施例的分类模型可以采用任意的分类网络作为其结构,诸如ResNet18、ResNet50等。ResNet(Deep residual network,深度残差网络)是当前应用最为广泛的CNN特征提取网络,其已经代替VGG成为一般计算机视觉领域问题中的基础特征提取网络。训练ResNet分类模型所需的数据集只需以图标为基础,扩展数据集即可,整个训练过程通常只需10分钟即可完成,简单高效。
在一些实施例中,文献包括报纸,文献的头部信息包括报头,图标信息包括报纸名称。
在一些实施例中,基于预设规则判断图标信息以及头部信息是否正确包括:判断头部信息中的栏目信息是否存在于预设列表中;响应于栏目信息存在于预设列表中,判断栏目信息的位置是否正确;响应于栏目信息的位置正确,确认栏目信息正确;和/或判断头部信息中的日期是否为当天日期;响应于日期为当天日期,判断日期的位置是否正确;响应于日期的位置正确,确认日期正确;和/或判断头部信息中的版号是否在预设号码范围内;响应于版号在预设号码范围内,判断版号的位置是否正确;响应于版号的位置正确,确认版号正确。
在一些实施例中,基于预设规则判断图标信息以及头部信息是否正确包括:判断图标信息的图标大小是否正确;响应于图标信息的图标大小正确,判断图标信息的位置是否正确;响应于图标信息的位置正确,确认图标信息正确。
上述实施例中,主要对报纸的报头部分的信息进行校对。首先对栏目信息进行校对,每家报社均有特定的栏目信息列表,只需判断提取到的栏目信息是否包含在给定列表中,以及栏目位置是否正确,栏目字体是否正确。然后对日期进行校对,包括日期是否为当天,日期字体和位置是否正确。另外,对版号进行校对,包括版号是否正确,字体和位置是否正确。关于栏目信息的位置、日期的位置、版号的位置,并非精确地判断其位置是否正确,主要是对这些信息的左右顺序或者上下顺序的正确性做判断,因为即使这些信息位置有细微挪动,也并不影响人员观看,但如果位置变动太大,则会影响报纸的可读性。
上述实施例中解析后得到的报头信息例如:
{"日期":"2021年3月7日星期日","栏目":"要闻","版号":"2"};
{"日期坐标":[18.9581,1405.6779,88.0770,1443.5666]};
{"栏目坐标":[108.95672,1405.6779,127.3380,1443.5666]};
{"版号坐标":[151.2387,1398.0854,271.7771,1414.7004]}。
上述实施例中,图标信息主要指报纸名称,比如“人民日报”、“光明日报”等。对于图标的校对,包括图标的大小是否正确,其主要是对图标的长宽进行判断,确定是否有缩小或放大,判断精度可以依实际情况而定;还包括判断图标位置是否正确,即其所在的报头的位置是否有较大的偏移,以及判断是否出现倾斜等。
在一些实施例中,基于错误信息的坐标将错误信息在PDF文件上做标记以完成文献的校对包括:基于错误信息的坐标对PDF文件上的错误信息进行圈注以完成文献的校对。
本实施例中,对错误信息的标记包括但不限于圈注的方式。将错误信息进行标记并展示在PDF文件中,可以使校对人员查看更方便。
本发明实施例的第二个方面,还提供了一种文献校对系统。图2示出的是本发明提供的文献校对系统的实施例的示意图。如图2所示,一种文献校对系统包括:头部信息提取模块10,配置用于将文献的PDF文件输入至文件提取模块进行解析,以得到文献的所有的文本信息及其每个文本信息的坐标,并将所有的文本信息中文献的头部信息从文件提取模块中输出;图标信息提取模块20,配置用于将文献的PDF文件输入至图标分类模块进行解析,以得到文献的图标信息以及图标信息的坐标,并将图标信息输入至图标分类模块的分类模型中进行判别,且输出判别结果以确定图标信息的内容是否正确;信息判断模块30,配置用于响应于图标信息的内容正确,将图标信息以及头部信息输入至信息校对模块,并基于预设规则判断图标信息以及头部信息是否正确;以及文献校对模块40,配置用于响应于图标信息和/或头部信息中存在错误,基于错误信息的坐标将错误信息在PDF文件上做标记以完成文献的校对。
在一些实施例中,头部信息提取模块10包括解析模块,配置用于将文献的PDF文件输入至文件提取模块,并利用文件提取模块中的PDFMiner对PDF文件进行解析。
在一些实施例中,图标信息提取模块20包括分类模型模块,配置用于将图标信息输入至图标分类模块的预先训练完成的分类模型中进行判别,其中,分类模型的分类网络结构包括ResNet。
在一些实施例中,文献包括报纸,文献的头部信息包括报头,图标信息包括报纸名称。
在一些实施例中,信息判断模块30包括头部信息判断模块,配置用于判断头部信息中的栏目信息是否存在于预设列表中;响应于栏目信息存在于预设列表中,判断栏目信息的位置是否正确;响应于栏目信息的位置正确,确认栏目信息正确;和/或判断头部信息中的日期是否为当天日期;响应于日期为当天日期,判断日期的位置是否正确;响应于日期的位置正确,确认日期正确;和/或判断头部信息中的版号是否在预设号码范围内;响应于版号在预设号码范围内,判断版号的位置是否正确;响应于版号的位置正确,确认版号正确。
在一些实施例中,信息判断模块30还包括图标信息判断模块,配置用于判断图标信息的图标大小是否正确;响应于图标信息的图标大小正确,判断图标信息的位置是否正确;响应于图标信息的位置正确,确认图标信息正确。
在一些实施例中,文献校对模块40包括信息圈注模块,配置用于基于错误信息的坐标对PDF文件上的错误信息进行圈注以完成文献的校对。
本发明实施例的第三个方面,还提供了一种计算机可读存储介质,图3示出了根据本发明实施例提供的实现文献校对方法的计算机可读存储介质的示意图。如图3所示,计算机可读存储介质3存储有计算机程序指令31。该计算机程序指令31被处理器执行时实现上述任意一项实施例的方法。
应当理解,在相互不冲突的情况下,以上针对根据本发明的文献校对方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的文献校对系统和存储介质。
本发明实施例的第四个方面,还提供了一种计算机设备,包括如图4所示的存储器402和处理器401,该存储器402中存储有计算机程序,该计算机程序被该处理器401执行时实现上述任意一项实施例的方法。
如图4所示,为本发明提供的执行文献校对方法的计算机设备的一个实施例的硬件结构示意图。以如图4所示的计算机设备为例,在该计算机设备中包括一个处理器401以及一个存储器402,并还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。输入装置403可接收输入的数字或字符信息,以及产生与文献校对系统的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的文献校对方法对应的程序指令/模块。存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储文献校对方法的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的文献校对方法。
最后需要说明的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (8)

1.一种文献校对方法,其特征在于,包括以下步骤:
将文献的PDF文件输入至文件提取模块进行解析,以得到所述文献的所有的文本信息及其每个文本信息的坐标,并将所述所有的文本信息中所述文献的头部信息从所述文件提取模块中输出;
将所述文献的所述PDF文件输入至图标分类模块进行解析,以得到所述文献的图标信息以及所述图标信息的坐标,并将所述图标信息输入至所述图标分类模块的分类模型中进行判别,且输出判别结果以确定所述图标信息的内容是否正确;
响应于所述图标信息的内容正确,将所述图标信息以及所述头部信息输入至信息校对模块,并基于预设规则判断所述图标信息以及所述头部信息是否正确;
响应于所述图标信息和/或所述头部信息中存在错误,基于错误信息的坐标将所述错误信息在所述PDF文件上做标记以完成所述文献的校对,
其中所述文献包括报纸,所述文献的头部信息包括报头,所述图标信息包括报纸名称;并且
其中基于预设规则判断所述图标信息以及所述头部信息是否正确包括:
判断所述头部信息中的栏目信息是否存在于预设列表中;
响应于所述栏目信息存在于所述预设列表中,判断所述栏目信息的位置是否正确;
响应于所述栏目信息的位置正确,确认所述栏目信息正确;和/或
判断所述头部信息中的日期是否为当天日期;
响应于所述日期为当天日期,判断所述日期的位置是否正确;
响应于所述日期的位置正确,确认所述日期正确;和/或
判断所述头部信息中的版号是否在预设号码范围内;
响应于所述版号在预设号码范围内,判断所述版号的位置是否正确;
响应于所述版号的位置正确,确认所述版号正确。
2.根据权利要求1所述的方法,其特征在于,将文献的PDF文件输入至文件提取模块进行解析包括:
将文献的PDF文件输入至文件提取模块,并利用所述文件提取模块中的PDFMiner对所述PDF文件进行解析。
3.根据权利要求1所述的方法,其特征在于,将所述图标信息输入至所述图标分类模块的分类模型中进行判别包括:
将所述图标信息输入至所述图标分类模块的预先训练完成的分类模型中进行判别,其中,所述分类模型的分类网络结构包括ResNet。
4.根据权利要求1所述的方法,其特征在于,基于预设规则判断所述图标信息以及所述头部信息是否正确还包括:
判断所述图标信息的图标大小是否正确;
响应于所述图标信息的图标大小正确,判断所述图标信息的位置是否正确;
响应于所述图标信息的位置正确,确认所述图标信息正确。
5.根据权利要求1所述的方法,其特征在于,基于错误信息的坐标将所述错误信息在所述PDF文件上做标记以完成所述文献的校对包括:
基于错误信息的坐标对所述PDF文件上的所述错误信息进行圈注以完成所述文献的校对。
6.一种文献校对系统,其特征在于,包括:
头部信息提取模块,配置用于将文献的PDF文件输入至文件提取模块进行解析,以得到所述文献的所有的文本信息及其每个文本信息的坐标,并将所述所有的文本信息中所述文献的头部信息从所述文件提取模块中输出;
图标信息提取模块,配置用于将所述文献的所述PDF文件输入至图标分类模块进行解析,以得到所述文献的图标信息以及所述图标信息的坐标,并将所述图标信息输入至所述图标分类模块的分类模型中进行判别,且输出判别结果以确定所述图标信息的内容是否正确;
信息判断模块,配置用于响应于所述图标信息的内容正确,将所述图标信息以及所述头部信息输入至信息校对模块,并基于预设规则判断所述图标信息以及所述头部信息是否正确;以及
文献校对模块,配置用于响应于所述图标信息和/或所述头部信息中存在错误,基于错误信息的坐标将所述错误信息在所述PDF文件上做标记以完成所述文献的校对,
其中所述文献包括报纸,所述文献的头部信息包括报头,所述图标信息包括报纸名称;并且
其中基于预设规则判断所述图标信息以及所述头部信息是否正确包括:
判断所述头部信息中的栏目信息是否存在于预设列表中;
响应于所述栏目信息存在于所述预设列表中,判断所述栏目信息的位置是否正确;
响应于所述栏目信息的位置正确,确认所述栏目信息正确;和/或
判断所述头部信息中的日期是否为当天日期;
响应于所述日期为当天日期,判断所述日期的位置是否正确;
响应于所述日期的位置正确,确认所述日期正确;和/或
判断所述头部信息中的版号是否在预设号码范围内;
响应于所述版号在预设号码范围内,判断所述版号的位置是否正确;
响应于所述版号的位置正确,确认所述版号正确。
7.一种计算机可读存储介质,其特征在于,存储有计算机程序指令,所述
计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的方法。
8.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存
储有计算机程序,所述计算机程序被所述处理器执行时执行如权利要求1-5任意一项所述的方法。
CN202111117271.1A 2021-09-23 2021-09-23 一种文献校对方法、系统、存储介质及设备 Active CN113887361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111117271.1A CN113887361B (zh) 2021-09-23 2021-09-23 一种文献校对方法、系统、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111117271.1A CN113887361B (zh) 2021-09-23 2021-09-23 一种文献校对方法、系统、存储介质及设备

Publications (2)

Publication Number Publication Date
CN113887361A CN113887361A (zh) 2022-01-04
CN113887361B true CN113887361B (zh) 2024-01-09

Family

ID=79010424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111117271.1A Active CN113887361B (zh) 2021-09-23 2021-09-23 一种文献校对方法、系统、存储介质及设备

Country Status (1)

Country Link
CN (1) CN113887361B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794278A (zh) * 2009-09-21 2010-08-04 广东省标准化研究院 一种标准文献全文数字化方法及软件
CN110765902A (zh) * 2019-10-10 2020-02-07 延安大学 一种古旧报纸的数字化保护和传承的装置
CN110866388A (zh) * 2019-11-19 2020-03-06 重庆华龙网海数科技有限公司 基于多种神经网络混合的出版pdf版面分析识别方法
CN112463728A (zh) * 2020-11-27 2021-03-09 成都材智科技有限公司 一种科技文献的题录数据提取方法
CN112990110A (zh) * 2021-04-20 2021-06-18 数库(上海)科技有限公司 从研报中进行关键信息提取方法及相关设备
WO2021121158A1 (zh) * 2020-06-10 2021-06-24 平安科技(深圳)有限公司 公文文件处理方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200327351A1 (en) * 2019-04-15 2020-10-15 General Electric Company Optical character recognition error correction based on visual and textual contents

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794278A (zh) * 2009-09-21 2010-08-04 广东省标准化研究院 一种标准文献全文数字化方法及软件
CN110765902A (zh) * 2019-10-10 2020-02-07 延安大学 一种古旧报纸的数字化保护和传承的装置
CN110866388A (zh) * 2019-11-19 2020-03-06 重庆华龙网海数科技有限公司 基于多种神经网络混合的出版pdf版面分析识别方法
WO2021121158A1 (zh) * 2020-06-10 2021-06-24 平安科技(深圳)有限公司 公文文件处理方法、装置、计算机设备及存储介质
CN112463728A (zh) * 2020-11-27 2021-03-09 成都材智科技有限公司 一种科技文献的题录数据提取方法
CN112990110A (zh) * 2021-04-20 2021-06-18 数库(上海)科技有限公司 从研报中进行关键信息提取方法及相关设备

Also Published As

Publication number Publication date
CN113887361A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN110766014B (zh) 票据信息定位方法、系统及计算机可读存储介质
US10318593B2 (en) Extracting searchable information from a digitized document
CN111695439A (zh) 图像结构化数据提取方法、电子装置及存储介质
CN108959349B (zh) 一种财务审计询证系统
CN110472524A (zh) 基于深度学习的发票信息管理方法、系统和可读介质
CN108597565B (zh) 一种基于ocr与命名实体提取技术的临床队列数据协同校验方法
CN111680634A (zh) 公文文件处理方法、装置、计算机设备及存储介质
CN111914597A (zh) 一种文档对照识别方法、装置、电子设备和可读存储介质
US20190384971A1 (en) System and method for optical character recognition
CN113255583B (zh) 数据标注方法、装置、计算机设备和存储介质
CN114821612B (zh) 一种证券期货场景下pdf文档的信息抽取方法和系统
JP2019079347A (ja) 文字種推定システム、文字種推定方法、および文字種推定プログラム
CN113935710A (zh) 一种合同审核的方法、装置、电子设备及存储介质
CN116524527A (zh) 一种表格图像文本识别方法及系统
CN112347997A (zh) 一种试题检测识别方法、装置、电子设备及介质
US20190147286A1 (en) Multifunction peripheral assisted optical mark recognition using dynamic model and template identification
CN112990142B (zh) 一种基于ocr的视频导图生成方法、装置、设备及存储介质
CN113487286B (zh) 一种安全质量巡检系统、方法、计算机设备及存储介质
CN113887361B (zh) 一种文献校对方法、系统、存储介质及设备
CN113837113A (zh) 基于人工智能的文档校验方法、装置、设备及介质
CN113610068A (zh) 基于试卷图像的试题拆解方法、系统、存储介质及设备
CN111597805B (zh) 一种基于深度学习审核短信文本链接的方法及装置
US20230260310A1 (en) Systems and methods for processing documents
CN113420116B (zh) 医疗文档的分析方法、装置、设备及介质
CN116384344A (zh) 一种文档转换方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant